Aprendizado de Máquina Marcílio Souto DIMAp/UFRN 1 Aprendizado de Máquina Construção de programas de computador que melhoram seu desempenho por meio de experiência Um programa aprende a partir da experiência E, em relação a uma classe de tarefas T, com medida de desempenho P, se seu desempenho em T, medido por P, melhora com E Mitchell, 1997 2 AM – Conceitos Básicos (1/5) Aprendizado Supervisionado Indutor recebe conjunto de exemplos na forma (entrada,rótulo_desejado) Técnicas: Redes Neurais do tipo Multilayer Perceptron Máquinas de Vetores Suporte Algoritmos Genéticos Árvores de Decisão 3 AM – Conceitos Básicos (2/5) Aprendizado Não-supervisionado Indutor recebe apenas atributos de entrada Encontrar aglomerados Técnicas: Redes Neurais do tipo mapas auto-organizáveis Algoritmo k-médias Algoritmos de Agrupamento Hierárquico 4 AM – Conceitos Básicos (3/5) Exemplo (padrão, instância) Amostra de tecido de paciente Característica (atributo, variável) Nível de expressão de um gene do tecido Vetor de características Vetor com expressões de m genes do tecido Classe Presença ou ausência de câncer 5 AM – Conceitos Básicos (4/5) Característica g1 g2 Padrão 1 Padrão 2 gj gN-1gN Classe Câncer Normal Padrão 3 Padrão i Padrão m Câncer 6 AM – Conceitos Básicos (5/5) Conjunto de exemplos (conj. de dados) Conjunto de treinamento Conjunto de teste Acurácia (taxa de erro) Cross-validation Bootstrap Falsos positivos (negativos) Overfitting (super ajustamento) 7 Árvores de Decisão – ADs (1/4) Forma mais simples: Lista de perguntas respostas “sim” ou “não” Hierarquicamente arranjadas Levam a uma decisão Estrutura da árvore determinada por meio de aprendizado 8 ADs (2/4) Contém códon de parada? Não Não-gene Sim Códon de parada downstream? Não Não-gene Sim Tamanho da seqüência > limiar? Não Não-gene Sim Gene 9 ADs (3/4) Contém códon de parada? Não Não-gene Sim Códon de parada downstream? Não Não-gene Sim Nós internos correspondem a testes Ramos são resultados dos testes Folhas fornecem classificações 10 ADs (4/4) Novo padrão: Contém códon de parada dowstream e tamanho da seqüência é menor que limiar Contém códon de parada? Não Não-gene Sim Códon de parada downstream? Não Não-gene Sim Tamanho da seqüência > limiar? Não Não-gene Sim Gene 11 ADs – treinamento (1/7) Treinamento AD encontra regras que recursivamente bifurcam o conjunto de dados Sub-conjuntos homogêneos intra sub-conjuntos e Sub-conjuntos heterogêneos inter sub-conjuntos Conteúdo dos sub-conjuntos pode ser descrito por um conjunto de regras 12 ADs – treinamento (2/7) Considere a tarefa de aprendizado representada pelos exemplos de treinamento na tabela abaixo, em que o objetivo é prever o atributo PlayTenis baseando-se nos outros atributos. Construa uma AD. Day D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Outlook Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temperature Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild Humidity High High High High Normal Normal Normal High Normal Normal Normal High Normal High Wind Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong PlayTennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 13 ADs – treinamento (5/7) Exemplo Teste If outlook=sunny D1 D2 D8 D9 D11 D3 If outlook=overcast D7 D12 D13 D4 If outlook=rain D5 D6 D10 D14 Outlook Sunny Sunny Sunny Sunny Sunny Overcast Overcast Overcast Overcast Rain Rain Rain Rain Rain Temperature Hot Hot Mild Cool Mild Hot Cold Mild Hot Mild Cool Cool Mild Mild Humidity High High High Normal Normal High Normal High Normal High Normal Normal Normal High Wind Weak Strong Weak Weak Strong Weak Strong Strong Weak Weak Weak Strong Weak Strong Play? No No No Yes Yes Yes Yes Yes Yes Yes Yes No Yes No 14 ADs – treinamento (7/7) Teste If outlook=sunny and humidity=high Exemplo D1 D2 D8 Outlook Sunny Sunny Sunny Temperature Hot Hot Mild Humidity High High High Wind Weak Strong Weak If outlook=sunny and humidity=nomal If outlook=overcast D9 D11 Sunny Sunny Cool Mild Normal Normal Weak Yes Strong Yes Overcast Overcast Overcast Overcast Rain Rain Rain Rain Rain Hot Cold Mild Hot Cool Mild Mild Cool Mild High Normal High Normal Normal High High Normal Normal Weak Strong Strong Weak Strong Strong Weak Weak Weak D3 D7 D12 D13 If outlook=rain D6 and wind=strong D14 If outlook=rain D4 and wind=weak D5 D10 Play? No No No Yes Yes Yes Yes No No Yes Yes Yes 15 ADs - conclusão Vantagens: Estrutura de fácil manipulação Produzem modelos que podem ser facilmente interpretados por humanos Desvantagens: Pouca robustez a dados de grande dimensão Acurácia afetada por atributos pouco relevantes Dificuldade em lidar com dados contínuos 16