Aprendizado de Máquina
Marcílio Souto
DIMAp/UFRN
1
Aprendizado de Máquina
Construção de programas de computador
que melhoram seu desempenho por meio
de experiência
Um programa aprende a partir da experiência E,
em relação a uma classe de tarefas T, com medida de desempenho P, se seu desempenho em T,
medido por P, melhora com E
Mitchell, 1997
2
AM – Conceitos Básicos (1/5)
Aprendizado Supervisionado
Indutor recebe conjunto de exemplos na
forma (entrada,rótulo_desejado)
Técnicas:
Redes Neurais do tipo Multilayer Perceptron
Máquinas de Vetores Suporte
Algoritmos Genéticos
Árvores de Decisão
3
AM – Conceitos Básicos (2/5)
Aprendizado Não-supervisionado
Indutor recebe apenas atributos de entrada
Encontrar aglomerados
Técnicas:
Redes Neurais do tipo mapas auto-organizáveis
Algoritmo k-médias
Algoritmos de Agrupamento Hierárquico
4
AM – Conceitos Básicos (3/5)
Exemplo (padrão, instância)
Amostra de tecido de paciente
Característica (atributo, variável)
Nível de expressão de um gene do tecido
Vetor de características
Vetor com expressões de m genes do tecido
Classe
Presença ou ausência de câncer
5
AM – Conceitos Básicos (4/5)
Característica
g1 g2
Padrão 1
Padrão 2
gj
gN-1gN
Classe
Câncer
Normal
Padrão 3
Padrão i
Padrão m
Câncer
6
AM – Conceitos Básicos (5/5)
Conjunto de exemplos (conj. de dados)
Conjunto de treinamento
Conjunto de teste
Acurácia (taxa de erro)
Cross-validation
Bootstrap
Falsos positivos (negativos)
Overfitting (super ajustamento)
7
Árvores de Decisão – ADs (1/4)
Forma mais simples:
Lista de perguntas  respostas “sim” ou
“não”
Hierarquicamente arranjadas
Levam a uma decisão
Estrutura da árvore determinada por
meio de aprendizado
8
ADs (2/4)
Contém códon de parada?
Não
Não-gene
Sim
Códon de parada downstream?
Não
Não-gene
Sim
Tamanho da seqüência > limiar?
Não
Não-gene
Sim
Gene
9
ADs (3/4)
Contém códon de parada?
Não
Não-gene
Sim
Códon de parada downstream?
Não
Não-gene
Sim
Nós internos
correspondem
a testes
Ramos são
resultados dos
testes
Folhas fornecem
classificações
10
ADs (4/4)
Novo padrão: Contém códon de parada dowstream e
tamanho da seqüência é menor que limiar
Contém códon de parada?
Não
Não-gene
Sim
Códon de parada downstream?
Não
Não-gene
Sim
Tamanho da seqüência > limiar?
Não
Não-gene
Sim
Gene
11
ADs – treinamento (1/7)
Treinamento
AD encontra regras que recursivamente
bifurcam o conjunto de dados
Sub-conjuntos homogêneos intra sub-conjuntos e
Sub-conjuntos heterogêneos inter sub-conjuntos
Conteúdo dos sub-conjuntos pode ser
descrito por um conjunto de regras
12
ADs – treinamento (2/7)
Considere a tarefa de aprendizado representada pelos exemplos de
treinamento na tabela abaixo, em que o objetivo é prever o atributo
PlayTenis baseando-se nos outros atributos. Construa uma AD.
Day
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14
Outlook
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
PlayTennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
13
ADs – treinamento (5/7)
Exemplo
Teste
If outlook=sunny D1
D2
D8
D9
D11
D3
If
outlook=overcast D7
D12
D13
D4
If outlook=rain
D5
D6
D10
D14
Outlook
Sunny
Sunny
Sunny
Sunny
Sunny
Overcast
Overcast
Overcast
Overcast
Rain
Rain
Rain
Rain
Rain
Temperature
Hot
Hot
Mild
Cool
Mild
Hot
Cold
Mild
Hot
Mild
Cool
Cool
Mild
Mild
Humidity
High
High
High
Normal
Normal
High
Normal
High
Normal
High
Normal
Normal
Normal
High
Wind
Weak
Strong
Weak
Weak
Strong
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Weak
Strong
Play?
No
No
No
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
No
Yes
No
14
ADs – treinamento (7/7)
Teste
If outlook=sunny
and
humidity=high
Exemplo
D1
D2
D8
Outlook
Sunny
Sunny
Sunny
Temperature
Hot
Hot
Mild
Humidity
High
High
High
Wind
Weak
Strong
Weak
If outlook=sunny
and
humidity=nomal
If
outlook=overcast
D9
D11
Sunny
Sunny
Cool
Mild
Normal
Normal
Weak Yes
Strong Yes
Overcast
Overcast
Overcast
Overcast
Rain
Rain
Rain
Rain
Rain
Hot
Cold
Mild
Hot
Cool
Mild
Mild
Cool
Mild
High
Normal
High
Normal
Normal
High
High
Normal
Normal
Weak
Strong
Strong
Weak
Strong
Strong
Weak
Weak
Weak
D3
D7
D12
D13
If outlook=rain
D6
and wind=strong D14
If outlook=rain
D4
and wind=weak D5
D10
Play?
No
No
No
Yes
Yes
Yes
Yes
No
No
Yes
Yes
Yes
15
ADs - conclusão
 Vantagens:
Estrutura de fácil manipulação
Produzem modelos que podem ser facilmente
interpretados por humanos
 Desvantagens:
Pouca robustez a dados de grande dimensão
Acurácia afetada por atributos pouco relevantes
Dificuldade em lidar com dados contínuos
16
Download

Introdução ao Aprendizado de Máquina (AM)