Árvores de Decisão: supervisionado,
LABIC
simbólico, não incremental (?)
Modo de
Aprendizado
- Supervisionado
- Não
Supervisionado
MCM
Paradigmas de
Aprendizado
- Simbólico
- Estatístico
- Instance-Based
- Conexionista
- Genético
Linguagens de
Descrição
- Instâncias ou
Exemplos
- Conceitos
Aprendidos ou
Hipóteses
- Teoria de
Domínio ou
Conhecimento
de Fundo
Formas de
Aprendizado
- Incremental
- Não
Incremental
1
LABIC
Árvores de Decisão
Pode-se definir formalmente uma árvore de decisão
como sendo:
1.um nó folha - ou nó resposta - que contém um nome
de classe, ou
2.um nó não folha - ou nó de decisão - que contém um
teste de atributo que, para cada um dos possíveis
valores de atributo, tem um ramo para uma outra
árvore de decisão
MCM
2
Representação da AD
LABIC
falso
1
verdadeiro
X
2
falso
Y
MCM
verdadeiro
X
3
Árvores de Decisão (Cont)
LABIC
Temperatura
Acima 0°C
Abaixo 0°C
Acima 0°C
Acima 0°C
Acima 0°C
0°C
Região Tempo
Oeste Nublado
Nublado
Leste Nublado
Parcial Nubl.
Limpo
Sul
Limpo
Norte Parcial Nubl.
Barometro
Baixando
Fixo
Aumentando
Fixo
Fixo
Baixando
Fixo
Predição
Chuva
Neve
Sol
Sol
Sol
Chuva
Neve
Conjunto de exemplos experimentais observados

MCM
Padrões no conjunto de amostras são
identificados.
4
Árvores de Decisão (Cont)
LABIC
Temperatura
Acima 0°C
Abaixo 0°C
Acima 0°C
Acima 0°C
Região Tempo
Oeste Nublado
Nublado
Leste Nublado
Parcial Nubl.
Limpo
Sul
Limpo
Norte Parcial Nubl.
Acima 0°C
0°C
Sol
Aumentando
Barômetro
Fixo
Tempo
Escolhe atributo
Chuva
mais relevante
primeiro
MCM
Neve
Nublado
Baixando
Barometro
Baixando
Fixo
Aumentando
Fixo
Fixo
Baixando
Fixo
Parcial
Nubl.
Predição
Chuva
Neve
Sol
Sol
Sol
Chuva
Neve
Sol
Acima 0°C
Temp
0°C
Neve
Limpo
Exclui
Abaixo 0°C
Nenhuma solução
Fatores
Sol
Semdescoberta:
dados
(Mais
Irrelevantes
exemplos requeridos)
(Região)
5
LABIC
Regras de Decisão
Se Barômetro = Aumentando
então Sol.
Se Barômetro = Fixo e
Tempo = Nublado
então Neve.
Se Barômetro = Fixo e
Tempo = Parcialmente Nublado e
Temperatura = 0C
então Neve.
MCM
6
LABIC
Algoritmos da Família TDIDT
TDIDT
Top Down Induction of Decision
Trees
Esta família agrupa os algoritmos e sistemas
mais representativos que utilizam como
algoritmo básico de aprendizado o ID3.
Algoritmos: ID3, ID3’, C4, C4.5, ID4, ID5, etc.
MCM
7
LABIC
Estágios do Processo de
Aprendizado da Família TDIDT
1.construção da árvore de decisão para
classificar corretamente todos os
exemplos
2.poda da árvore de decisão para eliminar
subárvores não confiáveis
3.processamento da árvore podada para
melhorar a sua legibilidade - construção
de regras a partir da árvore
MCM
8
Árvores de Decisão
LABIC
sexo cirurgia
f
f
m
f
m
...
MCM
f
f
v
f
f
...
TSH
TFI
TT4
TI
5.8
7.3
8.8
6.9
5.4
...
66.2
70.2
60.2
65.4
65.2
...
156.2
152.9
148.4
132.7
150.9
...
f
v
f
f
f
...
classe
neg
neg
hipo_prim
hipo_comp
neg
...
9
Árvores de Decisão (Cont)
LABIC
TSH
<6.05
>6.05
neg
FTI
<64.5
>64.5
hipo_prim
TI
v
f
neg
cirurgia
v
f
neg
MCM
TT4
<150.5
>150.5
hipo_comp
neg
10
LABIC
Regras de Decisão
1. Se TSH < 6.05
então neg
2. Se TSH > 6.05 e
FTI < 64.5
então hipo_prim
...
6. Se TSH > 6.05 e
FTI > 64.5 e
TI = f e
cirurgia = f e
TT4 > 150.5
então neg
MCM
11
LABIC
Características Gerais dos
Sistemas TDIDT

Sistemas de propósito geral com o objetivo de classificar objetos:
Eles produzem regras ou descrições de um determinado
número de classes de objetos. Quando novos objetos são
observados, estas regras devem predizer a qual classe cada
um deles pertence.

Representação do Conhecimento na forma de árvores de decisão.
Em geral, realizam aprendizado não incremental.
Constroem a árvore de decisão em forma top-down.
Os exemplos, a partir dos quais são geradas as regras de
classificação, são conhecidos somente através dos valores de um
conjunto de atributos. Por sua vez, as árvores de decisão são
construídas em função destes mesmos atributos.


MCM
12
LABIC
Esquema Geral dos Algoritmos de
Aprendizado por Exemplos
O processo de aprendizado e classificação é dividido em:
1. pré-processamento dos exemplos de aprendizado no qual
deve ser considerado o tratamento de:
Existente para
 atributos numéricos;
 atributos com valores desconhecidos; todos os paradigmas
 valores irrelevantes;
 valores sem significado.
2. construção de regras de classificação envolve:
 escolha do critério de seleção do melhor atributo na
construção da árvore de decisão
 tratamento de domínios com ruído ou domínios
incompletos
Específico para
 poda na árvore de decisão
Simbólico
MCM
13
Vantagens
LABIC

Podem adquirir e representar facilmente conceitos
disjuntos

Podem manusear dados com ruído
(dados com erros ou incertezas)

Executam pouca busca

A simplicidade do formato de representação é
contrabalanceada por sua eficiência

Têm obtido muito sucesso em diversas áreas de
aplicação - vários deles estão disponíveis
comercialmente
MCM
14
LABIC
Desvantagens

Um mesmo conceito pode ser representado por
várias árvores de decisão

É difícil entender um conceito representado como
uma árvore de decisão grande

Limitados a uma linguagem descritiva baseada em
atributos-valores
MCM
15
Download

A TOMADA DE DECISAO