Árvores de Decisão: supervisionado, LABIC simbólico, não incremental (?) Modo de Aprendizado - Supervisionado - Não Supervisionado MCM Paradigmas de Aprendizado - Simbólico - Estatístico - Instance-Based - Conexionista - Genético Linguagens de Descrição - Instâncias ou Exemplos - Conceitos Aprendidos ou Hipóteses - Teoria de Domínio ou Conhecimento de Fundo Formas de Aprendizado - Incremental - Não Incremental 1 LABIC Árvores de Decisão Pode-se definir formalmente uma árvore de decisão como sendo: 1.um nó folha - ou nó resposta - que contém um nome de classe, ou 2.um nó não folha - ou nó de decisão - que contém um teste de atributo que, para cada um dos possíveis valores de atributo, tem um ramo para uma outra árvore de decisão MCM 2 Representação da AD LABIC falso 1 verdadeiro X 2 falso Y MCM verdadeiro X 3 Árvores de Decisão (Cont) LABIC Temperatura Acima 0°C Abaixo 0°C Acima 0°C Acima 0°C Acima 0°C 0°C Região Tempo Oeste Nublado Nublado Leste Nublado Parcial Nubl. Limpo Sul Limpo Norte Parcial Nubl. Barometro Baixando Fixo Aumentando Fixo Fixo Baixando Fixo Predição Chuva Neve Sol Sol Sol Chuva Neve Conjunto de exemplos experimentais observados MCM Padrões no conjunto de amostras são identificados. 4 Árvores de Decisão (Cont) LABIC Temperatura Acima 0°C Abaixo 0°C Acima 0°C Acima 0°C Região Tempo Oeste Nublado Nublado Leste Nublado Parcial Nubl. Limpo Sul Limpo Norte Parcial Nubl. Acima 0°C 0°C Sol Aumentando Barômetro Fixo Tempo Escolhe atributo Chuva mais relevante primeiro MCM Neve Nublado Baixando Barometro Baixando Fixo Aumentando Fixo Fixo Baixando Fixo Parcial Nubl. Predição Chuva Neve Sol Sol Sol Chuva Neve Sol Acima 0°C Temp 0°C Neve Limpo Exclui Abaixo 0°C Nenhuma solução Fatores Sol Semdescoberta: dados (Mais Irrelevantes exemplos requeridos) (Região) 5 LABIC Regras de Decisão Se Barômetro = Aumentando então Sol. Se Barômetro = Fixo e Tempo = Nublado então Neve. Se Barômetro = Fixo e Tempo = Parcialmente Nublado e Temperatura = 0C então Neve. MCM 6 LABIC Algoritmos da Família TDIDT TDIDT Top Down Induction of Decision Trees Esta família agrupa os algoritmos e sistemas mais representativos que utilizam como algoritmo básico de aprendizado o ID3. Algoritmos: ID3, ID3’, C4, C4.5, ID4, ID5, etc. MCM 7 LABIC Estágios do Processo de Aprendizado da Família TDIDT 1.construção da árvore de decisão para classificar corretamente todos os exemplos 2.poda da árvore de decisão para eliminar subárvores não confiáveis 3.processamento da árvore podada para melhorar a sua legibilidade - construção de regras a partir da árvore MCM 8 Árvores de Decisão LABIC sexo cirurgia f f m f m ... MCM f f v f f ... TSH TFI TT4 TI 5.8 7.3 8.8 6.9 5.4 ... 66.2 70.2 60.2 65.4 65.2 ... 156.2 152.9 148.4 132.7 150.9 ... f v f f f ... classe neg neg hipo_prim hipo_comp neg ... 9 Árvores de Decisão (Cont) LABIC TSH <6.05 >6.05 neg FTI <64.5 >64.5 hipo_prim TI v f neg cirurgia v f neg MCM TT4 <150.5 >150.5 hipo_comp neg 10 LABIC Regras de Decisão 1. Se TSH < 6.05 então neg 2. Se TSH > 6.05 e FTI < 64.5 então hipo_prim ... 6. Se TSH > 6.05 e FTI > 64.5 e TI = f e cirurgia = f e TT4 > 150.5 então neg MCM 11 LABIC Características Gerais dos Sistemas TDIDT Sistemas de propósito geral com o objetivo de classificar objetos: Eles produzem regras ou descrições de um determinado número de classes de objetos. Quando novos objetos são observados, estas regras devem predizer a qual classe cada um deles pertence. Representação do Conhecimento na forma de árvores de decisão. Em geral, realizam aprendizado não incremental. Constroem a árvore de decisão em forma top-down. Os exemplos, a partir dos quais são geradas as regras de classificação, são conhecidos somente através dos valores de um conjunto de atributos. Por sua vez, as árvores de decisão são construídas em função destes mesmos atributos. MCM 12 LABIC Esquema Geral dos Algoritmos de Aprendizado por Exemplos O processo de aprendizado e classificação é dividido em: 1. pré-processamento dos exemplos de aprendizado no qual deve ser considerado o tratamento de: Existente para atributos numéricos; atributos com valores desconhecidos; todos os paradigmas valores irrelevantes; valores sem significado. 2. construção de regras de classificação envolve: escolha do critério de seleção do melhor atributo na construção da árvore de decisão tratamento de domínios com ruído ou domínios incompletos Específico para poda na árvore de decisão Simbólico MCM 13 Vantagens LABIC Podem adquirir e representar facilmente conceitos disjuntos Podem manusear dados com ruído (dados com erros ou incertezas) Executam pouca busca A simplicidade do formato de representação é contrabalanceada por sua eficiência Têm obtido muito sucesso em diversas áreas de aplicação - vários deles estão disponíveis comercialmente MCM 14 LABIC Desvantagens Um mesmo conceito pode ser representado por várias árvores de decisão É difícil entender um conceito representado como uma árvore de decisão grande Limitados a uma linguagem descritiva baseada em atributos-valores MCM 15