Avaliação do Conhecimento Descoberto Fábio Moura orientado por Francisco Carvalho Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Motivação Avaliação: a chave para o sucesso em data mining Qual o grau de confiabilidade do modelo aprendido? Performance no conjunto de treinamento não é um bom indicador de performance em dados futuros Solução simples • Utilize um amplo conjunto de dados para treinamento e teste Quando dados não são facilmente disponíveis • Utilização de técnicas mais sofisticadas • Ex.: dados sobre consumo de energia dos últimos 15 anos Tópicos em Avaliação do Conhecimento Descoberto Testes estatísticos para determinar a performance de diferentes esquemas de aprendizado de máquina Escolha da medida de performance • Número de classificações corretas • Precisão da previsão de probabilidade em classes • Erros em previsões numéricas Custos associados a diferentes tipos de erros • Muitas aplicações práticas envolvem custos Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Treinamento e Teste Medida natural para classificação de problemas: taxa de erro • Acerto: instância da classe é prevista corretamente • Erro: instância da classe é prevista incorretamente • Taxa de erro: proporção dos erros sobre todo o conjunto de instâncias Erro de resubstituição: taxa de erro obtida do conjunto de treinamento Erro de resubstituição é (esperançosamente) otimista ! Treinamento e Teste Conjunto de teste: conjunto de instâncias independentes que não são utilizadas na formação do classificador • Suposição: tanto o conjunto de dados para treinamento como o conjunto de dados para teste são exemplos representativos do problema em questão Dados de teste e treinamento podem ser naturalmente diferentes • Exemplo: classificadores construidos utilizando-se dados de duas cidades diferentes A e B Estimar a performance de um classificador da cidade A e testá-lo utilizando-se dados da cidade B Observações sobre Ajuste de Parâmetros É importante que os dados de teste não sejam utilizados para criação do classificador Alguns esquemas de aprendizado operam em dois estágios • Estágio 1: construção da estrutura básica • Estágio 2: otimização dos parâmetros Os dados de teste não podem ser utilizados para ajuste dos parâmetros Procedimentos apropriados utilizam três conjuntos: dados de treinamento, validação e teste • Dados de validação são utilizados para otimização dos parâmetros Aproveitando Melhor os Dados Uma vez que a avaliação está completa, todos os dados podem ser utilizados na construção do classificador final Geralmente, quanto maior o conjunto de dados para treinamento, melhor o classificador Quanto maior o conjunto de dados para teste, mais precisa a estimativa de erro Procedimento Holdout: método para divisão dos dados originais nos conjuntos de treinamento e teste • Dilema: idealmente queremos os dois, um grande conjunto de dados para treinamento e para teste Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Estimando Performance Assuma uma taxa de erro estimada de 25%. O quão perto esta taxa está da taxa de erro real? • Depende do volume de dados para teste Previsão é como jogar uma moeda viciada • “Cara” é um “acerto”, “coroa” é um “erro” Em estatística, uma sucessão de eventos independentes como este é chamado de um processo Bernoulli • A teoria estatística nos provê com intervalos de confidência que mostra a proporção em que a verdade se fundamenta Intervalos de Confidência Nós podemos dizer: p possui um certo intervalo especificado com uma certa confidência especificada Exemplo: S=750 acertos em N=1000 tentativas • Taxa de acerto estimada: 75% • O quão próximo esta taxa está da verdadeira taxa de acerto p? Resposta: com 95% de confidência p [73.3, 76.8] Outro exemplo: S=75 e N=100 • Taxa de acerto estimada: 75% • Com 95% de confidência p [70.0, 81.0] Média e Variância Média e variância para um teste Bernoulli: p, p(1-p) Taxa de acerto esperada f =S/N Média e variância para f: p, p(1-p)/N Para um N suficientemente grande, f segue uma distribuição normal c% intervalo de confidência [-z X z] para uma variável aleatória com média 0 é dada por: Pr[-z X z] = c Dando uma distribuição simétrica: Pr[-z X z] = 1 - (2*Pr[X z]) Limites de Confidência Limites de confidência para uma distribuição normal com média 0 e variância 1: Assim: Pr[-1,65 X 1,65] = 90% Pr[X >= z] 0,1% 0,5% 1% 5% 10% 20% 40% z 3,09 2,58 2,33 1,65 1,28 0,84 0,25 Para utilizar isto, temos que reduzir nossa variável aleatória f para que tenha média 0 e variância unitária Transformando f Valor transformado para f: f p p(1 p) / N (i.e. subtração da média e divisão pelo desvio padrão) Equação resultante: P r z f p z c p(1 p) / N Resolvida para p: 2 2 2 z f f z p f z 2 2 N N N 4 N z2 / 1 N Exemplos f=75%, N=1000, c=80% (então z=1.28): p [0.732, 0.767] f=75%, N=100, c=80% (então z=1.28): p [0.691, 0.801] Note que a suposição de distribuição normal somente é válida para um N “grande” (i.e. N > 100) f=75%, N=10, c=80% (então z=1.28): p [0.549, 0.881] Estimativa Holdout O que devemos fazer se a quantidade de dados é limitada? O método holdout reserva uma certa quantidade de dados para teste e utiliza o restante para treinamento • Normalmente: um terço para teste, o restante para treinamento Problema: os exemplos podem não ser representativos • Exemplo: classe faltando nos dados de teste A versão avançada utiliza estratificação • Garante que cada classe esteja representada com aproximadamente a mesma proporção em ambos conjuntos Método Holdout Repetitivo A estimativa holdout pode se tornar mais confiável se repetirmos o processo com diferentes subexemplos • Em cada iteração, uma certa proporção é aleatoriamente selecionada para treinamento (possivelmente com estratificação) • Um média das taxas de erro nas diferentes iterações é calculada para produção de uma taxa de erro geral Continua não sendo ótimo: diferentes conjuntos de teste se sobrepõem • Podemos prevenir sobreposição? Cross-validation Cross-validation evita sobreposição de conjuntos de teste • Primeiro passo: os dados são divididos em k subconjuntos de tamanho igual • Segundo passo: cada subconjunto, em fila, é utilizado para teste e o restante para treinamento Este processo é chamado k-fold cross-validation Geralmente os subconjuntos são estratificados antes que a validação cruzada seja realizada Calcula-se a média dos erros estimados a fim de se produzir uma estimativa de erro geral Cross-validation Método padrão de avaliação: ten-fold cross-validation estratificado Por que dez? Experimentos extensivos mostraram que esta é a melhor escolha a fim de se conseguir uma estimativa precisa • Também existem algumas evidências teóricas Estratificação reduz a variação da estimativa Ainda melhor: cross-validation estratificado repetitivo • Ten-fold cross-validation é repetido dez vezes e a média dos resultados é calculada Leave-one-out Cross-validation É uma forma particular de cross-validation: • O número de “folds” é fixado com o número de instâncias para treinamento • Um classificador tem que ser construído n vezes, onde n é o número de instâncias para treinamento Faz uso máximo dos dados Não envolve o uso de subexemplos aleatórios Computacionalmente muito caro LOO-CV e Estratificação Outra desvantagem do LOO-CV: não é possível estratificação • Há apenas uma instância no conjunto de teste Exemplo extremo: conjunto de dados completamente aleatório com duas classes em igual proporção • Melhor indutor que prevê a classe majoritária (resulta em 50%) • A estimativa LOO-CV para este indutor seria de uma taxa de erro de 100% Bootstrap CV utiliza exemplos sem substituição • A mesma instância, uma vez selecionada, não pode ser selecionada novamente para um conjunto de treinamento/teste em particular O bootstrap é um método de estimativa que utiliza exemplos com substituição para formar o conjunto de treinamento • Um conjunto de dados com n instâncias é utilizado n vezes a fim de formar um novo conjunto de dados com n instâncias • Estes dados são utilizados como conjunto de treinamento • As instâncias do conjunto de dados original que não ocorrem no novo conjunto de treinamento são utilizadas para teste 0.632 Bootstrap Este método também é conhecido como 0.632 bootstrap • Uma particular instância tem a probabilidade de 1-1/n de não ser utilizada • Assim, sua probabilidade de terminar nos dados de teste é: n 1 1 1 e 0.368 n • Isto significa que o conjunto de dados para treinamento irá conter aproximadamente 63.2% das instâncias Estimando Erro Com o Bootstrap O erro estimado nos dados de teste será muito pessimista • Ele contém apenas ~63% das instâncias Assim, ele é combinado com o erro de resubstituição: err 0.632 etest instances 0.368 etraininginstances O erro de resubstituição tem menor peso que o erro nos dados de teste O processo é repetido várias vezes, com diferentes exemplos gerados, toma-se a média dos resultados Observações sobre Bootstrap É provavelmente a melhor maneira para estimativa de performance em conjuntos de dados muito pequenos Entretanto, possui alguns problemas • Considerando o conjunto de dados aleatório anterior • Um perfeito memorizador alcançará 0% de erro de resubstituição e ~50% de erro nos dados de teste • Bootstrap estimará para este classificador: err = 0.632 x 50% + 0.368 x 0% = 31.6% • Verdadeira taxa de erro esperada: 50% Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Comparando Esquemas de Aprendizado Situação freqüente: queremos saber entre dois esquemas de aprendizado qual o de melhor performance Nota: isto é dependente do domínio Caminho óbvio: compare estimativas 10-fold CV Problema: variação na estimativa A variação pode ser reduzida utilizando-se CV repetitivo Entretanto, ainda não sabemos se os resultados são confiáveis Testes de Significância Testes de significância nos diz o quão confidentes podemos ser que realmente existe uma diferença Hipótese nula: não há diferença “real” Hipótese alternativa: há uma diferença Um teste de significância mede quanta evidência existe em favor de rejeitar-se a hipótese nula Se estivermos utilizando 10-fold CV 10 vezes Então nós queremos saber se as duas médias das estimativas do 10 CV são significantemente diferentes Paired t-test Student´s t-test nos diz se a média de dois exemplos são significantemente diferentes Os exemplos individuais são tomados do conjunto de todos as estimativas cross-validation possíveis Nós utilizamos o paired t-test porque os exemplos individuais são casados • O mesmo CV é aplicado duas vezes, uma para cada esquema Fazendo x1, x2, ..., xk e y1, y2, ..., yk serem os 2k exemplos para um k ten-fold CV Distribuição das Médias Sendo mx e my as médias dos respectivos exemplos Se existirem exemplos suficientes, a média de um conjunto independente de exemplos é normalmente distribuída As variâncias estimadas das médias são x2/k e y2/k Se x e y são as verdadeiras médias então mx x m y y x2 / k y2 / k são aproximações normalmente distribuídas com média 0 e variância unitária Distribuição Student Com exemplos pequenos (k < 100) a média segue a distribuição student com k -1 graus de liberdade Limites de confidência para 9 graus de liberdade (esquerda), comparado a limites para uma distribuição normal (direita): Pr[X>=z] 0,1% 0,5% 1% 5% 10% 20% z 4,30 3,25 2,82 1,83 1,38 0,88 Pr[X>=z] 0,1% 0,5% 1% 5% 10% 20% z 3,09 2,58 2,33 1,65 1,28 0,84 Distribuição das Diferenças Seja md = mx - my A diferença das médias (md) também tem uma distribuição student com k-1 graus de liberdade Seja d2/k a variância da diferença A versão padronizada de md é chamada t-statistic: md t d2 / k Nós utilizamos t para realizar o t-teste Realizando o Teste Fixe um nível de significância • Se a diferença está significantemente no nível % há uma chance de (100 - )% de que realmente exista uma diferença Divida o nível de significância por dois já que o teste é “two-tailed” • A verdadeira diferença pode ser positiva ou negativa Verifique o valor de z que corresponde a /2 Se t -z ou t z então a diferença é significante • A hipótese nula pode ser rejeitada Observações Se as CV estimadas forem de diferentes sorteios, não há mais “casamento” Talvez nós ainda usemos k-fold CV para um esquema e j-fold CV para outro Então devemos utilizar o t-teste unpaired com min(k,j)-1 graus de liberdade A t-statistic se torna: t mx my x2 k y2 l Notas sobre a Interpretação do Resultado Toda estimativa cross-validation é baseada no mesmo conjunto de dados Portanto, o teste apenas nos diz quando um completo k-fold CV para este conjunto de dados irá mostrar uma diferença • Um k-fold CV completo irá gerar todas as possíveis partições dos dados em k conjuntos e calcular a média dos resultados Idealmente, nós queremos conjuntos de dados de exemplo diferentes para cada estimativa k-fold CV usando o teste para julgar a performance através de diferentes conjuntos de treinamento Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Predizendo Probabilidades Medida de performance: taxa de acerto Também chamada função de perda 0-1: i 0 se a prediçãoé correta 1 se a prediçãoé incorreta Muitos classificadores produzem classes de probabilidades Dependendo da aplicação, nós podemos querer checar a precisão das estimativas de probabilidade Perda 0-1 não é o modelo correto a ser utilizado nestes casos Função de Perda Quadrática p1, ..., pk são probabilidades estimadas para uma instância Seja c o índice da classe atual da instância a1, ..., ak = 0, exceto para ac, que é 1 A “perda quadrática” é: 2 2 E p j a j p 2j 1 pc j j c Justificativa: 2 E ( p j a j ) E p 2j 2 E p j a j E a 2j j j p 2pj p p pj p j 2 j * j * j j * 2 j p *j 1 p*j Função de Perda Informacional A “informational loss function” é –log(pc), onde c é o índice da classe atual da instância Número de bits necessários para comunicar a classe atual • Ex.: “cara ou coroa” - log2 1/2 = 1 Sejam p1*, ..., pk* as probabilidades verdadeiras das classes Então o valor esperado para a “função de perda” é: p1* log2 p1 pk* log2 pk Justificativa: minimizado para pj = pj* Dificuldade: problema da freqüência zero • Se a probabilidade é zero, o valor da função é - Observações Qual “função de perda” deveríamos escolher? • A “quadratic loss function” leva em conta todas as probabilidades de classes estimadas para uma instância • A “informational loss” foca somente na probabilidade estimada para a classe atual • A “quadratic loss” é restringida por 1 p 2j Nunca poderá exceder a 2 • A “informational loss” poderã ser infinita j A “informational loss” está relacionada ao princípio MDL Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Contabilizando os Custos Na prática, diferentes tipos de erros de classificação geralmente incorrem em diferentes custos Exemplos: • • • • Decisões de empréstimo Detecção de vazamento de óleo Diagnóstico de falha Cartas promocionais enviar carta p/ família q ñ responderá x ñ enviar carta p/ família q responderá Mantendo Custos em Conta A matriz “confusão”: Classe Atual Yes No Predicted class Yes No True False positive negative False True positive negative Há muitos outros tipos de custos • Custos de coleta de dados para treinamento Lift Charts Na prática, custos raramente são desconhecidos Decisões são tomadas geralmente pela comparação de cenários possíveis Exemplo: cartas promocionais • Situação 1: classificador prevê que 0,1% de todos as famílias irão responder = 1.000 respostas • Situação 2: classificador prevê que 0,4% das 10.000 famílias mais promissoras irão responder = 400 respostas • Situação 3: classificador prevê que 0,2% de 400.000 famílias irão responder = 800 respostas Um lift chart permite uma comparação visual Gerando um Lift Chart Instâncias são classificadas de acordo com suas probabilidades previstas de serem um “true positive”: Rank 1 2 3 4 ... Predicted probability 0,95 0,93 0,93 0,88 ... Actual class Yes Yes No Yes ... Em um lift chart, o eixo x é o tamanho do exemplo e o eixo y é o número de “true positives” Exemplo de um Lift Chart ROC Curves Curvas ROC são similares a lifit charts • “ROC” vem de “receiver operating characteristic” • Utiliza um sinal de detecção para mostrar o tradeoff entre a taxa de acerto (hit rate) e a taxa de alarme falso (false alarm rate) acima do canal de ruído (noisy channel) Diferenças do lift chart: • O eixo y mostra o percentual de true positives em um exemplo (em vez do valor absoluto) • O eixo x mostra o percentual de false positives em um exemplo (em vez do tamanho do exemplo) Exemplo de uma ROC Curve Cross-validation e Roc Curves Método simples para criar uma curva Roc utilizando cross-validation: • Coletar probabilidades de instâncias em conjuntos de teste • Classificar as instâncias de acordo com as probabilidades Este método é implementado no WEKA Entretanto, esta é apenas uma possibilidade • O método descrito no livro gera uma curva ROC para cada conjunto e calcula a média entre eles Roc Curves para Dois Esquemas Convex Hull Dados dois esquemas de aprendizado, podemos alcançar qualquer ponto no convex hull Taxas TP e FP para o esquema 1: t1 e f1 Taxas TP e FP para o esquema 2: t2 e f2 Se o esquema 1 é utilizado para prever 100 x q% dos casos e o esquema 2 para o restante, então tomamos: • Taxa TP para o esquema combinado: q x t1 + (1-q) x t2 • Taxa FP para o esquema combinado: q x f1 + (1-q) x f2 Aprendizado Sensível ao Custo A maioria dos esquemas de aprendizado não realizam aprendizado sensível ao custo • Eles geram o mesmo classificador não importando qual o custo associado a diferentes classes • Exemplo: aprendizado de árvore de decisão padrão Métodos simples para aprendizado sensível ao custo: • Reutilização de instâncias de acordo com os custos • Utilização de pesos para instâncias de acordo com os custos Alguns esquemas são sensíveis ao custo de forma inerente, ex. naive Bayes Medidas de Retorno da Informação Percentual dos documentos retornados que são relevantes: precision = TP/TP+FP Percentual dos documentos relevantes que são retornados: recall = TP/TP+FN A curva precision/recall tem a forma hiperbólica Sumário das medidas: precisão média de 20%, 50% e 80% recall (three-point average recall) F-measure = (2 x recall x precision)/(recall + precision) Sumário das Medidas Lift chart Domain Marketing ROC curve Communications Recallprecision curve Information retrieval Plot TP Subset size TP rate FP rate Recall Precision Explanation TP (TP+FP)/ (TP+FP+TN+FN) TP/(TP+FN) FP/(FP+TN) TP/(TP+FN) TP/(TP+FP) Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Avaliando Previsões Numéricas Algumas estratégias: conjunto de teste independente, cross-validation, testes de significância, etc. Diferença: medidas de erro Valores alvo atuais: a1, a2, ..., an Valores alvo previstos: p1, p2, ..., pn Medida mais popular: erro do quadrado da média (meansquared error) p1 a1 2 pn an 2 n • Fácil para manipulação matemática Outras Medidas A raiz do erro do quadrado da média: p1 a1 2 pn an 2 n O erro médio absoluto é menos sensível a outliers que o erro do quadrado da média: p1 a1 pn an n Às vezes valores de erros relativos são mais apropriados que valores absolutos • 10% corresponde a um erro de 50 quando prevendo 500 • 10% corresponde a um erro de 0,2 quando prevendo 2 Aprimoramento da Média Sempre queremos saber quanto o esquema é aprimorado simplesmente prevendo a média O erro quadrado relativo é (ā é a média): p1 a1 2 pn an 2 a a1 2 a an 2 O erro absoluto relativo é: p1 a1 pn an a a1 a an O Coeficiente de Correlação Mede a correlação estatística entre os valores previstos e os valores atuais S PA SP S A S PA ( pi p)(ai a ) i n 1 SP 2 ( p p ) i i n 1 SA Escala independente, entre –1 e +1 Boa performance leva a grandes valores (a a ) i i n 1 2 Qual a melhor medida? Melhor verificar todas elas Geralmente não importa Exemplo: Raiz do erro da média quadrada Erro da média absoluta Raiz do erro relativo quadrado Erro relativo absoluto Coeficiente de correlação A 67,8 41,3 42,2% 43,1% 0,88 B 91,7 38,5 57,2% 40,1% 0,88 C 63,3 33,4 39,4% 34,8% 0,89 D 57,4 29,2 35,8% 30,4% 0,91 Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL Medidas de Avaliação do Conhecimento Descoberto Piatetsky-Shapiro’s Rule-Interest Function • É usada para quantificar a correlação entre atributos em um classificador de regras simples • Uma regra de classificação simples é aquela em que os lados esquerdo e direito de uma implicação lógica (X Y) corresponde a um atributo simples XY RI X Y N • Quando RI = 0, então X e Y são estatisticamente independentes e a regra não é interessante • Quando RI > 0 (RI < 0), então X é positivamente (negativamente) correlacionado a Y Medidas de Avaliação do Conhecimento Descoberto Smyth and Goodman’s J-Measure • É utilizado para encontrar as melhores regras relacionando atributos de valores discretos Major and Mangano’s Rule Refinement • É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação • Consiste em três fases: identificar regras potencialmente interessantes, identificar regras tecnicamente interessantes, e remover regras que não sejam genuinamente interessantes Agrawal and Srikant’s Itemset Measures • Utilizada para identificar regras de classificação que ocorrem com freqüência de conjuntos de itens em grandes bancos de dados Medidas de Avaliação do Conhecimento Descoberto Klemettinen et al. Rule Templates • Utilizada para descrever um padrão para os atributos que podem aparecer no lado esquerdo ou direito em uma regra de associação Matheus and Piatetsky-Shapiro’s Projected Savings • Avalia o impacto financeiro dos custos de desvios de valores esperados Hamilton and Fudger’s I-Measures • Usadas para quantificar a significância do conhecimento descoberto, apresentadas na forma de relações generalizadas ou sumários • Baseada na estrutura das hierarquias conceituais associadas aos atributos na relação original não generalizada Medidas de Avaliação do Conhecimento Descoberto Silbershatz and Tuzhilin’s Interestingness • Determina a extensão em que uma crença “suave” é mudada como resultado da descoberta de uma nova evidência Kamber and Shinghal’s Interestingness • Determina o nível de interesse de uma regra de classificação baseada na necessidade e suficiência Hamilton et al. Credibility • Determina a extensão com que um classificador provê decisões para todos ou quase todos valores possíveis dos atributos de condição, baseada em evidência adequadamente suportada Liu et al. General Impressions • Usada para avalia a importância de regras de classificação pela comparação das regras descobertas com uma descrição aproximada ou vaga do que é considerado ser interessante Medidas de Avaliação do Conhecimento Descoberto Gago and Bento’s Distance Metric • Mede a distância entre duas regras e é usada para determinar as regras que provêm a mais alta cobertura para os dados fornecidos Freita’s Surprisingness • Medida que determina o interesse do conhecimento descoberto via detecção explícita de ocorrências do paradoxo de Simpson Gray and Orlowska’s Interestingness • Usada para avaliar o poder de associações entre conjuntos de intens em transações a varejo (i.e., regras de associação) Dong and Li’s Interestingness • Usada para avaliar a importância de uma regra de associação por considerar sua “não expectativa” em termos de outras regras de associação em sua vizinhança Medidas de Avaliação do Conhecimento Descoberto Liu et al. Reliable Exceptions • Uma exceção confiável é uma regra frágil que tenha suporte relativamente pequeno e confidência relativamente alta Zhong et al. Peculiarity • Usada para determinar a extensão com que um objeto de dado difere de outros objetos de dado similares Avaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance • Cross-validation • Leave-one-out cross-validation • Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades Contabilizando o custo de previsões erradas • Lift charts • ROC curves Avaliando previsões numéricas Medidas de avaliação do conhecimento descoberto O princípio MDL O Princípio MDL MDL se origina de minimum description length (mínimo tamanho da descrição) O tamanho da descrição é definido como: espaço necessário para descrever a teoria + espaço necessário para descrever os erros da teoria Em nosso caso a teoria é o classificador e os erros da teoria são os erros nos dados de treinamento Alvo: queremos classificar com o mínimo DL Princípio MDL é um critério para seleção do modelo Critérios para Seleção do Modelo O critério para seleção do modelo tenta encontrar um bom compromisso entre: • A complexidade de um modelo • Sua precisão de predição nos dados de treinamento Conclusão: um bom modelo é um modelo simples que alcança alta precisão nos dados fornecidos Também conhecido como Occam’s Razor: a melhor teoria é a menor delas que descreve todos os fatos Elegância x Erros Teoria 1: muito simples, teoria elegante que explica a maioria dos dados perfeitamente Teoria 2: uma teoria significantemente mais complexa que reproduz os dados sem erros A teoria 1 é provavelmente a preferida Exemplo clássico: as três leis de Kepler no movimento planetário • Menos precisa que o último refinamento de Copérnico da teoria Ptolemaica de epicicles Observações Vantagem: faz uso total dos dados de treinamento quando selecionando um modelo Desvantagem 1: esquema de codificação apropriado/ probabilidades prévias para as teorias são cruciais Desvantagem 2: não há garantia de que a teoria MDL é aquela que minimiza os erros esperados Nota: Occam’s Razor é um axioma Princípio de Epicuro de múltiplas explicações: pegue todas as teorias que são consistentes com os dados