Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura Roteiro Definição Medidas de interesse para classificação Medidas de interesse para associação Medidas de interesse para generalização Medidas de interesse genêricas Conclusão. Descrição 1/3 “Um importante problema na área de Data Mining, seria o desenvolvimento de eficientes medidas de interesse para criar um ranking dos conhecimentos descobertos” Definição Problema de KDD: medidas de interesse para ordenar conhecimentos descobertos” Tipicamente inúmeros padrões são gerados,mas poucos são realmente interessantes Medida de interesse: técnicas para ordenar padrões em ordem de interesse decrescente Descrição 2/3 “Tipicamente o número de padrões gerados é muito grande, mas somente alguns desses padrões são prováveis de possuir algum interesse para o domínio esperado, quando analisamos os dados” Descrição 3/3 Para aumentar a utilidade, relevância e o proveito de padrões descobertos, técnicas são requeridas para reduzir o números de padrões que precisam ser considerados. Técnicas que satisfazem esse objetivos são de um modo geral chamadas de MEDIDAS DE INTERESSE. Base de exemplos Descrição Domínio Atributos Medidas para classificação Piats,, Jnln Knn lknl. Metodo 1 Formula explicação Metodo 1 Exemplo na base Comparação das medidas para classificação Método 1: Função de Regra de Interesse de Piatetsky-Shapiro 1/2 -Definição: A função de regra de interesse é usada para qualificar a correlação entre atributos em uma simples regra de classificação. Método 1: Função de Regra de Interesse de Piatetsky-Shapiro 2/2 -Regra: N - Número total de tuplas |X| e |Y| - Número de tuplas que satisfazem as condições X e Y (respectivamente). |X Y| - Número de tuplas que satisfaz XY. |X||Y|/N – Número de tuplas esperado se X e Y eram independentes. Método 2: Medida J de Smyth e Goodman 1/2 -Definição: A medida J é a média de informação satisfeita por uma probabilística regra de classificação e é usada para encontrar as melhores regras relacionadas com atributos de valores discretos. Método 2: Medida J de Smyth e Goodman 2/2 -Regra: -Onde: p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y e x dado y, e o termo entre colchetes é a entropia relativa. Método 3: Regra de Refinamento de Major e Mangano -Definição: É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação. -Consiste em 3 fases: - Identificar potencialmente regras de interesse; - Identificar tecnicamente regras de interesse; - Remover regras que não são verdadeiramente interessantes. Método 4: Medidas de Conjunto de Itens de Agrawal e Srikant -Definição: São usadas para identificar ocorrências freqüentes de regras de associação de conjuntos de itens em grandes bancos de dados. ????????????????????????? Método 5: Templates de Regras de Klemettinen et al. 1/2 -Definição: São usados para descrever um padrão para aqueles atributos que podem aparecer no lado esquerdo ou direito de uma regra de associação. Método 5: Templates de Regras de Klemettinen et al. 2/2 -Regra: Onde: Cada Ai é um nome de atributo, nome de classe ou uma expressão C+ ou C*, C é o nome da classe. -Templates de Regras podem ser inclusivo ou restritivo. Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro 1/2 -Definição: Salvamento projetado: é a medida que avalia o impacto financeiro do custo de desvios de alguns valores padronizados ou esperados. Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro 2/2 -Regra: PS = PI * SP Onde PI é o impacto projetado e SP é o percentual de salvamento. PI = PD * IF Onde PD é a diferença entre a média corrente do custo e o padronizado ou esperado custo de alguns produtos ou serviços e IF é o fator de impacto. Método 7: Medidas I de Hamilton e Fudger 1/2 -Definição: São usadas para determinar a importância do conhecimento descoberto, presente na forma de relações generalizadas ou resumidas, baseada sob a estrutura do conceito de hierarquias associadas com os atributos na original relação não generalizada . Método 7: Medidas I de Hamilton e Fudger 2/2 -Regra: Onde: v é um atributo valor, t(v) é o conceito hierárquico associado com o atributo contendo v, e c(t(v)) é a função que retorna 1 se v é non-ANY, non-leaf, e 0 otherwise. ????????????????????????????? Método 8: Interesses de Silbershatz e Tuzhilin 1/2 -Definição: Determina a extensão em que a crença de um soft é mudada como um resultado de encontro de novas evidências (ex. conhecimento descoberto). Método 8: Interesses de Silbershatz e Tuzhilin 2/2 -Regra: Onde: é a crença, E é a nova evidência, é a evidência prévia suportada pela crença , p( | ) é a confidência na crença , e p( |E, ) é a nova confidência na crença dada a nova evidência E. -É usado o teorema de Bayes para determinar uma nova confidência, Método 9: Interesses Kamber e Shinghal 1/2 -Definição: Determina o interesse das regras de classificação baseadas sob necessidade e suficiência. Existem 2 tipos de regras de classificação: discriminante e característico. Uma regra discriminante, e h, onde e é a evidência e h a hipótese, resumem as condições suficientes para distinguir uma classe da outra. Método 9: Interesses Kamber e Shinghal 2/2 -Regra Suficiência: -Regra Necessidade: Método 10: Credibilidade de Hamilton et al. 1/3 -Definição: Determina a extensão com a qual uma classificação prover decisões para todos ou quase todos os possíveis valores de atributos de condições, baseados sob evidências adequadamente suportadas. Método 10: Credibilidade de Hamilton et al. 2/3 -Regra da Credibilidade: Onde: -E é uma classe equivalente -C é uma classificação -QE (C) é a qualidade da classificação C -I é o número atual de instâncias que suportam a classe equivalente E -M é o número mínimo de instâncias requeridas por um crédito de classificação -mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes equivalentes não suportadas por um número adequado de instâncias. Método 10: Credibilidade de Hamilton et al. 3/3 -Função de Qualidade: Onde: - é o fator de normalização que assegura que QE(C) seja sempre do intervalo [0,1]. -p(E) é a probabilidade de classes equivalentes E. -p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu. -p(F) é a probabilidade do conceito F. Fator de normalização: Método 11: Distância Métrica de Gago e Bento -Descrição: Mede a distância entre duas regras e é usada para determinar as regras que provêem a mais alta cobertura para os dados mostrados. -Distância Métrica: Método 12: Interesses de Gray e Orlowska 1/2 -Descrição: É usado para avaliar a força das associações entre os conjuntos de itens de transações. Enquanto suporte e confidência tem sido mostrados para serem úteis para caracterizar regras de associação, interesses contém um componente discriminante que dá uma indicação de independência a um antecedente e conseqüente. Método 12: Interesses de Gray e Orlowska 2/2 -Interesse: Onde: -P(XY) é a confidência -P(X) x P(Y) é o suporte - é o discriminante -k e m são parâmetros para o peso da importância relativa do discriminante e suporte a componentes, respectivamente. Método 13: Interesses de Dong e Li 1/3 -Definição: É usado para avaliar a importância de uma regra de associação considerando ela sem expectativa em termos de outras regras de associação na sua vizinhança. A vizinhança de uma regra de associação consiste de todas as regras de associação em uma dada distância. Método 13: Interesses de Dong e Li 2/3 -Distância Métrica: Onde: -R1 = X1 Y1, R2 = X2 Y2, 1, 2 e 3 são parâmetros de peso da importância relativa para todos os 3 termos - é um operador que denota a diferença simétrica entre X e Y. -Vizinhança – R é usada para definir o interesse de uma regra: Método 13: Interesses de Dong e Li 3/3 -2 tipos de interesses: 1) Confidência inesperada de interesse: 2) Interesse Isolado: Método 14: Peculiaridade de Zhong et al. 1/2 -Descrição: Peculiaridade é usado para determinar a extensão de um objeto de dado que difere de outros objetos de dados similares. Fator de Peculiaridade: Onde: - xi e xj são atributos valores - n é o número de diferença de atributos valores - N (xi,xj) é a distância conceitual entre xi e xj Conclusão