Medidas de Interesse
Mineração de Dados
Aluno: Thiago José Marques Moura
Roteiro
 Definição
 Medidas de interesse para classificação
 Medidas de interesse para associação
 Medidas de interesse para generalização
 Medidas de interesse genêricas
 Conclusão.
Descrição
1/3
“Um importante problema na área de Data Mining,
seria o desenvolvimento de eficientes medidas de
interesse para criar um ranking dos conhecimentos
descobertos”
Definição
 Problema de KDD: medidas de interesse para
ordenar conhecimentos descobertos”
 Tipicamente inúmeros padrões são gerados,mas
poucos são realmente interessantes
 Medida de interesse: técnicas para ordenar padrões
em ordem de interesse decrescente
Descrição
2/3
“Tipicamente o número de padrões gerados é muito
grande, mas somente alguns desses padrões são
prováveis de possuir algum interesse para o
domínio esperado, quando analisamos os dados”
Descrição
3/3
Para aumentar a utilidade, relevância e o proveito de
padrões descobertos, técnicas são requeridas para
reduzir o números de padrões que precisam ser
considerados. Técnicas que satisfazem esse
objetivos são de um modo geral chamadas de
MEDIDAS DE INTERESSE.
Base de exemplos
 Descrição
 Domínio
 Atributos
Medidas para classificação
Piats,,
Jnln
Knn
lknl.
Metodo 1
 Formula
 explicação
Metodo 1
 Exemplo na base
Comparação das medidas para
classificação
Método 1: Função de Regra de Interesse de
Piatetsky-Shapiro
1/2
-Definição:
A função de regra de interesse é usada para qualificar
a correlação entre atributos em uma simples regra de
classificação.
Método 1: Função de Regra de Interesse de
Piatetsky-Shapiro
2/2
-Regra:
N - Número total de tuplas
|X| e |Y| - Número de tuplas que satisfazem as condições X e Y
(respectivamente).
|X  Y| - Número de tuplas que satisfaz XY.
|X||Y|/N – Número de tuplas esperado se X e Y eram
independentes.
Método 2: Medida J de Smyth e Goodman
1/2
-Definição:
A medida J é a média de informação satisfeita por
uma probabilística regra de classificação e é usada para
encontrar as melhores regras relacionadas com atributos de
valores discretos.
Método 2: Medida J de Smyth e Goodman
2/2
-Regra:
-Onde:
p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y
e x dado y, e o termo entre colchetes é a entropia relativa.
Método 3: Regra de Refinamento de Major
e Mangano
-Definição:
É uma estratégia usada para induzir regras de
classificação interessantes de um banco de dados de regras
de classificação.
-Consiste em 3 fases:
- Identificar potencialmente regras de interesse;
- Identificar tecnicamente regras de interesse;
- Remover regras que não são verdadeiramente
interessantes.
Método 4: Medidas de Conjunto de Itens de
Agrawal e Srikant
-Definição:
São usadas para identificar ocorrências freqüentes de
regras de associação de conjuntos de itens em grandes
bancos de dados.
?????????????????????????
Método 5: Templates de Regras de
Klemettinen et al.
1/2
-Definição:
São usados para descrever um padrão para aqueles
atributos que podem aparecer no lado esquerdo ou direito de
uma regra de associação.
Método 5: Templates de Regras de
Klemettinen et al.
2/2
-Regra:
Onde:
Cada Ai é um nome de atributo, nome de classe ou uma
expressão C+ ou C*, C é o nome da classe.
-Templates de Regras podem ser inclusivo ou restritivo.
Método 6: Salvamento Projetado de
Matheus e Piatetsky-Shapiro
1/2
-Definição:
Salvamento projetado: é a medida que avalia o impacto
financeiro do custo de desvios de alguns valores padronizados
ou esperados.
Método 6: Salvamento Projetado de
Matheus e Piatetsky-Shapiro
2/2
-Regra:
PS = PI * SP
Onde PI é o impacto projetado e SP é o percentual de salvamento.
PI = PD * IF
Onde PD é a diferença entre a média corrente do custo e o
padronizado ou esperado custo de alguns produtos ou serviços e
IF é o fator de impacto.
Método 7: Medidas I de Hamilton e Fudger
1/2
-Definição:
São usadas para determinar a importância do
conhecimento descoberto, presente na forma de relações
generalizadas ou resumidas, baseada sob a estrutura do conceito
de hierarquias associadas com os atributos na original relação
não generalizada .
Método 7: Medidas I de Hamilton e Fudger
2/2
-Regra:
Onde:
v é um atributo valor, t(v) é o conceito hierárquico
associado com o atributo contendo v, e c(t(v)) é a
função que retorna 1 se v é non-ANY, non-leaf, e 0
otherwise. ?????????????????????????????
Método 8: Interesses de Silbershatz e
Tuzhilin
1/2
-Definição:
Determina a extensão em que a crença de um soft é
mudada como um resultado de encontro de novas evidências
(ex. conhecimento descoberto).
Método 8: Interesses de Silbershatz e
Tuzhilin
2/2
-Regra:
Onde:
 é a crença, E é a nova evidência,  é a evidência prévia
suportada pela crença , p( | ) é a confidência na crença
, e p( |E, ) é a nova confidência na crença  dada a nova
evidência E.
-É usado o teorema de Bayes para determinar uma nova
confidência,
Método 9: Interesses Kamber e Shinghal
1/2
-Definição:
Determina o interesse das regras de classificação
baseadas sob necessidade e suficiência. Existem 2 tipos de
regras de classificação: discriminante e característico. Uma
regra discriminante, e  h, onde e é a evidência e h a hipótese,
resumem as condições suficientes para distinguir uma classe da
outra.
Método 9: Interesses Kamber e Shinghal
2/2
-Regra Suficiência:
-Regra Necessidade:
Método 10: Credibilidade de Hamilton et
al.
1/3
-Definição:
Determina a extensão com a qual uma classificação
prover decisões para todos ou quase todos os possíveis valores
de atributos de condições, baseados sob evidências
adequadamente suportadas.
Método 10: Credibilidade de Hamilton et
al.
2/3
-Regra da Credibilidade:
Onde:
-E é uma classe equivalente
-C é uma classificação
-QE (C) é a qualidade da classificação C
-I é o número atual de instâncias que suportam a classe equivalente E
-M é o número mínimo de instâncias requeridas por um crédito de classificação
-mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes
equivalentes não suportadas por um número adequado de instâncias.
Método 10: Credibilidade de Hamilton et
al.
3/3
-Função de Qualidade:
Onde:
-  é o fator de normalização que assegura que QE(C) seja sempre do intervalo [0,1].
-p(E) é a probabilidade de classes equivalentes E.
-p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu.
-p(F) é a probabilidade do conceito F.
Fator de normalização:
Método 11: Distância Métrica de Gago e
Bento
-Descrição:
Mede a distância entre duas regras e é usada para determinar as
regras que provêem a mais alta cobertura para os dados
mostrados.
-Distância Métrica:
Método 12: Interesses de Gray e Orlowska
1/2
-Descrição:
É usado para avaliar a força das associações entre os conjuntos
de itens de transações. Enquanto suporte e confidência tem sido
mostrados para serem úteis para caracterizar regras de
associação, interesses contém um componente discriminante
que dá uma indicação de independência a um antecedente e
conseqüente.
Método 12: Interesses de Gray e Orlowska
2/2
-Interesse:
Onde:
-P(XY) é a confidência
-P(X) x P(Y) é o suporte
-
é o discriminante
-k e m são parâmetros para o peso da importância relativa do
discriminante e suporte a componentes, respectivamente.
Método 13: Interesses de Dong e Li
1/3
-Definição:
É usado para avaliar a importância de uma regra de associação
considerando ela sem expectativa em termos de outras regras de
associação na sua vizinhança.
A vizinhança de uma regra de associação consiste de todas as
regras de associação em uma dada distância.
Método 13: Interesses de Dong e Li
2/3
-Distância Métrica:
Onde:
-R1 = X1  Y1, R2 = X2  Y2, 1, 2 e 3 são parâmetros de peso da importância
relativa para todos os 3 termos
- é um operador que denota a diferença simétrica entre X e Y.
-Vizinhança – R é usada para definir o interesse de uma regra:
Método 13: Interesses de Dong e Li
3/3
-2 tipos de interesses:
1) Confidência inesperada de interesse:
2) Interesse Isolado:
Método 14: Peculiaridade de Zhong et al.
1/2
-Descrição:
Peculiaridade é usado para determinar a extensão de um objeto
de dado que difere de outros objetos de dados similares.
Fator de Peculiaridade:
Onde:
- xi e xj são atributos valores
- n é o número de diferença de atributos valores
- N (xi,xj) é a distância conceitual entre xi e xj
Conclusão
Download

Medidas de Interesse