Mineração de Dados 2º Semestre - 2011 Aula 29: Regras de Associação Profa. Ms. Rosângela da Silva Nunes 1 de 18 Mineração de Dados 2º Semestre - 2011 Avaliação dos padrões Algoritmos de regras de associação tendem a produzir muitas regras Muitas delas são desinteressantes ou redundantes Redudantes: se {A,B,C} → e {A,B} → {D} possuem o mesmo suporte e confiança Medidas podem ser usadas para podar/classificar os padrões derivados Na formulação original – suporte e confiança são as únicas medidas usadas 2 de 18 Mineração de Dados 2º Semestre - 2011 Aplicação de medidas Knowledge Patterns Postprocessing Preprocessed Data Prod Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct uct Featur Featur e Featur e Featur e Featur e Featur e Featur e Featur e Featur e Featur e e Mining Selected Data Data Preprocessing Selection 3 de 18 Mineração de Dados 2º Semestre - 2011 Computando a tabela de contigência Dada uma regra X → Y, a informação necessária para computar regras de interesse podem ser obtidas com a tabela de contingência Tabela de contingência para X → Y Y Y X f11 f10 f1+ X f01 f00 fo+ f+1 f+0 |T| f11: contador de suporte de X e Y f10:contador de suporte de X e Y f01: contador de suporte de X e Y f00: contador de suporte de X e Y Usado para definir várias medidas suporte, confiança, lift, Gini, J-measure, etc. 4 de 18 Mineração de Dados 2º Semestre - 2011 Computando a tabela de contingência {Milk, Beer} → {Diaper} {Diaper} {Diaper} {Milk, Beer} f11 = 2 f10 = 0 f1+= 2 {Milk, Beer} f01 = 2 f00 = 1 f0+= 3 f+1= 4 f+0= 1 |T| = 5 TID Items 1 Bread, Milk 2 3 4 5 Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke 5 de 18 Mineração de Dados 2º Semestre - 2011 Limitações da Confiança Avaliando {Chá} → {Café} {Café} {Café} {Chá} f11 = 150 f10 = 50 f1+= 200 {Chá} f01 = 650 f00 = 150 f0+= 800 f+1= 800 f+0= 200 |T| = 1000 Suporte({Chá, Café}) = 150/1000 = 0,15 Confiança ({Chá} → {Café}) = 150/200 = 0,75 Proporção de pessoas que bebem chá e café é na verdade bem menor que a proporção geral das pessoas que bebem café Relacionamento inverso: {Café} → {Chá} Confiança({Café} → {Chá}) = 150/800 = 0,20 6 de 18 Mineração de Dados 2º Semestre - 2011 Medida: Lift & Interesse Para variáveis binárias - Lift é equivalente a Fator de Interesse Interpretação Variáveis independentes P(A,B) = P(A).P(B) I(A,B) = 1 s ( A, B ) P ( B | A) c( A → B ) s ( A, B ) Nf11 s ( A) Lift = = = = = P( B) s( B) s( B) s ( A) s ( B ) f1+ f + 1 I ( A, B ) = s ( A, B ) Nf11 = s ( A) s( B ) f1+ f + 1 Relacionadas positivamente P(A,B) > P(A).P(B) I(A,B) > 1 Relacionadas negativamente P(A,B) < P(A).P(B) Exemplo do chá-café I (Chá, Café) = 0,15 = 0,9375 0,2.0,8 I(A,B) < 1 7 de 18 Mineração de Dados 2º Semestre - 2011 Limitações do Fator de Interesse I(p,q) = 0,88/0,93.0,93 = 1,02 I(r,s) = 0,02/0,07.0,07 = 4,08 q q p 880 50 930 p 50 20 70 930 70 1000 r r r 20 50 70 r 50 880 930 70 930 1000 Obs.: I(p,q) próximo de 1 Variáveis independentes? p e q aparecem juntos em 88% I(r,s) > I(p,q) r e s raramente aparecem juntos C(p,q) = 0,88/0,93 = 94,6% C(r,s) = 0,02/0,07 = 28,6% 8 de 18 Mineração de Dados 2º Semestre - 2011 Exemplos de medidas Literatura propões diversas medidas Algumas medidas são boas para algumas aplicações mas não para outras Como determinar a melhor medidas? 9 de 18 Mineração de Dados 2º Semestre - 2011 Consistência entre medidas objetivas 10 exemplos de tabelas de contingência Classificação de tabelas de contingência Example f11 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 8123 8330 9481 3954 2886 1500 4000 4000 1720 61 f10 f01 f00 83 424 1370 2 622 1046 94 127 298 3080 5 2961 1363 1320 4431 2000 500 6000 2000 1000 3000 2000 2000 2000 7121 5 1154 2483 4 7452 10 de 18 Mineração de Dados 2º Semestre - 2011 Propriedade de permutação da variável A A B p r B q s B B A p q A r s Simétricas M(A → B) = M(B → A) Ex: Interesse Assimétricas M(A → B) ≠ M(B → A) Ex: Confiança 11 de 18 Mineração de Dados 2º Semestre - 2011 Propriedade de escala Male Female High 2 3 5 Low 1 4 5 3 7 10 Male Female High 4 30 34 Low 2 40 42 6 70 76 2x 10x Uma medida objetivo M é invariante sob a operação de escala na linha/coluna se M(T) = M(T') onde T = [f11;f10;f01;f11] T’ = [k1k3f11; k2k3f10; k1k4f01; k2 k4f00] e k1, k2, k3 e k4 são cte positivas Ex: Taxa de probabilidade = (f11. f00)/(f10.f01) 12 de 18 Mineração de Dados 2º Semestre - 2011 Propriedade de Inversão . . . . . Transaction 1 Transaction N A B C D E F 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 (a) (b) (c) 13 de 18 Mineração de Dados 2º Semestre - 2011 Propriedade de Inversão A=1 A=0 B=1 0 1 1 B=0 2 7 9 2 8 10 C=1 C=0 D=1 7 2 9 D=0 1 0 1 8 2 10 Uma medida objetiva M é invariante sob a operação de inversão se o seu valor permanecer o mesmo ao se trocar os contadores de frequência f11 por f00 e f10 ou f01 Exemplo: Taxa de probabilidade Piatetsky-Shapiro =f11/N -(f1+f+1)/N2 PS(A,B) = 0/10 – (1.2)/100 = -0,02 PS(C,D)=7/10 – (9.8)/100 = 0,7 – 0,72 = -0,02 14 de 18 Mineração de Dados 2º Semestre - 2011 Propriedade de Adição Nula A A B p r B q s A A B p r B q s+k Uma medida objetiva M é invariante sob a operação nula se não for afetada pelo aumento de f00 enquanto que todas as outras frequências na tabela de contingência permanecem iguais Exemplo: Jaccard = f11 /(f1+ + f+1 - f11) 15 de 18 Mineração de Dados 2º Semestre - 2011 Paradoxo de Simpson Comprar HDTV Comprar Aparelhos de ginástica Total Sim Não Sim 99 81 180 Não 54 66 120 153 147 300 c({HDTV = Sim} → {Aparelho de ginástica = Sim}) = 99/180 = 55% Essa regra sugere que os clientes que compram televisores de alta definição têm mais probabilidade de comprar aparelhos de ginástica do que os que não compram televisão 16 de 18 Mineração de Dados 2º Semestre - 2011 Paradoxo de Simpson Grupos consumidores Alunos de Faculdade Adultos Trabalhadores Comprar HDTV Comprar Aparelhos de Ginástica Total Sim Não Sim 1 9 10 Não 4 30 34 Sim 98 72 170 Não 50 36 86 Alunos de faculdade c({HDTV = Sim} → {Aparelho de ginástica = Sim}) = 1/10 = 10% c({HDTV = Não} → {Aparelho de ginástica = Sim}) = 4/34 = 11,8% Adultos trabalhadores c({HDTV = Sim} → {Aparelho de ginástica = Sim}) = 98/170 = 57,7% c({HDTV = Não} → {Aparelho de ginástica = Sim}) = 1/10 = 58,1% 17 de 18 Mineração de Dados 2º Semestre - 2011 Paradoxo de Simpson Inversão na direção da associação Explicação 85% dos clientes são adultos brasileiros Relacionamento mais forte nos dados combinados do que nos dados estratificados Exemplo Dados de cestas de compras devem ser estratificados de acordo com os locais de lojas 18 de 18