Mineração de Dados Felipe Carvalho – UFES 2009/2 Uma base de dados transacional Regras de associação • Uma regra de associação é o tipo mais simples de regra que pode ser gerada a partir da mineração de conjuntos de itens freqüentes e, intuitivamente, indica a probabilidade de dois conjuntos de itens distintos ocorrerem numa mesma transação 1ª. etapa [busca de conjuntos de itens freqüentes] • Considerando um limite mínimo de freqüência igual a 3 (i.e., apenas conjuntos que aparecem em pelo menos 3 transações em D são desejados), obtemos os seguintes conjuntos de itens freqüentes: • • • • - {leite} [freqüência = 3] - {pão} [freqüência = 4] - {queijo} [freqüência = 3] - {pão, queijo} [freqüência = 3] 2ª. etapa [geração de regras de associação fortes] • Apenas como exemplo, vamos iniciar calculando a cobertura e a precisão da regra {leite} {pão}: • cobertura({leite} {pão})= P({leite} U {pão}) • = freqüência( {leite, pão} ) / n • =2/5 • = 40% • precisão({leite} {pão}) = P({pão} | {leite}) • = freqüência( {leite, pão} ) / freqüência({leite}) • =2/3 • = 66,7% • Podemos então escrever esta regra como: • {leite} {pão} [cobertura = 40%, precisão = 66,7%] 2ª. etapa [geração de regras de associação fortes] • Aplicando um limite mínimo de cobertura de 40% e um limite mínimo de precisão de 60%, podemos classificar as regras de associação obtidas a partir dos conjuntos de itens freqüentes como fortes ou não: • • • • • • • • {leite}{pão} {leite}{queijo} {leite}{pão, queijo} {pão}{leite} {pão}{queijo} {queijo}{leite} {queijo}{pão} {pão, queijo}{leite} [cobertura = 40%, precisão = 66,7%] forte [cobertura = 20%, precisão = 33,3%] [cobertura = 20%, precisão = 33,3%] [cobertura = 40%, precisão = 50% ] [cobertura = 60%, precisão = 75% ] forte [cobertura = 20%, precisão = 33,3%] [cobertura = 60%, precisão = 100% ] forte [cobertura = 20%, precisão = 33,3%] 2ª. etapa [geração de regras de associação fortes] • Observamos que não existem regras como {pão}{pão, leite}; pois, os conjuntos representando as condições e a conclusão de uma regra devem ser disjuntos, i.e., para a regra AB ser válida devemos ter A interseção B = Vazio. Notamos também que, enquanto a regra {leite}{pão} foi classificada como forte, a regra {pão}{leite} não o foi. • A razão desse fato está na diferença de precisão entre as duas regras, i.e., há mais chances de alguém que comprou leite comprar pão, do que de alguém que comprou pão comprar leite. Se tivéssemos escolhido um limite mínimo mais baixo de precisão, a regra {pão}{leite} poderia também ter sido qualificada como forte. • Porém, o uso de limites muito baixos pode acarretar em quantidades muito altas de regras, a maioria delas provavelmente não muito interessantes