Mineração de Dados
Felipe Carvalho – UFES 2009/2
Uma base de dados transacional
Regras de associação
• Uma regra de associação é o tipo mais simples de regra que pode ser
gerada a partir da mineração de conjuntos de itens freqüentes e,
intuitivamente, indica a probabilidade de dois conjuntos de itens distintos
ocorrerem numa mesma transação
1ª. etapa [busca de conjuntos de itens
freqüentes]
• Considerando um limite mínimo de freqüência igual a 3 (i.e., apenas
conjuntos que aparecem em pelo menos 3 transações em D são desejados),
obtemos os seguintes conjuntos de itens freqüentes:
•
•
•
•
- {leite} [freqüência = 3]
- {pão} [freqüência = 4]
- {queijo} [freqüência = 3]
- {pão, queijo} [freqüência = 3]
2ª. etapa [geração de regras de
associação fortes]
• Apenas como exemplo, vamos iniciar calculando a cobertura e a precisão da
regra {leite}  {pão}:
• cobertura({leite}  {pão})= P({leite} U {pão})
• = freqüência( {leite, pão} ) / n
• =2/5
• = 40%
• precisão({leite}  {pão}) = P({pão} | {leite})
• = freqüência( {leite, pão} ) / freqüência({leite})
• =2/3
• = 66,7%
• Podemos então escrever esta regra como:
• {leite} {pão} [cobertura = 40%, precisão = 66,7%]
2ª. etapa [geração de regras de
associação fortes]
• Aplicando um limite mínimo de cobertura de 40% e um limite mínimo de
precisão de 60%, podemos classificar as regras de associação obtidas a
partir dos conjuntos de itens freqüentes como fortes ou não:
•
•
•
•
•
•
•
•
{leite}{pão}
{leite}{queijo}
{leite}{pão, queijo}
{pão}{leite}
{pão}{queijo}
{queijo}{leite}
{queijo}{pão}
{pão, queijo}{leite}
[cobertura = 40%, precisão = 66,7%]  forte
[cobertura = 20%, precisão = 33,3%]
[cobertura = 20%, precisão = 33,3%]
[cobertura = 40%, precisão = 50% ]
[cobertura = 60%, precisão = 75% ]  forte
[cobertura = 20%, precisão = 33,3%]
[cobertura = 60%, precisão = 100% ]  forte
[cobertura = 20%, precisão = 33,3%]
2ª. etapa [geração de regras de
associação fortes]
• Observamos que não existem regras como {pão}{pão, leite}; pois, os
conjuntos representando as condições e a conclusão de uma regra devem
ser disjuntos, i.e., para a regra AB ser válida devemos ter A interseção B =
Vazio. Notamos também que, enquanto a regra {leite}{pão} foi
classificada como forte, a regra {pão}{leite} não o foi.
• A razão desse fato está na diferença de precisão entre as duas regras, i.e.,
há mais chances de alguém que comprou leite comprar pão, do que de
alguém que comprou pão comprar leite. Se tivéssemos escolhido um limite
mínimo mais baixo de precisão, a regra {pão}{leite} poderia também ter
sido qualificada como forte.
• Porém, o uso de limites muito baixos pode acarretar em quantidades muito
altas de regras, a maioria delas provavelmente não muito interessantes
Download

MineracaoDeDados