Seminário Mineração de Exceções Erivan A. Andrade ([email protected]) Jacques Robin ([email protected]) 1 UFPE-CIN 2002 Roteiro Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências 2 UFPE-CIN 2002 Motivação: definição O que é outlier? É uma observação, num conjunto de dados, que é suficientemente dissimilar ou aberrante do restante dos dados para levantar suspeita de ser causado por um mecanismo diferenciado Equivalente a exceções Causa dos outliers: o que é esse mecanismo? Erro de medida Comportamento diferente do padrão Dilema: “o ruído de uns é o sinal dos outros” Mineração de outliers Detecção e análise de outliers 3 UFPE-CIN 2002 Motivação: aplicações práticas 4 Detecção de Fraudes Comportamento de gastos de consumidores Em análises médicas (resultados não esperados de tratamentos ) Pesquisa farmacêutica Marketing Coaching (hey Felipão, Romário é um outlier! ) Etc. UFPE-CIN 2002 Técnicas de Mineração de Exceções Classes de técnicas: Semi-automático: Visualização Automático Baseados Clustering Baseado Estatística Baseado Desvio Baseado Distância 5 Características desejáveis em em em em UFPE-CIN 2002 Escalável para alta dimensionalidade Interpretabilidade dos resultados Computacionalmente eficiente Dá importância ao comportamento local dos dados Ordenação dos outliers Roteiro Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências 6 UFPE-CIN 2002 Mineração de exceção baseada em agrupamento Idéia: Formar grupos de dados Dados que não se encaixam em nenhum grupos são considerados exceções Inserir figura exemplo aqui 7 UFPE-CIN 2002 Mineração de exceção baseada em agrupamento Vantagens Reutiliza vasto leque de métodos de agrupamentos Não requer conhecimento prévio de distribuição 8 UFPE-CIN 2002 Limitações O que se busca é otimizar os agrupamentos, não a detecção de exceções O que é exceção para uma configuração pode não ser para outra Roteiro Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências 9 UFPE-CIN 2002 Mineração de Outliers Baseada em Estatística Assume distribuição ou modelo probabilístico para um conjunto de dados Ex: distribuição normal Usa Teste de discordância (TD) → identifica os outliers com respeito ao modelo escolhido Se um objeto for significativamente maior ou menor que o modelo escolhido ele é uma exceção O TD examina 2 hipóteses: Uma hipótese de trabalho Uma hipótese alternativa 10 UFPE-CIN 2002 Mineração de Outliers Baseada em Estatística Vantagens: Limitações: Pode ser avaliado o nível de significância de uma exceção Usa métodos estatístico consolidados ao longo dos tempos O modelo escolhido influencia a identificação dos Outliers Testa aberração ao longo de apenas uma única dimensão Dificuldade na escolha de uma distribuição 11 UFPE-CIN 2002 Roteiro Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências 12 UFPE-CIN 2002 Mineração de Outliers Baseada em Desvio Não usa métodos estatísticos nem medidas de distância Define exceção como pontos cujo valor desviam da maioria ao longo de algumas ou todas as dimensões Exceções são equivalentes a Desvios de comportamento 13 UFPE-CIN 2002 Mineração de Outliers Baseada em Densidade de Distribuição Características Divide o espaço de dados em classe equi-depth Cada classe contém uma fração f=1/ dos registros Diferentes localidades dos dados são densas com respeito a diferentes subconjuntos de atributos Observa a densidade de distribuição da projeção dos dados Gera projeções dos dados sobre k dimensões Identifica nessas projeções, regiões de densidade anormalmente baixa Pontos nessas regiões são considerados outliers Suporta dados com alta dimensionalidade 14 UFPE-CIN 2002 Mineração de Outliers Baseada em Densidade de Distribuição Ideia 15 UFPE-CIN 2002 Mineração de Outliers Baseada em Densidade de Distribuição O número de pontos em um cubo pode ser aproximando por uma distribuição normal e então: k N. f Fração esperada N . f k .(1 f k ) Desvio padrão Coeficiente de dispersão de um cubo D S ( D) n( D ) N . f k N . f k .(1 f k ) n(D) número de pontos em um cubo k-dimensional N número de pontos no conjunto de dados S(D)<0 indica cubos com numero significativamente abaixo do esperado 16 UFPE-CIN 2002 de pontos Mineração de Outliers Baseada em Densidade de Distribuição Busca necessária para gerar as projeções Busca exaustiva: garante encontrar todas a exceções mas com complexidade alta Busca genética com função de seleção, crossover e mutação específica para o problema permite encontrar, a um custo muito menor, a maioria das exceções Comparativo de resultado 17 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a hipótese O usuário interativamente busca por regiões de anomalias As regiões de anomalias representam áreas de interesse A busca das anomalias é feita com o uso das operações de cubo OLAP Dril-down, roll-up, seleção Problemas da exploração dirigida a hipótese Espaço de busca muito grande As anomalias podem estar em níveis inferiores ao ponto de partida da análise Grande quantidade de agregados 18 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta O usuário busca por anomalias guiado por indicadores pré-computados Os indicadores permitem a observação de padrões anormais em qualquer nível de agregação Muito útil, especialmente, para grande numero de dimensões Um valor é uma exceção se ele difere significativamente do seu valor antecipado Valor calculado por um modelo estatístico Considera o contexto da posição da célula no cubo Combina as tendências ao longo das diferentes dimensões a que uma célula pertence 19 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta Definição de exceção (yijk – ŷijk)/ ijk > ( = 2.5) Cálculo do valor antecipado ŷijk (γ + γiA + γjB + γkC + γijAB + γjkBC + γikAC) ŷijk = e Onde γ = l+...+ (média ao longo de todas as dimensões) γirAr = l+...+ir+...+ - γ(média ao longo de uma dimensão) γi isArAs = l+...+ir+...+ is+...+ - γirAr - γisAs – γ (Média ao longo de r duas dimensões) 20 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta Equação iterativa para cálculo do (desvio padrão) 2ijk = (ŷijk) Onde é calculado por 21 (yijk - ŷijk)2 (ŷijk) log ŷijk UFPE-CIN 2002 log ŷijk 0 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta Os indicadores dão o grau de surpresa do valor da célula Os indicadores são 3: SelfExp: valor surpresa da célula em relação a outras células no mesmo nível de agregação InExp: Grau de surpresa em algum nível abaixo desta célula PathExp: grau de surpresa para cada caminho de drill-down a partir da célula. 22 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Destacar Exceções 23 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Exceção de Caminho 24 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Down por produto (PathExp) 25 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Drown para Diet-S (InExp) 26 UFPE-CIN 2002 Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) 27 UFPE-CIN 2002 Roteiro Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências 28 UFPE-CIN 2002 Mineração de Outliers Baseada em Distância: Dk(p) Busca Resolver limitações do estatístico Um outlier é determinado baseado na distancia Dk(p) Dk(p)= distância de p ao seu k-esimo vizinho Evita suposição sobre distribuição dos dados Menor custo computacional Pode, ás vezes, convergir para os métodos estatísticos Desvantagem Não é escalável para mais que 5 dimensões 29 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias: D (p) Algoritmo Loop aninhado Para cada ponto p no conjunto de dados calcula Dk(p) Para calcular cada Dk(p) varre todos os dados Mantém uma lista de k vizinhos mais próximo para cada ponto p Os n pontos com maior valor de Dk(p) são os n outliers Para melhorar a eficiência pode-se considerar blocos de pontos ao invés de pontos individuais 30 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias: D (p) Algoritmo baseado em índice O uso de estruturas de índices espaciais pode diminuir substancialmente o calculo de distâncias (R*-tree, por exemplo) É possível podar sub-arvores cujos nós não podem conter outlier A cada passo guarda-se os n outliers encontrados Dnmin menor Dk entre os outlier Dk(p)< Dnmin P não pode ser um outlier 31 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias: D (p) Algoritmo Baseado em partições Detecta os n outliers mais fortes Os outliers são ordenados pela distância Dk(p) Baseia se na distância dos vizinhos mais próximos O conjunto de dados é divididos em partições por meio de algoritmos de agrupamento Poda partições que não são candidatas a conter outlier Acelera a identificação pois diminui a quantidade de pontos 32 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias : D (p) Algoritmo Baseado em partições (passos) Gerar partições Através de clustering Calcular limites Dk para os pontos em cada partição P.upper=max(Dk) e P.lower=min(Dk) dos pontos da partição P Identificar partições candidatas a conter exceções P.upperminDkDist=min{Pi.lower:1 i l} Pi.lower>Pj.lower>..>Pl.lower e o número de pontos seja pelo menos n Computar exceções com os pontos nas partições candidatas P.neighbors denota as partições vizinhas de P a uma distância de P.upper 33 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias : D (p) Algoritmo Baseado em partições (passos) O número total de pontos a ser examinado para calcular outlier é o das partições candidatas+os de suas vizinhas 34 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias : D (p) Algoritmo Baseado em partições 35 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias : D (p) Comparativo de desempenho 36 UFPE-CIN 2002 Detecção de Outliers Baseada em k Distâncias : D (p) Comparativo de desempenho 37 UFPE-CIN 2002 Roteiro Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências 38 UFPE-CIN 2002 Conclusões Mineração de exceções É de grande interesse É custosa computacionalmente, principalmente para grande quantidade de dimensões Necessita de métodos robustos 39 UFPE-CIN 2002 Referências Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division Efficient Algoritms for Mining Outliers from Data sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok Shim. 2000 Outlier Detection for High Dimensional Data. Charu C. Aggarwal e Philip S. Yu. 2001 40 UFPE-CIN 2002 Visão de Outliers 41 UFPE-CIN 2002 Comparativo: Força bruta x algorotimo Evolutivo 42 UFPE-CIN 2002