Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris Roteiro • • • • • • • Introdução Outliers Análise do mercado de ações Objetivo Peer Group Analysis Experimentos e Resultados Conclusões e Trabalhos Futuros 2 Introdução • A detecção de Outlier é fundamental na questão de mineração de dados, especificamente em detecção de fraudes. • Detectar fraudes significa identificar as transferências fraudulentas suspeitas, ordens e outras atividades ilegais contra a empresa. 3 Outliers • Outliers tenham sido definidas informalmente como observações em um conjunto de dados que parecem ser inconsistentes com o restante daquele conjunto de dados, ou que se afastem tanto de outras observações, a ponto de despertar suspeitas de que foram geradas por um mecanismo diferente. 4 Outliers • A identificação de outliers pode levar à descoberta de conhecimentos úteis e tem uma quantidade de aplicações práticas em áreas tais como: - a detecção de fraude com cartão de crédito; - análise de desempenho de atletas; - análise de irregularidades em votações; - previsão meteorológica (mau tempo), etc. 5 Análise do mercado de ações • Fraude no mercado manipuladores de ações & • Fraude no mercado de ações normalmente ocorre quando corretores tentam manipular os seus clientes para negociar ações sem respeitar os interesses reais dos seus próprios clientes 6 Análise do mercado de ações • Por que a detecção de fraude no mercado de ações é necessária? • Vários métodos de detecção de fraudes estão disponíveis nos campos como o cartão de crédito, telecomunicações, detecções intrusão na rede, etc. Mas área de detecção de fraudes no mercado de ações ainda está atrasada. 7 Objetivo • Identificar IDs do vendedor cuja quantidade de venda aumenta subitamente. • Identificar IDs do vendedor cuja quantidade cai repentinamente. 8 Peer Group Analysis - PGA • PGA é um método não-supervisionado para monitoramento do comportamento ao longo do tempo na mineração de dados. • PGA foi proposta para a detecção de fraude em cartões de crédito pela Bolton & Hand, em 2001. 9 Peer Group Analysis - PGA Figura1 – Fluxo de Processo PGA 10 Peer Group Analysis - PGA • PGA encontra as tendências anômalas nos dados, é razoável caracterizar tais dados de uma forma equilibrada através da colocação de dados nos períodos de tempo fixo. 11 Peer Group Analysis - PGA • Após a modelagem de dados adequada torna-se necessário algumas análises estatísticas. • Em seguida, a tarefa mais importante do método PGA consiste na identificação de “peer group” para todas as observações meta/alvo. 12 Peer Group Analysis - PGA • Peer grups são resumidas em cada ponto de tempo subseqüente e o objeto meta é então comparada com seus resumos dos peer groups. • As contas desviam de seus peer groups são substancialmente mais sinalizado como outliers para uma investigação mais aprofundada. 13 Peer Group Analysis - PGA • Estes processos de repetição da identificação do peer group para sinalização da conta, desde que recebido tenha sido bom resultado. 14 Peer Group Analysis - PGA • Significado: • A abordagem da PGA é diferente na medida em que um perfil é formado com base no comportamento de vários usuários similares, ao passo que as atuais técnicas de detecção “outlier”, ao longo do tempo incluem perfis de usuário único. 15 Peer Group Analysis - PGA • Definição • Vamos supor que temos observações em N objetos, onde cada observação é uma seqüência de valores d, representado por um vetor, X i, de comprimento d. O valor de jth da observação ith, X ij, ocorre em um ponto fixo tempo T j. Deixe PG i (T j) = {Alguns subconjunto de observações (≠X i) que mostram comportamento semelhante ao do Xi em tempo Tj}. Depois GP i (T j) é o peer group do objeto i, em tempo j. 16 Peer Group Analysis - PGA • O parâmetro npeer descreve o número de objetos no peer group e controla efetivamente a sensibilidade da PGA. • O problema de encontrar um bom número de peers é a fim de encontrar o número correto de vizinhos em uma análise com a vizinhança mais próxima. 17 Peer Group Analysis - PGA • Estatísticas Peer Group • Deixe S ij ser uma estatística resumindo o comportamento das observações ith (i-ésimo) em um tempo j. Uma vez que temos encontrado o peer group metas/alvos pelas observações X i podemos calcular estatísticas peer group, P ij. • Essas serão, geralmente, resumos a partir de valores de S ij para os membros do grupo. • 18 Peer Group Analysis - PGA • O princípio aqui é que o grupo inicialmente fornece um modelo local, P i1, para S i1, assim caracterizando o comportamento local de X i no momento t 1, e posteriormente irá fornecer modelos, P ij, para S ij, em vez T j, j > 1. Se a nossa observação meta/alvo, S ik, diverge "significativamente" do seu modelo peer group P ik em tempo T k, então nós concluímos que a nossa meta/alvo não estava mais se comportando como seus peers em vez t k. Se o desvio for suficiente grande, então a observação meta/alvo será sinalizada como merecendo investigação. 19 Peer Group Analysis - PGA • Para medir o desvio, da observação peer group nós calculamos a sua distância padronizada a partir do modelo peer group, o exemplo que usamos aqui é uma distância padronizada do centróide do peer group baseada em uma estatística-t. O valor do centróide do peer group é dado pela equação: 20 Peer Group Analysis - PGA 21 Experimentos Tabela 1: parâmetros utilizados na configuração experimental 22 Dados experimentais • Conjunto de dados consiste de 3 meses a partir de dados reais 01/06/2005 a 31/08/2005 para a quantidade diariamente de ações vendida para cada um dos 143 corretores, que foram recolhidas da bolsa de valores de Bangladesh (Dhaca). O número total transação é de 340.234. Aqui nós estabelecemos, d = 14 semanas, N = 143. O comprimento de tempo, w = 5, mas variado npeer para assumir valores npeer = 13 e npeer = 26. 23 Dados experimentais Tabela 2: Transação no mercado de ações 24 Resultados experimentais • Para fins de comparação, nos simulamos PGA sobre transações de ações muitas vezes, alterando o número de peers. • Os seguintes gráficos ilustram o poder da PGA para detectar anomalias locais nos dados. 25 PGA sobre transações de ações, conta # 132 npeer = 13 npeer = 26 26 PGA sobre transações de ações, conta # 68 npeer = 13 npeer = 26 27 Resultados experimentais • Nós também calculamos o desvio da observação meta do seu peer group. Se o desvio for suficientemente grande, então a meta observação será sinalizado como merecedor de uma investigação. Os seguintes resultados mostrados aqui são as distâncias entre o centróide padronizada do peer group baseado em uma estatística-t. 28 Resultados experimentais Tabela 3 - Desvio de Contas Alguns Corretores 29 Conclusões e Trabalhos Futuros • Identificar IDs comprador cuja quantidade comprada aumenta subitamente. • Identificar IDS vendedor / comprador que de repente começa um grande volume de negócio. • Identificar IDs ações se o volume negociado ou quantidade negociada e preço aumenta de uma forma suspeita. 30 FIM 31