Unsupervised Outlier Detection in
Time Series Data
Zakia Ferdousi e Akira Maeda
Apresentação: Adriana Jouris
Roteiro
•
•
•
•
•
•
•
Introdução
Outliers
Análise do mercado de ações
Objetivo
Peer Group Analysis
Experimentos e Resultados
Conclusões e Trabalhos Futuros
2
Introdução
• A detecção de Outlier é fundamental na
questão
de
mineração
de
dados,
especificamente em detecção de fraudes.
• Detectar fraudes significa identificar as
transferências fraudulentas suspeitas, ordens
e outras atividades ilegais contra a empresa.
3
Outliers
• Outliers tenham sido definidas informalmente
como observações em um conjunto de dados
que parecem ser inconsistentes com o
restante daquele conjunto de dados, ou que
se afastem tanto de outras observações, a
ponto de despertar suspeitas de que foram
geradas por um mecanismo diferente.
4
Outliers
• A identificação de outliers pode levar à
descoberta de conhecimentos úteis e tem
uma quantidade de aplicações práticas em
áreas tais como:
- a detecção de fraude com cartão de crédito;
- análise de desempenho de atletas;
- análise de irregularidades em votações;
- previsão meteorológica (mau tempo), etc.
5
Análise do mercado de ações
• Fraude
no
mercado
manipuladores
de
ações
&
• Fraude no mercado de ações normalmente ocorre
quando corretores tentam manipular os seus
clientes para negociar ações sem respeitar os
interesses reais dos seus próprios clientes
6
Análise do mercado de ações
• Por que a detecção de fraude no mercado de
ações é necessária?
• Vários métodos de detecção de fraudes estão
disponíveis nos campos como o cartão de crédito,
telecomunicações, detecções intrusão na rede,
etc. Mas área de detecção de fraudes no mercado
de ações ainda está atrasada.
7
Objetivo
• Identificar IDs do vendedor cuja quantidade
de venda aumenta subitamente.
• Identificar IDs do vendedor cuja quantidade
cai repentinamente.
8
Peer Group Analysis - PGA
• PGA é um método não-supervisionado para
monitoramento do comportamento ao longo
do tempo na mineração de dados.
• PGA foi proposta para a detecção de fraude
em cartões de crédito pela Bolton & Hand,
em 2001.
9
Peer Group Analysis - PGA
Figura1 – Fluxo de Processo PGA
10
Peer Group Analysis - PGA
• PGA encontra as tendências anômalas nos
dados, é razoável caracterizar tais dados de
uma forma equilibrada através da colocação
de dados nos períodos de tempo fixo.
11
Peer Group Analysis - PGA
• Após a modelagem de dados adequada
torna-se necessário algumas análises
estatísticas.
• Em seguida, a tarefa mais importante do
método PGA consiste na identificação de
“peer group” para todas as observações
meta/alvo.
12
Peer Group Analysis - PGA
• Peer grups são resumidas em cada ponto de
tempo subseqüente e o objeto meta é então
comparada com seus resumos dos peer
groups.
• As contas desviam de seus peer groups são
substancialmente mais sinalizado como
outliers para uma investigação mais
aprofundada.
13
Peer Group Analysis - PGA
• Estes
processos
de
repetição
da
identificação do peer group para sinalização
da conta, desde que recebido tenha sido bom
resultado.
14
Peer Group Analysis - PGA
• Significado:
• A abordagem da PGA é diferente na medida em
que um perfil é formado com base no
comportamento de vários usuários similares, ao
passo que as atuais técnicas de detecção
“outlier”, ao longo do tempo incluem perfis de
usuário único.
15
Peer Group Analysis - PGA
• Definição
• Vamos supor que temos observações em N objetos,
onde cada observação é uma seqüência de valores
d, representado por um vetor, X i, de comprimento d.
O valor de jth da observação ith, X ij, ocorre em um
ponto fixo tempo T j. Deixe PG i (T j) = {Alguns
subconjunto de observações (≠X i) que mostram
comportamento semelhante ao do Xi em tempo Tj}.
Depois GP i (T j) é o peer group do objeto i, em
tempo
j.
16
Peer Group Analysis - PGA
• O parâmetro npeer descreve o número de
objetos no peer
group e controla
efetivamente a sensibilidade da PGA.
• O problema de encontrar um bom número de
peers é a fim de encontrar o número correto
de vizinhos em uma análise com a
vizinhança mais próxima.
17
Peer Group Analysis - PGA
• Estatísticas Peer Group
• Deixe S ij ser uma estatística resumindo o
comportamento das observações ith (i-ésimo) em
um tempo j. Uma vez que temos encontrado o
peer group metas/alvos pelas observações X i
podemos calcular estatísticas peer group, P ij.
• Essas serão, geralmente, resumos a partir de
valores de S ij para os membros do grupo.
•
18
Peer Group Analysis - PGA
• O princípio aqui é que o grupo inicialmente fornece
um modelo local, P i1, para S i1, assim
caracterizando o comportamento local de X i no
momento t 1, e posteriormente irá fornecer modelos,
P ij, para S ij, em vez T j, j > 1. Se a nossa
observação
meta/alvo,
S
ik,
diverge
"significativamente" do seu modelo peer group P ik
em tempo T k, então nós concluímos que a nossa
meta/alvo não estava mais se comportando como
seus peers em vez t k. Se o desvio for suficiente
grande, então a observação meta/alvo será
sinalizada
como
merecendo
investigação.
19
Peer Group Analysis - PGA
• Para medir o desvio, da observação peer
group nós calculamos a sua distância
padronizada a partir do modelo peer group, o
exemplo que usamos aqui é uma distância
padronizada do centróide do peer group
baseada em uma estatística-t. O valor do
centróide do peer group é dado pela
equação:
20
Peer Group Analysis - PGA
21
Experimentos
Tabela 1: parâmetros utilizados na configuração experimental
22
Dados experimentais
• Conjunto de dados consiste de 3 meses a partir
de dados reais 01/06/2005 a 31/08/2005 para a
quantidade diariamente de ações vendida para
cada um dos 143 corretores, que foram
recolhidas da bolsa de valores de Bangladesh
(Dhaca). O número total transação é de 340.234.
Aqui nós estabelecemos, d = 14 semanas, N =
143. O comprimento de tempo, w = 5, mas
variado npeer para assumir valores npeer = 13 e
npeer = 26.
23
Dados experimentais
Tabela 2: Transação no mercado de ações
24
Resultados experimentais
• Para fins de comparação, nos simulamos
PGA sobre transações de ações muitas
vezes, alterando o número de peers.
• Os seguintes gráficos ilustram o poder da
PGA para detectar anomalias locais nos
dados.
25
PGA sobre transações de
ações, conta # 132
npeer = 13
npeer = 26
26
PGA sobre transações de
ações, conta # 68
npeer = 13
npeer = 26
27
Resultados experimentais
• Nós também calculamos o desvio da
observação meta do seu peer group. Se o
desvio for suficientemente grande, então a
meta observação será sinalizado como
merecedor de uma investigação. Os
seguintes resultados mostrados aqui são as
distâncias entre o centróide padronizada do
peer group baseado em uma estatística-t.
28
Resultados experimentais
Tabela 3 - Desvio de Contas Alguns Corretores
29
Conclusões e Trabalhos
Futuros
• Identificar IDs comprador cuja quantidade
comprada aumenta subitamente.
• Identificar IDS vendedor / comprador que de
repente começa um grande volume de
negócio.
• Identificar IDs ações se o volume negociado
ou quantidade negociada e preço aumenta
de uma forma suspeita.
30
FIM
31
Download

outlier_detection_PGA