Ænalist
Por João Evangelista Neto
Programa de Pós-Graduação em Engenharia Elétrica
Universidade Federal do Pará
Introdução
• As pessoas lêem o jornal tanto para entender o
que está acontecendo quanto para antever o
que pode vir a acontecer.
• Índices de aprovação e performance
econômica podem ser vistos como “time series”
por que são dados de valores reais que mudam
com o tempo.
• “Time series” são influenciados pela mídia e
também a influenciam.
2
Ænalist
• Coleta dois tipos de dados:
– “Time series” financeiros;
– Notícias da época.
• Processa ambos os dados.
• Tenta encontrar relação entre estes dados.
• Estas estimativas poderiam ser utilizadas por
um corretor ou investidor para recomendar a
compra ou venda de determinadas ações.
3
O design do sistema
• Um sistema geral utiliza documentos textuais e dados
numéricos em um determinado intervalo de tempo (time
series).
• O Ænalist é uma aplicação desta arquitetura geral:
– Dados numéricos: história da variação dos valores das
ações;
– Documento textual: notícias sobre a companhia.
• O valor das ações de uma determinada empresa foi
utilizado para gerar uma tendência.
• As notícias são pareadas com as tendências de preços.
• Esta tendência permite prever a variação futura.
4
Reescrevendo as “time
series”
• O que são tendências?
• Qual a sua importância?
• Como selecionar tendências?
• Princípios para reescrever uma “time
series”.
6
Identificando tendências
• Segmentação de amostras:
– De cima para baixo;
– De baixo para cima;
– Critério de interrupção.
7
Como trabalha o algoritmo
8
Análise dos resultados
• Cada segmento é
considerado uma
tendência.
• O significado de cada
tendência é definido por
suas estatísticas de
regressão.
• A inclinação da linha
determina se a tendência
é interessante (de
aumento ou de redução).
9
Tornando as tendências em
tendências discretas
• Variáveis utilizadas: Comprimento, Inclinação,
Interseção, r2.
• Variáveis consideradas pelos negociantes de
ações: Inclinação, r2 (daqui em diante, chamada de
confiança).
• Possibilidades para tornar as tendências em
tendências discretas:
– Selecionar algumas tendências, determinar manualmente
valores de interrupção e solicitar ao programa que
especifique as “grandes confianças”;
– Utilizar um algoritmo de clustering não-supervisionado,
para gerar clusters de tendências.
10
Como o Ænalist trabalha as
tendências
• Algoritmo de clustering de aglomeração
baseado em distância:
– Uma distância matriz para as tendências de
uma determinada ação;
– A distância entre duas tendências é a
distância Euclidiana entre suas inclinações
padronizadas e entre suas confianças
padronizadas;
– Um cluster para cada segmento.
11
Como o Ænalist trabalha as
tendências
• Dois clusters próximos, C1 e C2, são
escolhidos, baseados na distância média do
grupo, entre estes dois segmentos.
12
Resultados
•
15 clusters diferentes.
•
O formato “funil” não é de
interesse.
•
Segmentos de importância são
aqueles com inclinações
acentuadas.
•
Os de inclinação positiva serão
chamados de “surges”
(inclinação maior ou igual a
75%).
•
Os de inclinação negativa serão
chamados de “pluges” (oposto
de surges).
•
Tais segmentos sempre tem
valores de confiança altos.
13
Implicações práticas
•
Não tem grande importância ir ao comprimento do primeiro
segmento de clustering e daí determinar as etiquetas.
•
Todas as ações analisadas tiveram comportamento semelhante a
YHOO.
•
Segmentos com inclinação maior do que 50% são chamados
POUCO+.
•
Os outros segmentos foram ignorados.
14
Alinhando tendências com
notícias.
• Uma vez escolhidas as
notícias de relevância, é
possível associar grupos de
notícias com certas
tendências.
• Estas notícias são
escolhidas num
determinado intervalo de
tempo.
• No estudo, o melhor
intervalo foi o de 5-10horas.
• Análise pode ser preditiva
ou explicativa.
15
Modelos de linguagem
• É possível estimar um modelo de
linguagem para cada tendência;
• A determinação do modelo de linguagem
parte de algumas inferências feitas a
partir de expressões da linguagem
comum do dia-a-dia.
16
Modelos de linguagem
• O Modelo de Linguagem é chamado Mt, que
especifica uma série de expressões que estariam
associadas a uma determinada tendência t.
• Um determinado número de notícias {D1...Dm} é
analisado, a partir deste modelo Mt, para
determinar qual é a probabilidade destas notícias
gerarem uma determinada tendência t.
17
Modelos de linguagem
• Considerando que a escolha das notícias foi
randômica, é possível expandir a fórmula.
18
Modelos de linguagem
• Partindo do princípio de que as expressões
geradas em cada notícia são independentes, é
possível estimar P(Di|Mt) (um classificador
Bayesiano “ingênuo”).
19
Avaliação
• Possíveis métricas de avaliação:
– Classificação de exatidão (Cho et al.);
– Características de Atividade de Monitoramento de
Operação – AMOC (Fawcett & Provost).
• Aspectos avaliados:
– Capacidade de discriminação do modelo de
linguagem;
– Capacidade de utilização do sistema na negociação
de ações.
20
Avaliação do modelo de
linguagem
• Curva utilizada: “Detection Error
Tradeoff” – DET;
• Material analisado: 127 ações, no
período de Out/1999 a Fev/2000.
• As notícias (D) sobre uma determinada
ação foram alinhados com tendências
futuras para esta mesma ação.
21
Resultados do modelo de
linguagem
22
Simulação de mercado
• Estratégia de compra e venda de ações.
• Lucros e prejuízos.
23
Com que rapidez as notícias
influenciam o valor das ações?
• Foram realizados alinhamentos
concorrentes, com tendências
determinadas a cada 1, 5 e 10 horas.
• Resultados para alinhamentos simples.
• Resultados para alinhamentos
simultâneos.
24
Modelos específicos ou
universais?
• Modelo “ação-específico”:
– Vantagens;
– Desvantagens.
• Modelo universal:
– Vantagens;
– Desvantagem.
• Ideal: uma mistura de ambos os modelos.
25
Conclusões
• Segmentação de amostras é uma ferramenta
útil para descrever “time series”;
• Modelos de linguagem formam um bom
framework para associar notícias com
tendências;
• Uma estratégia de compra e venda de ações
relativamente simples permitiu obter lucros das
flutuações de mercado.
26
Bibliografia
LAVRENKO, Victor; SCHMILL, Matt; LAWRIE,
Dawn, OGILVIE, Paul; JENSEN, David e
ALLAN, James. Mining of Concurrent Text and
Time Series. Department of Computer Science,
University of Massachusetts.
PROVOST, F & FAWCETT, T. Activity monitoring:
noticing interesting changes in behavior. In
Proceedings of the 5th International
Conference on KDD, 1999.
27
O coração do homem faz planos,
mas a resposta certa vem do Senhor.
Download

Ænalist