Ænalist Por João Evangelista Neto Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Pará Introdução • As pessoas lêem o jornal tanto para entender o que está acontecendo quanto para antever o que pode vir a acontecer. • Índices de aprovação e performance econômica podem ser vistos como “time series” por que são dados de valores reais que mudam com o tempo. • “Time series” são influenciados pela mídia e também a influenciam. 2 Ænalist • Coleta dois tipos de dados: – “Time series” financeiros; – Notícias da época. • Processa ambos os dados. • Tenta encontrar relação entre estes dados. • Estas estimativas poderiam ser utilizadas por um corretor ou investidor para recomendar a compra ou venda de determinadas ações. 3 O design do sistema • Um sistema geral utiliza documentos textuais e dados numéricos em um determinado intervalo de tempo (time series). • O Ænalist é uma aplicação desta arquitetura geral: – Dados numéricos: história da variação dos valores das ações; – Documento textual: notícias sobre a companhia. • O valor das ações de uma determinada empresa foi utilizado para gerar uma tendência. • As notícias são pareadas com as tendências de preços. • Esta tendência permite prever a variação futura. 4 Reescrevendo as “time series” • O que são tendências? • Qual a sua importância? • Como selecionar tendências? • Princípios para reescrever uma “time series”. 6 Identificando tendências • Segmentação de amostras: – De cima para baixo; – De baixo para cima; – Critério de interrupção. 7 Como trabalha o algoritmo 8 Análise dos resultados • Cada segmento é considerado uma tendência. • O significado de cada tendência é definido por suas estatísticas de regressão. • A inclinação da linha determina se a tendência é interessante (de aumento ou de redução). 9 Tornando as tendências em tendências discretas • Variáveis utilizadas: Comprimento, Inclinação, Interseção, r2. • Variáveis consideradas pelos negociantes de ações: Inclinação, r2 (daqui em diante, chamada de confiança). • Possibilidades para tornar as tendências em tendências discretas: – Selecionar algumas tendências, determinar manualmente valores de interrupção e solicitar ao programa que especifique as “grandes confianças”; – Utilizar um algoritmo de clustering não-supervisionado, para gerar clusters de tendências. 10 Como o Ænalist trabalha as tendências • Algoritmo de clustering de aglomeração baseado em distância: – Uma distância matriz para as tendências de uma determinada ação; – A distância entre duas tendências é a distância Euclidiana entre suas inclinações padronizadas e entre suas confianças padronizadas; – Um cluster para cada segmento. 11 Como o Ænalist trabalha as tendências • Dois clusters próximos, C1 e C2, são escolhidos, baseados na distância média do grupo, entre estes dois segmentos. 12 Resultados • 15 clusters diferentes. • O formato “funil” não é de interesse. • Segmentos de importância são aqueles com inclinações acentuadas. • Os de inclinação positiva serão chamados de “surges” (inclinação maior ou igual a 75%). • Os de inclinação negativa serão chamados de “pluges” (oposto de surges). • Tais segmentos sempre tem valores de confiança altos. 13 Implicações práticas • Não tem grande importância ir ao comprimento do primeiro segmento de clustering e daí determinar as etiquetas. • Todas as ações analisadas tiveram comportamento semelhante a YHOO. • Segmentos com inclinação maior do que 50% são chamados POUCO+. • Os outros segmentos foram ignorados. 14 Alinhando tendências com notícias. • Uma vez escolhidas as notícias de relevância, é possível associar grupos de notícias com certas tendências. • Estas notícias são escolhidas num determinado intervalo de tempo. • No estudo, o melhor intervalo foi o de 5-10horas. • Análise pode ser preditiva ou explicativa. 15 Modelos de linguagem • É possível estimar um modelo de linguagem para cada tendência; • A determinação do modelo de linguagem parte de algumas inferências feitas a partir de expressões da linguagem comum do dia-a-dia. 16 Modelos de linguagem • O Modelo de Linguagem é chamado Mt, que especifica uma série de expressões que estariam associadas a uma determinada tendência t. • Um determinado número de notícias {D1...Dm} é analisado, a partir deste modelo Mt, para determinar qual é a probabilidade destas notícias gerarem uma determinada tendência t. 17 Modelos de linguagem • Considerando que a escolha das notícias foi randômica, é possível expandir a fórmula. 18 Modelos de linguagem • Partindo do princípio de que as expressões geradas em cada notícia são independentes, é possível estimar P(Di|Mt) (um classificador Bayesiano “ingênuo”). 19 Avaliação • Possíveis métricas de avaliação: – Classificação de exatidão (Cho et al.); – Características de Atividade de Monitoramento de Operação – AMOC (Fawcett & Provost). • Aspectos avaliados: – Capacidade de discriminação do modelo de linguagem; – Capacidade de utilização do sistema na negociação de ações. 20 Avaliação do modelo de linguagem • Curva utilizada: “Detection Error Tradeoff” – DET; • Material analisado: 127 ações, no período de Out/1999 a Fev/2000. • As notícias (D) sobre uma determinada ação foram alinhados com tendências futuras para esta mesma ação. 21 Resultados do modelo de linguagem 22 Simulação de mercado • Estratégia de compra e venda de ações. • Lucros e prejuízos. 23 Com que rapidez as notícias influenciam o valor das ações? • Foram realizados alinhamentos concorrentes, com tendências determinadas a cada 1, 5 e 10 horas. • Resultados para alinhamentos simples. • Resultados para alinhamentos simultâneos. 24 Modelos específicos ou universais? • Modelo “ação-específico”: – Vantagens; – Desvantagens. • Modelo universal: – Vantagens; – Desvantagem. • Ideal: uma mistura de ambos os modelos. 25 Conclusões • Segmentação de amostras é uma ferramenta útil para descrever “time series”; • Modelos de linguagem formam um bom framework para associar notícias com tendências; • Uma estratégia de compra e venda de ações relativamente simples permitiu obter lucros das flutuações de mercado. 26 Bibliografia LAVRENKO, Victor; SCHMILL, Matt; LAWRIE, Dawn, OGILVIE, Paul; JENSEN, David e ALLAN, James. Mining of Concurrent Text and Time Series. Department of Computer Science, University of Massachusetts. PROVOST, F & FAWCETT, T. Activity monitoring: noticing interesting changes in behavior. In Proceedings of the 5th International Conference on KDD, 1999. 27 O coração do homem faz planos, mas a resposta certa vem do Senhor.