artigo técnico ARTIGO TÉCNICO Introdução de redes neurais em modelos de médias móveis na previsão de preços Marcelo França Corrêa Gerson Lachtermacher Maria Augusta Soares Machado Os modelos baseados em médias móveis são bastante objetivos e eficientes para sinalizar tendências de mercado. Entretanto, apresentam grave problema: devido a sua construção matemática, tendem a permanecer sempre “atrás” do preço analisado. Em mercados voláteis, com preços subindo e descendo rapidamente, esse atraso pode resultar em perdas. A finalidade deste trabalho é demonstrar como as técnicas de redes neurais podem eliminar deficiências e melhorar a performance das tradicionais médias móveis, utilizadas na análise técnica de investimentos. Foi construída uma rede neural para realizar a previsão da média móvel futura de três dias da ação Telemar PN. Em seguida, as previsões foram combinadas com médias passadas na criação de um novo modelo. Os resultados mostraram que o modelo alternativo conseguiu superar o desempenho dos tradicionais, baseados apenas em médias passadas. 89 ARTIGO TÉCNICO Introdução O mercado financeiro é afetado por grande número de fatores, de ordem econômica, política, psicológica etc. que interagem de diferentes maneiras. Devido a esse fato, na maioria das vezes, seus movimentos são de difícil previsibilidade. Mesmo assim, ao longo do último século, esse tema vem despertando interesse cada vez maior entre pesquisadores, cientistas e analistas financeiros. O estudo do comportamento do mercado ou de determinado ativo por meio de indicadores e gráficos, com o objetivo de projetar futuras tendências dos preços em função de comportamentos passados, é conhecido como análise técnica. Os analistas acreditam que os preços são impulsionados tanto pela psicologia de quem investe, quanto por qualquer outra variável financeira adjacente. Todas as informações disponíveis fornecem indicação da psicologia do investidor e da determinação de preços futuros. Aqui, as pressuposições são de que os preços se alteram em padrões previsíveis, que não há investidores marginais aproveitando-se desses padrões para eliminá-los, e que o investidor mediano é impulsionado mais pela emoção do que pela análise racional (Damodaran, 1999). A análise técnica teve seu início com Charles H. Dow (1851–1902), fundador e editor do Wall Street Journal, cuja primeira edição foi publicada em 8 de julho de 1889. Entre 1900 e 1902, Dow escreveu uma série de editoriais sobre métodos de especulação com ativos negociados na bolsa de Nova Iorque, que foram a base da teoria que leva o seu nome e fonte de estudo para vários analistas que viriam a seguir. Seu maior objetivo era determinar alterações nos movimentos de longo prazo do mercado. Diversos pesquisadores, a partir da teoria de Dow, fizeram trabalhos que mereceram destaque, por exemplo, Willian Peter Hamilton, que publicou no Wall Street Journal, em 25 de outubro de 1929, às vésperas do crash, o editorial The Turn of the Tide (A Mudança da Maré), que previa corretamente o fim da longa tendência de alta dos anos de 1920. Com o passar do tempo, várias teorias surgiram e foram ganhando força no mundo científico. Conceitos como suporte e resistência, tendências e retas de tendência e comportamentos padronizados do mercado se popularizaram entre os investidores. Em 1978, J. Welles Wilder Jr. publicou o livro New Concepts in Technical Trading Sistems, marcando o início da era dos indicadores, com o Índice de Força Relativa (IFR), o Índice de Movimento Direcional (DMI) e o Parabólico, dentre outros. No Brasil, a análise técnica começou a se difundir a partir de 1983, permitindo que muitos investidores obtivessem altos lucros com a longa tendência de alta na Bolsa de Valores de São Paulo (Bovespa), que começou 12 anos depois do grande topo de 1971, e culminou com o Plano Cruzado, em março de 1986, tendo tido seu ápice no dia 28 de abril de 1986. Apesar das constantes evoluções e dos progressos científicos no mundo todo, a análise técnica ainda enfrenta um antigo adversário na tentativa de identificar tendências em determinadas séries de preços: o ruído das informações, que consiste em movimento errático do preço e, por definição, é imprevisível. Pode ser considerado como o produto dos participantes, que são motivados por propósitos distintos, comprando e vendendo em momentos diferentes (Kaufman, 1998). Médias móveis Dentre os métodos mais eficientes de previsão de séries contendo ruídos estão as médias móveis. Estas são bastante objetivas e eficazes na sinalização de tendências do mercado, antecipando parte da direção futura dos preços. Podem ser calculadas por meio de fórmulas matemáticas simples, contrastando com modelos subjetivos baseados na visualização de gráficos. A estratégia tradicional de negociação baseada nesse modelo consiste no cálculo de duas médias de diferentes tamanhos. Quando a média mais curta cruza a longa para cima, é sinalizada tendência de alta. Caso contrário, o movimento é de baixa. O crossover das médias móveis filtra os ruídos nos dados eliminando as flutuações e oscilações de curto prazo na direção do preço. 90 ARTIGO TÉCNICO Figura 1 – Preço e médias móveis de 3 e 20 dias do Dow Jones 20 de fevereiro a 7 de maio de 2001 Como mencionado, as médias móveis possuem grave deficiência: o atraso. A construção matemática das médias móveis faz com que os sinais sejam gerados sempre “atrás” do preço analisado. Em mercados que se movem em alta velocidade, com os preços subindo e descendo rapidamente, esse atraso geralmente significa grandes perdas (Mendelsohn, 2000). Visando minimizar esse problema alguns modelos utilizam médias ponderadas – reduzindo o atraso na sinalização das tendências por meio da atribuição de pesos maiores aos valores mais recentes da série, o que permite que as médias respondam de maneira mais rápida às reações do mercado – ou exponenciais, em cujo modelo, os preços mais próximos à data atual são elevados a valores maiores, em vez de pesos. Essas duas alternativas minimizam o problema do atraso desses indicadores. Mas nenhuma elimina a deficiência dos modelos. Recentemente, modelos baseados em redes neurais vêm sendo utilizados com sucesso na previsão de séries financeiras e na precificação de ativos (Amilon, 2003; Azoff, 1994; Cheh e Weinberg, 1999; Hutchinson et al., 1994; Kutsurelis, 1998; Refenes et al., 1994; Yao e Tan, 2000 e Freitas e Souza, 2002). O uso desses modelos pode ser justificado pela capacidade que a rede neural tem de funcionar como “aproximador universal” de funções contínuas (Cybenko, 1989). Para suprir as deficiências das médias móveis e fazer com que sejam capazes de antecipar tendências, Mendelsohn (2000) propõe o uso de médias móveis por meio de técnicas de redes neurais, inicialmente, na previsão de médias futuras. Depois, as médias previstas são utilizadas no lugar das curtas e combinadas com as passadas mais longas para compor o modelo final. Obtendo-se uma boa aproximação da média futura, as sinalizações geradas pelas médias móveis deixam de estar sempre “atrasadas” e passam a ser “antecipadoras de tendências”. Baseando-se na idéia de Mendelsohn (2000), este artigo tem como objetivo mostrar como a combinação das médias móveis com as redes neurais pode ser feita por meio de um estudo de caso. Foi construída uma rede neural para realizar a previsão da média futura de três dias de uma ação negociada na Bovespa – a Telemar PN, que representa as ações preferenciais dessa companhia, devido a sua alta volatilidade. Os valores previstos foram posteriormente combinados com médias móveis para compor o modelo alternativo. O desempenho alcançado foi comparado com a performance de modelos tradicionais de médias móveis, baseados apenas no cruzamento de médias passadas de diferentes tamanhos. 91 ARTIGO TÉCNICO Redes neurais Definição As redes neurais, baseadas na estrutura e no funcionamento do sistema nervoso humano, ao contrário de modelos tradicionais, em que uma ação precisa ser tomada para decidir sobre determinado caso, aprendem a resolver problemas por meio da interação com o ambiente (Braga et al., 2000). Essa habilidade fez com que suas aplicações fossem difundidas em diversos campos como modelagem de dados, reconhecimento de padrões e análise de séries temporais. Para alcançar bom desempenho, as redes empregam a interligação maciça dos “neurônios”. Uma de suas características é a propensão natural para armazenar conhecimento experimental e torná-lo disponível para o uso. Sua semelhança com o cérebro pode ser verificada em dois aspectos: o conhecimento é adquirido a partir do ambiente por intermédio de um processo de aprendizagem, e as forças de conexão entre os neurônios (pesos) são usadas para armazenar esse conhecimento (Haykin, 2001). O neurônio é uma unidade de processamento da rede e é composto de quatro elementos básicos: um conjunto de conexões com pesos próprios; um somador dos sinais de entrada ponderados pelos pesos do neurônio; uma função de ativação, que tem como objetivo principal limitar a amplitude do sinal de saída; e um bias ou viés. O bias aumenta ou diminui a entrada da função de ativação, dependendo se é positivo ou negativo (Haykin, 2001). A Figura 1 mostra o modelo de um neurônio na camada j, onde x1, x2, ..., xn são os valores de entrada; w0j, w1j, ..., wnj são os pesos do neurônio; b é o bias; e f é a função de ativação. Figura 2 – Modelo de um neurônio artificial na camada j Fonte: Han; Kamber, 2001. Em geral, os neurônios organizam-se em camadas. A primeira é a de entrada, na qual são recebidas as informações, e a última é a de saída. Dentre estas, podem ou não haver camadas intermediárias ou ocultas, que tornam a rede capaz de extrair estatísticas de ordem elevada. A arquitetura de uma rede consiste na sua organização estrutural: número de camadas e de neurônios em cada uma destas, tipo de conexão entre os neurônios e a topologia (Braga et al., 2000). Treinamento e aprendizagem A aprendizagem a partir do ambiente é uma função de importância fundamental, visto que é por meio desta que a rede se torna capaz de solucionar problemas. Consiste no processo pelo qual os parâmetros da rede são ajustados a partir de estímulos do ambiente. 92 ARTIGO TÉCNICO Apesar da existência de diversos métodos de aprendizagem, estes podem ser divididos em dois grandes grupos: os métodos supervisionados e os não-supervisionados. O primeiro é o mais comum no treinamento das redes neurais. É chamado de supervisionado porque as entradas e saídas desejadas são fornecidas por supervisor externo ou “professor”. Nos métodos não-supervisionados, apenas os parâmetros de entrada são fornecidos, não existindo a figura do supervisor. A partir do momento em que a rede verifica regularidades estatísticas nos padrões de entrada, esta desenvolve a habilidade de formar representações para codificar características de entrada e criar classes automaticamente (Braga et al., 2000 e Haykin, 2001). O processo de aprendizagem é interativo e consiste na aplicação de ajustes aos pesos e aos níveis de bias. A cada apresentação de novo sinal de entrada ou iteração, a rede se torna mais instruída. O algoritmo de treinamento define o procedimento usado para o ajuste dos valores, que levam as redes neurais a realizar as funções desejadas. Outro componente importante é a taxa de aprendizagem, que controla a intensidade das variações dos pesos. Quanto maior for o valor desse parâmetro, mais rápido será o treinamento. Porém, valores excessivamente altos podem tornar a rede instável (Haykin, 2001). Escolha do modelo Neste trabalho, será utilizada uma rede do tipo Multilayer Perceptron (MLP), pois suas camadas intermediárias possibilitam a aproximação de funções contínuas e não-lineares das entradas. A existência de apenas uma camada permitiria somente a solução de problemas linearmente separáveis, ou seja, quando os padrões se encontram em lados separados de um hiperplano (Haykin, 2001). O algoritmo de treinamento será o backpropagation, o mais popular aplicado às redes MLP. Esse método consiste em um aprendizado supervisionado, em que são fornecidos os valores de entrada e de saída. É realizado em duas etapas: a forward e a backward. Na primeira, a rede calcula os valores de saída a partir dos dados de entrada. Na segunda, são atualizados os pesos associados a cada conexão de acordo com as diferenças entre as saídas obtidas e as desejadas. Braga et al. (2000), Han e Kamber (2001) e Haykin (2001) descrevem com detalhes o funcionamento do algoritmo de retro-propagação. Figura 3 – Modelo de uma rede totalmente conectada e com “alimentação adiante” Com o objetivo de evitar o problema do overfitting – especialização da rede nos dados de treinamento e perda da capacidade de generalização – será utilizado o mecanismo do early stopping. Os dados devem ser divididos em três grupos: treinamento, validação e teste. O primeiro serve para que a rede seja treinada. Na época do treinamento, é verificado se a precisão alcançada na previsão dos dados de validação também continua 93 ARTIGO TÉCNICO melhorando. Quando isso não mais ocorre, é encontrado o ponto “ótimo” de treinamento e este é interrompido ao verificar se a rede criada é capaz de solucionar os problemas da base de teste. Escolha das variáveis e construção da rede O modelo foi construído a partir de indicadores utilizados na análise técnica de investimentos e preços históricos do próprio ativo. As variáveis derivadas da análise técnica foram as médias móveis de três, dez e 20 dias, o Índice de Força Relativo (IFR) e o Estocástico. Além destes, outras nove variáveis foram incluídas na pesquisa. A Tabela 1 traz a lista completa. Tabela 1 – Lista das variáveis utilizadas na construção do modelo Último preço de fechamento Último preço de abertura Último preço mínimo Último preço máximo Volume negociado Média móvel de 20 dias Média móvel de 10 dias Média móvel de 3 dias Tendência linear (6,5) Tendência linear (11,10) Tendência linear (7,5) Tendência linear (12,10) IFR Estocástico A variável “tendência linear” (x, n) é uma função que retorna x-ésimo valor ao longo de uma reta linear, traçada por meio da aplicação do método dos mínimos quadrados sobre valores conhecidos. Em Kutsurelis (1998), esse tipo de variável foi utilizado e os resultados finais foram satisfatórios. A saída da rede foi a média futura de três dias do ativo, calculada por meio da média aritmética dos preços de fechamento da data atual, D + 1 e D + 2. A construção da rede para a previsão da média futura foi feita por intermédio da Neural Network Toolbox, do software Matlab. Os dados foram ordenados de forma randômica e divididos em três bases: treinamento, validação e teste, com 70%, 10% e 20%, respectivamente. Para acelerar o treinamento, foram normalizados para que ficassem sempre compreendidos entre 0 e 1. A primeira rede foi construída com as 13 variáveis apresentadas na seção anterior. Após a exclusão de cada variável de entrada, novas redes foram sendo construídas sucessivamente, com o objetivo de se obter um modelo apenas com as entradas que colaborassem com uma melhor precisão da rede. Sendo assim, permaneceram no modelo final somente aquelas que contribuíram para melhor precisão. Optou-se por utilizar uma arquitetura com 32 neurônios na primeira camada oculta e 16 na segunda, mesmas características usadas por Refenes et al. (1994). A função de ativação usada em todas as camadas intermediárias foi a tangente hiperbólica. Na camada de saída, empregou-se a função logística sigmoidal. A taxa de aprendizado usada nos treinamentos foi 0,07. Foi empregada a função de treinamento traingdm do software Matlab, que implementa uma versão do algoritmo backpropagation com a inclusão do termo momentum. A comparação das redes foi feita com base no Erro Quadrático Médio (EQM) de cada uma, obtido pela média dos quadrados das diferenças entre a saída real e a saída prevista pela rede, conforme mostra a fórmula a seguir: 1 N 2 EQM = ∑ (Cmi − Ct i ) n i =1 Os treinamentos foram interrompidos em três situações: após 1.500 épocas, ao atingir um EQM igual a 10 ou em caso de ocorrência de early stopping. Após os testes de sensibilidade das variáveis, o modelo final foi definido. Foram utilizadas apenas sete variáveis: o último preço de fechamento, as médias móveis dos últimos dez e três dias e as quatro tendências lineares. –5 94 ARTIGO TÉCNICO Resultados A precisão da rede pode ser verificada na Tabela 2. Tabela 2 – Comparativo dos EQMs das bases utilizadas na construção, validação e testes da rede Base Treinamento Validação Teste Quantidade de registros Base (%) EQM 721 103 70 10 1,0252 1,0447 208 20 0,3703 Também foram feitas comparações entre os modelos de médias móveis tradicionais, que funcionam com base no cruzamento de médias passadas de diferentes tamanhos, e o modelo proposto no trabalho, que utiliza o cruzamento de uma média passada e a média futura prevista pela rede. A determinação das operações de compra e venda foram realizadas de acordo com as regras abaixo: se média curta > média longa, compra se média curta < média longa, venda Por intermédio dessas regras, obteve-se o resultado apresentado na Tabela 3. Tabela 3 – Comparativo de rentabilidade e quantidade de negócios (quantas vezes houve o cruzamento das médias) gerados pelos modelos construídos Média longa Média curta Rentabilidade (%) Quantidade de trades 50 dias 50 dias 20 dias 20 dias 10 dias 10 dias 3 dias 3 dias fut. (RN) 3 dias 3 dias fut. (RN) 3 dias 3 dias fut. (RN) 124,59 143,82 68,66 91,92 30,23 35,77 45 47 68 91 130 133 Não foram considerados os custos de transação, nem vendas a descoberto (as operações de venda só foram realizadas quando havia ações na carteira). A rentabilidade do ativo foi de 99,63%. A maior rentabilidade alcançada pelo modelo alternativo pode ser mais bem entendida na Figura 4. 95 ARTIGO TÉCNICO Figura 4 – Modelo alternativo: antecipação ao modelo tradicional de médias móveis na detecção de tendências de preços A Figura 4 mostra como o modelo alternativo consegue antecipar tendências que seriam detectadas posteriormente pelo modelo convencional, composto apenas de médias passadas. No período selecionado, o primeiro “ponto de antecipação” ocorre em 7 de dezembro de 2000. A média prevista cruza a média longa para cima e detecta nova tendência de alta dois dias antes que a média dos últimos três dias. Isso gera ganho de 4,62%, referente às altas de 3,76% em 7 de dezembro de 2000 e 0,83% em 8 de dezembro de 2000, sobre o modelo tradicional. A segunda antecipação ocorre em 20 de dezembro de 2000. Dessa vez, a média futura cruza a média de 50 dias para baixo e antecipa tendência de baixa, evitando perda de 1,29%, que ocorreria caso o modelo tradicional tivesse sido utilizado. Nem todos os cruzamentos das médias foram claros e nítidos como as do período destacado. Alguns erros na previsão da média futura geraram cruzamentos, que dispararam sinais indevidos de compra e venda, sendo alguns deles rentáveis, outros não. Conclusões Este trabalho teve como objetivo aplicar a proposta de Mendelsohn (2000) para introduzir previsões feitas por redes neurais em modelos baseados em médias móveis. Os resultados encontrados mostraram que as redes neurais podem melhorar o desempenho desse tradicional modelo, utilizado com freqüência na análise técnica de investimentos. Tentativas para melhorar a precisão da rede podem ser realizadas com a inclusão de outras variáveis no modelo, por exemplo, cotações do dólar, CDI (taxa livre de risco), Ibovespa e índices de outras bolsas de ações. Outras tentativas válidas no sentido de minimizar, tanto o erro das previsões, como o tempo do treinamento, podem ser feitas com a utilização de algoritmos voltados para criação de redes construtivas, em que a estrutura é definida de forma dinâmica ao longo do treinamento (Braga et al., 2000). 96 ARTIGO TÉCNICO Mendelsohn (2000) sugere também a criação de trading systems, que tomam decisões com base nas saídas de várias redes neurais integradas. Dentre as previsões das redes que podem ser usadas no apoio à decisão, estão os preços mínimos e máximos do dia seguinte, além das médias futuras. Bibliografia AMILON, Henrik. A Neural Network Versus Black and Scholes: A Comparison of Pricing and Hedging Performances. Journal of Forecasting, vol. 22, pp. 317–335, 2003. AZOFF, E. M. Neural Network Time Series Forecasting of Financial Markets. Chicester, John Wiley & Sons Ltd., Baffins Lane, 1994. BRAGA, A.; CARVALHO, A.; LUDERMIR, T. Redes Neurais Artificiais: Teoria e Aplicações. Livros técnicos e científicos, Rio de Janeiro, 2000. CHEH, John J.; WEINBERG, Randy S. An Application of an Artificial Neural Network Investment System to Predict Takeover Targets. Journal of Applied Business Research, vol. 15 Issue 4, p.33, 1999. CYBENKO, G. Aproximation by Superpositions of a Sigmoidal Function. Math. Control Signal Systems, pp. 304–314, 1989. DAMODARAN, Aswath. Avaliação de Investimentos: Ferramentas e Técnicas para a Determinação de Qualquer Ativo. Rio de Janeiro: Qualitymark, 1999. FERRACINI, Márcio. Stop! Estratégia de Proteção para Mercados de Risco. Monografia, Faculdade de Administração da IBMEC, Rio de Janeiro, 1999. FREITAS, Sander Oliveira de; SOUZA, Artur Antônio de. Utilização de um Modelo Baseado em Redes Neurais para a Precificação de Opções. ENANPAD, 2002. HAN, Jiawei; KAMBER, Micheline. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001. HAYKIN, Simon. Redes Neurais – Princípios e Práticas. Porto Alegre: Bookman, 2001. HUTCHINSON, J.; LO, A.; POGGIO, T. A Nonparametric Approach to Pricing and Hedging Derivative Securities Via Learning Networks. Journal of Finance, 49, pp. 851–889, 1994. KAUFMAN, Perry J. Trading Systems and Methods. John Wiley & Sons, 1998. KUTSURELIS, Jason E. Forecasting Financial Markets Using Neural Networks: an Analysis of Methods and Accuracy. Thesis–Master of Science in Management, Naval Postgraduate School, 1998. MENDELSOHN, Louis B. Trend Forecasting with Technical Analysis. Marketplace Books, 2000. REFENES, A.N.; ZAPRANIS, A.; Francis, G. Stock Performance Modeling Using Neural Networks: a Comparative Study with Regression Models, vol. 7, nº 2, pp. 375–388, 1994. YAO, J.; TAN, C. L. Option Price Forecasting Using Neural Networks. Omega, vol. 28, pp. 455–466, 2000. Marcelo França Corrêa é doutorando em Engenharia Elétrica pela PUC–RJ. E-mails: [email protected]. Gerson Lachtermacher é Ph.D. pela University of Waterloo, Ontario, Canadá. E-mail: [email protected]. Maria Augusta Soares Machado é pós-doutora em Inteligência Computacional Aplicada pela PUC–RJ. E-mail: [email protected]. 97