Investigando a Previsão da Curva de Juros Brasileira: Modelos de Fatores Lineares, VAR Bayesiano e Modelagem ARFIMA João F. Caldeira Departamento de Economia e PPGE Universidade Federal do Rio Grande do Sul Hudson S. Torrent Departamento de Estatı́stica e PPGE Universidade Federal do Rio Grande do Sul Abstract Producing accurate forecasts of the term structure of interest rates is crucial for bond portfolio management, derivatives pricing, and risk management. Unfortunately, when analyzing brazilian yield curve, all the forecasting models proposed so far in the macroeconomic and financial literature have a hard time in producing forecasts more accurate than a simple no-change forecast (i.e. a random walk forecast). In this paper we consider a bunch of models in order to investigate which ones are more appropriate to forecast yield curve in Brazil. In particular, we consider two estimators not before considered in the literature for Brazil: Bayesian VAR and ARFIMA class models. In the forecast exercise conducted in this paper the methods Bayesian VAR and ARFIMA present a valuable performance. Resumo A previsão acurada da estrutura a termo da taxa de juros é crucial para gestão de portfólio de tı́tulos, precificação de derivativos e gestão de risco. Entretanto, quando analisada a curva de juros para o mercado brasileiro, os modelos de previsão propostos na literatura de macroeconomia e finanças apresentam, na maioria dos casos, performance preditiva inferior à performance de um simples processo random walk. Portanto, neste trabalho consideramos uma série de modelos, a fim de investigar quais são aqueles mais apropriados para a previsão da curva de juros no Brasil. Em particular, consideramos dois estimadores ainda não considerados na literatura para o Brasil: VAR Bayesiano e modelos da classe ARFIMA. No exercı́cio de previsão apresentado no paper, os métodos VAR Bayesiano e ARFIMA apresentam uma performance interessante. Keywords: Term structure of interest rate, Forecasting, nonlinear models, parametric models. Palavras Chave: Curva de juros, Previsão, modelos não lineares, Modelos paramétricos. JEL C53, E43, G17 ∗ Autor Correspondente: J. F. Caldeira, Departamento de Economia e PPGE – UFRGS; E-mail: [email protected]; Tel.: +55-(51)3308-3440; Fax: +55-(51)3308-4050. Preprint submitted to 34o EBE 24 de setembro de 2012 1. Introdução A estrutura a termo da taxa de juros define a relação entre o yield de um tı́tulo de renda fixa e o tempo até o vencimento do seu fluxo de caixa (maturidade). Assim, a curva de juros zero-cupom fornece a relação para tı́tulos que fazem apenas um pagamento, na maturidade. A curva de juros zero-cupom serve como base para precificação de outros instrumentos de renda fixa e como input para vários modelos como, por exemplo, gestão de risco, polı́tica monetária e precificação de deriviativos. Embora os preços de tı́tulos zero-cupom possam ser usados para construir a curva de juros diretamente, a falta de liquidez do mercado e o limitado espectro de maturidades disponı́veis levam à necessidade da estimação através dos preços de tı́tulos com cupom. Produzir previsões precisas da estrutura a termo das taxas de juros é crucial para a gestão de carteira de tı́tulos de renda fixa, precificação de derivativos e gestão de risco. Diversos trabalhos apresentam formas alternativas, bem sucedidas, de previsão para a curva de juros zero-cupom para a economia americana. Porém, quando se trata da curva de juros brasileira, grande parte dos modelos de previsão propostos até agora na literatura macroeconômica e financeira têm apresentado dificuldades em produzir previsões mais precisas do que um simples processo random walk. Mais detalhadamente, os modelos para construção de curvas de juros existentes podem podem ser divididos em três classes: os modelos de não arbitragem; os modelos de equilı́brio; e modelos estatı́sticos ou paramétricos. O primeiro grupos contém modelos que se baseiam no paradigma de não-arbitragem. Os modelos de não arbitragem têm foco no perfeito ajuste da estrutura a termo em um dado ponto do tempo, assegurando que não existam possibilidades de arbitragem, o que é importante para o apreçamento de derivativos. Exemplos de modelos desta classe são Ho & Lee (1986), Heath et al. (1992), Hull & White (1990) e Dai & Singleton (2002). Na maioria dos casos a implementação prática destes modelos envolve impor uma especificação afim a um conjunto de fatores latentes. Os modelos afins da estrutura a termos funcionam muito bem para ajuste da curva de juros (ver, por exemplo, de Jong, 2000; Dai & Singleton, 2002) mas apresentam fraco desempenho quando o objetivo é fazer previsão. Duffee (2002) mostra que é difı́cil bater o random walk em termos de previsões usando um modelo afim tradicional de não-arbitragem da estrutura a termo. Esta primeira classe de modelos têm a clara vantagem de ser fundamentada na teoria de finanças, enquanto o segundo grupo é aquele que até agora produziu os melhores resultados na precisão das previsões de amostra. Os modelos de equilı́brio têm foco na modelagem da taxa instantânea, utilizando tipicamente modelos afins, depois disso, as taxas de outros vencimentos podem ser derivadas sob várias suposições acerca do prêmio de risco. Estes modelos tentam prever a curva de juros futura através de informações contidas nas taxas forwards atuais. Modelos desta classe foram desenvolvidos em Vasicek (1977) Cox et al. (1985), Duffie & Kan (1996) e Cochrane & Piazzesi (2005). Ang & Piazzesi (2003) mostram que impor condição de não-arbitragem em modelos afim melhoram a previsão fora da amostra, mas o ganho em relação ao random walk ainda é pequeno, já Almeida & Vicente (2008) encontram evidências ligeiramente mais favoráveis a este respeito. Hördahl et al. (2006), Favero et al. (2007) e Mönch (2008) analisaram modelos com variáveis macroeconômicas e mostraram que estas variáveis contribuem para uma melhor previsão da dinâmica da curva de juros. A classe de modelos estatı́sticos ou paramétricos é composta por modelos de componentes principais, modelos de fatores ou de variáveis latentes, bem como por modelos de interpolação. De acordo com MatznerLober & Villa (2004), grande parte da intuição a respeito da dinâmica da rentabilidade de tı́tulos de renda fixa provém de modelos dessa classe, como em Litterman e Scheinkman (1991) e em Pearson & Sun (1994). 2 Dentre os modelos de fatores, o modelo de Nelson & Siegel (1987) e suas variantes, por exemplo, os modelos de Diebold & Li (2006) e Svensson (1994a) são os mais populares entre gestores de renda fixa e bancos centrais conforme relatório do BIS (2005). Diebold & Li (2006) argumentam que, apesar dos grandes desenvolvimentos na modelagem teórica da estrutura a termo dos juros, pouca atenção foi dada à previsão da estrutura a termo. Os modelos de não arbitragem são focados no ajuste para um dado ponto do tempo e têm muito pouco a dizer sobre dinâmica ou previsão fora da amostra. Já os modelos de equilı́brio possuem algumas implicações dinâmicas dado um certo prêmio de risco, o que possibilita algum tipo de conclusão a respeito de previsões fora da amostra. Entretanto, ainda de acordo com Diebold & Li (2006), a maioria dos trabalhos dedicados a modelos de equilı́brio focaram na performance dentro da amostra. Exceções são Duffee (2002), que mostra que os modelos livre de arbitragem têm baixa performance em previsões fora da amostra; e Egorov et al. (2011) que mostram que modelos afins com volatilidade estocástica são capazes de prever a distribuição condicional conjunta da rentabilidade dos tı́tulos de renda fixa. Tanto as especificações de Nelson & Siegel (1987) como Svensson (1994a) são capazes de reproduzir uma variedade das possı́veis formas assumidas pela curva de juros. Entretanto, os modelos paramétricos não são imunes a problemas. Os modelos Nenslon & Siegel e Sensson não são formulados em uma estrutura dinâmica e o primeiro modelo não é condizente com não-arbitragem (ver Filipovic, 2009; Bjork & Christensen, 1999; Diebold et al. , 2005; Christensen et al. , 2009, 2011). A primeira desvantagem foi abordada por Diebold & Li (2006) , que aplicaram iterativamente uma versão simplificada do modelo de Nelson & Siegel para um conjunto de dados dinâmicos da curva de juros. Posteriormente, estimaram modelos de séries de temporais para as séries dos fatores a fim de gerar previsões para a curva de juros de zero-cupom, (a esse respeito ver Diebold et al. , 2006; Almeida et al. , 2008; Caldeira et al. , 2010). Alguns autores dedicaram atenção ao segundo problema, por exemplo, (ver Christensen et al. , 2007, 2009; Laurini & Hotta, 2010). Fama & Bliss (1987) propuseram uma metodologia para construção da estrutura a termo via taxas forwards estimadas para as maturidades observadas. O método consiste em seqüencialmente construir as taxas forwards necessárias para precificar sucessivamente tı́tulos com maturidades mais longas, chamadas de taxas forwards não-suavizadas de Fama e Bliss. A taxa de juros a termo resultante deste procedimento é uma função com saltos (descontı́nua) em relação ao vencimento do tı́tulo que esta sendo utilizado (ver Hagan & West, 2005). Embora os modelos paramétricos sejam importantes ferramentas para a estimação e previsão da curva de juros americana, esses modelos apresentam performance preditiva menos interessante, quando analisado o mercado brasileiro de curva de juros. Nesse sentido, acreditamos ser desejável buscar e investigar alternativas capazes de superar a performance preditiva desses modelos para o Brasil. Vamos considerar neste trabalho, além de parte dos modelos supracitados, duas formas alternativas de estimação da curva de juros zerocupom brasileira: VAR bayesiano e modelagem ARFIMA. O primeiro estimador proposto, VAR Bayesiano, é motivado pelo recente trabalho de previsão de curva de juros para a economia americana de Carriero et al. (2012). A ideia aqui é investigar se o processo de análise dos dados, inerentes à metodologia bayesiana, é capaz de trazer ganhos para a previsão de curva de juros para o caso brasileiro. Mais detalhes sobre essa metodologia serão dados em seções posteriores. Além disso, propomos investigar a performance de modelos da classe ARFIMA na previsão da taxa de juros. A intuição para a utilização dessa classe de modelos para o caso brasileiro reside no seguinte fato: a quase totalidade das maturidades, se observadas ao longo do tempo, se comporta como um processo próximo ao random walk. Ou seja, cada maturidade certamente não 3 é um processo da classe ARMA e também não parece apresentar estrutura de autocorrelação suficiente que justifique a utilização de modelos da classe ARIMA. A ideia aqui é, portanto, abrir a possibilidade de que o processo seja algo entre um processo I(0) (estacionário) e um processo I(1) (raiz unitária). Este trabalho, portanto, tem por objetivo investigar uma série de métodos, a fim de contribuir para a previsão da curva de juros zero-cupom da economia brasileira. O trabalho possui mais cinco seções além desta introdução. Na seção seguinte definimos o objeto de estudo, qual seja, a curva de juros zero-cupom. Na seção 3 descrevemos os modelos autorregressivos utilizados para fazer previsão da curva de juros; na quarta seção, desenvolvemos a metodologia de métodos paramétricos tradicionalmente usados em previsão para a curva de juros. Na seção 5, a performance preditiva dos métodos paramétricos citados é comparada com a performance dos modelos autorregressivos. A seção 6 estabelece algumas conclusões. 2. Estrutura a termo, conceitos e notações Estrutura a termo da taxa de juros descreve a relação entre as taxas de juros e tı́tulos com diferentes maturidades. A taxa de juros de curto prazo é a taxa de juros anualisada de um perı́odo de tempo inifinitesimal. Na prática, entretanto, a taxa de juros para horizonte de três meses é considerada uma melhor aproximação da taxa de curto prazo porque, por exemplo, empréstimos overnight são afetados por fatores que os modelos de estrutura a termo não cobrem (Anderson & Sleath, 2001). Neste artigo definimos a taxa de juros de curto prazo como: rt = yt (0) = lim yt (τ ) τ →0 onde t denota o momento no tempo, τ a maturidade e yt (τ ) a correspondente taxa de juros. Seja Bt (τ ) o preço de um tı́tulo zero-cupom no tempo t que paga $1.00 na maturidade, τ , e yt (τ ) a correspondente taxa de juros. Bt (τ ) = exp [−yt (τ )τ ] (1) Rescrevendo a equação (1) obtem-se uma forma de descrever a taxa de juros como uma função do valor do tı́tulo: 1 yt (τ ) = − log(Bt (τ )). τ (2) Desde que Bt (τ ) é um fator de desconto simples, é claro que yt (τ ) não pode assumir valores negativos para assegurar que o fator de desconto descrito em (2) assuma valores entre zero e um. Na prática, no entanto, surgem complicações, apesar de serem observados tı́tulos negociados com diferentes maturidades, a curva de juros não é diretamente observada, muito menos curvas de juros zero-cupom para vencimentos padronizados. Assim, a curva de juros deve ser estimada a partir dos preços dos tı́tulos observados. As taxas forward implı́citas são definidas como taxas de retornos marginais que os investidores requerem para manter tı́tulos de diferentes maturidades. O conjunto de taxas forward instantâneas, f (u), estão relacionadas aos preços de um tı́tulo zero-cupom com maturidade τ , Bt (τ ) por: Z Bt (τ ) = exp − τ f (u)du (3) 0 A equação (3) mostra que para medir estas taxas forwards diretamente do mercado requer um conjunto de preços de tı́tulos zero-cupom observáveis para um continuum de maturidades (a função de desconto). Na 4 prática as funções de desconto não são diretamente observáveis – são observados apenas os preços de tı́tulos com e sem cupons. No entanto, o preço observado de cada tı́tulo pode ser escrito em termos desta função de desconto. Fazendo ci denotar o fluxo de caixa de um tı́tulo no tempo τi e n refere-se ao número de pagamentos restantes, o preço do tı́tulo, P (ci , τi ) i = 1, . . . , n, pode ser expresso como: P (ci , τi ) = n X ci B(τi ) (4) i=1 Juntamente com a equação (3), isto mostra que há uma relação direta entre os preços dos tı́tulos que são observados e as taxas forward instantâneas. Outras complicações surgem, entretanto, por que embora sejam negociados tı́tulos com diversas maturidades, não são observadas em cada perı́odo de tempo yields para maturidades padronizadas. Assim, as curvas de juros precisam ser estimadas a partir dos preços dos tı́tulos observados. Um abordagem amplamente usada para construção de curvas de juros foi proposta por McCulloch (1971, 1975), que modela a curva de desconto através de splines polinomiais.1 3. Previsão da Curva de Juros com Modelos Auto-regressivos Nesta seção são apresentados os dois modelos auto-regressivos, BVAR e ARFIMA, que são a maior contribuição deste trabalho, por não terem sido até então aplicados ao problema de previsão da curva de juros brasileira. Além disso, diferentes modelos auto-regressivos comumente considerados na literatura de previsão de curva de juros são apresentados. São eles randon walk e modelos lineares (modelos autorregressivos e vetores autorregressivos). 3.1. Vetor Auto-regressivo Bayesiano (BVAR) Considere o seguinte vetor autorregressivo: yt = A + Byt−1 + εt , (5) O modelo VAR acima pode ser escrito em uma notação mais compacta, definido como um sistema de regressões multivariado: F + E Y = X T ×N T ×K K×N T ×N (6) 0 0 0 0 0 Onde Y = [yh+1 , . . . , yT ] , X = [X1 , . . . , XT ] com Xt = Yt−1 . . . , Yt−p , 1, , F = [Ah , Bh ] é uma matriz 0 K ×N contendo todos os coeficientes e E = [εh+1 , . . . , εT ] é a matriz de resı́duos. Note que o vetor de taxas de juros yt é regredido diretamente sobre yt−h , o que significa que é empregado um modelo diferente para cada horizonte de previsão, abordagem direta, discutida anteriormente. Alternativamente pode ser empregada a abordagem powering up.2 A abordagem direta implica que a previsão h-passos à frente é uma função linear dos coeficientes: ŷt+h = Âh + B̂h yt , enquanto na abordagem tradicional as previsões multi passos à frente é função não-linear dos coeficientes estimados. A confiança na prior é imposta definindo os momentos a seguir para a distribuição a priori dos coeficientes: 1 Para mais detalhes e aplicações deste método, ver Hagan & West (2006) e Hayden & Ferstl (2010). uma discussão e comparação destas abordagens alternativas ver, por exemplo, Marcellino et al. (2006), Carriero et al. (2011) e Pesaran et al. (2011). 2 Para 5 h E Bij h i ( = δi se i = j 0 se i 6= j , h i σi2 Var Bij = θ h σj2 (7) Assume-se que os coeficientes em {Bij h } tem prior independente e normalmente distribuı́da. Finalmente, a especificação é concluı́da assumindo que o intercepto Ah tem prior normal difusa e a matriz dos resı́duos tem prior Wishart invertida, Σ ∼ iW (v0 , S0 ), em que v0 e S0 são parâmetros de escala e forma da prior, onde 2 Σ = diag σ12 , . . . , σN . Banbura et al. (2010) sugerem definir δi = 1 para todo i, refletindo a crença de que todas as variáveis são caracterizadas por elevada peristêncua. As taxas de juros, independente da maturidade, são processos que exibem elevada persistência, portanto, não é surpreendente que um modelo autorregressivo simples e processos Random Walk sem drift produzem boas previsões das taxas de juros. Assim, é razoável supor que a prior de cada taxa de juros em (6) siga um AR univariado com elevada persistência, ou seja, E [B] = 0.99 × I, também é necessário avaliar o quão forte é a confiança na prior definindo uma variância. O hiperparâmetro θ controla a proximidade da prior em torno do random walk ou AR e governa a importância relativa da confiança na priori em relação às informações contidas nos dados. Para θ → 0 a posterior é igual a prior e os dados não influenciam as estimativas. Se θ → ∞, por outro lado, a expectativa posterior coincide com as estimativas de OLS. Banbura et al. (2010) argumentam que θ devere ser escolhido levando-se em conta o tamanho do sistema. À medida que o número de variáveis aumenta o parâmetro deve ser reduzido para evitar overfitting (ver, De Mol et al. , 2008). Para operacionalizar a prior é preciso escolher o valor do hiperparâmetro θ. Assim como em Carriero et al. (2012), neste trabalho o valor de θ é definido de forma a maximiaxar a densidade marginal que pode ser obtida integrando para todos os coeficientes do modelo, i.e., definindo o conjunto de todos os coeficientes do modelo como Θ, a densidade maginal é: Z p (Y |Θ) p (Θ) dΘ p(Y ) = (8) Considerando a prior como uma distribuição normal Wishart invertida a densidade p(Y ) pode ser computada em forma fechada (ver Bauwens et al. , 2000). Em cada ponto do tempo θ é escolhido de forma a maximizar: θt∗ = arg max ln p(Y ) (9) θ Para a escolha do parâmetro θ é considerado um grid de valores, θ ∈ {2e−16 , 4e−16 , 6e−16 , 8e−16 , 1e−15 , 0.00001, 0.0001, 0.001, 0.01, 0.1, 10}. Como é estimado um modelo para cada horizonte de previsão, também é selecionado um θ∗ ótimo para cada horizonte. O valor ótimo de θ∗ fica próximo a 0.001 para todos os horizontes de previsão considerados, sendo que se o parâmetro for mantido fixo em 0.001 para toda a amostra os resultados são muito similares. O fator σi2 /σj2 é um parâmetro de escala que leva em conta diferentes escalas e variabilidade dos dados. O parâmetro de escala é definido de acordo com Carriero et al. (2012) igual à variância dos resı́duos de um modelo autorregressivo univariado para as variáveis. A distribuição a priori normal invertida de Wishart pode ser escrita como: vec (F) |Σ ∼ N (vec (F0 ) , Σ ⊗ Ω0 ) , 6 e Σ ∼ iW (S0 , α0 ) (10) onde os parâmetros da prior F0 Ω0 , S0 e α0 são escolhidos de tal forma que a esperança e variância de F coincidam com o previsto pela equação (7), E[Fh ] = F0 e Var[Fh ] = Σ ⊗ Ω0 . Em que h ai esperança de Σ é igual à matriz de covariância dos resı́duos e os elementos de Ω0 são dados por Var Bij em (7). Como é h usada uma prior iW conjugada, a distribuição posterior também será normal Wishart invertida: vec (F) |Σ ∼ N F, Σ ⊗ Ω , Σ|Y ∼ IW (S, α) (11) as barras denotam distribuições posteriores dos parâmetros. Definindo F̂ e Ê como as estimativas de OLS, −1 −1 −1 0 0 tem-se que F = Ω−1 Ω0 F0 + X0 Y , Ω = Ω−1 , α = α0 + T e S = F̂0 X0 XF̂ + 0 +X X 0 F0 + X X 0 0 F00 Ω−1 0 F0 + F0 + Ê Ê − F̂ Ω −1 F̂. Para realizar inferência e previsão é necessário a distribuição posterior conjunta e as distribuições marginais dos parâmetros F e Σ. Pode-se usar as posteriores condicionais em (11) como base de um algoritmo Gibbs sampling que gera realizações a partir das condicionais Σ|Y e Fh |Σ, Y e produz uma sequência de realizações da distribuição conjunta posterior, Fh |Σ, Y e posteriores da marginal Σ|Y e Fh |Σ, Y, bem como a distribuição posterior de qualquer função destes coeficientes (por exemplo, previsões multi-passos). Caso o interesse seja apenas pela distribuição posterior de F (ao invés de qualquer função linear da mesma) existe uma alternativa à simulação, que é através da integração de (11): −1 vec (F) |Y ∼ N vec F , Ω , S, α .3 (12) O valor esperado desta distribuição é dado por: 0 F = Ω−1 0 +X X −1 0 Ω−1 0 F0 + X Y (13) que pode ser calculada facilmente. Lembrando que F̂ é o estimador de OLS e usando as equações normais (X0 X)−1 F̂ = X0 Y a equação (13) pode ser reescrita como: −1 −1 F = Ω0−1 + X0 X Ω0 F0 + X0 XF̂ (14) a qual mostra que a média posterior de F é uma média ponderada do estimador de OLS e da média a-priori F̂0 , sendo que os pesos são proporcionais ao inverso de suas respectivas variâncias. Quando θ → 0 a estimativa posterior colapsa para F̂ = F̂0 , com uma prior difusa θ → ∞ a estimativa posterior colapsa para a estimativa irrestrita de OLS. 0 Dado a média posterior F = A0 , B0 , pode-se obter previsões h-passos à frente através de: Ŷt+h = Ah + Bh Yt (15) Banbura et al. (2010) mostram que é possı́vel implementar a prior descrita acima através de um conjunto de observações dummy (para detalhes ver, Banbura et al. , 2010; Carriero et al. , 2012). 3 Para uma derivação desta equação ver Carriero et al. (2012). 7 3.2. Modelos ARFIMA Os modelos da classe ARFIMA se caracterizam como processos de memória longa fracionalmente integrados. A presença de memória longa pode ser definida de forma heurı́stica em termos da persistência das autocorrelações observadas, como descrito em Baillie (1996). No caso da curva de juros do mercado brasileiro, ao considerarmos a função de autocorrelação referente a uma determinada maturidade, observada ao longo do tempo, percebemos uma estrutura de autocorrelação com decaimento lento. Tomando a primeira diferença do processo, o resultado é um processo com estrutura de correlação às vezes semelhante a um processo white noise ou a algum processo com autocorrelação significativa, mas que não se parece com um processo da classe ARMA. Desse modo, modelar o processo original para cada maturidade através de modelos ARIMA parece não ser o mais correto. Por outro lado, parece haver estrutura de correlação a ser modelada, de modo que tratar a série como um random walk pode resultar em perda de informação. Ou seja, a distinção entre modelos I(0) e I(1) para o objeto de estudo pode ser excessivamente restritivo e o processo ARFIMA, sendo entendido como algo intermediário, pode gerar melhores previsões. Um processo da classe ARFIMA(p,d,q) pode ser definido como βp (L)(1 − L)d yt = αq (L)et , onde L é o operador de defasagens; βp (L) = Pp j=0 βj Lj ; αq (L) = Pq j=0 αj Lj , com α0 = 1; βp (L)αq (L) 6= 0 para |L| ≤ 1 e et ∼ RB(0, σe2 ) estacionário e invertı́vel. Se −0, 5 < d < 0, 5 então o processo yt é chamado de um processo ARFIMA(p,d,q). Utilizamos nesse trabalho a função arf ima do pacote f orecast, presente no sof tware R para realizar a estimação da ordem do processo e de seus coeficientes. A previsão foi feita a partir da função f orecast presente no mesmo pacote. 3.3. Random Walk (RW) O primeiro e mais importante modelo competidor é o Random Walk (RW). As previsão do RW para a taxa de juros de maturidade τ no tempo t + h é dada por: ŷt+h (τ ) = yt (τ ) (16) Duffee (2002) e Diebold & Li (2006) mostraram que bater as previsões do Random Walk para a curva de juros é uma tarefa difı́cil, portanto, neste trabalho as previsões do RW é o benchmark em relação ao qual serão comparadas as previsões de todos os demais competidores. 3.4. Modelos Autorregressivos Univariados (AR) Também são realizadas previsões através de modelos autorregressivos univariados. Previsões de tal processo podem ser produzidas de duas formas alternativas. A primeira forma é conhecida como abordagem powering-up. Nesta abordagem é estimado o seguinte modelo: yt+h (τ ) = α + βyt+h−1 (τ ) + εt 8 (17) para a maturidade genérica τ . A previsão um passo à frente é obtida por ŷt+1 (τ ) = α̂ + β̂yt+h−1 (τ ), enquanto as previsões para o horizonte de h-passos à frente são obtidas por: ŷt+h (τ ) = α̂ + β̂yt+h−1 (τ ) Alternativamente, pode-se usar a abordagem direta. Esta abordagem otimiza diretamente a função de perda relevante, i.e., o Erro Quadrático Médio da Previsão h-passos à frente (MSFE) e provou ser mais robusta, mas menos eficaz (ver, por exemplo, Marcellino et al. , 2006; Pesaran et al. , 2011; Carriero et al. , 2012). O modelo a ser estimado é dado por: yt (τ ) = αh + βh yt−h (τ ) + εt (18) ou seja, a variável no tempo t é projetada diretamente sobre seu valor no perı́odo (t − h) de forma que os coeficientes estimados sintetizam o efeito h-passos à frente. Note que diferentes valores para αh e βh são obtidos para cada horizonte de previsão. As previsões são derivadas como: ŷt+h (τ ) = α̂τ h + β̂τ h yt (τ ) + εt (19) Neste trabalho são estimadas as duas abordagens, sendo rotuladas de AR(pu) e AR(di), respectivamente. Note-se que para o horizonte de 1-passo à frente dos dois métodos produzem os mesmos resultados. Uma questão relevante quando se trabalha com modelos autorregressivos é a escolha do tamanho do lag. Os modelos descritos acima são AR(1), mas em princı́pio poderia ser empregada outra ordem de defasagem, p. Também foram consideradas outras especificações dinâmicas e foram re-estimados ambos os modelos AR (com abordagem power-up e direta), sendo que o tamanho do lag foi por meio dos Critério de Informação Bayesiano (BIC) e Akaike (AIC). A ordem de defasagem oscila entre 1 e 4, dependendo do perı́odo de tempo considerado, mas os resultados finais são semelhantes aos obtidos com a especificação AR(1), mais simples. Portanto, são apresentados apenas os resultados da especificação AR(1), os demais resultados estão disponı́veis mediante solicitação. 3.5. Vetores Autorregressivos (VAR) As previsões com modelos V AR são produzidas de forma semelhante às previsões dos modelos AR univariados. Espeficamente, as previsões através de V AR powering-up são obtidas como segue. O modelo de regressão é: yt = A + Byt−1 + εt , (20) 0 onde yt = (yt (τ1 ), yt (τ2 ), . . . , yt (τN )) . A previsão um passo à frente é produzida como ŷt = Â + B̂yt−1 , enquanto que previsões h-passos à frente são obtidas como: ŷt+h = Â + B̂yt+h−1 (21) No caso da abordagem direta as previsões são obtidas da seguinte forma. O modelo de regressão é: yt = Ah + Bh yt−h + εt , 9 (22) 0 onde yt = (yt (τ1 ), yt (τ2 ), . . . , yt (τN )) . Note que diferentes matrizes Ah e Bh são usadas para cada horizonte de previsão. As previsões são derivadas como: ŷt+h = Âh + B̂h yt (23) São considerados resultados para ambas as abordagens, rotulando-as de V AR(pu) e V AR(di), respectivamente. Note que para horizonte de um passo à frente os dois métodos produzem o mesmo resultado. Também foram consideradas outras especificações com maior ordem de defasagem, porém os resultados são bastante pobres e estão disponı́veis mediante solicitação. 4. Modelos Paramétricos de Fatores para Previsão da Curva de Juros Nesta seção apresentamos os modelos de fatores amplamente abordados na literatura de previsão da curva de juros. O princı́pio básico desses modelos está na especificação de uma função valor, que é definida sobre todo o domı́nio das maturidades. Enquanto as várias abordagens nesta classe de modelos defendem diferentes escolhas da função, compartilham a abordagem geral de que os parâmetros do modelo sejam determinados através da minimização dos desvios quadrados dos preços observados em relação aos teóricos. Nesta seção são apresentados alguns dos principais modelos paramétricos para prever a curva de juros, conforme relatório do BIS (2005). Os modelos paramétricos oferecem uma descrição conceitualmente simples e parcimoniosa da estrutura a termo da taxa de juros. 4.1. Modelo de Nelson & Siegel Nelson & Siegel (1987), propõem uma função parcimoniosa para modelar a taxa forward instantânea como uma função, f (τ, b), de um vetor de parâmetros relativamente pequeno, b. Neste caso as taxas forward são definidas como: ft (τ, β) = β1 + β2 exp −τ λ + β3 τ exp λ −τ λ (24) com o vetor de parâmetros a ser estimado b = (β1 , β2 , β3 , λ). Estes parâmetros podem ser interpretadas como sendo relacionados ao nı́vel de longo prazo da curva de juros, a taxa de curto prazo, inclinação da curva de juros e uma curvatura na curva. A função ft (τ, β) tem caracterı́sticas desejáveis para capturar a forma da estrutura a termo. Uma delas é a existência dos limites da função ft (τ, β) para τ = ∞ e para τ = 0, i.e.: ft (τ, β) = β1 τ →∞ ft (τ, β) = β1 + β2 τ →0 Diebold & Li (2006) propuseram uma versão dinâmica do modelo de Nelson & Siegel (1987) e alcançam bons resultados em termos de previsão da curva de juros para fora da amostra. O ponto de partida é a seguinte interpolação da curva de juros: 1 − e−λτ yt (τ ) = β1 + β2 + β3 λτ 10 1 − e−λτ − eλτ λτ (25) onde b = (β1 , β2 , β3 , λ) são os parâmetros. Diebold & Li (2006) interpretam a equação (25) de uma forma dinâmica como um modelo de fatores latentes em que β1 , β2 e β3 são fatores de nı́vel, inclinação e curvatura variantes no tempo e os termos que multiplicam estes fatores são suas respectivas cargas: yt (τ ) = β1t + β2t 1 − e−λτ + β3t λτ 1 − e−λτ − eλτ λτ (26) Para as maturidades longas, as taxas à vista e forwards aproximam-se assintoticamente do valor β1 , o qual deve ser positivo. (β1 + β2 ) determinam o valor inicial da curva na maturidade zero. Assim, β2 representa o desvio da assı́ntota β1 . Além disso, (β1 + β2 ) também deve ser positivo. Os dois parâmetros restantes β3 e τ são responsáveis pela curvatura. A magnitude da curvatura é dada pelo valor absoluto de β3 , enquanto a direção é dada pelo sinal: um sinal negativo indica uma forma de U , enquanto um sinal positivo indica forma de U invertido. τ , o qual também deve ser positivo, determina a posição da curvatura. 4.2. Modelo de Svensson Para melhorar a flexibilidade das curvas e o ajuste, Svensson (1994b) amplia o modelo de Nelson & Siegel (1987) incluindo mais um parâmetro que pode ser interpretado como uma segunda curvatura. A precisão extra é alcançada ao custo de adicionar mais dois parâmetros, β4 e τ2 , os quais precisam ser estimados. A curva de juros resultante é dada por: 1 − e−λ1 τ λ1 τ yt (τ ) = β1t + β2t ! + β3t 1 − e−λ1t τ − e−λ1 τ λ1 τ + β4t 1 − e−λ2 τ − e−λ2 τ λ2 τ . (27) Esta especificação permite uma segunda curvatura na curva de juros. Assim, o método de Svensson (1994b) é mais flexı́vel e geralmente tem melhor ajuste que o modelo de Nelson & Siegel (1987), com o custo de ser menos parcimonioso. Um potencial problema de multicolinearidade no modelo de SV surge se os parâmetros de decaimento λ1 e λ2 assumem valores similares. Para contornar o problema de multicolinearidade, −2τ Pooter (2007) propõe substituir o último termo em (27), i.e, − exp −τ λ2 por − exp λ2 . Esta especificação é chamada aqui de modelo de Svensson ajustado. 4.3. Modelo de Três Fatores de Bliss Uma segunda opção para tornar o modelo de Nelson-Siegel mais flexı́vel é obtida relaxando a restrição de que os componentes de inclinação e curvatura são governados pelo mesmo parâmetro de decaimento λ. Bliss (1997) estima a estrutura a termo da curva de juros através de um modelo com três fatores, similar ao modelo de Nelson-Siegel, mas que permite dois parâmetros de decaimento diferentes, λ1 e λ2 . A curva de juros resultante é dada por: yt (τ ) = β1t + β2t 1 − e−λ1 τ + β3t λ1 τ 1 − e−λ2 τ − eλ2 τ λ2 τ (28) Obviamente, o modelo de Bliss será diferente do modelo de Nelson-Siegel apenas se λ1 6= λ2 . 4.4. Procedimentos de estimação A abordagem mais direta e amplamente usada para estimação dos fatores e parâmetros dos modelos (26), (27) e (28) consiste em um procedimento de duas etapas (Diebold & Li, 2006). Na primeira etapa, a equação 11 da curva de juros é tratada como um modelo cross section e é empregado o método de mı́nimos quadrados para estimar os fatores para todos os perı́odos de tempo individualmente. Na segunda etapa, a dinâmica dos fatores é especificada e ajustada por modelos de séries de tempo. Para simplificar o procedimento de estimação, Diebold & Li (2006) sugerem reduzir o vetor de parâmetros para b = (β1 , β2 , β3 ) fixando o valor de λt em um valor especificado a priori, o qual é mantido fixo, ao invés de tratá-lo como um parâmetro desconhecido. Almeida et al. (2008), propõem o uso de quatro regras para determinar o valor do parâmetro de decaimento, em que para cada uma delas o parâmetro é otimizado com base no horizonte de previsão desejado. O primeiro passo do procedimento de estimação produz séries de tempo dos valores estimados para cada T um dos K fatores; {βi,t }t=1 , para i = 1, . . . , K. O próximo passo é estimar a dinâmica dos fatores da equação dos estados. Para cada especificação do modelo é estimado um modelo AR(1) para cada fator ou, alternativamente, modela-se a dinâmica dos fatores através de um V AR(1). A escolha dos parâmetros de decaimento para os modelos de Nelson-Siegel e Svensson é restrita ao intervalo entre 0.04 e 0.5, pois estes valores correspondem ao peso máximo para a curvatura da estrutura a termo na maior (48 meses) e na menor (6 meses) maturidade da base de dados, respectivamente. Seguindo estas restrições, constrói-se o conjunto Φ = {0.04 + 0.001j}491 j=1 . Dado λj ∈ Φ e a correspondente matriz de pesos dos fatores Λ(λj ) e, baseado neles, o vetor de fatores bt é estimado por OLS em cada perı́odo t. O b ∈ Φ é o que minimiza a raı́z da soma do erro quadrático médio. Mais parâmetro de decaimento escolhido λ b é escolhido de forma a minimizar a diferença entre as taxas de juros obtidas pelo modelo, especificamente, λ yb, e as taxas observadas, y. O problema de otimização pode ser apresentado como: v u T X N u 1 X 2 t b λ = arg min yt (τi ) − ybt (τi , λ, bt|t−1 ) T N λ∈Φ t=1 i=1 onde T é o número de curvas de juros na amostra. Nos modelos de Svensson e Bliss o problema é similar, com a diferença de que neste caso é necessário b1 , λ b2 ) do conjunto Θ = {(λι , λι )|λ1 ∈ Φ, λ2 ∈ Φ}. Assim, (λ1 , λ2 ) resolvem o encontrar dois parâmetros (λ 1 2 seguinte problema: b1 , λ b2 λ v u T X N u 1 X 2 = arg min t yt (τi ) − ybt (τi , λ1 , λ2 , bt|t−1 ) . T N (λ1 ,λ2 )∈Θ t=1 i=1 5. Dados, Metodologia de Previsão e Análise Fora da Amostra 5.1. Descrição dos Dados A base de dados empregada aqui consiste das taxas diárias de fechamento dos contratos de DI-futuro negociados na BM&F. As maturidades constantes foram computadas através do método Cubic Splines. A tabela 1 resume algumas estatı́sticas descritivas da curva de juros para o perı́odo. Alguns fatos estiliazados comuns a dados de curvas de juros estão claramente presentes: a curva média da amostra é positivamente inclinada e côncava, volatilidade é decrescente com a maturidade e as autocorrelações são altas. Outro ponto a destacar é que mesmo se tratando de um perı́odo amostral não muito longo, percebe-se ampla variação entre as taxas mı́nimas e máximas para todas as maturidades, refletindo o comportamento da polı́tica monetária 12 no perı́odo. As três últimas colunas trazem as autorrelações com defasagens de 1, 5 e 21 dias úteis, observa-se também que as taxas de juros para maturidades mais curtas exibem maior persistência para os três nı́veis de defasagens analisados, o que está de acordo com a literatura relacionada ao tema. Tabela 1: Estatı́sticas descritivas da curva de juros brasileira. Perı́odo Amostral 2007:01 - 2010:12. Maturidade τ Média Std. Dev. Skew Kurt Min Max ρb(1) ρb(5) ρb(21) Meses 1 3 6 9 12 15 18 21 24 27 30 33 36 39 42 10.80 10.82 10.88 10.94 11.09 11.34 11.60 11.85 12.04 12.21 12.33 12.43 12.50 12.60 12.68 1.64 1.65 1.67 1.69 1.72 1.73 1.72 1.68 1.61 1.55 1.49 1.45 1.41 1.32 1.24 8.51 8.58 8.59 8.58 8.61 8.73 8.99 9.35 9.55 9.79 10.06 10.27 10.42 10.71 11.09 14.13 14.34 14.52 14.69 15.32 16.04 16.40 16.92 17.12 17.26 17.44 17.62 17.78 17.83 17.93 0.169 0.220 0.264 0.306 0.386 0.495 0.572 0.655 0.718 0.805 0.912 1.005 1.085 1.281 1.465 1.957 2.006 2.071 2.132 2.241 2.373 2.461 2.565 2.659 2.815 3.026 3.290 3.586 4.180 4.910 0.999 0.999 0.999 0.999 0.999 0.998 0.998 0.997 0.996 0.995 0.995 0.994 0.993 0.992 0.990 0.996 0.997 0.997 0.996 0.995 0.992 0.989 0.986 0.982 0.979 0.975 0.972 0.968 0.961 0.955 0.967 0.969 0.968 0.967 0.961 0.950 0.938 0.925 0.911 0.894 0.877 0.859 0.843 0.814 0.788 Nota: Esta tabela apresenta estatı́sticas descritivas das taxas de juros diárias para diferentes maturidades. A três últimas colunas contém autocorrelações com defasagem de um dia, uma semana e um mês, respectivamente. A figura 1 mostra o gráfico das séries temporais para o conjunto de maturidades empregadas e ilustra como o nı́vel da curva de juros e spread variam substancialmente ao longo do perı́odo amostral. Por exemplo, o último ano da amostra usado para análise das previsões fora da amostra é caracterizado por elevação das taxas de juros, principalmente para as maturidades mais curtas, que respondem mais diretamente à polı́tica de elevação de juros implementada pelo Banco Central no primeiro semestre de 2010. Nota-se também que não apenas o nı́vel da estrutura a termo flutua ao longo do tempo, mas também a inclinação e curvatura. A curvatura assume vários formatos, desde formas suaves a formas invertidas, tipo S. Outra caracterı́stica observada nos dados da curva de juros utilizados é a rejeição da hipótese nula de normalidade para toda a amostra, devido à assimetria positiva e excesso de curtose. Além disso, alguns fatos estilizados na literatura a respeito de curvas de juros são também observados, como o fato de que curvas de juros normalmente são positivamente inclinadas, as taxas de juros para as maturidades mais curtas são mais voláteis e apresentam maior persistência. 5.2. Medidas Estatı́sticas de Performance M A fim de avaliar as previsões, é empregado o erro quadrático médio das previsões (M F SE). Seja ŷt+h (τ ) a previsão de yt+h (τ ) obtida pelo modelo M. O Erro Quadrático Médio de Previsão (M F SE) do modelo 13 Figura 1: Term-Structure Dynamics over Time Note: This figure details the evolution of the term structure of interest rates over 1972:01-2000:12. We examine monthly data, constructed using the unsmoothed Fama-Bliss method. The maturities we show are 3, 6, 9, 12, 15, 18, 21, 24, 30, 36, 48, 60, 72, 84, 96, 108 and 120 months. Panel A presents a 3-dimensional plot, Panel B provides time-series plots for selected maturities.. M para a previsão da taxa de juros de maturidade τ para o horizonte h é: M M SF Eτ,h = 2 1 X M ŷt+h (τ ) − yt+h (τ ) T −K (29) em que a soma é calculada sobre todas as previsões (T − K) produzidas. A acurácia das previsões são avaliadas em termos erro quadrático médio das previsões relativos ao Random Walk : M RM SF Eτ,h = M M SF Eτ,h RW M SF Eτ,h (30) Para dar uma idéia do nı́vel absoluto dos erros e facilitar a comparação com outros estudos são apresentados q RW . Como é padrão na literatura, também a Raiz do Erro Quadrático Médio do Random Walk, i.e., M SF Eτ,h os resultados são apresentados em termos de taxas de juros percentuais anualizadas. Por exemplo, um RM SF E de 0.26 indica um erro de 26 pontos base na previsão da taxa de juros anualizada. Para avaliar se as previsões de dois modelos concorrentes são diferentes estatisticamente significantes é empregado o teste de Diebold & Mariano (ver, Diebold & Mariano, 1995; McCracken, 2007) para testar a acurácia das previsões. As previsões geradas por cada modelo são comparadas com aquelas obtidas com o Random Walk. Seja {di }ni=1 uma função das diferenças dos erros quadráticos das previsões obtidas pelo modelo M e pelo Random Walk. A o valor de di é calculado como: 2 2 M RW di ŷt+h (τ ) − yt+h (τ ) − ŷt+h (τ ) − yt+h (τ ) 14 (31) M RW As variáveis ŷt+h (τ ) e ŷt+h (τ ) são as previsões no tempo t, h-passos à frente do modelo M e Random Walk, respctivamente. Diebold & Mariano (1995) propuseram um teste para checar se o diferencial de perda médio Pn di = n1 i=1 di é estatisticamente diferente de zero, o qual é definido por: d DM = q d −→ N (0, 1) (32) δ̂ n onde δ̂ é uma estimativa da matriz de covariância de longo prazo de di . Neste trabalho são empregadas as estimativas de δ̂ de Newey & West (1987), as quais permitem controlar para a presença de correlação serial nos erros de previsão. 5.3. Previsões fora da amostra Nas subseções seguintes descrevemos o exercı́cio de previsão implementado nesse estudo. As previsões são realizadas através de um esquema rolling window e são considerados os seguintes horizontes de previsão h = 1, 5, 21, 63, 126, i.e, diário, semanal, mensal, trimestral e semestral. Seja κ a origem de previsão, isto é, o momento no tempo no qual uma iteração de previsão é implementada. O esquema de previsão recursiva consiste em estimar os parâmetros aumentando recursivamente origem da previsão de κ = K = 500 até κ = T − h. No esquema de previsão rolling window, a janela fixa de tamanho K = 500 que termina na origem de previsão e começa no tempo κ − K + 1 é sequencialmente atualizada.4 São utilizadas 15 maturidades na estimação (τ = 1, 3, 4, 6, . . . , 30, 36, 42 e 48 meses). O último ano da amostra é usado para análise das previsões fora da amostra. A abordagem para fazer previsão da curva de juros com os modelos da classe Nelson-Siegel consiste em fazer previsões dos fatores, e então usar os fatores previstos para ajustar previsões da curva de juros. As previsões no tempo t, para t + h, da taxa de juros com maturidade τ , são dadas por: 1 − e−λτ b λτ b ybt+h|t (τ ) = βb1,t+h|t + βb2,t+h|t ! 1 − e−λτ b − e−λτ b λτ b + βb3,t+h|t ! . As previsões dos fatores são obtidas através de processos AR e VAR. Na tabela 2 apresentamos o RMSE para as previsões para diversos horizontes de previsão. Algumas caracterı́sticas merecem destaque. Para previsão um passo à frente, percebe-se uma melhor performance dos modelos VAR(pu), ARIMA, ARFIMA, BVAR e DL(VAR) para maturidades mais curtas (até 9 meses). Para as demais maturidades, os modelos AR(pu) e AR(di) apresentam melhor performance. É importante notar que, para horizonte de 1-passo à frente, é sabido na literatura a dificuldade para se superar a performance do random walk. Para previsão cinco passos à frente, percebe-se uma performance destacada do modelo BVAR para maturidades mais curtas (até 9 meses). Para previsão vinte e um passos à frente, percebe-se uma melhor performance do modelo BVAR para as maturidades 1 e 3 meses; uma performance destacada do modelo de fatores SV(AR) para as maturidades de 6-meses até a maturidade de 33-meses. Vale também ressaltar a performance consistente do modelo ARFIMA nesse caso. Para horizonte de 3 meses, destacam-se 4 Note-se que K = 500 equivale a cerca de 2 anos de dados. Foram considerados outros tamanhos de janela, mas os resultados permanecem qualitativamente semelhantes. 15 Tabela 2: Erro Quadrático Médio Relativo, Base de Dados de DI-FuturoPerı́odo 2010:01 - 2010:12. Nota: A Tabela contém os Erros Quadráticos Médios das Previsões relativos ao Random Walk obtidas usando cada um dos modelos competidores para horizontes de 1- e 5- passos à frente, 1-, 3- e 6- meses à frente. O perı́odo de avaliação vai de 2010:01 a 2010:12. Para o Random Walk é apresentado o erro quadrático médio das previsões (RFMSE). Os modelos competidores considerados são modelos lineares estimados com abordagens direta e powering-up (AR(pu), AR(di), VAR(pu) e VAR(di), VAR Bayesiano (BVAR), modelos de Diebold & Li e Svensson com dinâmica dos fatores modelada por AR e VAR). Os asteriscos indicam o nı́vel ao qual o teste de Giacomini & White (2006) rejeita a hipótese nula de igualdade na acurácia das previsões (∗ , ∗∗ e ∗∗∗ significam rejeição ao nı́vel de 10%, 5% e 1%, respectivamente). Maturidade Horizonte: 1-passo à frente RW (Root blaMSFE) AR(pu) AR(di) VAR(pu) VAR(di) ARIMA ARFIMA BVAR DL(AR) DL(VAR) SV(AR) SV(VAR) Horizonte: 5-passos à frente RW (Root blaMSFE) AR(pu) AR(di) VAR(pu) VAR(di) ARIMA ARFIMA BVAR DL(AR) DL(VAR) SV(AR) SV(VAR) Horizonte: 21-passos à frente RW (Root blaMSFE) AR(pu) AR(di) VAR(pu) VAR(di) ARIMA ARFIMA BVAR DL(AR) DL(VAR) SV(AR) SV(VAR) Horizonte: 3-meses à frente RW (Root blaMSFE) AR(pu) AR(di) VAR(pu) VAR(di) ARIMA ARFIMA BVAR DL(AR) DL(VAR) SV(AR) SV(VAR) Horizonte: 6-meses à frente RW (Root blaMSFE) AR(pu) AR(di) VAR(pu) VAR(di) ARIMA ARFIMA BVAR DL(AR) DL(VAR) SV(AR) SV(VAR) 1Mês 3Meses 6Meses 9Meses 12Meses 15Meses 18Meses 21Meses 24Meses 27Meses 30Meses 33Meses 36Meses 42Meses 48Meses 0.04 0.04 0.04 0.05 0.05 1.03 1.03 0.95 1 0.96 0.96 0.93 3.78 0.95 1.18 1.21 1.03 1.03 0.96 1 0.97 0.95 0.94 1.65 0.94 1.47 1.39 1.02 1.02 0.97 1 0.97 0.97 0.96 2.13 0.96 1.32 1.30 1.01 1.01 1 1 0.97 0.98 0.98 2.49 0.98 1.17 1.26 1.00 1.00 1.03 1 0.99 1.01 1.00 1.92 1 1.14 1.15 0.05 0.06 0.06 0.06 0.06 0.07 0.07 0.08 0.08 0.08 1.00 1.00 1.04 1 1.01 1.02 1.01 1.1 1.01 1.06 1.06 1.00 1.00 1.05 1 1.01 1.01 1.01 1.34 1.02 1.06 1.08 0.99 0.99 1.07 1 1.00 1.02 1.01 1.77 1.02 1.02 1.08 0.99 0.99 1.08 1 1.01 1.00 1.01 1.88 1.02 1.06 1.07 0.99 0.99 1.08 1 1.01 1.00 1.01 1.74 1.02 1.13 1.11 0.99 0.99 1.07 1 1.01 1.00 1.01 1.56 1.02 1.06 1.07 0.99 0.99 1.06 1 1.01 1.00 1.01 1.22 1.02 0.99 1.00 0.99 0.99 1.07 1 1.00 1.00 1.00 1.08 1.01 1.03 1.01 0.99 0.99 1.06 1 1.00 1.01 1.00 1.55 1.01 1.05 1.02 0.99 0.99 1.03 1 1.00 1.01 1.00 1.92 1.01 1.03 1.05 0.10 0.11 0.12 0.14 0.15 1.10 1.09 1.06 1 0.87 0.88 0.78 1.71 1.12 1.12 1.09 1.09 1.08 1.07 1 0.88 0.86 0.83 0.91 1.11 1.00 1.12 1.06 1.06 1.05 1 0.91 0.92 0.88 1.04 1.09 0.99 1.15 1.04 1.04 1.05 1 0.95 0.95 0.95 1.15 1.07 0.96 1.13 1.01 1.01 1.03 1 0.97 0.96 1.01 1.06 1.06 0.97 1.05 0.15 0.15 0.15 0.15 0.16 0.16 0.17 0.17 0.18 0.18 1.00 1.01 1.03 1 0.99 0.99 1.04 0.99 1.05 0.99 1.03 0.99 1.00 1.03 1 1.00 0.99 1.04 1.08 1.05 0.98 1.04 0.99 0.99 1.03 1 1.01 1.01 1.04 1.19 1.06 0.98 1.06 0.99 0.99 1.02 1 1.01 0.98 1.03 1.19 1.06 0.99 1.05 0.99 0.99 1.02 1 1.01 0.99 1.03 1.11 1.05 0.99 1.04 0.99 0.99 1.02 1 1.00 0.99 1.02 1.08 1.05 0.96 1.03 0.99 0.99 1.02 1 1.02 0.99 1.02 1.01 1.05 0.96 1.00 0.99 0.99 1.02 1 1.00 0.99 1.02 1.02 1.05 1.04 1.01 0.99 0.99 1.02 1 1.00 1.00 1.02 1.17 1.04 1.09 1.01 0.99 0.99 1.02 1 1.00 1.01 1.02 1.30 1.04 1.11 1.03 0.31 0.31 0.33 0.37 0.38 1.21 1.14 1.22 1 0.83 0.87 0.52 1.04 0.65 1.01 1.20 1.19 1.13 1.22 1 0.82 0.77 0.69 0.77 0.70 0.70 1.11 1.15 1.10 1.20 1 0.88 0.85 0.78 0.79 0.78 0.70 1.11 1.09 1.06 1.18 1 0.96 0.91 0.90 0.85 0.91 0.71 1.12 1.04 1.01 1.15 1 0.97 0.93 1.00 0.88 1.02 0.74 1.10 0.36 0.35 0.34 0.33 0.34 0.34 0.34 0.34 0.35 0.34 1.01 0.99 1.15 1 1.00 0.97 1.08 0.95 1.08 0.77 1.15 0.99 0.97 1.13 1 0.99 0.98 1.12 1.02 1.15 0.79 1.16 0.98 0.96 1.12 1 1.03 1.00 1.13 1.07 1.22 0.85 1.16 0.98 0.96 1.12 1 1.06 0.97 1.12 1.07 1.26 0.89 1.15 0.97 0.95 1.10 1 1.02 0.97 1.11 1.01 1.24 0.89 1.10 0.96 0.95 1.09 1 0.99 0.96 1.10 1.00 1.26 0.92 1.08 0.97 0.95 1.09 1 1.03 0.97 1.09 0.99 1.28 0.96 1.04 0.96 0.95 1.08 1 1.00 0.96 1.08 1.00 1.27 1.11 1.05 0.97 0.96 1.08 1 0.99 0.97 1.08 1.07 1.27 1.23 1.07 0.97 0.97 1.09 1 1.00 0.98 1.08 1.13 1.27 1.34 1.12 0.77 0.77 0.79 0.80 0.76 1.39 0.99 1.44 1 1.06 1.15 0.61 0.82 0.63 1.11 1.33 1.36 0.96 1.45 1 1.06 1.03 0.69 0.75 0.69 1.05 1.39 1.32 0.94 1.43 1 1.09 1.03 0.74 0.73 0.74 1.01 1.37 1.24 0.88 1.41 1 1.13 0.92 0.83 0.71 0.83 0.94 1.31 1.12 0.82 1.41 1 0.97 0.88 0.95 0.71 0.95 0.93 1.27 0.69 0.63 0.58 0.53 0.53 0.52 0.51 0.5 0.51 0.51 1.04 0.78 1.41 1 1.02 0.88 1.06 0.77 1.07 0.97 1.31 0.97 0.76 1.4 1 1.00 0.89 1.06 0.84 1.23 1.02 1.37 0.94 0.76 1.40 1 1.08 0.91 1.14 0.92 1.46 1.04 1.42 0.91 0.77 1.40 1 1.06 0.86 1.24 0.97 1.63 1.05 1.45 0.89 0.78 1.37 1 1.08 0.86 1.24 0.97 1.59 0.99 1.39 0.90 0.79 1.33 1 0.99 0.86 1.26 1.00 1.59 0.94 1.35 0.90 0.83 1.31 1 1.02 0.88 1.31 1.06 1.67 0.95 1.33 0.92 0.90 1.26 1 1.00 0.91 1.26 1.10 1.65 0.97 1.25 0.94 0.96 1.22 1 1.00 0.94 1.22 1.10 1.62 1.03 1.22 0.96 1.01 1.20 1 1.00 0.96 1.20 1.06 1.58 1.06 1.21 1.26 1.26 1.26 1.26 1.21 1.14 1.03 2.01 2.59 0.82 1 1.54 1.39 0.72 0.93 2.15 1.15 1.84 1.93 2.33 0.84 1 1.41 1.23 0.80 0.89 1.92 0.97 1.97 1.86 2.16 0.85 1 1.44 1.29 0.82 0.89 1.81 0.9 2.04 1.71 1.84 0.87 1 1.45 1.05 0.85 0.87 1.61 0.82 2.02 1.44 1.48 0.95 1 1.23 0.89 0.93 0.81 1.33 0.82 1.89 1.23 1.22 1.02 1 1.36 0.73 0.99 0.76 1.08 0.88 1.77 1.05 1.09 1.14 1 1.32 0.66 0.83 0.74 0.87 0.96 1.73 0.9 0.77 0.69 0.67 0.64 0.54 0.54 0.55 0.92 1.04 1.32 1 1.07 0.57 0.72 0.74 0.75 1.05 1.76 0.81 1.08 1.55 1 1.09 0.51 0.71 0.75 0.73 1.14 1.85 0.72 1.09 1.68 1 1.08 0.52 0.72 0.77 0.72 1.19 1.87 0.72 1.03 1.69 1 0.99 0.56 0.80 0.76 0.80 1.15 1.77 0.73 1.08 1.8 1 1.00 0.62 0.93 0.77 0.94 1.16 1.72 0.82 1.34 2.22 1 1.00 0.79 1.16 0.90 1.21 1.32 1.73 0.92 1.42 2.21 1 0.99 0.92 1.25 0.97 1.31 1.32 1.55 0.98 1.45 2.17 1 1.00 0.98 1.10 1.01 1.29 1.26 1.39 16 os modelos BVAR e DL(VAR) para maturidades curtas (1 a 9-meses); para maturidades intermediárias e longas, destaque para o modelo ARFIMA. Para horizonte h = 6 meses, esse padrão se repete. Novamente destaque para o modelo BVAR para maturidades curtas (1 a 9-meses) e performance destacada para o modelo ARFIMA para maturidades intermediárias e longas. De modo geral, podemos perceber que o estimador BVAR e os modelos de fatores apresentaram performance interessante para maturidades mais curtas, superando o random walk em diversas situações. Já o estimador ARFIMA e os modelos AR foram interessantes para previsão de maturidades intermediárias e longas, superando o random walk a partir do horizonte de 21 passos à frente. Em comparação com a literatura de previsão de curva de juros americana, percebe-se uma performance relativamente pobre do modelos de fatores quando considerado o objetivo de previsão da curva de juros brasileira. Para o Brasil, os modelos auto-regressivos (BVAR, ARFIMA e AR) mostraram-se mais úteis do que os modelos de fatores. Isso sugere uma que mais pesquisa deve ser conduzida na tentativa de um modelo que descreva mais razoavelmente o formato e dinâmica da curva de juros brasileira. 6. Conclusão Neste trabalho investigamos a performance preditiva da estrutura a termo da taxa de juros para o caso do Brasil a partir de diversos modelos existentes na literatura de finanças. Consideramos neste trabalho os populares modelos de fatores e, além disso, introduzimos dois estimadores alternativos que ainda não haviam sido aplicados para previsão de curva de juros no Brasil. Um deles é o estimador Bayesian VAR, recentemente proposto por Carriero et al. (2012) e aplicado à previsão de curva de juros do EUA. Além disso, consideramos modelos da classe ARFIMA, sob o argumento de que tratar a série temporal para uma determinada maturidade como I(0) seria falso, mas também tratá-la como I(1) poderia ser sobremaneira restritivo. Como resultado prático, para a amostra considerada, vimos que os modelos de fatores, populares na previsão de curva de juros, têm papel relevante para previsão de maturidades mais curtas, mas não constituem opção interessante para as demais maturidades. Isso ilustra uma certa peculiaridade da curva de juros brasileira em relação à curva de juros americana, visto que os modelos de fatores se mostram bem valiosos para previsão desta. Isto posto, vimos que o estimador BVAR se mostrou bastante relevante para previsão de maturidades mais curtas. Os modelos ARFIMA e AR se destacaram para maturidades intermediárias e longas. Portanto, a performance destacada de modelos auto-regressivos vis-à-vis modelos de fatores sugere que mais investigações são necessárias, a fim de se estabelecer um modelo que descreva bem a curva de juros para o Brasil. 17 Referências Almeida, Caio, & Vicente, José. 2008. The role of no-arbitrage on forecasting: Lessons from a parametric term structure model. Journal of Banking & Finance, 32(12), 2695–2705. Almeida, Caio, Gomes, Romeu, Leite, André, & Vicente, José. 2008. Movimentos da Estrutura a Termo e Critérios de Minimização do Erro de Previsão em um Modelo Paramétrico Exponencial. Revista Brasileira de Economia, 62(4), 497–510. Anderson, Nicola, & Sleath, John. 2001 (Mar.). New estimates of the UK real and nominal yield curves. Bank of England working papers 126. Bank of England. Ang, Andrew, & Piazzesi, Monika. 2003. A no-arbitrage vector autoregression of term structure dynamics with macroeconomic and latent variables. Journal of Monetary Economics, 50(4), 745–787. Baillie, Richard T. 1996. Long memory processes and fractional integration in econometrics. Journal of Econometrics, 73, 5–59. Banbura, Marta, Giannone, Domenico, & Reichlin, Lucrezia. 2010. Large Bayesian vector auto regressions. Journal of Applied Econometrics, 25(1), 71–92. Bauwens, Luc, Lubrano, Michel, & Richard, Jean-Francois. 2000. Bayesian Inference in Dynamic Econometric Models. Oxford University Press. BIS. 2005 (Oct.). Zero-coupon yield curves: technical documentation. BIS Papers 25. Bank for International Settlements (Monetary and Economic Department). Bjork, T., & Christensen, B.J. 1999. Interest Rate Dynamics and Consistent Forward Rate Curves. Mathematical Finance, 9, 323–348. Bliss, Robert R. 1997. Testing term structure estimation methods. Advances in Futures and Options Research, 9(1), 197–231. Caldeira, João F., Moura, Guilherme V., & Portugal, Marcelo S. 2010. Efficient Yield Curve Estimation and Forecasting in Brazil. EconomiA, 11(1), 27–51. Carriero, Andrea, Kapetanios, George, & Marcellino, Massimiliano. 2011. Forecasting large datasets with Bayesian reduced rank multivariate models. Journal of Applied Econometrics, 26(5), 735– 761. Carriero, Andrea, Kapetanios, George, & Marcellino, Massimiliano. 2012. Forecasting government bond yields with large Bayesian vector autoregressions. Journal of Banking & Finance, 36(7), 2026–2047. Christensen, Jens H. E., Diebold, Francis X., & Rudebusch, Glenn D. 2009. An arbitrage-free generalized Nelson-Siegel term structure model. Econometrics Journal, 12, 33–64. Christensen, Jens H.E., Diebold, Francis X., & Rudebusch, Glenn D. 2007. The affine arbitragefree class of Nelson-Siegel term structure models. Tech. rept. 18 Christensen, Jens H.E., Diebold, Francis X., & Rudebusch, Glenn D. 2011. The affine arbitragefree class of Nelson-Siegel term structure models. Journal of Econometrics, 164(1), 4–20. Clark, Todd E., & McCracken, Michael W. 2009. Improving Forecast Accuracy By Combining Recursive And Rolling Forecasts. International Economic Review, 50(2), 363–395. Cochrane, John H., & Piazzesi, Monika. 2005. Bond Risk Premia. American Economic Review, 95(1), 138–160. Cox, John C, Ingersoll, Jonathan E, Jr, & Ross, Stephen A. 1985. A Theory of the Term Structure of Interest Rates. Econometrica, 53(2), 385–407. Dai, Qiang, & Singleton, Kenneth J. 2002. Expectation puzzles, time-varying risk premia, and affine models of the term structure. Journal of Financial Economics, 63(3), 415–441. de Jong, Frank. 2000. Time-series and Cross-section Information in Affine Term Structure Models. Journal of Business and Economic Statistics, 18(1), 300–314. De Mol, Christine, Giannone, Domenico, & Reichlin, Lucrezia. 2008. Forecasting using a large number of predictors: Is Bayesian shrinkage a valid alternative to principal components? Journal of Econometrics, 146(2), 318–328. Diebold, F. X., & Mariano, R. 1995. Comparing Preditive Acuracy. Journal of Business and Economic Statistics, 13, 253–263. Diebold, Francis X., & Li, Canlin. 2006. Forecasting the term structure of government bond yields. Journal of Econometrics, 130(2), 337–364. Diebold, Francis X., Piazzesi, Monika, & Rudebusch, Glenn D. 2005. Modeling Bond Yields in Finance and Macroeconomics. American Economic Review, 95(2), 415–420. Diebold, Francis X., Rudebusch, Glenn D., & Borag[caron]an Aruoba, S. 2006. The macroeconomy and the yield curve: a dynamic latent factor approach. Journal of Econometrics, 131(1-2), 309–338. Duffee, Gregory R. 2002. Term Premia and Interest Rate Forecasts in Affine Models. Journal of Finance, 57(1), 405–443. Duffie, D., & Kan, R. 1996. A Yield-Factor Model of Interest Rates. Mathematical Finance, 6(4), 379–406. Egorov, Alexei V., Li, Haitao, & Ng, David. 2011. A tale of two yield curves: Modeling the joint term structure of dollar and euro interest rates. Journal of Econometrics, 162(1), 55–70. Fama, Eugene F, & Bliss, Robert R. 1987. The Information in Long-Maturity Forward Rates. American Economic Review, 77(4), 680–92. Favero, Carlo A., Niu, Linlin, & Sala, Luca. 2007. Term Structure Forecasting: No-arbitrage Restrictions vs. Large Information Set. Tech. rept. Ferraty, F., & Vieu, P. 2006. Nonparametric functional data analysis: theory and practice. 1st edn. 19 Filipovic, Damir. 2009. Term-Structure Models: A Graduate Course. Springer Finance. Giacomini, Raffaella, & White, Halbert. 2006. Tests of Conditional Predictive Ability. Econometrica, 74(6), 1545–1578. Hagan, P., & West, G. 2005. Interpolation schemes for curve construction. Applied Mathematical Finance. Hagan, P., & West, G. 2006. Interpolation methods for curve construction. Applied Mathematical Finance, 13(2), 89–129. Hayden, Josef, & Ferstl, Robert. 2010. Zero-coupon yield curve estimation with the package termstrc. Journal of Statistical Software, 36(i01), 1–34. Heath, David, Jarrow, Robert, & Morton, Andrew. 1992. Bond Pricing and the Term Structure of Interest Rates: A New Methodology for Contingent Claims Valuation. Econometrica, 60(1), 77–105. Ho, TSY, & Lee, S.B. 1986. Term Structure Moevements and the Pricing of Interest Rate Contingent Claims. The Journal of Finance, 41, 1011–1029. Hull, John, & White, A. 1990. Valuating Derivative Securities Using the Explicit Finite Difference Method. The Journal of Financial and Quantitaive Analysis, 25, 87–100. Hördahl, Peter, Tristani, Oreste, & Vestin, David. 2006. A joint econometric model of macroeconomic and term-structure dynamics. Journal of Econometrics, 131(1-2), 405–444. Laurini, Márcio P., & Hotta, Luiz K. 2010. Bayesian extensions to diebold-li term structure model. International Review of Financial Analysis, 19, 342–350. Marcellino, Massimiliano, Stock, James H., & Watson, Mark W. 2006. A comparison of direct and iterated multistep AR methods for forecasting macroeconomic time series. Journal of Econometrics, 135(1-2), 499–526. Matzner-Lober, Eric, & Villa, Christophe. 2004. Functional Principal Component Analysis of the Yield Curve. In: 21th International Conference AFFI. Association Francaise de Finance. McCracken, M. W. 2007. Asymtoptics for out of sample tests of Granger Causality. Journal of Econometrics, August, 719–752. McCulloch, J Huston. 1971. Measuring the Term Structure of Interest Rates. Journal of Business, 44(1), 19–31. McCulloch, J Huston. 1975. The Tax-Adjusted Yield Curve. Journal of Finance, 30(3), 811–30. Mönch, Emanuel. 2008. Forecasting the yield curve in a data-rich environment: a no-arbitrage factoraugmented VAR approach. Journal of Econometrics, 146(1), 26–43. Nelson, Charles R., & Siegel, Andrew F. 1987. Parsimonious Modeling of Yield Curves. The Journal of Business, 60(4), 473–489. 20 Newey, Whitney K, & West, Kenneth D. 1987. A Simple, Positive Semi-definite, Heteroskedasticity and Autocorrelation Consistent Covariance Matrix. Econometrica, 55(3), 703–08. Pearson, Neil D, & Sun, Tong-Sheng. 1994. Exploiting the Conditional Density in Estimating the Term Structure: An Application to the Cox, Ingersoll, and Ross Model. Journal of Finance, 49(4), 1279–1304. Pesaran, M. Hashem, & Timmermann, Allan. 2007. Selection of estimation window in the presence of breaks. Journal of Econometrics, 137(1), 134–161. Pesaran, M. Hashem, Pick, Andreas, & Timmermann, Allan. 2011. Variable selection, estimation and inference for multi-period forecasting problems. Journal of Econometrics, 164(1), 173–187. Pooter, Michiel De. 2007 (June). Examining the Nelson-Siegel Class of Term Structure Models. Tinbergen Institute Discussion Papers 07-043/4. Tinbergen Institute. Ramsay, J.O., & Silverman, B.W. 1997. Functional Data Analysis. 1st edn. Svensson, Lars E. O. 1994a (Sept.). Estimating and Interpreting Forward Interest Rates: Sweden 19921994. IMF Working Papers 94/114. International Monetary Fund. Svensson, Lars E. O. 1994b (Sept.). Estimating and Interpreting Forward Interest Rates: Sweden 19921994. IMF Working Papers 94/114. International Monetary Fund. Vasicek, Oldrich. 1977. An equilibrium characterization of the term structure. Journal of Financial Economics, 5(2), 177–188. 21