Instituto Nacional de Matemática Pura e Aplicada
Avaliação de Modelos de Risco através de
Backtesting
Autora: Cristiane Azevedo Ferreira
Orientadores: Prof. Dr. Jorge P. Zubelli
e Prof. Dra. Beatriz Vaz de Melo Mendes
Rio de Janeiro
Junho de 2013
Para Miguel.
i
Agradecimentos
Agradeço aos Professores Jorge Zubelli e Beatriz Mendes pela orientação no desenvolvimento
deste trabalho e pelos conhecimentos transmitidos.
Agradeço aos meus colegas do BNDES, que sempre me apoiaram e incentivaram ao longo
do curso.
Agradeço também ao Sérgio, Rodrigo, Carlos, Osvaldo, Vinícius, Matheus e Bruna por
terem ajudado em inúmeras situações, e também pelo companheirismo nessa jornada.
E, em especial, agradeço a meu marido e à minha família por terem compreendido minha
ausência e por tudo que têm feito por mim. Ter vocês ao sempre meu lado tornou as vitórias
mais especiais e os momentos difíceis mais leves.
iii
Resumo
A mensuração adequada dos riscos financeiros é uma atividade fundamental na gestão de carteiras de ativos. Para tal, existem diversas medidas de risco e metodologias para modelar as
perdas de uma carteira. Porém, a variedade dos instrumentos financeiros e as condições de
mercado cada vez menos estáveis tornam este problema não trivial. Por isso, é importante
usar técnicas adequadas para comparar e avaliar modelos de risco. Os backtests são a principal
ferramenta para esse fim, e consistem em testes de hipótese que comparam as medidas de risco
com as perdas históricas da carteira.
Neste contexto, o presente trabalho tem como objetivo analisar e comparar diferentes métodos de backtesting. Foram implementados três métodos de backtesting aplicáveis ao Value-atRisk (VaR) e um método de backtesting genérico, que pode ser aplicado tanto ao VaR quanto
ao Expected Shortfall. Através de simulações, verificou-se que uma limitação destes métodos
é o baixo poder quando séries de um ou dois anos de dados são utilizadas. Por fim, os testes
foram executados para diferentes modelos de riscos aplicados a séries nanceiras reais, ilustrando
a utilização prática dos testes aqui estudados.
Key words: Backtesting, Medidas de Risco, Modelos de Risco, Value at Risk, Expected
Shortfall
v
Sumário
Contents
vii
1 Introdução
1
1.1
Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2 Medidas e modelos de risco
2.1
2.2
Modelos de risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.1.1
Modelos paramétricos univariados . . . . . . . . . . . . . . . . . . . . . .
8
2.1.2
Modelos de variância-covariância . . . . . . . . . . . . . . . . . . . . . . 13
2.1.3
Método da Simulação Histórica . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.4
Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Medidas de Risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1
2.3
5
Definições e Exemplos de VaR e Perda Esperada . . . . . . . . . . . . . . 17
Medidas coerentes de risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Backtesting
3.1
3.2
21
Backtestings baseados em violações . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1
Teste de Kupiec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.2
Testes de Independência Serial das Violações . . . . . . . . . . . . . . . . 24
3.1.3
Backtest baseado em duration . . . . . . . . . . . . . . . . . . . . . . . . 27
Backtest para Perda Esperada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1
Resultados da simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Estudo de casos
35
4.1
Descrição das séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2
Comparação dos modelos para séries de moedas . . . . . . . . . . . . . . . . . . 36
4.3
Comparação dos modelos para outras séries de moeda . . . . . . . . . . . . . . . 41
4.4
Comparação dos modelos para séries de juros
5 Conclusão
. . . . . . . . . . . . . . . . . . . 42
47
vii
viii
Bibliography
SUMÁRIO
48
x
SUMÁRIO
Capítulo 1
Introdução
Medidas de risco têm como objetivo expressar o potencial de perdas de uma carteira de
ativos em dados um horizonte de tempo t com um nível de probabilidade α. Dois exemplos de
perguntas que podem ser respondidas através de medidas de risco são:
1. Que valor de perda não será ultrapassado com nível α de certeza?
2. Qual é o valor esperado de perda, dado que a perda é maior que um determinado limiar?
Para determinar com exatidão esses valores, seria necessário conhecer a distribuição de
probabilidades das perdas da carteira. Porém, na prática, essa distribuição é desconhecida, e
por isso a perda potencial da carteira deve ser estimada através de um modelo de risco. O
modelo de risco consiste de dois elementos: a modelagem da distribuição das perdas dos ativos
que compõem a carteira e um método de cálculo para a medida de risco.
A escolha do modelo de risco é determinante para a confiabilidade da medida de risco
obtida. Para avaliar a confiabilidade da medida de risco, as seguintes características devem ser
observadas:
• Propriedades teóricas [1]: o modelo possui propriedades desejadas para uma medida de
risco, como sub-aditividade, monotonicidade e invariância à translação?
• Desempenho do modelo [8]: as perdas estimadas pelo modelo são compatíveis com o
histórico de perdas?
A ferramenta mais utilizada para avaliação de medidas de risco é o backtesting que, em linhas
gerais, consiste em comparar, através de testes estatísticos, as perdas históricas de uma carteira
de ativos com as medidas de risco geradas pelo modelo. A maioria dos métodos de backtesting
encontrados na literatura são métodos baseados em violações. Esses métodos utilizam como
informação apenas se as perdas ocorridas de fato ultrapassaram o limiar de perdas calculado
para cada dia. Métodos mais recentes levam em consideração a dimensão das perdas quando
1
2
CAPÍTULO 1. INTRODUÇÃO
comparadas à medida de risco. Um problema comum a todos os métodos é o baixo poder dos
testes estatísticos, o que pode ser justificado pelo pequeno número de observações extremas nas
amostras utilizadas. Isso poderia inviabilizar o uso de backtest para comparação e escolha de
modelos de risco.
Assim, o principal objetivo deste trabalho é analisar e comparar diferentes métodos de
backtesting, de forma a entender as aplicações e limitações de cada método. Para tal, duas
abordagens serão utilizadas: primeiramente, o poder dos testes será avaliado através de simulações, e em um segundo momento, os testes serão aplicados a diferentes modelos de riscos, com
a utilização de séries financeiras reais. Com isso, espera-se responder a questões como: qual é
o tamanho mínimo de amostra para obter resultados confiáveis; que características do modelo
de risco e das séries financeiras impactam nos resultados do backtest; e como os resultados de
diferentes métodos de backtesting se comparam quando aplicados às mesmas séries e modelos
de risco.
1.1
Motivação
Instituições financeiras, empresas e governos estão sujeitos a perdas decorrentes de oscilações
nos preços de mercado de seus ativos. Essas oscilações, por sua vez, são causados por movimentos em taxas de juros, cotações de moedas e de ações e preços de commodities. O risco de
perda decorrente destes movimentos é denominado risco de mercado. A má gestão de riscos
de mercado tem sido a causa de falências de empresas e bancos, o que se torna particularmente
preocupante em um cenário globalizado, onde as economias encontram-se fortemente interligadas e a falência de uma única instituição pode resultar em uma crise de grandes proporções.
Jorion descreve em [14] alguns casos típicos de má gestão de risco de mercado. Entre eles,
podemos citar o caso do Banco Barings, que faliu após 233 anos de funcionamento. Um único
operador do banco assumiu uma posição extremamente elevada em futuros de índice Nikkei
225, compondo uma carteira que chegou a valer US$ 7 bilhões. Com a queda de 15% da bolsa
japonesa, esses futuros sofreram uma queda de US$ 1,3 bilhão, A situação foi agravada pela
posição vendida em opções e decisões equivocadas para conter as perdas, levando o banco à
falência. Outro caso é o da Metallgeselschaft, um grande conglomerado industrial que assumiu
contratos de longo prazo de venda de derivados de petróleo, fazendo o hedge 1 destas posições
com contratos de curto prazo, rolados na medida em que venciam. Com a queda de 25% nos
preços a vista, a empresa foi obrigada a depositar US$ 1 bilhão em chamada de margem, capital
do qual não esperava ter que dispor, e levando a empresa a sérios prejuízos financeiros.
Para evitar crises globais por conta de epiosódios como esses, diversos bancos centrais passaram a exigir que instituições financeiras aloquem capital suficiente para fazer face a perdas
1
O hedge é uma posição tomada para mitigar riscos decorrentes da variação de preços.
1.2. ESTRUTURA DO TRABALHO
3
extremas decorrentes de risco de mercado. Essas iniciativas originaram-se com o Acordo de
Basileia II, que consiste em uma série de recomendações para legislação e regulação bancária.
O Acordo de Basileia II foi publicado em junho de 2004 e revisado em 2006 pelo Comitê de
Supervisão Bancária de Basileia, composto por membros de 29 países, entre eles Brasil, Estados
Unidos, China, França, Alemanhã, Coreia, Rússia e Itália. Dois modelos são propostos neste
acordo para mensuração de risco de mercado: um modelo padrão, onde o Banco Central define
todas as metodologias e calibrações do modelo, e um modelo interno, onde a instituição financeira define o modelo mais adequado para seu funcionamento, com algumas restrições. Neste
modelo, o risco deve ser mensurado através do chamado Value-at-Risk com nível de confiança
de 99%, horizonte de tempo de dez dias e janela de dados mínima de um ano para estimação
dos modelos, ficando cada instituição financeira livre para definir o modelo probabilístico mais
adequado para as perdas da carteira, bem como as metodologias de estimação do modelo.
O capital regulatório é determinado não apenas pelo Value-at-Risk, mas também pelo resultado dos backtests. O backtest indicado no Acordo de Basileia consiste em avaliar quantos dias
no último ano a perda na carteira da instituição foi maior que medida de risco obtida por seus
modelos. Dependendo do número de violações, o capital regulatório pode ser penalizado em
até 1/3 a mais, ou ser considerado inadequado, caso o número de violações seja muito elevado.
Este teste verifica apenas se o número de violações observado é compatível com o nível do VaR,
mas testes mais sofisticados podem verificar outros aspectos do modelo, como a independência
temporal entre as violações.
O Acordo de Basileia III, publicado entre 2010 e 2011, e com introdução prevista para
até 2015, propôs a substituição do Value-at-Risk pela Perda Esperada como medida de risco
padrão. Porém, a escassez de metodologias de backtesting desta medida de risco tem sido
um empecilho à sua adoção. Este trabalho descreve um backtest aplicável à Perda Esperada
(Expected Shortfall), que por ser um trabalho recente, e por sua complexidade, ainda não tem
sido aplicado no mercado.
1.2
Estrutura do trabalho
O trabalho está estruturado da seguinte forma:
• O Capítulo 2 conceitua Valor em Risco (Value-at-Risk, ou VaR) e Perda Esperada
(Expected Shortfall ou Conditional Value-at-Risk ), cita as propriedades necessárias para
que uma medida de risco seja coerente, e descreve alguns modelos para estimar medidas
de risco.
• O Capítulo 3 descreve diferentes metodologias de backtesting tanto para o VaR como
para Perda Esperada.
4
CAPÍTULO 1. INTRODUÇÃO
• O Capítulo 4 consiste em estudos de casos, onde alguns modelos de risco serão avaliados
através das metodologias de backtesting estudadas no Capítulo 3.
• O Capítulo 5 conclui o trabalho.
Capítulo 2
Medidas e modelos de risco
Como já mencionado na introdução, um modelo de risco compreende a escolha de um modelo
probabilístico para o retorno da carteira e um método para estimar a distribuição de probabilidade dos retornos. As medidas de risco (como quantis ou esperanças condicionais) são
extraídas a partir desta distribuição.
Além da escolha da família de distribuição dos retornos da carteira e das medidas de risco
que serão utilizadas, diversas outras decisões devem ser tomadas ao se utilizar um modelo de
risco. Uma lista não extensiva destas decisões seria:
• O retorno da carteira será explicado apenas por sua série histórica ou por outras variáveis
econômicas? Neste caso, quais variáveis serão escolhidas, e como o retorno da carteira será
modelado em função destas variáveis? Por exemplo, para representar o retorno de uma
carteira de ações, podemos usar como variáveis explicativas índices setoriais ou as séries
de retornos das ações que compõem a carteira; já para títulos de renda fixa, devemos
escolher que vértices das curvas de juros serão utilizados.
• Qual será o tamanho das séries históricas utilizadas nas estimativas? Séries muito pequenas podem não ser estatisticamente significantes, enquanto séries muito grandes podem
conter mudanças de regime que prejudicariam as estimativas.
• Que modelos serão usados para precificar os ativos da carteira? O modelo de apreçamento
dos ativos vai influenciar diretamente na medida de risco obtida, seja no cálculo dos
retornos hipotéticos da carteira, seja na função que relaciona a variação do preço do ativo
ao retorno dos fatores de risco subjacentes.
A precisão das medidas de risco dependem tanto do modelo escolhido como de sua estimação.
Neste capítulo, descreveremos os modelos de risco que serão avaliados nos estudos de caso
do Capítulo 5. Os modelos apresentados neste trabalho são frequentemente usados na indústria
para mensuração de risco com horizontes de tempo curtos (como um ou dez dias úteis) [18]. Em
5
6
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
seguida, serão apresentadas duas medidas de risco: Valor em Risco (VaR) e Perda Esperada (PE), também conhecido como Expected Shortfall , Conditional Value-at-Risk (CVaR)
ou Average Value-at-Risk [20]. A escolha destas medidas também deveu-se à sua popularidade
e à grande diversidade de trabalhos acadêmicos sobre as mesmas.
Notações e convenções adotadas
Antes de partir para as definições, é conveniente estabelecer algumas notações a serem utilizadas
ao longo deste trabalho.
• O horizonte de tempo (ou holding period ) para estimativa de retornos é dado por ∆.
Exceto quando mencionado ao contrário, ∆ será de um dia útil.
• A seguinte convenção será adotada para séries históricas e variáveis aleatórias indexadas
no tempo:
– O índice t (como em xt ) representará o instante t∆.
– Séries de valores observados serão representados em letras minúsculas (como xt ), e
variáveis aleatórias, em maiúsculas (p. ex. Xt ).
– Se a variável ou elemento da série for um vetor (ou vetor aleatório), será representado
em negrito (p. ex. Xt )
– Quando a variável ou elemento da série se referir a um retorno, a indexação no
tempo indicará o final do período. Por exemplo, o retorno Zt+1 é a variação de uma
grandeza da data t∆ a (t + 1)∆.
• De modo geral, o retorno da carteira na data t será representado por xt e Xt (respectivamente, um valor observado e uma variável aleatória), e os vetor de retornos dos fatores
de risco, por zt e Zt .
• O estimador de um parâmetro θ será denotado por θ̂.
• Estatísticas de ordem: A série ordenada por valor dos elementos de uma série temporal
{xi }Ti=1 serão representados por {x(j) }Tj=1 , onde x(1) ≤ x(2) ≤ ... ≤ x(T ) .
Retornos hipotéticos
Ao modelar o retorno de uma carteira para um determinado horizonte de tempo, tipicamente
não serão consideradas mudanças nas quantidades dos ativos da carteira dentro deste período.
Da mesma forma, as séries históricas dos retornos de uma carteira usadas nos backtests e no
cálculo de VaR e PE históricos não serão formadas por retornos reais (dado pelas quantidades de
2.1. MODELOS DE RISCO
7
cada ativo e seus valores em cada data da série). Ao invés destes, usaremos séries de retornos
hipotéticos.
A série de retornos hipotéticos é obtida fixando-se as posições da carteira na data t e
calculando o seu valor conforme as variáveis de mercado observadas nas para as últimas n
datas. Denotando por v(t,t−i) , 0 ≤ i ≤ n o valor da carteira com as posições da data t e
variáveis de mercado da data t − i, temos que o retorno hipotético da carteira com posições da
data t e dados de mercado de t − i é dado por:
h(t,t−i) = log(v(t,t−i) ) − log(v(t,t−i−1) ), i ∈ {0, 1, 2, ..., n − 1}
O motivo para a utilização dos retornos hipotéticos em detrimento dos retornos reais fica
claro com o seguinte exemplo. Suponha que desejamos modelar a distribuição do retorno de
uma carteira de ações de hoje até o próximo dia útil, e o desvio padrão deste retorno seja
estimado pelo desvio padrão amostral dos últimos 5 retornos. Suponha agora que a composição
da carteira e os valores das ações A e B sejam dadas conforme a Tabela 2.1 (coluna “Qtde.”
para as quantidades e “P.U.” para os preços unitários da ação). Se usamos o retorno real da
carteira, estamos considerando aplicações, resgates e mudanças em sua composição na formação
dos retornos, o que não reflete a volatilidade estimada da posição da carteira na data t. Assim,
para estimar o desvio padrão desta carteira composta por 3 ações A e 7 ações B em t, deve-se
observar como uma carteira fixa com estas posições se comportaria no tempo, e para isso, é
preciso usar os retornos hipotéticos. Observe na última linha da tabela a diferença na estimativa
do desvio padrão usando retornos reais e hipotéticos.
Tabela 2.1: Comparação da estimativa de volatilidade usando retornos reais e hipotéticos.
Data
t
t
t
t
t
-5
-4
-3
-2
-1
t
D.P.
2.1
Qtde.
10
8
7
7
5
3
Ação A
P.U.
$5.00
$4.80
$4.60
$4.70
$5.10
$4.90
Ret.
-4.1%
-4.3%
2.2%
8.2%
-4.0%
5.51%
Qtde.
0
1
3
3
5
7
Ação B
P.U.
$7.00
$7.00
$6.90
$7.20
$6.80
$7.00
V. Real
R. Real
V. Hip. R. Hip.
Ret.
0.0%
-1.4%
4.3%
-5.7%
2.9%
3.91%
$50.00
$45.40
$52.90
$54.50
$59.50
$63.70
-9.7%
15.3%
3.0%
8.8%
6.8%
9.25%
$64.00
$63.40
$62.10
$64.50
$62.90
$63.70
-0.9%
-2.1%
3.8%
-2.5%
1.3%
2.62%
Modelos de risco
Como já foi mencionado na introdução deste capítulo, a definição de um modelo de risco
inicia com a escolha de uma distribuição para os retornos, e prossegue com a estimativa dos
8
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
parâmetros desta distribuição. Mais precisamente, o problema de estimar a distribuição dos
retornos consiste em definir a seguinte função de distribuição de probabilidade:
F (Xt+1 |Ωt )
(2.1.1)
onde Ωt é o conjunto de informações conhecidas até o instante t. É sobre essa distribuição que
serão aplicadas as medidas de risco. Note que a distribuição estimada dos retornos varia a cada
data t + 1, já que o conjunto dos dados conhecidos até t também varia com o tempo.
De acordo com a distribuição selecionada para os retornos da carteira, o modelo pode
ser classificado em paramétrico, onde os retornos são modelados através de distribuições
paramétricas como a normal ou a t de Student, ou não paramétricos, onde as medidas de risco
são extraídas da distribuição empírica dos retornos históricos ou simulados. Modelos de risco
também podem ser classificados em condicionais, como o modelo GARCH (Generalized AutoRegressive Conditional Heteroscedasticity) ou não-condicionais, como o modelo paramétrico
normal não-condicional.
A distribuição dos retornos da carteira é estimada a partir de dados históricos, que podem
ser séries de retornos dos fatores de risco ou a própria série de retornos da carteira. De acordo
com o modelo escolhido, as séries podem ser usadas para estimar os parâmetros da distribuição
da própria carteira ou dos fatores de risco, ou como insumo de simulações. O tamanho das
séries históricas é determinante para a estimativa da distribuição, e consequentemente, para
o valor da medida de risco. Esse fato será ilustrado nos estudos de caso, onde será possível
observar o impacto da existência de períodos de crise nas séries históricas.
2.1.1
Modelos paramétricos univariados
Uma maneira simples de estimar medidas de risco de uma carteira é modelar seu log-retorno
Xt+1 através de uma distribuição paramétrica univariada. Essa distribuição é estimada a partir
da série de retornos hipotéticos da carteira. Na prática, modelos multivariados costumam
apresentar melhores resultados por explicitarem as correlações entre os ativos de risco que
compõem a carteira, mas apresentaremos primeiramente os modelos univariados para ilustrar
alguns conceitos importantes para os demais modelos.
Modelos paramétricos não-condicionais
Em um modelo paramétrico não-condicional, assume-se que os log-retornos possuem uma distribuição paramétrica, como, por exemplo, a Normal. Por ser um modelo não-condicional,
assume-se que os retornos são independentes e identicamente distribuídos.
Uma primeira abordagem para a estimativa dos parâmetros é usar estimadores de máxima
2.1. MODELOS DE RISCO
9
verossimilhança (EMV). Se Xt ∼ N (µ, σ), sabe-se que os EMV para a média µ e variância σ 2
equivalem à media e à variância amostrais dos últimos N log-retornos, {xi }t−1
i=t−N :
N
1 X
xt−i
µ̂ =
N i=1
N
1 X
σ̂ =
(xt−i − µ)2 =
N i=1
PN
i=1
x2t−i
N
− µ̂2
Distribuições como a t de Student podem apresentar um ajuste melhor aos dados por terem
caudas mais pesadas. Mas, a menos que o número de graus de liberdade desta distribuição seja
pré-fixado, ele precisa ser estimado através de métodos de otimização.
Uma desvantagem dos métodos não-condicionais pode ser observada na Figura 2.1, que ilustra as volatilidades do dólar de 2007 a 2011 estimadas por diversos métodos. É um fato estilizado
conhecido que séries financeiras apresentam heteroscedasticidade condicional (ou “clusters” de
volatilidade), como ocorreu na crise de 2008. Podemos observar o efeito desse período na linha
em vermelho do gráfico (b), que mostra a série de volatilidade do dólar estimada pelo método
não condicional com janela de um ano de dados. Como todas as amostras da janela têm o
mesmo peso, picos de volatilidade na amostra causarão um aumento súbito na estimativa, que
irá persistir enquanto o período de crise estiver na janela de amostragem. Após sua saída,
a volatilidade cairá abruptamente e permanecerá em valores baixos, até que ocorra um novo
período de estresse na série.
Modelo EWMA
Para contornar esse efeito, modelos condicionais podem ser utilizados. Uma possibilidade é
usar o modelo EWMA (Exponentially Weighted Moving Average). Este modelo foi proposto
pela equipe do JP Morgan dentro de sua metodologia RiskMetricsT M de avaliação de riscos
financeiros [19]. O EWMA atribui pesos diferentes aos retornos da janela de amostragem, onde
pesos maiores são atribuídos a retornos mais recentes, e o decaimento dos pesos ao longo do
tempo se dá exponencialmente.
A variância σt+1 é estimada recursivamente no modelo EWMA como:
σ̂t+1 = λσ̂t + (1 − λ)(xt − µ)2
= (1 − λ)
N
X
λi (xt−i − µ)2
i=0
onde 0 < λ < 1 é o fator de alisamento exponencial, sendo tipicamente próximo a 0.95, e N é
o tamanho da janela. Quanto menor for λ, menor será a persistência do modelo, e maior será
a sensibilidade a variações recentes. A soma dos pesos atribuídos a cada variação é igual a 1.
−0.05
2010
2011
2012
2007
2008
2009
2010
2011
2012
2007
2008
2009
2010
2011
2012
2007
2008
2009
2010
2011
2012
0.03
0.05
0.005
0.015
0.025
2009
0.01
(b) Volatilidade
2008
0.06
(c) Volatilidade
2007
0.03
0.00
(d) Volatilidade
0.05
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
(a) Log−Retorno
10
Figura 2.1: Log-retornos do dólar de 2007 a 2011 (a) e volatilidades estimadas pelos modelos
não-condicional (b), EWMA (c) e GARCH(1,1). Em (b), o tamanho da janela é de 6 meses na
linha azul e 1 ano na linha vermelha. Em (c), o fator de decaimento do EWMA é de 0.9 em
azul, e 0.97 em vermelho. E (d), a janela usada para estimativa do GARCH é de 1 ano.
O gráfico (c) da Figura 2.1 ilustra a volatilidade do dólar estimada pelo método EWMA.
Observe que a volatilidade responde mais rápida e intensamente a grandes variações que o modelo não-condicional. Em contrapartida, a volatilidade cai mais rapidamente, onde a velocidade
desta queda é dada pelo fator de decaimento, e não pelo tamanho da janela utilizada. Vale
notar que no método EWMA o tamanho da janela determina apenas onde a série de pesos
será truncada. Idealmente, esse tamanho deve ser ajustado para ser o menor possível em que
a soma dos pesos esteja suficientemente próxima de 1, adotando uma solução de compromisso
entre eficiência computacional e precisão da estimativa.
2.1. MODELOS DE RISCO
11
Modelo GARCH
O modelo GARCH (Generalized Auto-Regressive Conditional Heteroskedasticity) foi proposto
por Bollerslev em [5], e é base para um grande número de modelos de séries temporais amplamente utilizados em finanças.
Definição 1. Seja {Zt }t∈Z um ruído branco1 com média zero e desvio padrão 1. {Xt }t∈Z é
um processo GARCH(p,q) se é estritamente estacionário e satisfaz, para todo t ∈ Z e algum
processo {σt }t∈Z , a:
Xt = σt Zt
σt2
= α0 +
p
X
i=1
2
αi Xt−i
+
q
X
2
βj σt−j
j=1
Em particular, o modelo GARCH(1,1) tem a forma:
Xt = σt Zt
2
2
σt2 = α0 + α1 Xt−1
+ βσt−1
A equação da definição 1 é adequada para modelar séries com “clusters” de volatilidade. Como
exemplo, observe no modelo do GARCH(1,1) que |Xt | tende a assumir um valor maior quando
a volatilidade σt for maior, o que pode ocorrer quando |Xt−1 | ou σt−1 são grandes. Em outras
palavras, o modelo implica em persistência de altas volatilidades.
Algumas propriedades matemáticas de processos GARCH valem destaque:
• Média e variância condicionais:
Seja Ft = σ(Xs : s ≤ t) a σ-álgebra que representa o processo até o tempo t. A definição
1 garante que σt é Ft -mensurável. Com isso, temos que:
E[Xt |Ft−1 ] = E[σt Zt |Ft−1 ] = σt E[Zt |Ft−1 ] = σt E[Zt ] = 0
E[Xt2 |Ft−1 ] = E[σt2 Zt2 |Ft−1 ] = σt2 E[Zt2 |Ft−1 ] = σt2
Essa propriedade mostra que o modelo é heteroscedástico, já que a variância condicional
do processo muda ao longo do tempo.
• Condição para estacionariedade:
Um processo {Xt }t∈Z é estritamente estacionário se para todo t1 , ... tn , k ∈ Z e todo
n ∈ N, os vetores (Xt1 , ..., Xtn ) e (Xt1 +k , ..., Xtn +k ) possuem a mesma distribuição. Em
particular, o processo GARCH(1,1) é estritamente estacionário se E[ln(α1 Zt2 + β)] < 0.
1
Um ruído branco é um processo estacionário de segunda ordem com autocorrelação nula para lags diferentes
de zero.
12
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
Séries financeiras costumam ser melhor ajustadas a modelos GARCH de ordens baixas,
sendo o GARCH(1,1) uma escolha bastante frequente. As inovações Zt são tipicamente modeladas com distribuição normal ou t de Student, onde esta última tem a vantagem de capturar
as caudas pesadas de retornos financeiros, mas pode demandar o ajuste de um parâmetro adicional (o grau de liberdade da distribuição). Um contorno para isso é fixar o número de graus
de liberdade. Em [6], Bollerslev conclui que 8 graus de liberdade são, de modo geral, uma boa
parametrização para séries financeiras.
O modelo GARCH permite ainda uma série de variações. Em [7], Bollerslev cita mais de
100 modelos inspirados no ARCH e no GARCH. Em [13], são comparados 330 modelos e suas
possíveis variações da família GARCH para modelar retornos intra-diários de câmbio de Marco
Alemão por Dólar e de ações da IBM. Surpreendentemente, os autores não puderam identificar
nenhum modelo significativamente superior ao GARCH(1,1).
Passemos agora ao ajuste de um modelo GARCH(1,1) a uma série histórica. Suponha que a
distribuição condicional de Xt+1 será estimada com base nos t + 1 últimos retornos observados
x0 , x1 , ..., xt . Os parâmetros α0 , α1 e β de um modelo GARCH(1,1) são estimados por máxima
verossimilhança, onde a densidade conjunta de probabilidade é dada por:
L(α0 , α1 , β|x0 , x1 , ..., xn ) = fX1 ,...,Xt |X0 ,σ0 (x1 , ..., xt |x0 , σ0 )
t
Y
=
fXi |Xi−1 ,...,X0 ,σ0 (xi |xi−1 , ..., x0 , σ0 )
=
i=1
t
Y
i=1
1
g
σi
Xi
σi
(2.1.2)
(2.1.3)
(2.1.4)
onde g(z) é a densidade de probabilidade das inovações {Zt }t∈Z .
As volatilidades σi , 0 ≤ i ≤ n não podem ser observadas, mas exceto por σ0 , podem ser
calculadas em função de retornos e volatilidades anteriores. Resolvendo a recursão da expressão
2.1.2, temos que:
t
X
1 − βt
2
2
+ α1
β t−i Xi−1
+ β t σ02
σ t = α0
1−β
i=1
Essa equação pode ser demostrada facilmente por indução:
σ12
= α0
1 − β1
1−β
+ α1 β 0 X02 + β 1 σ02
= α0 + α1 X02 + βσ02
2.1. MODELOS DE RISCO
13
e, por indução:
2
2
σt2 = α0 + α1 Xt−1
+ βσt−1
" #
t−1
t−1
X
1
−
β
2
2
= α0 + α1 Xt−1
+ β α0
+ α1
β t−1−i Xi−1
+ β t−1 σ02
1−β
i=1
"
#
t−1
t−1
X
1−β
2
2
+ α1 Xt−1
+β
β t−1−i Xi−1
+ β t σ02
= α0 1 + β
1−β
i=1
t
t
X
1−β
2
+ α1
+ β t σ02
= α0
β t−i Xi−1
1−β
i=1
Como σ0 não pode ser estimado, seu valor deve ser arbitrado. Duas escolhas são para σ0 são
a variância amostral de X0 , X1 , ..., Xt , ou simplesmente assumí-lo como zero. Para uma amostra
suficientemente grande, essa escolha não terá impacto relevante, já que o termo que multiplica
σ0 é β t , que tende a zero quando t tende a infinito. Substituindo-se essa equação em 2.1.2,
obtemos a expressão de verossimilhança que deve ser maximizada para estimar os parâmetros
do GARCH. Note que dependendo da distribuição assumida para as inovações, pode ser que
parâmetros adicionais desta distribuição também precisem ser estimados.
2.1.2
Modelos de variância-covariância
No método da variância-covariância, assume-se que o retorno de uma carteira é dado pela
combinação linear dos retornos dos fatores de risco a que está exposta, ou seja:
Xt =
d
X
wi Zi,t
(2.1.5)
i=1
onde d é o número de fatores de risco, wi é a exposição da carteira ao fator de risco i e Zi,t é o
retorno o i-ésimo fator de risco na data t. Esse modelo tem como premissa que, para pequenas
variações nos fatores de risco, a variação no preço total da carteira se comporta de forma linear.
O vetor de retornos dos fatores de risco Zt é modelado através de uma distribuição multivariada fechada sob operadores lineares, de forma que a distribuição do retorno da carteira
seja da mesma família da distribuição dos fatores de risco e possa ser definida em termos da
matriz de covariâncias dos retornos. Para utilizar este método, é necessário que a carteira seja
decomposta nas exposições em fatores de risco. Dependendo dos instrumentos da carteira, é
importante verificar se a representação de seus retornos sob a forma linear é uma aproximação
satisfatória.
Uma distribuição muito utilizada neste método é a normal, ou seja, Zt ∼ Nd (µt , Σt ), onde
µt é o vetor de retornos esperados dos fatores de risco estimado para a data t e Σt ∈ Rd×d é a
14
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
matriz de variância-covariância. Neste caso, a distribuição de Xt também é normal com média
wT µt e variância wT Σt w. Outras distribuições podem ser utilizadas, como a t de Student e as
distribuições hiperbólicas generalizadas, dando mais peso às caudas da distribuição.
Para a distribuição normal multivariada não-condicional, os estimadores de máxima verossimilhança dos parâmetros µ e Σ podem também ser a média e a variância-covariância amostrais,
como no caso univariado:
N
1 X
µ̂t =
zt−i
N i=1
Σ̂t =
N
1 X
(zt−i − µ̂)T (Zt−i − µ̂)
N i=1
Tipicamente, assume-se que µ é zero, já que é um fato estilizado conhecido que séries de retornos
financeiros têm médias aproximadamente nulas.
O modelo EWMA também pode ser estendido para um modelo multivariado normal. Neste
caso, o estimador da matriz de variâncias-covariâncias Σ assume a seguinte forma:
Σ̂t+1 = λΣ̂t + (1 − λ)(Zt − µ)(Zt − µ)T
= (1 − λ)
N
X
λi−1 (Zt−i − µ)T (Zt−i − µ)
i=0
2.1.3
Método da Simulação Histórica
No método da Simulação Histórica, os retornos da carteira são modelados através da distribuição
empírica dos retornos hipotéticos. A distribuição empírica é definida por um conjunto de
observações de uma variável aleatória:
Definição 2. Sejam X1 , X2 , ..., Xn ∈ R variáveis aleatórias independentes e identicamente
distribuídas com função de distribuição F (x). A função de distribuição empírica Fn (x) é
definida como:
n
1X
I(−∞,x] (Xi )
Fn (X) =
n i=1
A hipótese de que a distribuição empírica é uma boa aproximação para sua distribuição real
encontra fundamento no Teorema de Glivenko-Cantelli [22]:
Teorema 1 (Glivenko-Cantelli).
kFn − F k∞ = sup |Fn (x) − F (x)| → 0 q.c.
x∈R
2.1. MODELOS DE RISCO
15
0.0
0.00
0.2
0.05
0.4
0.6
0.10
0.8
1.0
0.15
Este teorema requer que duas hipóteses sejam assumidas: primeiro, que os retornos hipotéticos sejam independentes e identicamente distribuídos, o que classifica o método como
não-condicional. A segunda hipótese diz respeito ao número de amostras, que deve ser suficientemente grande para que a diferença entre as distribuições real e empírica seja satisfatória. A
Figura 2.2 ilustra a influência do tamanho da amostra: as quatro distribuições foram obtidas
da mesma série (de dólar), com tamanhos de amostra entre 6 meses e 5 anos de dados, sendo
que a última data de todas as amostras é a mesma (30/12/2011). A linha pontilhada equivale
a 5% de probabilidade, e permite visualizar a diferença no quantil para diferentes tamanhos de
amostra.
−0.02
−0.01
0.00
0.01
0.02
−0.020
−0.016
−0.012
Figura 2.2: Distribuições empíricas do dólar para amostras de 6 meses, 1, 2 e 5 anos de dados
(respectivamente, as linhas preta, vermelha, verde e azul).
Apesar das condições acima não serem satisfeitas, este método apresenta duas vantagens
em relação aos anteriores: é de fácil implementação e não requer que nenhuma hipótese sobre a
distribuição dos retornos seja feita. O cálculo do VaR e da Perda Esperada a partir dos retornos
ordenados é particularmente fácil, como será visto a seguir.
2.1.4
Método de Monte Carlo
Uma alternativa para o método de simulação histórica é a simulação de Monte Carlo. Este
método também se baseia na distribuição empírica dos retornos da carteira. Mas, ao invés
de usar retornos hipotéticos, o método utiliza retornos gerados por um número elevado de
simulações.
A geração dos retornos consiste nos seguintes passos:
16
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
1. Simular diversos cenários a partir da distribuição conjunta dos fatores de risco que compõem a carteira.
2. Para cada cenário, calcular o retorno da carteira a partir dos valores dos fatores de risco
do cenário.
3. Gerar a distribuição empírica dos retornos calculados no passo anterior.
Para que o primeiro passo seja realizado, é preciso que o retorno da carteira possa ser expresso
em termos dos retornos de fatores de risco (como retornos de ações, de índices e de vértices
de curvas de juros), e que a distribuição conjunta destes fatores de risco seja estimada. A
complexidade computacional do método depende do número de cenários simulados, do número
de fatores de risco e da complexidade da estimativa da distribuição dos fatores de risco.
2.2
Medidas de Risco
Em diversos trabalhos [15], [3], [18] encontra-se a seguinte definição matemática para risco:
Definição 3. Seja um espaço de probabilidade m = (Ω, F, P), onde Ω é o conjunto dos possíveis
estados da economia, F é uma σ-álgebra e P é uma medida de probabilidade P : F → [0, 1].
Um risco X(ω), ω ∈ Ω é uma variável aleatória real definida em Ω.
Em termos concretos, podemos entender retornos de ativos e de carteiras em um determinado instante t como riscos: essas grandezas são variáveis aleatórias reais cujo valor depende
do estado da economia até o momento em que forem observados. Artzner aponta em [3] que o
risco está relacionado com a variação do valor futuro de uma carteira, já que apenas valores no
futuro estão sujeitos a incertezas. No contexto da definição 3, Kerkhof define medida de risco
de uma maneira bastante genérica:
Definição 4. Seja M(m) o conjunto dos possíveis riscos definidos em Ω. Uma medida de
risco é uma função ρ : M(m) → R ∪ {∞}.
Em outras palavras, a medida de risco resume um risco através de um valor real.
Nesta seção, serão apresentadas duas medidas de risco: o Valor em Risco (VaR) e Perda
Esperada (PE). Em linhas gerais, o VaR de uma carteira representa um quantil superior da
perda estimada da carteira (ou, analogamente, um quantil inferior do retorno), sendo a medida
de risco recomendada por Basileia II e adotada como padrão por diversas instituições financeiras
e órgãos reguladores no Brasil. A Perda Esperada, como o nome já indica, é o valor esperado
da perda dado que essa perda foi superior ao VaR. Há uma tendência que a Perda Esperada
passe a ser a medida de risco recomendada pelas próximas versões de Basileia, uma vez que ela
é mais informativa sobre a real dimensão das perdas extremas da carteira.
2.2. MEDIDAS DE RISCO
2.2.1
17
Definições e Exemplos de VaR e Perda Esperada
A definição matemática de VaR remete à definição de quantis: se X é a variável aleatória que
representa os retornos de uma carteira, o VaRα (X), X ∈ (0, 1) é dado por [1], [15]:
VaRα (X) = −Qα (X) = − sup{x ∈ R|P(X ≤ x) ≤ α} = − inf{x ∈ R|P(X ≤ x) > α} (2.2.1)
onde Qα (X) é o α-quantil superior de X.
Denotando a distribuição de probabilidade de X por F (x) = P(X ≤ x) , podemos simplificar
a notação, escrevendo:
VaRα (X) = −F ← (α)
(2.2.2)
onde F ← (x) = inf{x ∈ R|P(X ≤ x) > α} é também conhecida como a inversa generalizada da
função de distribuição F [18].
A Perda Esperada de nível α é dado por [1]:
PEα (X) = −
1
E XI(−∞,Qα (X)] + Qα (X)(α − P(X ≤ Qα (X)))
α
(2.2.3)
Se F(X) é uma função contínua, então P(X ≤ Qα (X)) = α, e a expressão acima se reduz a:
PEα (X) = −
1
E XI(−∞,Qα X]
α
(2.2.4)
Notação adotada para VaR e Perda Esperada
Neste trabalho, o nível do VaR e da PE será denotado por α. Em relação ao nível do VaR,
é possível encontrar duas convenções na literatura. Em [14], [18], [4] e [21], o nível do VaR é
de fato um nível de confiança, sendo tipicamente um valor próximo de 1, como 95% ou 99%.
Em outros trabalhos, como [3] e [10] esse nível é próximo de 0, como 1% ou 5%. Essa última
convenção será adotada ao longo do trabalho.
Exemplo 1: VaR e Perda Esperada de um ativo com distribuição normal
A título de ilustração, vamos calcular o VaR e o PE de um ativo com distribuição dos retornos
X ∼ N (µ, σ), e sejam Φ(.) e φ(.), respectivamente, as funções de distribuição e densidade de
probabilidade normais padrão. Temos, então, que:
VaRα (X) = −µ − σΦ−1 (α))
Z −1
(x−µ)2
φ(Φ−1 (α))
1 Φ (α) x
√
e− 2σ2 dx = −µ − σ
PEα (X) = −
α ∞
α
σ 2π
18
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
Figura 2.3: VaR e Perda Esperada de nível 10% para retornos com distribuição normal padrão.
A área cinza corresponde a 10% de probabilidade.
Exemplo 2: VaR e Perda Esperada de um ativo com distribuição t de Student
Seguindo o mesmo raciocínio que no exemplo anterior, temos que se X ∼ t(ν, µ, σ):
VaRα (X) = −µ − σt−1
ν (α)
gν (t−1
ν (α))
PEα (X) = −µ − σ
α
2
ν + (t−1
ν (α))
ν−1
onde tν (.) e gν (.) são, respectivamente, as funções de distribuição e densidade de probabilidade
t de Student com ν graus de liberdade.
Exemplo3: VaR e Perda Esperada de um ativo a partir de sua distribuição empírica
Ao calcular o VaR e a Perda Esperada de um ativo a partir de sua distribuição empírica, pode-se
perceber as implicações das descontinuidades na função de distribuição. Para ilustrar o cálculo,
considere a função de distribuição da Figura 2.4. O exemplo ilustra o VaR com nível de 20%
(na figura, é a linha pontilhada em vermelho).
Conforme a definição de quantis dada em 2.2.1, podemos ver no exemplo abaixo que as duas
definições se equivalem:
X − = {x ∈ R|P(X ≤ x) ≤ 0.2} = (−∞, −1) ⇒ sup(X − ) = −1
X + = {x ∈ R|P(X ≤ x) > 0.2} = [−1, ∞) ⇒ inf(X + ) = −1
Como a função de distribuição é uma função crescente, e os conjuntos X − e X + são complementares, o primeiro terá sempre a forma (−∞, −VaRα ), e o segundo, [−VaRα , ∞).
0.2
0.4
0.6
0.8
1.0
19
0.0
Distribuição de Probabilidade
2.3. MEDIDAS COERENTES DE RISCO
−3
−2
−1
0
1
2
3
Retorno
Figura 2.4: Exemplo de distribuição empírica.
Reproduzindo a equação de Perda Esperada em 2.2.3:
1
PEα (X) = − E XI(−∞,Qα (X)] + Qα (X)(α − P(X ≤ Qα (X)))
( α
E XI(−∞,Qα (X)] = 0.2(−2) + 0.2(−1) = −0.6
onde
P(X ≤ Qα (X)) = 0.4
1
⇒PEα (X) = − (−0.6 − 1(0.2 − 0.4)) = −2
0.2
2.3
Medidas coerentes de risco
A definição 3 de medida de risco é bastante flexível e comporta o Valor em Risco e a Perda
Esperada. De fato, qualquer função real definida em M(m) pode ser uma medida de risco
a partir desta definição. Apesar de flexível, essa definição não impõe determinadas condições
que seriam desejáveis a uma medida de risco. Por exemplo, a função f (m) = k, onde k é uma
constante qualquer, se encaixa na definição de medida de risco em 3.
Neste contexto, Artzner define em [3] um conjunto de axiomas que caracterizam uma medida de risco coerente. Esses axiomas são:
1. Monotonicidade: X ∈ M(m), X ≥ 0 ⇒ ρ(X) ≤ 0
Este axioma indica que quando não há risco de perda (X ≥ 0), a medida de risco não
pode ser maior que zero. Da mesma maneira, uma medida de risco maior que zero implica
que existe uma probabilidade não nula de perda. Por outro lado, uma carteira pode ter
20
CAPÍTULO 2. MEDIDAS E MODELOS DE RISCO
medida de risco menor que zero e ainda assim apresentar probabilidade não nula de perda.
2. Sub-aditividade: X, Y, X + Y ∈ M(m) ⇒ ρ(X + Y ) ≤ ρ(X) + ρ(Y )
A sub-aditividade diz respeito ao efeito de diversificação de carteiras: o risco de duas
carteiras, quando avaliadas conjuntamente, deve ser no máximo igual à soma do risco
individual de cada carteira, podendo ser menor. Em outras palavras, a diversificação tem
o poder de reduzir o risco de uma carteira.
3. Homogeneidade positiva: X ∈ M(m), λ ∈ R ⇒ ρ(λX) = λρ(X)
Este axioma significa que multiplicar as posições de uma carteira por um escalar vai
multiplicar o risco por esse mesmo escalar.
4. Invariância à translação: X ∈ M(m), k ∈ R ⇒ ρ(X + k) = ρ(X) − k
A carteira (X + k) equivale a adicionar à carteira ativos livres de risco cujo valor é k. Isso
equivale à translação na distribuição das perdas em −k, e portanto a perda será reduzida
exatamente neste montante.
Conforme demonstrado em Artzer [2], a Perda Esperada é uma medida coerente. Já o Valor
em Risco é monotônico, positivamente homogêneo e invariante à translação, mas não é subaditivo, e portanto, não é uma medida de risco coerente. É possível mostrar esse fato a partir de
um exemplo simples: sejam 100 debêntures, todas emitidas por empresas diferentes, e cada uma
com 2% de probabilidade de inadimplência. O preço de cada debênture é $100 e os eventos
de inadimplência das debêntures são independentes entre si. Não havendo inadimplência, o
retorno de cada debênture é de $5, e havendo, todo o valor é perdido (ou seja, o retorno é de
-$100). Denotando por Ii o evento de inadimplência da debênture i, temos que o retorno da
P
carteira com N debêntures é dado por X = N
i 5(1 − Ii ) − 100Ii .
Sejam agora duas carteiras: a carteira A possui uma das debêntures, e a carteira B é
composta pelas outras 99 debêntures. O Var de nível 5% da carteira A é igual a -$5, enquanto
o da carteira B é o equivalente a 4 empresas inadimplentes em 992 , o que dá uma perda de
4 × $100 − (99 − 4) × $5 = −$75. Por fim, o VaR da carteira (A+B) equivale a 4 inadimplências
em 100, com uma perda de 5 × $100 − (100 − 5) × $5 = $25. Ou seja, VaR(A+B) = $25 >
Var(A) + VaR(B) = (-$5) + (-$75) = -$80, contradizendo a sub-aditividade.
Por fim, vale notar que se a distribuição das carteiras é normal, vale a sub-aditividade do
VaR.
2
Para esse resultado, usou-se a inversa generalizada da distribuição binomial
Capítulo 3
Backtesting
Modelos de risco são usados na tomada de decisões tanto por gestores de investimentos, que
desejam adequar a relação entre o retorno desejado e o risco incorrido, como por autoridades
reguladoras, que devem observar se as instituições financeiras estão assumindo mais riscos que
seu patrimônio pode suportar. Por isso, as estimativas de perda fornecidas pelos modelos de
risco devem ser constantemente avaliadas através de backtesting, que compara as estimativas
de risco com perdas ocorridas de fato através de testes estatísticos.
Os métodos mais populares de backtesting, como os propostos em [16], [9] e [10], analisam
a série de violações do VaR, ou seja, em que momentos a perda incorrida foi maior que o VaR
estimado pelo modelo de risco. Como a probabilidade de violação do VaR de nível α é igual
a α, então podemos afirmar que se o modelo de risco estiver correto, a série de violações será
uma série i.i.d. de variáveis aleatórias com distribuição Bernoulli com parâmetro α. Os dois
trabalhos citados acima usam testes de razão de verossimilhança para verificar essa hipóteses. Dependendo da propriedade que está sendo avaliada, os backtests baseados em violações
são classificados na literatura como testes de cobertura incondicional, testes de independência ou testes de cobertura condicional (que avaliam conjuntamente o nível do VaR e a
independência das violações).
Por desconsiderar a magnitude das perdas, métodos de backtesting baseados em séries de
violações não podem ser aplicados ao Expected Shortfall. Há poucos trabalhos na literatura
sobre backtesting desta medida de risco. Em um deles, Kerkhof e Melenberg desenvolveram
um framework para backtesting de uma medida de risco qualquer [15], que consiste em um
teste de hipótese cuja estatística observada é a diferença entre a medida de risco proveniente
do modelo de risco e a medida aplicada à distribuição histórica das perdas.
Uma das críticas aos métodos de backtesting apresentados a seguir é a baixa taxa de rejeição
de modelos mal especificados. Como será mostrado a seguir, o poder dos testes pode ser
indesejavelmente baixo quando o tamanho da amostra usada no backtest é pequena. Outro
problema é que os métodos são baseados na distribuição assintótica das estatísticas de teste.
21
22
CAPÍTULO 3. BACKTESTING
Essa distribuição pode ter uma diferença significativa para a distribuição real.
Nas próximas seções, serão estudados diversos modelos de backtesting. Foram selecionados
métodos amplamente utilizados no mercado, como o método de Kupiec [16] e de Christoffersen
[9], ou métodos que se propõem a corrigir deficiências observadas nos métodos mais populares,
como o testes baseados em duration [10] e o método de Kerkhof e Melenberg [15].
Para simplificar a apresentação dos métodos a seguir, consideraremos o horizonte de tempo
de um dia, exceto quando explicitado. A extensão para outros horizontes de tempo será descrita ao final do capítulo, e alterações de posições na carteira de um dia para o outro serão
desconsideradas.
3.1
Backtestings baseados em violações
Seja {Yt }Tt=1 a série dos retornos observados, e {VaRt }Tt=1 a série das estimativas de VaR de
nível α. Diz-se que houve uma violação na data t quando a perda da carteira em t foi maior
que o VaR estimado para essa data. Assim, a sequência de violações {Yt }Tt=1 é dada por:
(
It =
1, se Yt < −VaRt
0, caso contrário
Se o modelo de VaR foi especificado corretamante, a probabilidade da perda Yt ser maior
que VaRt é igual a α. Assim, espera-se que a série {It } seja i.i.d. com distribuição Bernoulli(α).
O teste de Kupiec é um teste de cobertura incondicional, e os testes propostos por Christoffersen ([9] e [10]) são testes de independência e de cobertura condicional.
3.1.1
Teste de Kupiec
O teste de Kupiec consiste em um teste de hipótese sobre o nível θ do VaR estimado pelo
modelo de risco:
H0 : θ = α
H1 : θ 6= α
Sob a hipótese nula, {It } tem distribuição Bernoulli(α), e portanto o total de violações V
tem distribuição binomial:
T
X
V =
It ∼ Binomial(T, α)
t=1
O autor propõe usar o teste da razão de verossimilhança para testar a hipótese nula em
3.1. BACKTESTINGS BASEADOS EM VIOLAÇÕES
23
Tabela 3.1: Intervalos de violações no teste de Kupiec
α
T
Teste 1% Teste 5%
1% 250
[0, 7]
[1, 6]
1% 500
[1, 11]
[2, 9]
1% 1000
[4, 19]
[5, 16]
1% 2000 [10, 32]
[12, 29]
5% 250
[5, 22]
[7, 19]
5% 500
[14, 38]
[17, 35]
5% 1000 [34, 68]
[38, 64]
5% 2000 [76, 126] [82, 119]
(3.1.1). A estatística do teste é dada por:

Λ(V ) = −2 ln 

L(α | V )

sup{L(θ | V ) : θ ∈ [0, 1]}
θ
=

V
α (1 − α)(T −V )


, se V > 0

 −2 ln α̂V (1 − α̂)(T −V )



 −2 ln (1 − α)T , se V = 0
onde L(.) é a função de verossimilhança, α̂ = V /T é o estimador de máxima verossimilhança
de α e, assintoticamente, Λ(V ) ∼ χ2 (1)1 .
A Tabela 3.1 mostra os valores mínimo e máximo de violações para não-rejeição no teste de
Kupiec com níveis de confiança de 1% e 5%, níveis de VaR de 1% e 5% e tamanho da amostra
T variando de 250 a 2000 dias. Observe que para os valores menores de T , a faixa de violações
na região de não-rejeição é relativamente ampla. Por exemplo, se T = 250, 6 violações não
são suficientes para rejeitar o VaR de 1%. O valor de máxima verossimilhança para α quando
V = 6 é α̂ = 6/250 = 2, 4%, siginificativamente maior que o nível esperado do VaR (de 1%).
Isso sugere um erro de tipo II grande.
1
Em um teste de razão de verossimilhança, a estatística de teste é assintoticamente distribuída como uma
chi-quadrada. O grau de liberdade é dado pela diferença entre o número de parâmetros livres nos modelos
associados às hipótese nula e alternativa. O modelo da hipótese nula não possui parâmetros livres, pois supõese que θ = α. Já na hipótese alternativa, o parâmetro θ é livre.
24
CAPÍTULO 3. BACKTESTING
Análise do poder do teste
O poder do teste de Kupiec (probabilidade de rejeitar o modelo quando a hipótese nula é falsa)
é dado por:
VX
max T
(1 − β) = 1 −
αav (1 − αa )(T −v)
v
v=V
min
onde:
• a hipótese alternativa tem a forma θ = αa ;
• [Vmin , Vmax ] é o intervalo de confiança para o número de violações, conforme o nível de
confiança do teste.
A Figura 3.1 mostra o poder deste teste para diversas hipóteses alternativas e para vários
tamanhos de amostra T . Neste gráfico, percebe-se que o poder de teste depende fortemente
do tamanho da amostra: no teste de nível de 5%, quando o tamanho da amostra é de 2000
dias, são rejeitados mais de 90% dos modelos com nível de VaR de 2% (ou seja, 2 vezes mais
que o nível de VaR da hipótese nula). Já se o tamanho da amostra é de 250 dias, essa taxa de
rejeição cai para pouco mais de 20%.
Figura 3.1: Poder do teste de Kupiec com nível de confiança de 5%(abaixo) para VaR de 1% e
diversos tamanhos de amostra
3.1.2
Testes de Independência Serial das Violações
Como observado por Mandelbrot em [17], “grandes variações [nos preços de ativos financeiros]
tendem a ser seguidas por grandes variações, em qualquer direção, e pequenas variações tendem a ser seguidas por pequenas variações”. É desejável que o modelo VaR capture esse fato
3.1. BACKTESTINGS BASEADOS EM VIOLAÇÕES
25
estilizado, sendo maior (e portanto, mais conservador) nos períodos de mais turbulência no
mercado. Se o modelo de risco considera a volatilidade como sendo constante, é provável que
as violações ocorram com frequência maior que o esperado em períodos de maior volatilidade,
e com menor frequência nos demais períodos.
Christoffersen propôs em [9] e [10] testes estatísticos para verificar se a série de violações é
temporalmente independente, indicando que a variação de volatilidade da série foi capturada
pelo modelo de risco.
A primeira abordagem do autor é uma simplificação do problema, e testa a independência
entre duas datas consecutivas na série de violações. Se essa dependência existe, e se datas não
consecutivas são independentes, a série pode ser interpretada como uma Cadeia de Markov de
primeira ordem cuja matriz de probabilidades de transição é:
"
(1 − α01 ) (1 − α11 )
Π=
α01
α11
#
onde αij = P(It = j|It−1 = i), ou seja, α11 e α01 são, respectivamente, a probabilidade de
haver violação dado que houve e que não houve violação no dia anterior. O teste de independência, no caso, consiste em verificar se a probabilidade de haver violação na data t independe
de ter havido violação em t − 1, ou seja:
H0 : α01 = α11
H1 : α01 6= α11
(3.1.1)
Alternativamente, é possível fazer um teste de cobertura condicional através um teste de hipótese similar:
H0 : α01 = α11 = α
H1 : α01 6= α11
(3.1.2)
Assim, sejam:
T0 =
T1 =
T −1
X
t=1
T
−1
X
t=1
(1 − It )
It
T01 =
T11 =
T −1
X
t=1
T
−1
X
It+1 (1 − It )
It+1 It
t=1
Ou seja, T0 e T1 são, respectivamente, o número de “não-violações” e de violações, desconsiderando o último elemento da série {It }; T01 é o número de violações que sucedem uma
“não-violação” e T11 é o número de violações que sucedem uma violação. Novamente, T01 e T11
26
CAPÍTULO 3. BACKTESTING
possuem distribuição binomial. Logo, para testar a hipótese de independência em 3.1.1, o teste
da razão de verossimilhança tem a forma:

sup {L(α01 , α11 | I) : α01 = α11 }
 (α01 ,α11 )
ΛIND (V ) = −2 ln 
sup {L(α01 , α11 | I)}



(α01 ,α11 )
onde I representa as observações de T0 , T1 , T01 e T11 e Λ(V ) tem distribuição assintótica χ2 (1).
Neste caso, temos que:
• α̂ =
T01 +T11
T0 +T1
é o estimador de máxima verossimilhança de αˆ01 e αˆ01 na hipótese nula;
• αˆ01 = T01 /T0 e αˆ11 = T11 /T1 são, respectivamente, os estimadores de máxima verossimilhança de αˆ01 e αˆ01 .
Assim, a estatística do teste é dada por:


α̂(T01 +T11 ) (1 − α̂)(T0 +T1 −T01 −T11 )


−2 ln
, se T01 + T11 > 0


αˆ01 T01 (1 − αˆ01 )(T0 −T01 ) αˆ11 T11 (1 − αˆ11 )(T1 −T11 )



α̂T01 (1 − α̂)(T0 +T1 −T01 )
ΛIND (V ) =
−2 ln
, se T11 = 0
T01
(T0 −T01 )

α
ˆ
(1
−
α
ˆ
)
01
01

T11



α̂ (1 − α̂)(T0 +T1 −T11 )

 −2 ln
, se T01 = 0

αˆ11 T11 (1 − αˆ11 )(T1 −T11 )
Esse teste só é válido quando há pelo menos uma violação na série observada. Amostras sem
violações foram consideradas como não rejeitadas nos cálculos acima. Para valores pequenos
de T (como T=250, bastante utilizados na prática), a probabilidade de não haver violações é
significativamente alta e pode prejudicar a aplicação do teste. Por exemplo, para α = 1%, essa
probabilidade é igual a 8%.
O teste pode ser facilmente adaptado para testar a hipótese nula α01 = α11 = α, bastando
que L(α̂ | I) seja substituído por L(α | I). Neste caso, porém, o espaço de variáveis da função
de verossimilhança associada às hipótese nula diminui de 1 para zero, e portanto, a estatística
tem distribuição χ2 (2).
Estimativa do poder do teste através de simulações de Monte Carlo
O poder deste teste foi estimado através de simulações de Monte Carlo para alguns valores
T e algumas combinações de α e α11 . Note que, fixada uma probabilidade incondicional α =
P(It = 1) e uma probabilidade α11 = P(It = 1|It−1 = 1), a probabilidade α01 fica também
3.1. BACKTESTINGS BASEADOS EM VIOLAÇÕES
27
determinada:
α = P(It = 1)
= P(It = 1|It−1 = 1)P(It−1 = 1) + P(It = 1|It−1 = 0)P(It−1 = 0)
= α11 α + α01 (1 − α)
⇒ α01 =
α(1 − α11 )
1−α
A Tabela 3.2 mostra o poder estimado pelas simulações para um teste com nível de 5% de
confiança e nível de VaR de 1%. Para cada combinação de T e α11 , foram geradas 10.000 séries.
Tabela 3.2: Poder do teste de Christoffersen baseado em cadeias de Markov
α11 (%) 250
500
1000 2000
1
1.53 1.28 1.62 1.49
2
2.71 2.84 4.34 5.14
5
7.38 9.42 15.13 24.57
10
15.27 21.01 35.87 56.59
20
28.41 43.5 66.92 87.3
Os resultados encontrados por Christoffersen em [10] também apontam para o baixo poder
deste método de backtesting.2 Neste trabalho, Christoffersen aplica a metodologia de VaR
histórico à séries de retornos Yt geradas pelo modelo GARCH(1,1)-t(d):
r
Yt+1 = σt
d−2
zt+1
d
r
2
σt+1
= ω + κσt2
d−2
zt+1 − θ
d
!2
+ βσt2
Os parâmetros utilizados foram d = 8, κ = 0.1, β = 0.85, θ = 0.5 e ω = 3.9683e − 6, o
que implica em uma persistência de volatilidade igual a 0.975. O poder do teste avaliado pelo
autor para VaR de 1% e nível de confiança do teste de 5% ficou entre 26.3% (para amostra de
tamanho 250) e 42.7% (amostra de tamanho 1500).
3.1.3
Backtest baseado em duration
Backtests baseados em cadeias de Markov de primeira ordem apresentam uma fragilidade nítida:
não capturam dependências de ordens superiores. Para corrigir esse problema, Christoffersen
propôs em [10] um segundo método de backtesting baseado na série de durations. Esta série
é obtida a partir da série de violações, e cada elemento representa o número de dias entre duas
2
O teste realizado em [9] não utiliza VaR. Ao invés disso, considera como violações os retornos fora de um
intervalo de confiança bilateral de 75%. Como essa configuração é bastante atípica quando comparada ao VaR,
preferimos citar os resultados obtidos em [10]
28
CAPÍTULO 3. BACKTESTING
violações consecutivas:
Di = ti − ti−1
(3.1.3)
onde Di é o i-ésimo elemento da série de durations e ti é a “data” 3 da i-ésima violação. Para
ilustrar, a duration correspondente a uma violação no dia seguinte a outra violação vale 1. Já se
houve três dias sem violação entre duas violações, a duration vale 4 (pois ocorreu no quarto dia
após a violação imediatamente anterior). Como It é uma variável aleatória Bernoulli, então Di é
uma variável aleatória geométrica com probabilidade α, ou seja, Pnão-cens (Di = d) = (1−α)d−1 α.
Por motivos não informados em seu artigo, Christoffersen não utilizou a distribuição geométrica para modelar as durations; tendo optado pela distribuição exponencial, sua equivalente
no caso contínuo. O autor argumenta que o viés introduzido pelo uso de uma variável contínua
será endereçado nas simulações de Monte Carlo utilizadas na realização do teste.
Tendo a distribuição exponencial como hipótese nula, o teste de razão de verossimilhança
requer que a hipótese alternativa seja uma distribuição mais genérica, que tenha a exponencial
como um caso específico. Além disso, a distribuição alternativa deve permitir “funções hazard”
não constantes, capturando o decréscimo na probabilidade de violação na medida em que o
tempo sem ocorrência de violações aumenta. O teste de razão de verossimilhança vai, então,
medir quanto um modelo sem memória (distribuição exponencial) se diferencia do modelo
ótimo, possivelmente com memória.
Três distribuições são sugeridas pelo autor para a hipótese alternativa: Weibull, Gamma e
EACD (Exponential Autoregressive Conditional Duration), cujas distribuições são dadas por:
b
• Weibull: f (D; a, b) = ab bDb−1 e−(aD)
• Gamma: f (D; a, b) = ab Db−1 e−aD (Γ(b))−1
• EACD: f (Di |ψi ; a, b) = ψi−1 e−Di /ψi , com ψi ≡ Ei−1 [Di ] = a + bDi−1
onde a hipótese nula para os três modelos é H0 : b = 1.
A distribuição EACD é a única condicional, e portanto a única que leva em consideração a
ordenação das durations, o que poderia sugerir maior poder do teste que utiliza essa distribuição.
Porém, os testes realizados pelo autor apontaram que quando a distribuição EACD é utilizada,
o poder do teste é similar ao backtest baseado em cadeias de Markov. O mesmo não pode
ser dito acerca do backtest de duration com distribuição alternativa Weibull. Apesar do poder
deste teste também ser comparável ao de cadeias de Markov para amostras pequenas, ele é
significativamente superior para amostras maiores (de 4 anos ou mais). Por esse motivo, neste
trabalho serão utilizados os testes de independência baseados em cadeias de Markov, e em
duration com distribuição alternativa Weibull, onde a escolha do método será feita em função
do tamanho da amostra.
3
Mais precisamente, ti é a posição em It da i-ésima violação.
3.1. BACKTESTINGS BASEADOS EM VIOLAÇÕES
29
A implementação do teste consiste em três etapas: geração da série de durations; cálculo
dos estimadores de máxima verossimilhança para a hipótese alternativa e para a hipóteses nula;
e cálculo das verossimilhanças nas duas hipóteses. Estas etapas são descritas a seguir.
Obtenção da série de durations
A obtenção da série de durations com base na série de violações é bastante direta, exceto pela
primeira e pela última durations. Para ilustrar este fato, tomemos como exemplo a série de
violações
{It }16
(3.1.4)
t=1 = {0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0}
Usando a equação 3.1.3, obtemos D2 = 5 (pois houve violações consecutivas no quarto e no
nono dias), D3 = 1 e D4 = 4. Mas a única coisa que se pode dizer sobre a primeira e última
durations é que D1 > 3 e D5 > 2. Isso ocorre porque não houve violação nem no primeiro nem
no último dia da série de violações. Suponha que a série de durations de 3.1.4 seja representada
apenas por:
{Di }5i=1 = {3, 5, 1, 4, 2}
Note que a série {1,0,0,1,0,0,0,0,1,1,0,0,0,1,0,1} teria uma série de durations idêntica, mas a
probabilidade desta série ocorrer é diferente da série de 3.1.4.
Assim, para complementar a informação da série de durations, Christoffersen propôs uma
série {Ci }N
i=1 que indica se Di corresponde a um dado censurado. Diz-se que a duration Di
é censurada quando ela representa apenas um limiar inferior para seu valor verdadeiro, e não
o seu valor exato. Assim, temos que C1 = C5 = 1 (indicando que D1 e D5 são censuradas), e
C2 = C3 = C4 = 0. Obviamente, apenas o primeiro e o último elementos da série de durations
podem ser censurados.
Implementação do backtest baseado em durations com distribuição Weibull
Tendo obtido a série de durations, é preciso calcular os estimadores de máxima verossimilhança
para as distribuições exponencial e Weibull. A log-verossimilhança de uma série de durations
censurada é dada por:
ln(L(D; Θ)) = C1 ln(S(D1 )) + (1 − C1 ) ln(f (D1 )) +
N
−1
X
ln(f (Di ))
i=2
+ CN ln(S(DN )) + (1 − CN ) ln(f (DN ))
onde N é o tamanho da série de durations, f é a função de distribuição com parâmetros Θ
e S é a função de sobrevivência da distribuição.
30
CAPÍTULO 3. BACKTESTING
Para o caso exponencial, é possível obter os estimadores de máxima verossimilhança analiticamente. A distribuição exponencial é dada por f (d) = ae−ad , e sua função de sobrevivência
é S(d) = e−ad . Assim, temos que:
â =
(N − C1 − CN )
PN
i=1 Di
Mas uma desvantagem do teste baseado em durations é que não há fórmula fechada para os
estimadores de máxima verossimilhança da distribuição Weibull (assim como para as demais
distribuições Gamma e EACD). A necessidade de utilização de um algoritmo de otimização
numérica torna o método computacionalmente mais complexo quando comparado com o teste
baseado em cadeias de Markov. Porém, especificamente para a distribuição Weibull, é possível
explicitar uma relação entre os parâmetro no ponto ótimo:
â =
N − C1 − CN
PN
b̂
i=1 Di
!1/b̂
Com isso, o problema de otimização transforma-se em um problema de uma variável.
Utilizou-se a função optimize do software R para aproximar os estimadores de máxima verossimilhança. Essa função usa o método de Newton e aproxima a matriz hessiana pelo método
BFGS. Apesar de a hessiana poder ser facilmente explicitada para a função Weibull, seu uso gerou algumas instabilidades numéricas. Com isso, apenas a primeira derivada da função-objetivo
foi fornecida para o otimizador. A única restrição do problema é que os parâmetros a e b devem
ser ambos maiores que zero.
Estimativa do poder do teste através de simulações de Monte Carlo
Para avaliar o poder do teste, utilizou-se simulação de Monte Carlo. Para gerar as séries de
duration, foram simuladas séries de variáveis aleatórias Wi ∼ Weibull. Arredondou-se cada Wi
para cima, transformando os elementos da série em números inteiros maiores que zero. Para
simular o primeiro elemento (que pode ser uma duration censurada), sorteou-se uma variável
uniforme discreta U entre zero e dW1 e − 1, onde D1 = dW1 e − U , e C1 = 0 se e somente se
U = 0. Para i > 1, fazemos Di = dWi e até que o tamanho da série de violações seja alcançado,
o que pode implicar na censura do último elemento da série.
Como espera-se que a taxa de violações diminua quanto maior for a duration (função “hazard” decrescente), foram utilizados valores de b menores que 1 na simulação. Foram simuladas
1.000 séries de duration para T=2.000 com b = 1/2, nível do VaR de 1% e nível de confiança
do teste de 5%. Com esta configuração, o poder do teste ficou em 61%.
3.2. BACKTEST PARA PERDA ESPERADA
3.2
31
Backtest para Perda Esperada
Como foi mencionando na seção anterior, testes baseados em violações não são aplicáveis à
Perda Esperada, pois essa medida de risco reflete a magnitude esperada (e não o valor mínimo)
das piores perdas. Diante deste problema, Kerkhof e Melenberg propuseram em [15] um método
genérico de backtesting, que consiste na construção de um intervalo de confiança para a medida
de risco a partir da distribuição empírica das perdas. O teste baseia-se no método do deltafuncional [23] e pode ser aplicado a uma vasta gama de medidas de risco, incluindo o VaR e a
Perda Esperada. Para sua aplicação, é necessário que os retornos passem previamente por um
processo de padronização, como será visto a seguir. Por fim, vale mencionar que este é um teste
de cobertura não-condicional, pois a ordenação dos retornos não é levada em consideração.
Construção da estatística de teste
Kerkhof e Melenberg definem medidas de risco como funcionais que mapeiam elementos do
espaço das distribuições de probabilidade DF em reais:
%(Q) : DF → R
Por esta notação, o VaR de nível α é escrito como:
%α (Q) := −Q−1 (α)
(3.2.1)
e a Perda Esperada, como:
1
%α (Q) := −
α
Z
Q−1 (α)
Z
x dQ(x) + Q−1 (α) α −
!!
Q−1 (α)
dQ(x)
−∞
(3.2.2)
−∞
onde Q é a distribuição padronizada dos retornos. Se Q é uma distribuição contínua, então
R Q−1 (α)
dQ(x) = α, e neste caso:
−∞
1
%α (Q) := −
α
Z
Q−1 (α)
!
x dQ(x)
(3.2.3)
−∞
Um conceito importante para a construção da estatística do teste proposto em [23] é o de
função de influência. Em linhas gerais, a função de influência ψx (%, Q) do funcional %(Q)
em um ponto x mede quanto %(Q) varia quando ocorre uma perturbação em Q na direção de
uma função-impulso δx . Formalmente, escreve-se:
ψx (%, Q) = lim+
t→0
%((1 − t)Q + tδx ) − %(Q)
t
(3.2.4)
32
CAPÍTULO 3. BACKTESTING
Se %(Q) é Hadamard-diferenciável, podemos aplicar o método do delta-funcional [23]:
T
√
√ 1X
T (%(QT ) − %(Q)) = T
ψt (Q) + op (1),
T t=1
Eψt (Q) = 0,
Eψt2 (Q) < ∞
onde QT é a distribuição empírica obtida de uma amostra de T retornos com distribuição Q.
Kerkhof e Melenberg mostram que tanto o VaR como a Perda Esperada são Hadamarddiferenciáveis. Com isso, se %(Q) é avaliado sob a hipótese nula H0 : Q = G, obtemos a
seguinte estatística de teste:
ST =
√ (%(QT ) − %(Q)) d
T p
→
− N (0, 1)
Eψ 2 (Q)
(3.2.5)
onde Eψ 2 (Q) é a variância da função de influência da medida de risco % para a distribuição Q.
Em outras palavras:
!
r
Eψ 2 (Q)
d
%(QT ) →
− N %(Q),
T
Assim, para gerar a estatística de teste para o VaR, basta substituir a expressão 3.2.1 em
3.2.4 e calcular a variância desta última expressão, o que nos dá os seguintes resultados:
ψVaR (Q) = −
α − I(∞,Q−1 (α)] (x)
q(Q−1 (α))
EψV2 aR (Q) =
α(1 − α)
q 2 (Q−1 (α))
(3.2.6)
onde q é a densidade de probabilidade de Q.
Realizando os mesmos cálculos para a Perda Esperada (3.2.2), chega-se a:
"
!#
Z Q−1 (α)
1
(x − Q−1 (α))I(∞,Q−1 (α)] (x) + ψVaR (Q) α −
dQ(x) −P E(Q)+V aR(Q)
ψPE (Q) = −
α
−∞
Se Q é contínua, a expressão pode ser reduzida a:
ψPE (Q) = −
1
(x − Q−1 (α))I(∞,Q−1 (α)] (x) − P E(Q) + V aR(Q)
α
e a variância da função de influência é dada por:
EψP2 E (Q)
1 2
1
1
2
= 2 E x I(∞,Q−1 (α)] (x) −
+ 3 (VaR(Q)) −2
+ 3 VaR(Q)PE(Q)+3(PE(Q))2
α
α
α
(3.2.7)
Sob a hipótese nula H0 : Q ∼ N (0, 1), as expressões acima possuem fórmulas fechadas em
termos da funções de distribuição e densidade da normal padrão. A função de distribuição será
3.2. BACKTEST PARA PERDA ESPERADA
33
denotada por Φ(x), e a função densidade, por φ(x). Temos, então, que:
VaRα (Q) = −Φ−1 (α)
φ(Φ−1 (α))
PEα (Q) =
α
2
E x I(∞,Q−1 (α)] (x) = α − Φ−1 (α)φ(Φ−1 (α))
(3.2.8)
(3.2.9)
(3.2.10)
Com essas expressões, a estatísticas de teste 3.2.5 é calculada simplesmente substituindo-se as
equações acima em 3.2.4, 3.2.6 e 3.2.7
Padronização dos retornos
Os testes propostos em [15] são aplicáveis a retornos independentes e identicamente distribuídos. Porém, sabe-se que a distribuição dos retornos de uma carteira tipicamente varia no
tempo. Mesmo que o modelo de distribuição de retornos para uma determinada data seja
não-condicional, os parâmetros do modelo tipicamente são reavaliados a cada dia tk a partir do
histórico de retornos {Yt }, t ∈ {k − T, ..., k − 1}.
Para contornar essa situação, Kerkhof e Melenberg propuseram o uso de retornos padronizados. Seja Yt ∼ Ft o retorno de um ativo (ou carteira de ativos) na data t. Tipicamente, a
distribuição exata Ft não é conhecida, sendo aproximada por uma distribuição Pt . O objetivo
final do backtest é testar a hipótese nula H0 : Pt = Ft .
Como precisamos de uma série identicamente distribuída (pelo menos sob a hipótese nula),
podemos usar o Teorema da Integral de Probabilidade: se Yt ∼ Pt , então Pt (Yt ) possui distribuição uniforme, e portanto:
ht = G−1 (Pt (Yt )) ∼ G
Se Pt 6= Ft , temos que ht ∼ Qt 6= G. Desse modo, ao usar a série de retornos padronizados
{ht } para testar a hipótese nula H0 : G = Qt , estamos testando indiretamente a hipótese
H0 : Pt = Ft .
3.2.1
Resultados da simulação
Inicialmente, verificamos o tamanho do teste, simulando 1.000 séries de retornos {Xt }Tt=1 , Xt ∼
N (0, 1) para vários tamanhos de T e verificando quantas foram rejeitadas. A importância
deste teste é verificar a velocidade de convergência da estatística de teste para sua distribuição
assintótica normal.
Para avaliar o poder do teste da mesma forma como foi feito para o teste de Kupiec, é
preciso definir o desvio padrão que gera o mesmo nível de violação. Assim, devemos encontrar
34
CAPÍTULO 3. BACKTESTING
Tabela 3.3: Tamanho
Teste 1%
α
T
VaR
1% 250
11
1% 500
21
1% 1000
9
1% 2000
10
5% 250
14
5% 500
14
5% 1000
15
5% 2000
5
do teste de Kerkhof
Teste 5%
PE
VaR
PE
3
47
38
11
75
56
9
57
46
5
34
37
6
54
40
8
52
44
9
69
43
6
42
35
o desvio padrão β tal que:
Xt ∼ N (0, β) ⇒ P(Xt < Φ−1 (α0 )) = α1
onde α0 é o nível do VaR sob a hipótese nula e α1 é a probabilidade de violação do VaR na
hipótese alternativa.
A Figura 3.2 mostra o poder do backtest de Kerkhof e Melenberg para o VaR de nível 1%
e diversos valores de T. O nível de confiança do teste foi de 5%.
Figura 3.2: Poder do teste de Kerkhof com nível de confiança de 5% para VaR de 1% e diversos
tamanhos de amostra
Capítulo 4
Estudo de casos
4.1
Descrição das séries
Para realizar os estudos de caso, foram utilizadas 35 séries financeiras brasileiras de log-retornos,
sendo 5 séries de câmbio para real (dólar, euro, libra, iene e franco suíco), e 3 curvas de juros
(pré-fixados, cupom de IPCA e DIxDólar) com 10 vértices cada (1, 2, 3 e 6 meses, 1, 2, 3, 4,
5 e 10 anos). Todas as séries apresentaram valor médio significativamente inferior ao desvio
padrão: no pior caso, a relação valor médio/desvio padrão foi de 0.12 para o vértice de um mês
da curva de juros pré-fixados.
Como era esperado, a volatilidade das taxas de câmbio é geralmente maior que a das curvas
de juros, exceto para vértices longos. A volatilidade das taxas de câmbio foi similar para as
cinco moedas, ficando dentro do intervalo de 0.945% a 1.24%, enquanto que os vértices até
3 anos das curvas de juros apresentaram volatilidades menores que 0.42%. Além disso, as
volatilidades dos vértices das três curvas de juros aumentaram com o prazo (Figura 4.1), sendo
que o vértice de 10 anos da curva de juros pré-fixado apresentou a maior volatilidade, de 2.5%.
Para analisar a variação da volatilidade ao longo do tempo, cada série foi dividida em
blocos de um ano e a volatilidade de cada bloco foi calculada. A evolução das volatilidades
pode ser vista na Figura 4.2. Percebe-se um pico de volatilidade em todas as séries no ano de
2008, especialmente nas séries de câmbio. Os vértices longos de juros pré-fixados apresentaram
volatilidades bastante elevadas em 2004, mostrando tendência de queda com o passar dos anos.
O Gráfico 4.3 mostra a função de autocorrelação para os lags de 1 a 10 das curvas de juros
e das moedas. Cada vértice está representado por uma cor, e a linha pontilhada em azul é o
intervalo de confiança de 95% para a hipótese nula de que a autocorrelação é zero. Observa-se
que a hipótese nula foi descartada para os vértices mais curtos da curva de juros pré-fixados,
havendo uma autocorrelação positiva significativa em todos os lags. Também é possível notar
uma correlação negativa no lag 1 para os vértices curtos das curvas de DIxDolar e Cupom de
IPCA. Para as séries de moeda, a hipótese nula de autocorrelação igual a zero não foi descartada
35
CAPÍTULO 4. ESTUDO DE CASOS
0.000
0.015
0.030
36
0
20
40
60
80
100
120
Figura 4.1: Volatilidade média das curvas de juros para vértices de 1 a 120 meses. A linha
preta é a curva de juros pré-fixado, a vermelha, de DIxDolar, e a azul, de cupom de IPCA.
0.010
0.000
0.000
0.010
0.020
Cupom IPCA
0.020
Juros Pré
2004
2006
2008
2010
2012
2004
2008
2010
2012
0.010
0.000
0.000
0.010
0.020
USD,EUR,LIB,IEN,CHF
0.020
DIxDOL
2006
2004
2006
2008
2010
2012
2004
2006
2008
2010
2012
Figura 4.2: Evolução da volatilidade média anual de cada fator de risco. Cada linha das curvas
de juros representa um vértice.
para a maioria dos lags.
4.2
Comparação dos modelos para séries de moedas
Para iniciar o estudo de casos, tomaremos a série de dólar como exemplo, e analisaremos os
resultados dos backtests para cinco modelos de estimativa de VaR e perda esperada: modelo
4.2. COMPARAÇÃO DOS MODELOS PARA SÉRIES DE MOEDAS
Figura 4.3: Função de autocorrelação para os fatores de risco, lags de 1 a 10.
37
38
CAPÍTULO 4. ESTUDO DE CASOS
paramétrico normal não-condicional, modelo paramétrico normal com decaimento EWMA, modelo de simulação histórica, modelo GARCH(1,1) com distribuições Normal e t de Student com
8 graus de liberdade 1 . As configurações para os modelos paramétrico normal, de simulação
histórica e GARCH correspondem a três tamanhos de janela de dados (T=250, 500 ou 1000),
e o modelo EWMA foi testados com parâmetros λ=0.94 e 0.97.
A Tabela 4.1 mostra os p-valores dos backtests aqui tratados para as diferentes configurações
modelos de risco, utilizando nível de confiança do VaR e da Perda Esperada de 1%. O backtest
foi realizado para uma série de 4 anos de dados (de 2008 a 2011, 1000 pontos). As tabelas a
seguir mostram os p-valores dos testes de Kupiec, teste de independência de primeira ordem de
Christoffersen (Chr.98), teste baseado em duration (Chr.04), e teste de Kerkhof e Melenberg
para VaR (KM VaR) e Perda Esperada (KM PE).
Tabela 4.1: Resultados de backtests para VaR e PE (nível 1%) para uma carteira de dólar
utilizando 1000 pontos. Valores em negrito representam não-rejeição no teste com nível de
confiança de 95%, e em itálico, não-rejeição para nível de confiança de 99%.
Modelo
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Kupiec Chr.98 Chr.04 KM VaR KM PE
0.0223
0.0001
0.0002
0.0242
0.0000
0.0110
0.0002
0.0000
0.0000
0.0000
0.0794
0.0013
0.0000
0.0000
0.0000
0.7465 0.6858 0.6755
0.6166
0.3690
0.7465 0.0658 0.0934
0.9364
0.0704
0.0223
0.0000
0.0000
N/A
N/A
0.1390 0.0176
0.0000
N/A
N/A
0.2306
0.0005
0.0000
N/A
N/A
0.7544 0.8548 0.0524
0.0000
0.0000
0.7544 0.8931 0.2207
0.0000
0.0000
0.5102 0.8931 0.2207
0.0000
0.0000
0.0397 0.6207 0.9652
0.0000
0.0000
0.0090 0.6207 0.5484
0.0000
0.0000
0.0090 0.7193 0.5171
0.0000
0.0000
O único modelo de risco não rejeitado em nenhum dos testes foi o Paramétrico Condicional
com decaimento EWMA (para ambos os valores de λ=0.94). Todos os demais modelos foram
rejeitados pelos testes de Kerkhof e Melenberg aplicados ao VaR e à Perda Esperada. Considerando apenas os testes baseados em violações, os modelos não rejeitados por nenhum teste
foram os dois EWMA e as três configurações do modelo GARCH(1,1) com inovação normal. A
não rejeição do modelo GARCH-t nos testes de Christoffersen sugere que o modelo conseguiu
capturar as variações de volatilidade das séries, mas a rejeição no teste de Kupiec indica que o
nível do VaR não foi capturado corretamente.
1
Em [6], Bollerslev afirma que essa é uma boa parametrização para séries financeiras.
4.2. COMPARAÇÃO DOS MODELOS PARA SÉRIES DE MOEDAS
39
Como visto no Capítulo 3, é importante interpretar os resultados do backtest levando-se
em consideração não apenas o p-valor, mas também o poder do teste. A não-rejeição de um
modelo de risco não necessariamente indica que o modelo está adequado, mas pode ser também
consequência do baixo poder de rejeição do backtest. Os dois fatores que influenciam no poder
de um backtest são o número de pontos usados no teste e o nível de confiança da medida de
risco, já que o número esperado de violações na amostra depende deste nível.
No teste acima, usou-se um número de pontos para backtest equivalente a 4 anos de dados.
A prática da indústria é usar um número menor de pontos, devido ao tempo em que dados
de risco vêm sendo coletados e ao custo computacional de usar amostras maiores. Veremos
na Tabela 4.2 o resultados dos mesmos modelos quando aplicados a backtests para um ano de
dados (250 pontos).
Na Tabela 4.2, as séries de VaR e perdas históricas foram divididas por ano, e a dupla
de séries de cada ano alimentou uma execução diferente do backtest. É possível observar o
problema de escassez de violações no backtest de duration, que requer duas ou mais durations,
sendo ao menos uma delas não-censurada. Este problema ocorreu nos testes cujos p-valores da
coluna Chr.04 foram marcados com N/A, e este resultado não será considerado como rejeição.
Apesar do poder dos testes ter sido reduzido pelo menor número de pontos, não houve
variação significativa nos resultados, sendo os modelos EWMA os que apresentaram os melhores
resultados, e os modelos GARCH-Normal com bons resultados para os testes baseados em
violações. Porém, é possível perceber que a rejeição dos testes de Kerkhof e Melenberg e de
Christoffersen aparentou ser menos rigorosa, evidenciando a redução no poder do teste. Isso
pode ser observado nos testes dos modelos paramétrico não-condicional e de simulação histórica,
que foram rejeitados nos testes com 4 anos de dados, a agora deixam de ser rejeitados para
alguns anos. O teste de Kupiec também deixou de rejeitar o modelo GARCH-t, resultado que
foi consistente para os cinco anos testados.
Uma outra questão que pode ser abordada nestes testes é a influência de períodos de alta
volatilidade nos resultados do backtest. Na Figura 4.1, observou-se um pico de volatilidade
nos anos de 2008 e 2009. Porém, não há uma diferenciação clara dos resultados destes anos
quando comparado aos demais, sugerindo que os resultados do backtest não são influenciados
por variações nas volatilidades das séries.
Por fim, analisaremos os mesmos backtests quando executados com 4 anos de dados (1000
pontos), mas usando um nível de 5% para as medidas de risco. Neste caso, o poder do teste é
aumentado tanto pelo número de pontos como pelo maior nível das medidas de risco.
Observa-se ques os modelos EWMA continuam sem rejeições, exceto pela rejeição do teste
de Kupiec com nível de confiança de 95% para λ=0.97. Os resultados para os modelos GARCH
foram similares aos da Tabela 4.1, com rejeição de todos os modelos pelos testes de Kerkhof
e Melenberg e dos modelos GARCH-t também pelo teste de Kupiec. Mas, ao contrário dos
40
CAPÍTULO 4. ESTUDO DE CASOS
Tabela 4.2: Resultados de backtests para VaR e PE (nível 1%) para uma carteira de dólar
utilizando 250 pontos para a estimativa do modelo e 250 para o backtest.
Ano
2008
2009
Par. Normal
2010
2011
2012
2008
2009
EWMA, λ=0.94 2010
2011
2012
2008
2009
EWMA, λ=0.97 2010
2011
2012
2008
2009
Sim. Hist
2010
2011
2012
2008
2009
GARCH-Normal 2010
2011
2012
2008
2009
GARCH-t
2010
2011
2012
Modelo
Kupiec Chr.98 Chr.04 KM VaR KM PE
0.0014 0.0316
0.0290
0.0000
0.0000
0.0250 1.0000
N/A
0.0000
0.0010
0.7419 0.8572 0.6024
0.5306
0.9730
0.0190
0.0094 0.0335
0.0132
0.0704
0.7419 0.8572 0.0668
0.7368
0.8164
0.7580 0.7868 0.6469
0.1026
0.5808
0.2781 0.9284
N/A
0.7828
0.2350
0.7580 0.7868 0.0210
0.6884
0.6668
0.7419 0.8572 0.2074
0.6640
0.4596
0.1619 0.6508 0.4622
0.1464
0.0260
0.7580 0.7868 0.6469
0.1000
0.0208
0.0250 1.0000
N/A
0.1486
0.0572
0.7580 0.7868 0.6603
0.7744
0.4384
0.7580 0.0198
0.0228
0.7544
0.7444
0.3805 0.7178 0.9621
0.3306
0.0718
0.0014 0.0316
0.0019
N/A
N/A
0.0250 1.0000
N/A
N/A
N/A
0.2781 0.9284
N/A
N/A
N/A
0.0054
0.0000
0.0005
N/A
N/A
0.7580 0.7868 0.5244
N/A
N/A
0.7580 0.9284
N/A
0.0000
0.0024
0.7580 0.9284
N/A
0.0016
0.0010
0.7580 0.9219
N/A
0.0000
0.0000
0.7419 0.9284
N/A
0.0000
0.0000
0.3435 0.8569 0.0668
0.0002
0.0088
0.2781 0.7868 0.4731
0.0002
0.0456
0.2781 0.7868
0.0081
0.0170
0.0100
0.3955 0.7868 0.6603
0.0008
0.0070
0.2781 0.8572 0.2074
0.0000
0.0000
0.7466 0.7121 0.7357
0.1486
0.5518
4.3. COMPARAÇÃO DOS MODELOS PARA OUTRAS SÉRIES DE MOEDA
41
Tabela 4.3: Resultados de backtests para VaR e PE (nível 5%) para uma carteira de dólar
utilizando 1000 pontos.
Modelo
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Kupiec Chr.98 Chr.04 KM (VaR) KM (PE)
0.3746
0.0001
0.0000
0.4482
0.0010
0.1333
0.0001
0.0000
0.0014
0.0000
0.0695
0.0024
0.0000
0.0722
0.0000
0.0974 0.6999 0.1653
0.0846
0.4884
0.0484 0.5995 0.6962
0.0690
0.3050
0.3200
0.0000
0.0000
N/A
N/A
0.7730
0.0000
0.0000
N/A
N/A
1.0000
0.0005
0.0000
N/A
N/A
0.3746 0.6281 0.8732
0.0000
0.0000
0.2332 0.0457 0.4475
0.0000
0.0000
0.1333 0.2032 0.7394
0.0000
0.0000
0.0001 0.1699 0.7932
0.0000
0.0000
0.0005 0.1268 0.6082
0.0000
0.0000
0.0003 0.3000 0.6318
0.0000
0.0000
testes das medidas de risco ao nível de 1%, o teste de Kupiec deixou de rejeitar os modelos
paramétrico não condicional e de simulação histórica. Como o poder dos testes é maior neste
caso, o resultado sugere que as medidas de risco são modeladas mais adequadamente para um
nível maior
Uma última observação sobre os testes acima é que, apesar do artigo de Christoffersen
[10] sugerir que o teste de duration tem um poder maior quando comparado aos demais, não
foi possível notar diferenças significativas entre os dois testes de independência de violações,
exceto pelo fato de que o teste de duration foi inviável para um grande número de testes
quando uma amostra de um ano de dados foi utilizado. Como este último teste tem ainda a
implementação mais complexa, o teste de independência de primeira ordem permanece como
uma opção interessante para o uso prático.
4.3
Comparação dos modelos para outras séries de moeda
Os backtests foram aplicados a outras séries de moedas (Euro, Yen, Libra e Franco Suíço)
usando-se 1000 pontos (4 anos) para backtest, nível de confiança do VaR de 1%, nível de
confiança do teste de 5%. Os resultados desta e das próximas seções serão mostrados de
maneira agregada, indicando não mais o p-valor de um único teste. Ao invés disso, será indicado
quantas rejeições um determinado modelo sofreu. Assim, cada modelo foi ajustado a cada uma
das cinco séries de moeda, e esses cinco ajustes foram testados por todos os backtests. Os
valores da Tabela 4.4 indicam o percentual de rejeições dentre os 5 testes realizados para cada
42
CAPÍTULO 4. ESTUDO DE CASOS
combinação de modelo e teste. Por exemplo, se um modelo foi rejeitado no teste de Kupiec
para as séries de Yen e de Libra, o valor exibido para o teste de Kupiec aplicado a esse modelo
será de 40% (2 de 5 moedas).
Tabela 4.4: Percentual de rejeições nos backtests aplicados a 5 séries de moedas.
Modelo
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Kupiec Chr.98 Chr.04 KM VaR KM PE
60%
40%
100%
100%
100%
60%
80%
100%
100%
100%
20%
100%
100%
100%
100%
20%
0%
20%
20%
60%
0%
0%
0%
0%
60%
40%
80%
100%
N/A
N/A
40%
60%
100%
N/A
N/A
20%
100%
100%
N/A
N/A
0%
0%
20%
100%
100%
0%
0%
0%
100%
100%
0%
0%
20%
100%
100%
80%
0%
20%
100%
80%
100%
0%
0%
100%
80%
100%
0%
0%
100%
80%
Os resultados observados são compatíveis com os da série de dólar. O modelo EWMA
com λ=0.97 não foi rejeitado em nenhum dos testes baseados em violações, sendo rejeitado no
teste de Kerkhof e Melenberg para Perda Esperada para 3 moedas. O EWMA com λ=0.94
foi rejeitado em 20% dos testes de Kupiec, de duration e de Kerkhof e Melenberg para VaR,
sendo rejeitado também em 60% dos testes de Kerkhof e Melenberg para Perda Esperada.
Os modelos GARCH(1,1)-Normal praticamente não tiveram rejeições nos testes baseados em
violações, mas foram rejeitados nos testes de Kerkhof e Melenberg. O modelo de simulação
histórica com janela de 4 anos teve poucas rejeições no teste de Kupiec, mas foi rejeitado nos
outros testes. Os demais modelos apresentaram um número significativo de rejeições em todos
os testes.
4.4
Comparação dos modelos para séries de juros
Uma pergunta natural é se os resultados serão similares também para outras séries financeiras,
como as séries de retornos associados a taxas de juros. Como visto na primeira seção deste
capítulo, estas séries possuem características diversas das séries de moedas, como autocorrelação
significativa no primeiro lag e menor volatilidade nos vértices de vencimentos mais curtos.
Para responder a essa pergunta, os mesmos modelos foram aplicados a 3 grupos de 10 séries
cada: juros pré-fixados, cupom de DIxDólar e cupom de IPCA. As séries correspondem aos
4.4. COMPARAÇÃO DOS MODELOS PARA SÉRIES DE JUROS
43
retornos associados a 10 vértices de cada curva (de 1 mês a 10 anos). As configurações dos
modelos e testes são as mesmas da seção anterior, ou seja, 1000 pontos (4 anos) para backtest,
nível de confiança do VaR de 1%, nível de confiança do teste de 5%. A Tabela 4.5 mostra o
percentual de rejeições, como na Tabela 4.4.
As séries de juros apresentaram resultados bastante diferentes das séries de moeda. Os
modelos EWMA, que tiveram as menores taxas de rejeição para as séries de moeda, foram
rejeitados pelo teste de Kupiec e de Kerkhof e Melenberg na maioria das séries de juros. Por
outro lado, o modelo de simulação histórica teve resultados razoáveis para os três grupos de
séries. Tomando o teste de Kupiec como critério principal de escolha, a janela de estimativa do
modelo de distribuição com 2 anos de dados (500 pontos) apresentou um resultado ligeiramente
superior. Nos testes de Christoffersen, os três tamanhos de janela apresentaram resultados
similares, com um número de rejeições significativo para ambos os testes, mas um pouco menor
no teste independência de primeira ordem.
Considerando apenas os testes baseados em violações, o modelo GARCH(1,1)-Normal teve
bons resultados em apenas dois casos: para juros pré-fixados com janela de estimativa de 1000
pontos de dados, e cupom de IPCA com mesma janela de estimativa. Para a série de DIxDólar,
todas as configurações deste modelo apresentaram alta taxa de rejeição pelo teste Kupiec,
mas resultados relativamente bons nos testes de independência e Kerkhof e Melenberg. Já o
modelo GARCH-t para o mesmo grupo de séries apresentou baixa rejeição nos testes baseados
em violações, mas rejeições em todas as execuções dos testes de Kerkhof e Melenberg. Os
resultados dos testes para as séries de DIxDólar mostram uma discordância entre os backtests
cuja causa requer maior investigação.
Uma análise similar foi realizada agrupando-se as 30 séries por prazo de vencimento (curto
prazo, correspondendo de 1 a 6 meses, e longo prazo, de 1 a 10 anos), mas como mostra a
Tabela 4.6, os resultados para vértices curtos e longos não apresentam diferenças significativas.
44
CAPÍTULO 4. ESTUDO DE CASOS
Tabela 4.5: Percentual de rejeições nos backtests aplicados a juros pré-fixados, cupom DIxDólar
e cupom de IPCA (10 vértices para cada curva).
Curva
Modelo
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
Pré
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
DIxDOL Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
IPCA
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Kupiec Chr.98 Chr.04 KM VaR KM PE
54%
58%
92%
92%
100%
0%
33%
63%
46%
100%
8%
33%
75%
25%
92%
92%
21%
38%
100%
100%
50%
21%
75%
100%
100%
13%
25%
100%
N/A
N/A
0%
8%
75%
N/A
N/A
8%
33%
42%
N/A
N/A
33%
17%
33%
67%
50%
17%
0%
33%
67%
67%
0%
0%
0%
50%
33%
0%
0%
17%
100%
100%
67%
0%
0%
100%
100%
83%
0%
17%
100%
100%
75%
54%
50%
83%
100%
100%
42%
100%
100%
100%
92%
50%
100%
92%
100%
92%
8%
0%
92%
100%
75%
42%
8%
83%
100%
0%
38%
42%
N/A
N/A
8%
33%
100%
N/A
N/A
8%
50%
92%
N/A
N/A
75%
25%
0%
21%
0%
75%
0%
0%
21%
0%
75%
33%
0%
21%
0%
13%
0%
8%
100%
100%
25%
0%
0%
100%
100%
8%
0%
0%
100%
100%
42%
42%
42%
100%
100%
42%
33%
42%
92%
100%
13%
42%
42%
63%
88%
88%
0%
0%
100%
100%
42%
8%
8%
100%
100%
8%
17%
25%
N/A
N/A
0%
17%
33%
N/A
N/A
33%
25%
50%
N/A
N/A
33%
0%
8%
100%
92%
58%
0%
8%
100%
100%
0%
0%
8%
100%
100%
63%
25%
0%
75%
88%
75%
0%
0%
88%
88%
75%
0%
0%
100%
100%
4.4. COMPARAÇÃO DOS MODELOS PARA SÉRIES DE JUROS
45
Tabela 4.6: Percentual de rejeições nos backtests aplicados a juros, vértices agrupados por
vencimento (1 a 6 meses, e 1 a 10 anos)
Vcto.
1-6m
1-10a
Modelo
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Par. Normal, T=250
Par. Normal, T=500
Par. Normal, T=1000
EWMA, λ=0.94
EWMA, λ=0.97
Sim. Hist, T=250
Sim. Hist, T=500
Sim. Hist, T=1000
GARCH-Normal , T=250
GARCH-Normal , T=500
GARCH-Normal , T=1000
GARCH-t, T=250
GARCH-t, T=500
GARCH-t, T=1000
Kupiec Chr.98 Chr.04 KM VaR KM PE
58%
25%
50%
100%
100%
33%
0%
42%
75%
100%
42%
0%
50%
58%
92%
92%
8%
25%
100%
100%
50%
25%
33%
100%
100%
8%
25%
50%
N/A
N/A
0%
0%
50%
N/A
N/A
17%
0%
33%
N/A
N/A
50%
0%
50%
13%
50%
67%
0%
33%
29%
50%
50%
0%
38%
25%
50%
50%
25%
0%
75%
88%
25%
0%
0%
88%
88%
25%
0%
0%
100%
100%
56%
78%
72%
83%
100%
61%
72%
94%
83%
100%
33%
83%
94%
61%
94%
89%
11%
0%
94%
100%
61%
22%
28%
89%
100%
6%
28%
61%
N/A
N/A
6%
39%
89%
N/A
N/A
17%
72%
89%
N/A
N/A
50%
22%
22%
56%
44%
50%
0%
39%
39%
56%
17%
22%
50%
11%
44%
17%
0%
11%
100%
100%
72%
0%
0%
100%
100%
67%
0%
6%
100%
100%
46
CAPÍTULO 4. ESTUDO DE CASOS
Capítulo 5
Conclusão
Nos últimos anos, a estabilidade do sistema financeiro tem sido o foco de diversas recomendações por Basileia e pelos Bancos Centrais, e um dos pilares destas recomendações é mensuração
adequada dos riscos decorrentes das oscilações do mercado. Os backteskts têm um papel fundamental neste contexto, já que são as principais ferramentas de avaliação de modelos de risco.
Assim, o objetivo deste trabalho foi estudar algumas metodologias de backtesting para Valueat-Risk e Perda Esperada, e analisar aspectos teóricos e de implementação dos modelos de risco
mais populares na indústria financeira, já que estes aspectos contribuem para a adequação do
modelo.
A maioria dos trabalhos sobre backtesting presentes na literatura utiliza como informação a
série de violações do VaR. Entre estes, foram analisados três metodologias: o teste de Kupiec
[16], que mede o nível de violações do VaR, e duas metodologias propostas por Christoffersen
para avaliação da independência temporal das violações [9, 10]. Atualmente, a métrica adotada
por Basileia para avaliar modelos de risco utiliza apenas o número de violações nos últimos 250
dias, sendo similar ao teste de Kupiec, mas o teste de Christoffersen proposto em [9] também
é utilizado na indústria com frequência.
Existem ainda poucas metodologias de backtesting para Perda Esperada. Uma destas metodologias foi proposta por Kerkhof e Melenberg, e consiste em um teste estatístico aplicável a
qualquer medida de risco (dentre elas o VaR e a Perda Esperada). Porém, esta metodologia tem
algumas desvantagens, como não ser aplicável ao modelo de simulação histórica (ou qualquer
outro onde não seja possível normalizar as perdas históricas), e não usar a ordenação da série
de perdas normalizadas como informação. A popularização de modelos de backtest para Perda
Esperada é um requisito essencial para a adoção desta medida de risco por parte de instituições
financeiras e órgãos reguladores, e este trabalho visa contribuir para um maior entendimento
destas metodologias.
O poder dos backtests aqui estudados foi calculado analiticamente (no caso do teste de
Kupiec) ou através de simulações (para os demais testes). Verificou-se que a taxa de rejeição
47
48
CAPÍTULO 5. CONCLUSÃO
de modelos inadequados é similar para todas metodologias, sendo extremamente sensível ao
tamanho das séries históricas utilizadas no teste. Uma contribuição deste trabalho foi avaliar
o poder dos testes utilizando diferentes níveis de VaR como hipóteses alternativas, e não uma
distribuição diferente da utilizada no modelo de risco, como é feito na maioria dos trabalhos
encontrados na literatura [9, 10, 15]. Esse procedimento, além de relacionar o nível real do
VaR com o poder do teste, permitiu o isolamento entre backtest e modelagem, já que o insumo
fornecido para o teste foi a série de violações ou de retornos padronizados. Verificou-se que
quando séries pequenas são usadas (por exemplo, um ano de dados), os testes de Kupiec e de
Kerkhof e Melenberg têm chance significativa de não rejeitar modelos com níveis duas ou três
vezes maior de violações.
Como estudos de caso, diferentes modelos de risco foram avaliados para séries financeiras
reais usando os backtests estudados no trabalho. Usando uma janela de 4 anos de dados, muitos
modelos foram rejeitados pelos testes, sendo comum que apenas um a dois modelos fossem
“aceitos” para cada série. Para as séries de moeda, o melhor modelo foi o EWMA, com bons
resultados em todos os testes, e os modelos GARCH(1,1)-Normal, com bons resultados para os
testes baseados em violações, mas resultados ruins para os testes de Kerkhof e Melenberg. Já
para as séries de retornos associados a taxas de juros, não foi possível identificar um modelo
com bons resultados para todas as 30 séries analisadas. De forma geral, o modelo de simulação
histórica apresentou resultados razoáveis para as séries de juros analisadas neste trabalho.
Os estudos de caso mostraram que testes adicionais ao de Kupiec e de Christoffersen podem auxiliar na identificação de modelos inadequados, principalmente quando não é possível
usar séries históricas suficientemente grandes nos testes, caso em que o poder dos mesmos é
prejudicado. Apesar disso, não foi possível estabelecer uma relação clara entre os resultados de
diferentes backtests, mas acreditamos que esse é um assunto importante para nortear a escolha
de modelos de risco, e merece maiores investigações.
Como visto ao longo do trabalho, um dos motivos que leva ao baixo poder dos backtest (e
que também explica a dificuldade em se modelar adequadamente as caudas das distribuições de
séries financeiras) é a baixa ocorrência de perdas extremas. O uso de técnicas como bootstrap
[11] ou controle do tamanho do teste por simulações de Monte Carlo [12] podem contribuir
neste aspecto, e são possibilidades de trabalhos futuros.
Referências Bibliográficas
[1] C. Acerbi and D. Tasche, Expected shortfall: a natural coherent alternative to value at risk,
Economic Notes 31 (2002), no. 2, 379–388.
[2] Carlo Acerbi and Dirk Tasche, On the coherence of expected shortfall, Journal of Banking
& Finance 26 (2002), no. 7, 1487–1503.
[3] P. Artzner, F. Delbaen, J.M. Eber, and D. Heath, Coherent measures orf risk, Mathematical Finance 9 (1999), no. 3, 203–228.
[4] J Berkowitz, Testing density forecasts, with applications to risk management, Journal of
Business and Economic Statistics 19 (2001), no. 4, 465–474.
[5] Tim Bollerslev, Generalized autoregressive conditional heteroskedasticity, Journal of econometrics 31 (1986), no. 3, 307–327.
[6]
[7]
, A conditionally heteroskedastic time series model for speculative prices and rates
of return, The review of economics and statistics (1987), 542–547.
, Glossary to arch (garch), CREATES Research Paper 49 (2008).
[8] S.D. Campbell, A review of backtesting and backtesting procedures, Divisions of Research
& Statistics and Monetary Affairs, Federal Reserve Board, 2005.
[9] P Christoffersen, Evaluating interval forecasts, International Economic Review (1998),
no. 39, 841–862.
[10] P. Christoffersen and D. Pelletier, Backtesting value-at-risk: A duration-based approach,
Journal of Financial Econometrics 2 (2004), no. 1, 84–108.
[11] K Dowd, Back-testing: a bootstrap back-test, Risk 15 (2002), no. 10, 93–94.
[12] Jean-Marie Dufour, Monte carlo tests with nuisance parameters: A general approach to
finite-sample inference and nonstandard asymptotics, Journal of Econometrics 133 (2006),
no. 2, 443–477.
49
50
REFERÊNCIAS BIBLIOGRÁFICAS
[13] Peter R Hansen and Asger Lunde, A forecast comparison of volatility models: does anything
beat a garch (1, 1)?, Journal of Applied Econometrics 20 (2005), no. 7, 873–889.
[14] P. Jorion, Value at risk: the new benchmark for managing financial risk, New York (2000).
[15] J. Kerkhof and B. Melenberg, Backtesting for risk-based regulatory capital, Journal of
Banking & Finance 28 (2004), no. 8, 1845–1865.
[16] P. Kupiec, Techniques for verifying the accuracy of risk measurement models, (1995).
[17] B. B. Mandelbrot, The variation of certain speculative prices, Journal of Business 36
(1963), 392–417.
[18] A.J. McNeil, R. Frey, and P. Embrechts, Quantitative risk management: Concepts, techniques and tools, Princeton University Press, 2005.
[19] JP Morgan, Riskmetrics: technical document, Morgan Guaranty Trust Company of New
York, 1996.
[20] G. C. Pflug, On distortion functionals, Statistics & Decisions 24 (2006), no. 1/2006, 45–60.
[21] R.T. Rockafellar and S. Uryasev, Optimization of conditional value-at-risk, Journal of Risk
2 (2000), 21–42.
[22] A. W. van der Vaart and J. A Wellner, Weak convergence and empirical processes, SpringerVerlag, 1996.
[23] A.W. Van der Vaart, Asymptotic statistics, Cambridge University Press, 1998.