379
ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM
MODELOS AUTO-REGRESSIVOS
Thales E. L. Sobral 1, Gilmar Barreto 2
1 Departamento de Máquinas, Componentes e Sistemas Inteligentes – Faculdade de Engenharia Elétrica e Computação – DMCSI – FEEC – UNICAMP, Campinas – SP, [email protected],
2 Departamento de Máquinas, Componentes e Sistemas Inteligentes – Faculdade de Engenharia Elétrica e Computação – DMCSI – FEEC – UNICAMP, Campinas – SP [email protected]
Resumo: Neste trabalho, cinco critérios de informação são
utilizados para fazer a seleção da ordem de modelos autoregressivos (AR), e são analisados seus comportamentos em
pequenas amostras, comportamento assintótico, e
propriedades como eficiência e consistência são explicadas.
Palavras-Chave: Séries temporais,
sistemas, Seleção de modelos.
Identificação
de
1. INTRODUÇÃO
A modelagem de dados é largamente utilizada em várias
áreas do conhecimento, tanto da engenharia, quanto de áreas
que, a princípio, não têm relação com engenharia, como
arqueologia e psicologia [1].
Um dos problemas com que o pesquisador se depara ao
modelar um conjunto de dados é sobre qual a ordem de
modelo utilizar. O que se procura é a menor ordem possível,
que consiga se adequar satisfatoriamente aos dados. Porém,
dados reais têm uma grande chance de nunca se adequarem
perfeitamente a algum modelo, seja porque os dados contêm
distúrbios (ruídos de medição ou interferências), ou porque
o modelo escolhido simplesmente não consegue captar todas
as características dos dados a serem modelados.
Uma solução para o segundo problema é aumentar a
ordem do modelo, permitindo, assim, que o modelo capte
características mais complexas dos dados. A questão se
torna, então, até onde é razoável aumentar a ordem do
modelo para conseguir uma melhor adequação aos dados.
Pensando neste ponto, Akaike sugeriu um critério,
chamado de “Critério de Informação de Akaike” (Akaike’s
Information Criterion – AIC)[2], que pode ser explicado
como um critério que dá uma pontuação para o modelo,
baseado em sua adequação aos dados e na ordem do modelo.
2 ln
2
(1)
O primeiro termo é uma bonificação por uma melhor
adequação aos dados, em que
é a função
verossimilhança do modelo, e o segundo termo é uma
penalização, que é maior à medida que se aumenta a ordem,
.
Após a apresentação deste critério, vários outros critérios
foram deduzidos, baseados nos mais variados argumentos,
como por exemplo o BIC (Bayesian Information
Criterion)[3], que usa a probabilidade a posteriori, e o MDL
(Minimum Description Length)[4], que usa o conceito da
complexidade de Kolmogorov.
O AIC, embora largamente aceito e utilizado, tem
limitações. Ele foi desenvolvido sob o conceito de que,
assintoticamente (quando o tamanho da amostra tende a
infinito), ele converge para o valor exato da divergência de
Kullback-Leibler[5], que que é uma medida de quanta
informação é “perdida” ao tentar representar um conjunto T
de medidas utilizando uma base conhecida L. Mas quando
temos um número finito de amostras, este estimador se torna
polarizado. Com isto, por vezes o AIC não só falha em
escolher um modelo mais parcimonioso, como por vezes
escolhe o modelo de maior ordem entre todos os modelos
comparados.
Diante desta situação, alguns métodos foram sugeridos,
para conseguir trabalhar satisfatoriamente com um número
pequeno de amostras, como o AICc (AIC corrigido)[6], KIC
(Kullback Information Criterion), KICc (KIC corrigido),
AKICc (Approximated KICc)[7] e AICF (AIC Finite
Sample)[8]. A diferença entre os métodos citados se dá no
termo da penalização.
Todos os métodos expostos neste artigo, à exceção do
BIC, são métodos assintoticamente eficientes, ou seja, à
medida que o número de amostras tende ao infinito, eles
tendem a escolher o modelo que diminui o erro de predição
um passo à frente. O BIC é um método consistente, que
escolhe o modelo de ordem correta com probabilidade 1, à
medida que o número de amostras tende ao infinito, desde
que o modelo correto esteja no conjunto de modelos a ser
testado.[7]
2. PROCESSO AUTO-REGRESSIVO
Um processo auto-regressivo (AR) de ordem
definido como
1
2
⋯
é
(2)
onde , … ,
são os coeficientes do processo,
é um
ruído branco gaussiano com média nula e variância .
O método a ser utilizado para a determinação destes
coeficientes será o método dos mínimos quadrados.
380
ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS
Thales Sobral, Gilmar Barreto
3. “BENCHMARK” PARA CRITÉRIOS DE SELEÇÃO
A partir de um benchmark discreto conhecido de quarta
ordem,
− 2 + 0.0468
(3)
−
foi gerado um sinal auto-regressivo em plataforma
computacional. De posse dos dados da série temporal gerada
pelo modelo conhecido, foram gerados modelos de ordem 1
até ordem 8 utilizando o método dos mínimos quadrados, e
posteriormente foram aplicados os métodos AIC, AICc,
BIC, AKICc e AICF, para indicar a ordem correta do
modelo. O procedimento foi repetido 1000 vezes, e após
concluída a geração dos modelos e aplicação dos métodos,
foi plotada em gráfico a contagem de quantas vezes foram
escolhidos modelos com “overfit” (ordem superior à
correta), com “underfit” (ordem inferior à correta), e com a
ordem correta. Os experimentos foram feitos com tamanhos
de amostra 20, 200 e 2000, para demonstrar as capacidades
e limitações dos métodos em pequenas amostras, o
comportamento assintótico, e como se comportam no meio
termo.
4. EXPERIMENTOS E RESULTADOS
Os resultados serão divididos em três partes,
correspondentes aos testes com 20, 200 e 2000 amostras.
4.1. Experimento com 20 amostras
Este experimento teve como objetivo demonstrar o
desempenho dos métodos com pequenas amostras.
Resultados empíricos mostram que uma taxa menor que 40
amostras/ordem de modelo já podem ser considerados
“pequenas amostras”. Como nossa ordem é 4, e usamos 20
amostras, temos uma taxa de 5:1, bastante baixa. Os
resultados estão demonstrados na Figura 1.
AIC
AICc
800
400
600
300
400
200
200
2.5
2
1.5
Valor médio do critério
0.21
− 1 − 0.5345
3 − 0.738
−4 +
AICF conseguiu acertar em mais de 50% dos casos, com 20
amostras.
1
0.5
-0.5
-1
1
2
3
4
1 2 3 4 5 6 7 8
0
Com 200 amostras, é de se esperar que as propriedades
assintóticas dos métodos (principalmente AIC e BIC)
comecem a se manifestar, pela Figura 3.
AIC
400
AICc
600
300
AICF
500
200
1 2 3 4 5 6 7 8
0
400
600
300
400
200
200
100
0
1 2 3 4 5 6 7 8
600
0
1 2 3 4 5 6 7 8
0
1 2 3 4 5 6 7 8
AKICc
800
1 2 3 4 5 6 7 8
AKICc
800
BIC
1000
400
100
0
0
8
4.2. Experimento com 200 amostras
200
1 2 3 4 5 6 7 8
7
A Figura 2 mostra o valor médio dos critérios, para cada
ordem de modelo. Pode-se ver que o AICF pune mais
duramente ordens maiores, enquanto o AIC e o BIC têm as
menores punições, confirmando os resultados demonstrados
na Figura 1. Nota-se, ainda, que o valor médio do AIC e do
BIC continua a decrescer após a ordem 4, o que sugere que
se os modelos em análise tivessem ordens ainda maiores,
seriam escolhidos, constatando que em pequenas amostras
os métodos AIC e BIC não são adequados.
200
400
6
Figura 2 - Valor médio dos critérios para cada ordem do modelo
AICF
0
5
Ordem
BIC
600
100
AIC
AICc
BIC
AICF
AKICC
0
600
400
400
200
200
0
1 2 3 4 5 6 7 8
Figura 1 - Ordens escolhidas pelos métodos, com 20 amostras por
experimento. Cada barra indica quantas vezes o método escolheu a
ordem indicada.
Como pode ser visto, em pequenas amostras, os métodos
que dependem unicamente de propriedades assintóticas dos
dados para funcionarem, falham gravemente na escolha da
ordem do modelo (AIC e BIC). O BIC sofreu de “overfit”
em mais de 80% dos casos, assim como o AIC. Somente o
1 2 3 4 5 6 7 8
0
1 2 3 4 5 6 7 8
Figura 3 - Ordens escolhidas pelos métodos, com 200 amostras por
experimento. Cada barra indica quantas vezes o método escolheu a
ordem indicada.
O AIC obteve uma melhora considerável, conseguindo
acertar a ordem correta em mais de 30% dos testes. Nota-se
também que o resultado do AIC, AICc e AICF ficaram bem
próximos, mostrando que a correção para pequenas amostras
perde sua importância à medida que o número de amostras
cresce. Nenhum caso de “underfit” foi registrado nos testes
com 200 amostras. O BIC, por sua vez, demonstra a
consistência assintótica, ou seja, a propriedade de escolher o
381
ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS
Thales Sobral, Gilmar Barreto
modelo de ordem correta com probabilidade 1 à medida que
o número de amostras tende ao infinito. O AKICc foi o
único dos critérios assintoticamente eficientes que
conseguiu acertar a ordem do modelo em mais de 50% nos
testes com 200 amostras.
AIC
AICc
BIC
AICF
AKICC
Valor médio do critério
0.16
0.14
0.02
Valor médio do critério
0.2
0.18
0.025
0.12
0.015
AIC
AICc
BIC
AICF
AKICC
0.01
0.005
0.1
0.08
0
3
3.5
4
4.5
0.06
0.02
3
3.5
4
4.5
5
5.5
Ordem
6
6.5
7
7.5
8
Os critérios AIC, AICc e AICF se tornam bastante
próximos, e o AKICC e BIC se tornaram mais rigorosos
com modelos de ordens mais altas, Figura 4.
4.3. Experimento com 2000 amostras
Esta parte da experiência visa demonstrar como os
critérios funcionam mais próximos da condição de
assintoticidade, em que o número de amostras é muito maior
do que a ordem do modelo.
AIC
AICc
400
400
300
300
200
200
100
100
1 2 3 4 5 6 7 8
0
AICF
800
300
600
200
400
100
200
1 2 3 4 5 6 7 8
BIC
1000
500
1 2 3 4 5 6 7 8
0
1 2 3 4 5 6 7 8
AKICc
400
0
6
6.5
7
7.5
8
5. DISCUSSÕES
Figura 4 - Valor médio dos critérios para cada ordem do modelo
0
5.5
Ordem
Figura 6 - Valor médio dos critérios para cada ordem do modelo
0.04
0
5
0
1 2 3 4 5 6 7 8
Figura 5 - Ordens escolhidas pelos métodos, com 2000 amostras por
experimento. Cada barra indica quantas vezes o método escolheu a
ordem indicada.
Com 2000 amostras, os critérios AIC, AICc e AICF
tiveram o mesmo desempenho, com variações de menos de
0,5% entre eles. Os três métodos escolheram modelos com
“overfit” em mais de 60% das vezes. O BIC acertou a ordem
correta mais de 95% das vezes, reforçando o comportamento
assintoticamente consistente.
O valor médio dos critérios AIC, AICc e AICF é muito
semelhante, evidenciando que as correções para pequenas
amostras não mais surtem efeito, Figura 6.
Os experimentos demonstraram que, para pequenas
amostras, as variantes do AIC, como AICc e AICF
(principalmente esta última) conseguem resultados muito
superiores ao critério original. Ao se aumentar o número de
amostras, o critério consistente BIC mostrou menos
possibilidade de “overfit”, seguido do AKICc.
A análise pura e fria dos números pode sugerir que, uma
vez que se tenha um número grande de amostras, deve-se
usar o BIC para a seleção de modelos uma vez que ele
obteve resultados superiores ao dos outros métodos. Porém,
deve-se lembrar que, no caso dos experimentos deste artigo,
o modelo “real” estava entre os candidatos a serem
selecionados. Com dados reais, esta afirmação pode não ser
verdadeira. Neste caso, a convergência não é garantida.
Além disso, nenhum método é garantido de funcionar bem
em todas as situações. Seu desempenho depende do número
de parâmetros, tamanho de amostra, complexidade dos
dados, entre outros. Outro ponto é que os critérios
simplesmente geram uma “nota” para o modelo, mas nada
dizem sobre a qualidade do mesmo. Se todos os modelos
forem ruins, eles só vão dizer qual é o “menos pior”.
Portanto, na escolha de um modelo, os critérios de
informação devem ser mais uma ferramenta para auxiliar,
não devendo ser usados como único parâmetro para a
escolha.
6. CONCLUSÕES
Foram geradas séries temporais a partir de um modelo
auto-regressivo conhecido, e a partir desses dados, gerados
modelos de ordem 1 a 8 para aplicação dos métodos de
seleção AIC, AICc, AICF, BIC e AKICc, para a indicação
da ordem correta do modelo identificado, sendo os testes
feitos com 20, 200 e 2000 amostras.
No teste de pequenas amostras (20 amostras), o AICF
mostrou os melhores resultados, com mais de 60% de
acerto, seguido pelo AKICc.
À medida que aumentava o número de amostras, o BIC
se sobressaía, demonstrando a propriedade de consistência
assintótica. O AKICc se estabilizou em cerca de 60% de
382
ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS
Thales Sobral, Gilmar Barreto
acerto, e as variantes do AIC para pequenas amostras
passaram a se igualar ao critério original.
Os critérios de informação têm um grande ponto a favor,
que é a facilidade e baixo custo computacional para serem
calculados, uma vez que necessitam somente da ordem do
modelo, tamanho da amostra e variância do ruído (no caso
dos mínimos quadrados), e servem como mais um método
de análise qualitativa dos modelos, auxiliando o pesquisador
na tarefa de decisão em seleção de modelos.
AGRADECIMENTOS
Gostaríamos de agradecer à CAPES, pelo auxílio
financeiro.
REFERÊNCIAS
[1]PUB G. Claeskens, N. L. Hjort, “Model Selection and
Model Averaging”, Cambridge University Press, 2008.
[2]
H. Akaike, “Information theory and an extension of
the maximum likelihood principle”, Proc. 2nd
International Symposium on Information Theory (eds.
B. N. Petrov and F.Csaki), 267–281, Akademiai
Kiado, Budapest, 1973.
[3]PUB G. Schwarz, “Estimating the dimension of a model”.
Annals of Statistics 6, 461–464, 1978.
[4]DOI J. Rissanen, Modeling by shortest data description,
Automatica 14, 465–471, 1978.
[5]PUB S. Kullback, R. A. Leibler, “On information and
sufficiency,” Ann. Math. Statist. 22, 76–86, 1951.
[6]PUB C.M. Hurvich, C.L.Tsai, “Regression and time series
model selection in small samples”, Biometrika 76,
297–307, 1989.
[7]DOI A. Seghouane and M. Bekara, “A Small Sample
Model Selection Criterion Based on Kullback’s
Symmetric Divergence”, IEEE transactions on signal
processing, vol. 52, no. 12, 3314–3323, december
2004
[8]DOI M. Karimi, “Finite Sample AIC for Autoregressive
Model Order Selection”, IEEE International
Conference
on
Signal
Processing
and
Communications, 1219–1222, 24-27 november, 2007
Download

Análise dos critérios de informação para a seleção de