379 ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS Thales E. L. Sobral 1, Gilmar Barreto 2 1 Departamento de Máquinas, Componentes e Sistemas Inteligentes – Faculdade de Engenharia Elétrica e Computação – DMCSI – FEEC – UNICAMP, Campinas – SP, [email protected], 2 Departamento de Máquinas, Componentes e Sistemas Inteligentes – Faculdade de Engenharia Elétrica e Computação – DMCSI – FEEC – UNICAMP, Campinas – SP [email protected] Resumo: Neste trabalho, cinco critérios de informação são utilizados para fazer a seleção da ordem de modelos autoregressivos (AR), e são analisados seus comportamentos em pequenas amostras, comportamento assintótico, e propriedades como eficiência e consistência são explicadas. Palavras-Chave: Séries temporais, sistemas, Seleção de modelos. Identificação de 1. INTRODUÇÃO A modelagem de dados é largamente utilizada em várias áreas do conhecimento, tanto da engenharia, quanto de áreas que, a princípio, não têm relação com engenharia, como arqueologia e psicologia [1]. Um dos problemas com que o pesquisador se depara ao modelar um conjunto de dados é sobre qual a ordem de modelo utilizar. O que se procura é a menor ordem possível, que consiga se adequar satisfatoriamente aos dados. Porém, dados reais têm uma grande chance de nunca se adequarem perfeitamente a algum modelo, seja porque os dados contêm distúrbios (ruídos de medição ou interferências), ou porque o modelo escolhido simplesmente não consegue captar todas as características dos dados a serem modelados. Uma solução para o segundo problema é aumentar a ordem do modelo, permitindo, assim, que o modelo capte características mais complexas dos dados. A questão se torna, então, até onde é razoável aumentar a ordem do modelo para conseguir uma melhor adequação aos dados. Pensando neste ponto, Akaike sugeriu um critério, chamado de “Critério de Informação de Akaike” (Akaike’s Information Criterion – AIC)[2], que pode ser explicado como um critério que dá uma pontuação para o modelo, baseado em sua adequação aos dados e na ordem do modelo. 2 ln 2 (1) O primeiro termo é uma bonificação por uma melhor adequação aos dados, em que é a função verossimilhança do modelo, e o segundo termo é uma penalização, que é maior à medida que se aumenta a ordem, . Após a apresentação deste critério, vários outros critérios foram deduzidos, baseados nos mais variados argumentos, como por exemplo o BIC (Bayesian Information Criterion)[3], que usa a probabilidade a posteriori, e o MDL (Minimum Description Length)[4], que usa o conceito da complexidade de Kolmogorov. O AIC, embora largamente aceito e utilizado, tem limitações. Ele foi desenvolvido sob o conceito de que, assintoticamente (quando o tamanho da amostra tende a infinito), ele converge para o valor exato da divergência de Kullback-Leibler[5], que que é uma medida de quanta informação é “perdida” ao tentar representar um conjunto T de medidas utilizando uma base conhecida L. Mas quando temos um número finito de amostras, este estimador se torna polarizado. Com isto, por vezes o AIC não só falha em escolher um modelo mais parcimonioso, como por vezes escolhe o modelo de maior ordem entre todos os modelos comparados. Diante desta situação, alguns métodos foram sugeridos, para conseguir trabalhar satisfatoriamente com um número pequeno de amostras, como o AICc (AIC corrigido)[6], KIC (Kullback Information Criterion), KICc (KIC corrigido), AKICc (Approximated KICc)[7] e AICF (AIC Finite Sample)[8]. A diferença entre os métodos citados se dá no termo da penalização. Todos os métodos expostos neste artigo, à exceção do BIC, são métodos assintoticamente eficientes, ou seja, à medida que o número de amostras tende ao infinito, eles tendem a escolher o modelo que diminui o erro de predição um passo à frente. O BIC é um método consistente, que escolhe o modelo de ordem correta com probabilidade 1, à medida que o número de amostras tende ao infinito, desde que o modelo correto esteja no conjunto de modelos a ser testado.[7] 2. PROCESSO AUTO-REGRESSIVO Um processo auto-regressivo (AR) de ordem definido como 1 2 ⋯ é (2) onde , … , são os coeficientes do processo, é um ruído branco gaussiano com média nula e variância . O método a ser utilizado para a determinação destes coeficientes será o método dos mínimos quadrados. 380 ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS Thales Sobral, Gilmar Barreto 3. “BENCHMARK” PARA CRITÉRIOS DE SELEÇÃO A partir de um benchmark discreto conhecido de quarta ordem, − 2 + 0.0468 (3) − foi gerado um sinal auto-regressivo em plataforma computacional. De posse dos dados da série temporal gerada pelo modelo conhecido, foram gerados modelos de ordem 1 até ordem 8 utilizando o método dos mínimos quadrados, e posteriormente foram aplicados os métodos AIC, AICc, BIC, AKICc e AICF, para indicar a ordem correta do modelo. O procedimento foi repetido 1000 vezes, e após concluída a geração dos modelos e aplicação dos métodos, foi plotada em gráfico a contagem de quantas vezes foram escolhidos modelos com “overfit” (ordem superior à correta), com “underfit” (ordem inferior à correta), e com a ordem correta. Os experimentos foram feitos com tamanhos de amostra 20, 200 e 2000, para demonstrar as capacidades e limitações dos métodos em pequenas amostras, o comportamento assintótico, e como se comportam no meio termo. 4. EXPERIMENTOS E RESULTADOS Os resultados serão divididos em três partes, correspondentes aos testes com 20, 200 e 2000 amostras. 4.1. Experimento com 20 amostras Este experimento teve como objetivo demonstrar o desempenho dos métodos com pequenas amostras. Resultados empíricos mostram que uma taxa menor que 40 amostras/ordem de modelo já podem ser considerados “pequenas amostras”. Como nossa ordem é 4, e usamos 20 amostras, temos uma taxa de 5:1, bastante baixa. Os resultados estão demonstrados na Figura 1. AIC AICc 800 400 600 300 400 200 200 2.5 2 1.5 Valor médio do critério 0.21 − 1 − 0.5345 3 − 0.738 −4 + AICF conseguiu acertar em mais de 50% dos casos, com 20 amostras. 1 0.5 -0.5 -1 1 2 3 4 1 2 3 4 5 6 7 8 0 Com 200 amostras, é de se esperar que as propriedades assintóticas dos métodos (principalmente AIC e BIC) comecem a se manifestar, pela Figura 3. AIC 400 AICc 600 300 AICF 500 200 1 2 3 4 5 6 7 8 0 400 600 300 400 200 200 100 0 1 2 3 4 5 6 7 8 600 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 AKICc 800 1 2 3 4 5 6 7 8 AKICc 800 BIC 1000 400 100 0 0 8 4.2. Experimento com 200 amostras 200 1 2 3 4 5 6 7 8 7 A Figura 2 mostra o valor médio dos critérios, para cada ordem de modelo. Pode-se ver que o AICF pune mais duramente ordens maiores, enquanto o AIC e o BIC têm as menores punições, confirmando os resultados demonstrados na Figura 1. Nota-se, ainda, que o valor médio do AIC e do BIC continua a decrescer após a ordem 4, o que sugere que se os modelos em análise tivessem ordens ainda maiores, seriam escolhidos, constatando que em pequenas amostras os métodos AIC e BIC não são adequados. 200 400 6 Figura 2 - Valor médio dos critérios para cada ordem do modelo AICF 0 5 Ordem BIC 600 100 AIC AICc BIC AICF AKICC 0 600 400 400 200 200 0 1 2 3 4 5 6 7 8 Figura 1 - Ordens escolhidas pelos métodos, com 20 amostras por experimento. Cada barra indica quantas vezes o método escolheu a ordem indicada. Como pode ser visto, em pequenas amostras, os métodos que dependem unicamente de propriedades assintóticas dos dados para funcionarem, falham gravemente na escolha da ordem do modelo (AIC e BIC). O BIC sofreu de “overfit” em mais de 80% dos casos, assim como o AIC. Somente o 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 Figura 3 - Ordens escolhidas pelos métodos, com 200 amostras por experimento. Cada barra indica quantas vezes o método escolheu a ordem indicada. O AIC obteve uma melhora considerável, conseguindo acertar a ordem correta em mais de 30% dos testes. Nota-se também que o resultado do AIC, AICc e AICF ficaram bem próximos, mostrando que a correção para pequenas amostras perde sua importância à medida que o número de amostras cresce. Nenhum caso de “underfit” foi registrado nos testes com 200 amostras. O BIC, por sua vez, demonstra a consistência assintótica, ou seja, a propriedade de escolher o 381 ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS Thales Sobral, Gilmar Barreto modelo de ordem correta com probabilidade 1 à medida que o número de amostras tende ao infinito. O AKICc foi o único dos critérios assintoticamente eficientes que conseguiu acertar a ordem do modelo em mais de 50% nos testes com 200 amostras. AIC AICc BIC AICF AKICC Valor médio do critério 0.16 0.14 0.02 Valor médio do critério 0.2 0.18 0.025 0.12 0.015 AIC AICc BIC AICF AKICC 0.01 0.005 0.1 0.08 0 3 3.5 4 4.5 0.06 0.02 3 3.5 4 4.5 5 5.5 Ordem 6 6.5 7 7.5 8 Os critérios AIC, AICc e AICF se tornam bastante próximos, e o AKICC e BIC se tornaram mais rigorosos com modelos de ordens mais altas, Figura 4. 4.3. Experimento com 2000 amostras Esta parte da experiência visa demonstrar como os critérios funcionam mais próximos da condição de assintoticidade, em que o número de amostras é muito maior do que a ordem do modelo. AIC AICc 400 400 300 300 200 200 100 100 1 2 3 4 5 6 7 8 0 AICF 800 300 600 200 400 100 200 1 2 3 4 5 6 7 8 BIC 1000 500 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 AKICc 400 0 6 6.5 7 7.5 8 5. DISCUSSÕES Figura 4 - Valor médio dos critérios para cada ordem do modelo 0 5.5 Ordem Figura 6 - Valor médio dos critérios para cada ordem do modelo 0.04 0 5 0 1 2 3 4 5 6 7 8 Figura 5 - Ordens escolhidas pelos métodos, com 2000 amostras por experimento. Cada barra indica quantas vezes o método escolheu a ordem indicada. Com 2000 amostras, os critérios AIC, AICc e AICF tiveram o mesmo desempenho, com variações de menos de 0,5% entre eles. Os três métodos escolheram modelos com “overfit” em mais de 60% das vezes. O BIC acertou a ordem correta mais de 95% das vezes, reforçando o comportamento assintoticamente consistente. O valor médio dos critérios AIC, AICc e AICF é muito semelhante, evidenciando que as correções para pequenas amostras não mais surtem efeito, Figura 6. Os experimentos demonstraram que, para pequenas amostras, as variantes do AIC, como AICc e AICF (principalmente esta última) conseguem resultados muito superiores ao critério original. Ao se aumentar o número de amostras, o critério consistente BIC mostrou menos possibilidade de “overfit”, seguido do AKICc. A análise pura e fria dos números pode sugerir que, uma vez que se tenha um número grande de amostras, deve-se usar o BIC para a seleção de modelos uma vez que ele obteve resultados superiores ao dos outros métodos. Porém, deve-se lembrar que, no caso dos experimentos deste artigo, o modelo “real” estava entre os candidatos a serem selecionados. Com dados reais, esta afirmação pode não ser verdadeira. Neste caso, a convergência não é garantida. Além disso, nenhum método é garantido de funcionar bem em todas as situações. Seu desempenho depende do número de parâmetros, tamanho de amostra, complexidade dos dados, entre outros. Outro ponto é que os critérios simplesmente geram uma “nota” para o modelo, mas nada dizem sobre a qualidade do mesmo. Se todos os modelos forem ruins, eles só vão dizer qual é o “menos pior”. Portanto, na escolha de um modelo, os critérios de informação devem ser mais uma ferramenta para auxiliar, não devendo ser usados como único parâmetro para a escolha. 6. CONCLUSÕES Foram geradas séries temporais a partir de um modelo auto-regressivo conhecido, e a partir desses dados, gerados modelos de ordem 1 a 8 para aplicação dos métodos de seleção AIC, AICc, AICF, BIC e AKICc, para a indicação da ordem correta do modelo identificado, sendo os testes feitos com 20, 200 e 2000 amostras. No teste de pequenas amostras (20 amostras), o AICF mostrou os melhores resultados, com mais de 60% de acerto, seguido pelo AKICc. À medida que aumentava o número de amostras, o BIC se sobressaía, demonstrando a propriedade de consistência assintótica. O AKICc se estabilizou em cerca de 60% de 382 ANÁLISE DOS CRITÉRIOS DE INFORMAÇÃO PARA A SELEÇÃO DE ORDEM EM MODELOS AUTO-REGRESSIVOS Thales Sobral, Gilmar Barreto acerto, e as variantes do AIC para pequenas amostras passaram a se igualar ao critério original. Os critérios de informação têm um grande ponto a favor, que é a facilidade e baixo custo computacional para serem calculados, uma vez que necessitam somente da ordem do modelo, tamanho da amostra e variância do ruído (no caso dos mínimos quadrados), e servem como mais um método de análise qualitativa dos modelos, auxiliando o pesquisador na tarefa de decisão em seleção de modelos. AGRADECIMENTOS Gostaríamos de agradecer à CAPES, pelo auxílio financeiro. REFERÊNCIAS [1]PUB G. Claeskens, N. L. Hjort, “Model Selection and Model Averaging”, Cambridge University Press, 2008. [2] H. Akaike, “Information theory and an extension of the maximum likelihood principle”, Proc. 2nd International Symposium on Information Theory (eds. B. N. Petrov and F.Csaki), 267–281, Akademiai Kiado, Budapest, 1973. [3]PUB G. Schwarz, “Estimating the dimension of a model”. Annals of Statistics 6, 461–464, 1978. [4]DOI J. Rissanen, Modeling by shortest data description, Automatica 14, 465–471, 1978. [5]PUB S. Kullback, R. A. Leibler, “On information and sufficiency,” Ann. Math. Statist. 22, 76–86, 1951. [6]PUB C.M. Hurvich, C.L.Tsai, “Regression and time series model selection in small samples”, Biometrika 76, 297–307, 1989. [7]DOI A. Seghouane and M. Bekara, “A Small Sample Model Selection Criterion Based on Kullback’s Symmetric Divergence”, IEEE transactions on signal processing, vol. 52, no. 12, 3314–3323, december 2004 [8]DOI M. Karimi, “Finite Sample AIC for Autoregressive Model Order Selection”, IEEE International Conference on Signal Processing and Communications, 1219–1222, 24-27 november, 2007