Avaliação do poder e taxas de erro do tipo I de testes de detecção de outliers via simulação Carlos José dos Reis 1 2 Luiz Alberto Beijo 3 1 Introdução Um outlier é caracterizado pela sua relação com as observações restantes que fazem parte da amostra. O seu distanciamento em relação a essas observações é fundamental para se fazer a sua caracterização. Essas observações são também designadas por observações “anormais”, contaminantes, estranhas, extremas ou aberrantes. A preocupação com observações outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente, pensavase que a melhor forma de lidar com esse tipo de observação seria através da sua eliminação da análise. Atualmente, este procedimento é ainda muitas vezes utilizado, existindo, no entanto, outras formas de lidar com tal tipo de fenômeno. Um outlier pode surgir por erros de medição, digitação, de execução ou ser um valor inerente à população. Uma atenção especial deve ser dada aos outliers, pois normalmente essas observações resultam em alguma violação das pressuposições necessárias para adequação ao modelo, produzindo consequentemente efeitos não confiáveis na eficiência dos estimadores. Segundo Hawkins (1980) [3], um outlier é uma observação que se desvia muitos das demais observações, a ponto de suspeitar-se que tenha sido gerada por um mecanismo diferenciado. Já para Barnett e Lewis (1994) [1], um outlier é uma observação (ou subconjunto de observações) que parece ser inconsistente em relação ao restante do conjunto de dados. A detecção de observações outliers tem sido muito utilizada em diversas aplicações. Entre essas aplicações, podem-se citar diagnósticos de falhas, fraudes em cartões de crédito, intrusão em redes, processamento de pedido de empréstimo, perturbações em ecossistemas, monitoração de condições médicas, entre outras (BERTON, 2011) [2]. Dependendo da sua natureza, os outliers podem causar um efeito substancial na análise dos dados. Assim, é importante a identificação de observações outliers por várias razões, podendose citar: i) Melhor entendimento da série em estudo: um outlier detectado pode ser a evidência da ocorrência de algum fator externo afetando a série. Por exemplo, falha nos equipamentos de medição; 1 ICEX - UNIFAL-MG. E-mail: [email protected] a FAPEMIG pelo apoio financeiro. 3 ICEX - UNIFAL-MG. Email: [email protected] 2 Agradecimento 1 ii) Melhor modelagem e estimação: eventos desconhecidos podem afetar na modelagem e/ou estimação. Assim, não identificar os outliers compromete na estimativa de parâmetros do modelo, comprometendo a precisão do resultado e levando a erros na previsão; iii) Melhor tratamento: a presença de outliers influencia no resultado do tratamento, pois a qualidade dos dados reflete diretamente nos resultados obtidos. Dentro desse contexto, faz-se necessário a aplicação de testes confiáveis para identificar os outliers. Dessa forma, o objetivo do presente trabalho foi avaliar, via simulação Monte Carlo, o desempenho dos testes de detecção de outliers Chauvenet, Cochran, Razão Q e Boxplot, quanto as taxas de poder e de erro do tipo I. 2 Material e métodos A avaliação do desempenho dos testes foi realizada via simulação Monte Carlo. Para a simulação de dados foram geradas amostras de tamanhos diferentes, aplicando-se a distribuição Normal. Os tamanhos das amostras geradas correspondem respectivamente a 10, 20, 30, 50 e 100 observações. Os valores dos parâmetros média e desvio padrão da distribuição Normal foram fundamentados em uma situação contextualizada. Utilizou-se a média (µ = 3, 1 kg) e o desvio padrão (σ = 0, 5 kg) do peso de recém-nascidos vivos na cidade de São Paulo entre os anos de 1993 e 1998 (MONTEIRO, BENICIO e ORTIZ, 2000) [4]. Os testes estudados foram avaliados em dois cenários, onde foram verificadas respectivamente suas taxas de poder e de erro do tipo I. No cenário 1, os testes foram avaliados em duas situações com a presença de uma observação outlier. No cenário 1a, inseriu-se nas amostras uma observação outlier mais distante da média das amostras (µ = 10 e σ = 0, 5) e no cenário 1b, uma observação outlier mais próxima (µ = 7 e σ = 0, 5). No cenário 2 avaliou-se a taxa de erro do tipo I cometida pelos testes na análise das amostras sem a presença da observação outlier. Sob a suspeita de uma observação amostral ser outlier, as hipóteses nula e alternativa consistem em: ( H0 : o valor suspeito é um outlier H1 : o valor suspeito não é um outlier (1) As simulações foram feitas gerando-se 1000 amostras de cada tamanho amostral. Assim, cada teste de detecção foi aplicado em todas as 1000 amostras geradas de cada tamanho amostral, sendo computado a razão de vezes em que H0 foi aceita. Adotou-se o nı́vel nominal de 5%. Como passo inicial, a cada simulação os testes foram avaliados conforme a função indicadora Si (i = 1, 2, . . . , 1000), definida por: 2 ( Si = 1, se H0 for aceita 0, se H0 for rejeitada (2) Dessa forma, a razão de vezes em que H0 foi aceita é dada por: N ∑ Si R= i=1 (3) N em que Si representa o valor da função indicadora na i-ésima simulação e N é o número de simulações (1000). O teste Binomial foi utilizado para verificar se a razão de vezes em que H0 foi aceita era estatisticamente igual ao nı́vel nominal. A geração das amostras e os testes foram realizados no software R 2.15.0 (R DEVELOPMENT CORE TEAM, 2012) [5], sendo utilizadas as funções: rnorm (para a geração das amostras normais), cochran.test (para as análises). A função cochran.test pertence ao pacote outliers. As estatı́sticas dos demais testes foram programadas na linguagem de programação R. 3 Resultados e discussão Nas Tabelas 1 e 2 são apresentadas as taxas de poder dos testes avaliados nesse estudo, para os tamanhos de amostra 10, 20, 30, 50 e 100. No cenário 1a (Tabela 1), pode-se observar que todos os testes apresentaram um comportamento esperado. Verificou-se que os testes conseguiram identificar a presença da observação outlier em 100% dos casos, com exceção ao teste de Cochran no tamanho amostral 10 (99,5%). TABELA 1: Poder dos testes avaliados na identificação de uma observação outlier (cenário 1a), inserida em diferentes tamanhos de amostra. Teste Chauvenet Cochran Razão Q Box-Plot 10 20 1,000 0,995 1,000 1,000 1,000 1,000 1,000 1,000 Tamanho amostral 30 1,000 1,000 1,000 1,000 50 100 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 No cenário 1b (Tabela 2), observou-se que os testes apresentaram comportamento esperado em quase todos os casos. A exceção foi o teste de Cochran, que apresentou o pior desempenho no tamanho amostral 10. Para esse tamanho de amostra, o teste de Cochran conseguiu identificar a presença da observação outlier somente em 72,5% das amostras em que havia a presença desse tipo de observação. Esses resultados indicam que o desempenho do teste de Cochran é influenciado pelo tamanho amostral, ou seja, seu desempenho diminui com amostras menores. 3 Com as constatações dos resultados das Tabelas 1 e 2, pode-se afirmar que os testes são mais sensı́veis na detecção da observação outlier mais distante da média amostral (Tabela 1), quando compara-se com os seus desempenhos na detecção da observação outlier mais próxima (Tabela 2). TABELA 2: Poder dos testes avaliados na identificação de uma observação outlier (cenário 1b), inserida em diferentes tamanhos de amostra. Teste Chauvenet Cochran Razão Q Box-Plot 10 20 0,999 0,725 0,987 0,998 1,000 0,967 0,999 0,999 Tamanho amostral 30 1,000 0,992 0,999 1,000 50 100 1,000 0,997 1,000 1,000 1,000 0,996 0,999 1,000 A taxa de erro tipo I dos testes avaliados pode ser obervada na Tabela 3. Pode-se constatar que os testes Cochran, Razão Q e Box-Plot apresentaram desempenhos esperados, isto é, taxas de erro tipo I iguais ou menores ao nı́vel nominal de 5%. O teste de Chauvenet apresentou o pior desempenho, com taxas de erro tipo I superiores a 30% para todos tamanhos de amostra. Na prática, o teste de Chauvenet indica a presença de uma observação outlier, quando na realidade esse tipo de observação não existe (erro tipo I). Por cometer altas taxas de erro do tipo I, um pesquisador ao utilizar esse teste pode ser levado a eliminar da amostra uma observação não outlier, prejudicando possı́veis inferências que venham a ser realizadas. TABELA 3: Taxa de erro tipo I para os testes avaliados para os tamanhos amostrais 10, 20, 30, 50 e 100. Teste Chauvenet Cochran Razão Q Box-Plot 10 0,314∗ 0,050NS 0,030∗ 0,045NS Tamanho amostral 20 30 0,335∗ 0,055NS 0,019∗ 0,017∗ 0,341∗ 0,041NS 0,025∗ 0,015∗ 50 100 0,383∗ 0,046NS 0,031∗ 0,014∗ 0,423∗ 0,040NS 0,035∗ 0,009∗ NS = Considerado estaticamente igual a 5% pelo teste Binomial; ∗ Considerado estaticamente diferente a 5% pelo teste Binomial. Além das Taxas de erro tipo I de cada teste para os diferentes tamanhos de amostra (Tabela 3), observou-se também se essas taxas eram estatisticamente iguais ao nı́vel nominal de significância (0,05). Observou-se que o teste de Cochran, além de controlar o erro tipo I, possui em todos tamanhos de amostra taxas desse tipo de erro estatisticamente iguais ao nı́vel nominal. O mesmo resultado não foi verificado para o teste da Razão Q, que nas mesmas situações também controlou o erro tipo I, mas com taxas estatisticamente abaixo do nı́vel nominal. 4 4 Coclusões Todos os testes apresentaram altas taxas de poder em todos tamanhos amostrais, com exceção ao teste de Cochran o tamanho de amostra 10. Apesar de apresentar altas taxas de poder. O teste de Chauvenet não controlou a taxa de erro tipo I em todos os tamanhos amostrais. Para a identificação de outliers recomenda-se a utilização dos testes de Razão Q e Box-Plot, devido a seus bons desempenhos quanto ao poder e por apresentarem resultados satisfatórios quanto ao controle do erro do tipo I em todos tamanhos amostrais. Referências [1] BARNETT, V.; LEWIS, T. Outliers in Statistical Data. John Wiley & Sons, 3. ed., 1994. [2] BERTON, L. Caracterização de classes e detecção de outliers em redes complexas. 2011. 99f. Dissertação (Mestrado - Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2011. [3] HAWKINS, D. Identication of outliers. Chapman & HaIl, London, 1980. [4] MONTEIRO, C. A.; BENICIO, M. H. D.; ORTIZ, L. P. Tendência secular do peso ao nascer na cidade de São Paulo (1976-1998). Rev Saúde Pública, v. 34, n. 6, p. 26-40, 2000. [5] R DEVELOPMENT CORE TEAM R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2012. ISBN 3-90005107-0, URL http://www.R-project.org/. 5