Avaliação do poder e taxas de erro do tipo I de testes de
detecção de outliers via simulação
Carlos José dos Reis 1 2
Luiz Alberto Beijo 3
1
Introdução
Um outlier é caracterizado pela sua relação com as observações restantes que fazem parte
da amostra. O seu distanciamento em relação a essas observações é fundamental para se fazer
a sua caracterização. Essas observações são também designadas por observações “anormais”,
contaminantes, estranhas, extremas ou aberrantes. A preocupação com observações outliers é
antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente, pensavase que a melhor forma de lidar com esse tipo de observação seria através da sua eliminação da
análise. Atualmente, este procedimento é ainda muitas vezes utilizado, existindo, no entanto,
outras formas de lidar com tal tipo de fenômeno.
Um outlier pode surgir por erros de medição, digitação, de execução ou ser um valor inerente à população. Uma atenção especial deve ser dada aos outliers, pois normalmente essas
observações resultam em alguma violação das pressuposições necessárias para adequação ao
modelo, produzindo consequentemente efeitos não confiáveis na eficiência dos estimadores.
Segundo Hawkins (1980) [3], um outlier é uma observação que se desvia muitos das demais
observações, a ponto de suspeitar-se que tenha sido gerada por um mecanismo diferenciado. Já
para Barnett e Lewis (1994) [1], um outlier é uma observação (ou subconjunto de observações)
que parece ser inconsistente em relação ao restante do conjunto de dados.
A detecção de observações outliers tem sido muito utilizada em diversas aplicações. Entre
essas aplicações, podem-se citar diagnósticos de falhas, fraudes em cartões de crédito, intrusão
em redes, processamento de pedido de empréstimo, perturbações em ecossistemas, monitoração
de condições médicas, entre outras (BERTON, 2011) [2].
Dependendo da sua natureza, os outliers podem causar um efeito substancial na análise dos
dados. Assim, é importante a identificação de observações outliers por várias razões, podendose citar:
i) Melhor entendimento da série em estudo: um outlier detectado pode ser a evidência da
ocorrência de algum fator externo afetando a série. Por exemplo, falha nos equipamentos de
medição;
1 ICEX
- UNIFAL-MG. E-mail: [email protected]
a FAPEMIG pelo apoio financeiro.
3 ICEX - UNIFAL-MG. Email: [email protected]
2 Agradecimento
1
ii) Melhor modelagem e estimação: eventos desconhecidos podem afetar na modelagem
e/ou estimação. Assim, não identificar os outliers compromete na estimativa de parâmetros do
modelo, comprometendo a precisão do resultado e levando a erros na previsão;
iii) Melhor tratamento: a presença de outliers influencia no resultado do tratamento, pois a
qualidade dos dados reflete diretamente nos resultados obtidos.
Dentro desse contexto, faz-se necessário a aplicação de testes confiáveis para identificar os
outliers. Dessa forma, o objetivo do presente trabalho foi avaliar, via simulação Monte Carlo, o
desempenho dos testes de detecção de outliers Chauvenet, Cochran, Razão Q e Boxplot, quanto
as taxas de poder e de erro do tipo I.
2
Material e métodos
A avaliação do desempenho dos testes foi realizada via simulação Monte Carlo. Para a
simulação de dados foram geradas amostras de tamanhos diferentes, aplicando-se a distribuição
Normal. Os tamanhos das amostras geradas correspondem respectivamente a 10, 20, 30, 50 e
100 observações.
Os valores dos parâmetros média e desvio padrão da distribuição Normal foram fundamentados em uma situação contextualizada. Utilizou-se a média (µ = 3, 1 kg) e o desvio padrão
(σ = 0, 5 kg) do peso de recém-nascidos vivos na cidade de São Paulo entre os anos de 1993 e
1998 (MONTEIRO, BENICIO e ORTIZ, 2000) [4].
Os testes estudados foram avaliados em dois cenários, onde foram verificadas respectivamente suas taxas de poder e de erro do tipo I. No cenário 1, os testes foram avaliados em duas
situações com a presença de uma observação outlier. No cenário 1a, inseriu-se nas amostras
uma observação outlier mais distante da média das amostras (µ = 10 e σ = 0, 5) e no cenário
1b, uma observação outlier mais próxima (µ = 7 e σ = 0, 5). No cenário 2 avaliou-se a taxa
de erro do tipo I cometida pelos testes na análise das amostras sem a presença da observação
outlier. Sob a suspeita de uma observação amostral ser outlier, as hipóteses nula e alternativa
consistem em:
(
H0 : o valor suspeito é um outlier
H1 : o valor suspeito não é um outlier
(1)
As simulações foram feitas gerando-se 1000 amostras de cada tamanho amostral. Assim,
cada teste de detecção foi aplicado em todas as 1000 amostras geradas de cada tamanho amostral, sendo computado a razão de vezes em que H0 foi aceita. Adotou-se o nı́vel nominal de
5%.
Como passo inicial, a cada simulação os testes foram avaliados conforme a função indicadora Si (i = 1, 2, . . . , 1000), definida por:
2
(
Si =
1, se H0 for aceita
0, se H0 for rejeitada
(2)
Dessa forma, a razão de vezes em que H0 foi aceita é dada por:
N
∑ Si
R=
i=1
(3)
N
em que Si representa o valor da função indicadora na i-ésima simulação e N é o número de
simulações (1000). O teste Binomial foi utilizado para verificar se a razão de vezes em que H0
foi aceita era estatisticamente igual ao nı́vel nominal.
A geração das amostras e os testes foram realizados no software R 2.15.0 (R DEVELOPMENT CORE TEAM, 2012) [5], sendo utilizadas as funções: rnorm (para a geração das amostras normais), cochran.test (para as análises). A função cochran.test pertence ao pacote outliers.
As estatı́sticas dos demais testes foram programadas na linguagem de programação R.
3
Resultados e discussão
Nas Tabelas 1 e 2 são apresentadas as taxas de poder dos testes avaliados nesse estudo, para
os tamanhos de amostra 10, 20, 30, 50 e 100. No cenário 1a (Tabela 1), pode-se observar que
todos os testes apresentaram um comportamento esperado. Verificou-se que os testes conseguiram identificar a presença da observação outlier em 100% dos casos, com exceção ao teste de
Cochran no tamanho amostral 10 (99,5%).
TABELA 1: Poder dos testes avaliados na identificação de uma observação outlier (cenário 1a),
inserida em diferentes tamanhos de amostra.
Teste
Chauvenet
Cochran
Razão Q
Box-Plot
10
20
1,000
0,995
1,000
1,000
1,000
1,000
1,000
1,000
Tamanho amostral
30
1,000
1,000
1,000
1,000
50
100
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
No cenário 1b (Tabela 2), observou-se que os testes apresentaram comportamento esperado
em quase todos os casos. A exceção foi o teste de Cochran, que apresentou o pior desempenho
no tamanho amostral 10. Para esse tamanho de amostra, o teste de Cochran conseguiu identificar
a presença da observação outlier somente em 72,5% das amostras em que havia a presença
desse tipo de observação. Esses resultados indicam que o desempenho do teste de Cochran é
influenciado pelo tamanho amostral, ou seja, seu desempenho diminui com amostras menores.
3
Com as constatações dos resultados das Tabelas 1 e 2, pode-se afirmar que os testes são
mais sensı́veis na detecção da observação outlier mais distante da média amostral (Tabela 1),
quando compara-se com os seus desempenhos na detecção da observação outlier mais próxima
(Tabela 2).
TABELA 2: Poder dos testes avaliados na identificação de uma observação outlier (cenário 1b),
inserida em diferentes tamanhos de amostra.
Teste
Chauvenet
Cochran
Razão Q
Box-Plot
10
20
0,999
0,725
0,987
0,998
1,000
0,967
0,999
0,999
Tamanho amostral
30
1,000
0,992
0,999
1,000
50
100
1,000
0,997
1,000
1,000
1,000
0,996
0,999
1,000
A taxa de erro tipo I dos testes avaliados pode ser obervada na Tabela 3. Pode-se constatar
que os testes Cochran, Razão Q e Box-Plot apresentaram desempenhos esperados, isto é, taxas
de erro tipo I iguais ou menores ao nı́vel nominal de 5%. O teste de Chauvenet apresentou o pior
desempenho, com taxas de erro tipo I superiores a 30% para todos tamanhos de amostra. Na
prática, o teste de Chauvenet indica a presença de uma observação outlier, quando na realidade
esse tipo de observação não existe (erro tipo I). Por cometer altas taxas de erro do tipo I, um
pesquisador ao utilizar esse teste pode ser levado a eliminar da amostra uma observação não
outlier, prejudicando possı́veis inferências que venham a ser realizadas.
TABELA 3: Taxa de erro tipo I para os testes avaliados para os tamanhos amostrais 10, 20,
30, 50 e 100.
Teste
Chauvenet
Cochran
Razão Q
Box-Plot
10
0,314∗
0,050NS
0,030∗
0,045NS
Tamanho amostral
20
30
0,335∗
0,055NS
0,019∗
0,017∗
0,341∗
0,041NS
0,025∗
0,015∗
50
100
0,383∗
0,046NS
0,031∗
0,014∗
0,423∗
0,040NS
0,035∗
0,009∗
NS = Considerado estaticamente igual a 5% pelo teste Binomial; ∗ Considerado estaticamente diferente a 5%
pelo teste Binomial.
Além das Taxas de erro tipo I de cada teste para os diferentes tamanhos de amostra (Tabela
3), observou-se também se essas taxas eram estatisticamente iguais ao nı́vel nominal de significância (0,05). Observou-se que o teste de Cochran, além de controlar o erro tipo I, possui em
todos tamanhos de amostra taxas desse tipo de erro estatisticamente iguais ao nı́vel nominal. O
mesmo resultado não foi verificado para o teste da Razão Q, que nas mesmas situações também
controlou o erro tipo I, mas com taxas estatisticamente abaixo do nı́vel nominal.
4
4
Coclusões
Todos os testes apresentaram altas taxas de poder em todos tamanhos amostrais, com exceção
ao teste de Cochran o tamanho de amostra 10. Apesar de apresentar altas taxas de poder. O
teste de Chauvenet não controlou a taxa de erro tipo I em todos os tamanhos amostrais. Para a
identificação de outliers recomenda-se a utilização dos testes de Razão Q e Box-Plot, devido a
seus bons desempenhos quanto ao poder e por apresentarem resultados satisfatórios quanto ao
controle do erro do tipo I em todos tamanhos amostrais.
Referências
[1] BARNETT, V.; LEWIS, T. Outliers in Statistical Data. John Wiley & Sons, 3. ed., 1994.
[2] BERTON, L. Caracterização de classes e detecção de outliers em redes complexas. 2011. 99f. Dissertação (Mestrado - Programa de Pós-Graduação em Ciências de
Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de
Computação, Universidade de São Paulo, São Carlos, 2011.
[3] HAWKINS, D. Identication of outliers. Chapman & HaIl, London, 1980.
[4] MONTEIRO, C. A.; BENICIO, M. H. D.; ORTIZ, L. P. Tendência secular do peso ao
nascer na cidade de São Paulo (1976-1998). Rev Saúde Pública, v. 34, n. 6, p. 26-40,
2000.
[5] R DEVELOPMENT CORE TEAM R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2012. ISBN 3-90005107-0, URL http://www.R-project.org/.
5
Download

Avaliaç ˜ao do poder e taxas de erro do tipo I de testes de