Comparação entre intervalos de confiança calculados com
métodos bootstrap e intervalos assintóticos
Selene Loibel
Depto. de Estatı́stica, Matemática Aplicada e Computação, IGCE, UNESP,
Rio Claro, SP
E-mail:[email protected],
Edmar J. Alves
Depto. de Matemática, IGCE, UNESP
Rio Claro, SP
29 de maio de 2013
Resumo: As técnicas de bootstrap são métodos computacionais intensivos que usam reamostragem para o cálculo de medidas de incerteza dos estimadores, tais como erros-padrões, viés e
intervalos de confiança. Este trabalho apresenta os diferentes métodos de cálculo de intervalos de
confiança utilizando as técnicas bootstrap. Tais métodos são: o intervalo de confiança bootstrap
padrão, o intervalo de confiança bootstrap - t, o intervalo de confiança bootstrap percentil, o
intervalo de confiança bootstrap BCPB e o intervalo de confiança BC a . Para o cálculo desses
intervalos utilizamos o software Matlab. Os métodos foram comparados entre si e com os métodos
tradicionais de estimação da incerteza de estimadores utilizando um conjunto de dados gerados.
1
Introdução
Na inferência estatı́stica, em geral calcula-se o desvio-padrão de estimadores para obter-se estimativas por intervalos para os parâmetros, fixando um coeficiente de confiança. Na maioria
dos casos há a necessidade de utilizar resultados assintóticos para o cálculo destes intervalos,
por exemplo a normalidade assintótica dos estimadores de máxima verossimilhança, [2]. Muitas
vezes as amostras utilizadas não são do tamanho suficiente para o uso destes resultados. Como
consequência disto podemos obter intervalos muito amplos e, em alguns casos, em que há maior
complexidade do modelo, o intervalo pode estar fora do domı́nio do parâmetro. Uma alternativa para esses casos é utilizar as técnicas de reamostragem da qual se destacam os métodos de
bootstrap. A reamostragem é o nome que se dá a um conjunto de técnicas que se baseiam em
calcular estimativas a partir de repetidas amostragens dentro da mesma amostra. Entretanto
a aplicação de tais técnicas se desenvolveu mais nos últimos anos, com o avanço tecnológico e
o desenvolvimento de softwares mais rápidos e mais acessı́veis, uma vez que os procedimentos
de reamostragem utilizam o computador de forma intensiva. Segundo Davison e Hinkley em
[3], repetir um procedimento de análise original com muitas réplicas de dados pode ser denominado método computacional intensivo. Para realizar uma estimação através da utilização dos
métodos bootstrap é necessária a realização de um número grande de reamostragens e o cálculo
de diversas estatı́sticas para cada uma destas reamostragens. Dado o custo alto e a escassez
consequente de dados em muitas aplicações, combinadas com o custo reduzido e abundância do
poder da computação, os métodos de bootstrap se tornam muito atraentes, [4] e [5].
201
2
Os métodos bootstrap
Considere uma amostra de tamanho n, x = (x1 , x2 , ..., xn ), oriunda de uma distribuição F com
parämetro θ, que chamaremos de amostra original. Os métodos de bootstrap não paramétricos
consistem na geração de um grande número de amostras independentes x∗1 , x∗2 , ..., x∗B , denominadas de amostras bootstrap, de tamanho n, igual ao da amostra original, com reposição da
mesma. Denotando por θ o parâmetro de interesse, tem-se uma réplica bootstrap θbb∗ , b =
1, 2, ..., B , que é o valor do estimador de máxima verossimilhança θb avaliado em cada uma das
B amostras bootstrap . Em posse destas B amostras, é possı́vel construir uma distribuição bootb Essa distribuição estimada é utilizada para realizar inferências sobre o parâmetro
strap para θ.
em estudo. Neste trabalho apresentamos inferência para θ utilizando resultados assintóticos e
comparamos com os obtidos pelos métodos de bootstrap.
Definimos a estimativa bootstrap do desvio-padrão por
v(
)
B
u
u
X
1
cboot θb∗ = t
dp
[θbb∗ − θb∗ (·)]2
(2.1)
B−1
b=1
com θb∗ (·) =
1
B
B
P
θbb∗ sendo a média das réplicas bootstrap.
b=1
Essa medida de variabilidade para θb é utilizada nos 2 primeiros métodos de cálculo de intervalos
de confiança, que apresentamos a seguir. Uma vantagem destes métodos é a facilidade algébrica,
o desvio-padrão bootstrap pode ser calculado para qualquer estimador. No intervalo tradicional
b definida como ”menos o valor esperado da
paramétrico, o cálculo da variância assintótica de θ,
inversa da informação de Fisher”, em alguns casos pode ser complexo. Mais detalhes em [2].
A estimativa bootstrap do viés é definida pela diferença entre a média das réplicas bootstrap e a
estimativa de θ na amostra original. Essa estimativa serve para avaliar qual método bootstrap
pode ser mais adequado.
d boot θb = θb∗ (·) − θb
viés
(2.2)
O intervalo de confiança bootstrap padrão-z para θ, com coeficiente de confiança 100 (1 − α) %,
denotando o percentil α/2 da distribuição Normal padrão por z( α2 ) , é dado por:
h
i
b∗ , θb + z α dp
c
c
ICboot Z (θ, 100 (1 − α) %) = θb − z( α ) dp
θb∗
(2.3)
boot θ
boot
( )
2
2
Neste intervalo, é feita a suposição de normalidade da distribuição de θb e a medida de variabilidade de θb é o desvio-padrão bootstrap, dado em (2.1).
O intervalo de confiança bootstrap-t para θ, com coeficiente de confiança 100 (1 − α) %, denotando o percentil α/2 da distribuição t − Student por t( α2 ) , é dado por:
h
i
b∗ , θb + t α dp
b∗
c
c
ICboot t (θ, 100 (1 − α) %) = θb − t( α ) dp
θ
boot
( ) boot θ
2
2
(2.4)
O intervalo bootstrap-t funciona bem quando a distribuição da estatı́stica é aproximadamente
normal e a estatı́stica apresenta viés pequeno. Segundo Borkowski [1]podemos
considerar oviés
d
b
c viés
d boot θb ].
pequeno se é menor que 25% de seu desvio padrão, isto é se viésboot θ < 0, 25dp[
A medida de variabilidade de θb neste intervalo também é o desvio-padrão bootstrap, dado em
2
202
(2.1).
O intervalo
percentil I com coeficiente de confiança 100 (1 − α) % é obtido
de confiança bootstrap
pelos α2 − ésimo e 1 − α2 − ésimo percentis da distribuição empı́rica de θb∗ , denotada por Fb:
h
i
−1
−1
b
b
(2.5)
ICboot percI (θ, 100 (1 − α) %) = F α , F 1− α = θb(∗ α ) , θb(∗1− α )
(2) ( 2)
2
2
O intervalo de confiança bootstrap percentil II com coeficiente de confiança 100 (1 − α) % é obtido
pelos α2 − ésimo e 1 − α2 − ésimo percentis distribuição empı́rica de △∗b , sendo △∗b = θbb∗ − θbb∗ :
i
h
ICboot percII (θ, 100 (1 − α) %) = [LI (x) ; LS (x)] = △∗ α % ; △∗1− α %
( 2)
(2)
(2.6)
Para verificar se o intervalo de confiança bootstrap-t calculado é confiável, podemos comparálo com o intervalo de confiança percentil. Se o viés for pequeno e a distribuição bootstrap for
aproximadamente normal, os dois intervalos irão apresentar valores muito próximos. Segundo
Efron e Tibshirani em [5], se o viés e a assimetria estão presentes de forma muito forte é mais
recomendável que se utilize os métodos de bootstrap de correção como o método BCPB e o
método BCa . Tais métodos fazem correções substânciais, os extremos serão os percentis da
distribuição bootstrap ajustados, para corrigir o viés e a assimetria.
Para a construção do intervalo de confiança BCPB
a proporção das réplicas bootstrap
h calculamos
i
b ou seja encontramos p0 = P θb∗ ≤ θb , b = 1, 2, ..., B. Em seguida calculamos
menores que θ,
b
o parâmetro de correção do viés que é definido por z0 = Φ−1 (p0 ) , sendo Φ(.) a função de
distribuição acumulada Normal Padrão. Logo teremos B valores de z0 e utilizamos a média
destes valores, denotada por z0 . Fixando um coeficiente de confiança (1 − α) 100% para o
intervalo encontramos o percentil α/2 da distribuição Normal padrão, denotado por z( α2 ) . As
correções propostas neste método são: Para o percentil inferior fazemos PI = Φ 2z0 − z( α ) e
2
para o percentil superior temos PS = Φ 2z0 + z( α ) . Então o intervalo de confiança bootstrap
2
BCPB é dado por:
∗
b∗
ICBCP B (θ, 100 (1 − α) %) = θb(P
(2.7)
I) , θ(P S) .
O intervalo de confiança BCa é obtido realizando os mesmos passos do cálculo do BCPB
sendo que as correções
PI =
! para os percentis são dadas por: Para o limite inferior fazemos
!
Φ zb0 +
zb0 +z( α )
2
1−b
a zb0 +z( α )
2
e para o limite superior temos PS = Φ zb0 +
zb0 +z(1− α )
2
1−b
a zb0 +z(1− α )
há ainda um ajuste feito por meio da constante de aceleração, dada por b
a=
3
2
n
P
. Note que
(θb(·) −θb(i) )
3
i=1
n
3
P b
2 2
6
(θ(·) −θb(i) )
.
i=1
Aplicação
Foi gerada uma amostra com tamanho n = 15, da variável aleatória X ∼ Exp(1/5), portanto
sabemos que E(X) = 5 e V (X) = 25, com o objetivo de testar os métodos bootstrap de
estimação por intervalos. Os dados estão apresentados na Tabela 1 e no histograma da Figura
1.
1.5675
10.4564
20.8504
10.1107
1.9071
1.1764
7.1948
5.9008
8.8270
2.5569
0.0224
3.1698
0.0766
0.9831
Tabela 1: Dados gerados com modelo Exponencial(1/5)
3
203
4.8808
6
5
4
3
2
1
0
0
5
10
15
20
25
X
Figura 1 - Histograma da amostra gerada Exp(1/5)
Com base nesta amostra original, foram geradas 2000 amostras bootstrap do mesmo tamanho
e aplicadas as técnicas de bootstrap a fim de calcular os intervalos de confiança para a média
e para a variäncia desta variável. Todos os cálculos dos intervalos foram obtidos utilizando o
software Matlab e os códigos obtidos em [1].
Os resultados foram comparados com o intervalo de confiança tradicional paramétrico, considerando a normalidade assintótica do estimadores de máxima verossimilhança da média e da
variância, [2].
Neste caso, se X ∼ Exp(β) então o estimador de máxima verossimilhança EM V (β) = βb
b = β e variânica V (β)
b = n/β 2 .
segue distribuição assintótica Normal com média E(β)
Se estamos interessados nos intervalos de confiança para os estimadores da média e da
variância de X, temos que E(X) = g(β) = 1/β e V (X) = h(β) = 1/β 2 e pelo princı́pio da
b = 1/βb e EM V [h(β)] = h(β)
b = 1/βb2 .
invariância, EM V [g(β)] = g(β)
b temos que Vb [g(β)]
b = [g′ (β)]
b 2 /V (β)
b e
Para estimar a variância do estimador da média g(β)
′
2
b [2]. Com
b = [h (β)]
b /V (β),
para estimar a variância do estimador da variância temos Vb [h(β)]
isso as distribuições assintóticas para os estimadores da média e da variância de X são, respectivamente:
1
1
1
4
2
b
b
1/β ∼ N β , nβ 2
1/β ∼ N β 2 , nβ 4
(3.1)
Na Tabela 2 apresentamos os intervalos de confiança para a média e para variância calculados
utilizando normalidade assintótica, bootstrap padrão-z, bootstrap-t , bootstrap percentil , BCPB
e BCa . Uma forma de se comparar a qualidade dos intervalos é verificar a amplitude (A)
destes, sendo a probabilidade de cobertura igual para todos. Neste trabalho, consideramos a
probabilidade de cobertura igual a 95%.
Método
Assintótico
Boot-z
Boot-t
Percentil
BCPB
BCa
IC(E(X), 95%)
(3,3922 ; 9,4910)
(2,5875 ; 8,0366)
(2,4026 ; 8,2215)
(3,2326 ; 7,7366)I
(3,0304 ; 8,6513)
(3,5195 ; 10,2543)
A
6,10
5,45
5,82
4,50
5,62
6,73
IC(V (X), 95%)
(0 ;
56,7782)
(2,0020 ; 60,3398)
(0,0227 ; 62,3191)
(5,9404 ; 53,2078)II
(10,4234 ; 69,6711)
(11,4405 ; 76,2715)
Tabela 2: Comparação entre IC assintótico e os ICboot
4
204
A
56,78
58,64
62,30
47,27
59,55
64,83
Sabemos que para X ∼ Exp(1/5) o verdadeiro valor da média é 5 e da variância é 25.
As estimativas pontuais para média e variância, calculadas a partir da amostra original são
X = 5, 312 e S 2 = 31, 17 com V (X) = 2, 08 e dp(X) = 1, 44. A estimativa pontual para a média
calculada por bootstrap, como esperado, não é muito diferente θb∗ (·) = 5, 308. O interessante
é notar que a estimativa
da variabilidade deste estimador é menor, isto é, o desvio padrão
∗
c
b
bootstrap é dpboot θ = 1, 39. No caso da estimativa pontual para a variância calculada por
c
bootstrap, temos os valores Vboot =28,98 e dp
(Vboot ) = 14, 88.
boot
d boot θb = −0, 004 considerado pequeno
A estimativa bootstrap do viés para a média é viés
c viés
d boot θb ] = 0, 3475). Além disso temos que a distribuição bootstrap da média
(< 0, 25dp[
apresenta forma aproximadamente simétrica , como vemos no histograma da Figura 2. Esses
resultados indicam que o método bootstrap percentil I é adequado para essa aplicação e apresenta
d boot = −2, 19 que não é tão
intervalo com a menor amplitude. No caso da variância, temos viés
pequeno e não há simetria na distribuição do estimador, ver Figura 2. Isso indica que o método
percentil do tipo II é mais adequado para o cálculo de intervalos de confiança para a variância.
Vemos na Tabela 2 que ao comparar a amplitude do intervalo assintótico para a média com as
amplitudes dos intervalos calculados por bootstrap, observamos que apenas o intervalo calculado
com o método BCa apresenta amplitude maior que o assintótico, todos os outros apresentam
amplitudes menores e essa é uma propriedade interessante do ponto de vista prático. A amplitude
dos intervalos para variância não são menores, com exceção do intevalo percentil tipo II.
100
700
90
600
80
500
70
60
400
50
300
40
30
200
20
100
10
0
0
2
4
6
8
10
0
12
0
10
20
30
40
50
60
70
80
S2 bootstrap
média bootstrap
Figura 2: Histogramas distribuições bootstrap da média e da variância de X
4
Conclusão
O método computacional bootstrap mostra-se eficiente ao estimar os intervalos de confiança. A
amplitude dos intervalos bootstrap, em geral são menores em relação aos intervalos assintóticos.
A estimativa da variabilidade pode ser calculada facilmente para qualquer estimador, sem restrições. Dentre os intervalos de confiança bootstrap existem intervalos de confiança que apresentam melhores resultados, ou seja é possı́vel estabelecer o intervalo de confiança bootstrap
adequado para cada tipo de situação dependendo do tipo de distribuição, da magnitude do viés
e da forma da distribuição (simetria ou assimetria) do estimador do parâmetro estudado.
Referências
[1] Borkowski, J. Notas de curso, disponı́vel em www.math.montana.edu/vjobo/st431/index.html,
2013.
[2] Bickel, P. J. and Doksum, K. A. Mathematical Statistics - Basic Ideas and Selected Topics,
1977.
5
205
[3] Davison, A.C. and Hinkley, D.V. bootstrap methods and their application, Cambridge University Press, 1997.
[4] Diaconis, P. and Efron, B. Computer-intensive methods in statistics. Sci. Amer. 113-130,
1983.
[5] Efron, B. and Tibshirani, R. An Introduction to the bootstrap. Chapman and Hall, New
York,1983.
6
206
Download

e intervalos assintóticos - Sociedade Brasileira de Matemática