UNIVERSIDADE ESTADUAL DE GOIÁS
Unidade Universitária de Ciências Exatas e Tecnológicas
Curso de Licenciatura em Matemática
Construção de intervalos de confiança percentil bootstrap para a média
sob não normalidade
Tiago da Costa Moreira
Anápolis, 2011
Tiago da Costa Moreira
Construção de intervalos de confiança percentil bootstrap para a média
sob não normalidade
Trabalho
de
Curso
apresentado
a
Coordenação Adjunta de TC, como parte
dos requisitos para obtenção do título de
Graduado no Curso de Licenciatura em
Matemática da Universidade Estadual de
Goiás sob a orientação do Professor MSc.
Cleber Giugioli Carrasco.
Anápolis, 2011
AGRADECIMENTOS
À Deus, pelo dom supremo da vida e por sua presença em minha vida, pois sem Ele
nada eu seria. A Ele toda honra e toda glória.
Aos meus pais José e Maria, minhas irmãs Luana, Priscila e Miria, que sempre me
incentivaram e deram condições para que concretizasse mais essa etapa na minha
carreira estudantil. Dedico este trabalho a vocês, que são meus exemplos de vida.
Aos colegas de curso, Aninha, César, João, Kellen, Lidianye, Marcos Elias, Tânia,
Wilson, pelos momentos de alegrias, tristeza, decepções e preocupações vividos
nestes quatro anos.
Aos mestres desta instituição, que contribuíram para a minha formação profissional,
em especial ao professor Fabiano e a professora Cinthia pela participação na banca
avaliadora e ao professor MSc. Cleber Giugioli Carrasco, pela paciência e dedicação
com que nos orientou. Foi um prazer receber a orientação do professor Carrasco.
Enfim, a todos que de forma direta ou indireta contribuíram para a concretização
deste trabalho. A todos um grande abraço.
RESUMO
Este trabalho apresenta uma técnica de reamostragem conhecida como bootstrap que será utilizada
na construção de intervalos de confiança para a média. Posteriormente, através do método de
simulação de Monte Carlo, comparam-se os intervalos de confiança construídos através da técnica
bootstrap com os intervalos de confiança usuais, analisando suas respectivas probabilidades de
cobertura e amplitudes médias. Todo o procedimento utilizado na construção dos intervalos de
confiança é implementados no software free R.
Palavras-chave:
Intervalo
de
confiança,
reamostragem,
técnica
bootstrap.
LISTA DE TABELAS
Tabela 4.1: Intervalos de confiança gerados de uma distribuição Normal (0,1)...........23
Tabela 4.2: Intervalos de confiança gerados de uma distribuição t-Student com 1 gl..24
Tabela 4.3: Intervalos de confiança gerados de uma distribuição Log-Normal (1,1) ...24
Tabela 4.4: Intervalos de confiança gerados de uma distribuição Weibull (8,3).......... 24
Tabela 4.5: Intervalos de confiança gerados de uma distribuição Beta (2,0.5) .......... 24
Tabela 4.6: Intervalos de confiança gerados de uma distribuição Exponencial (λ =1)25
Tabela 4.7: Intervalos de confiança gerados de uma distribuição Uniforme (-1,1)..... 25
Tabela 4.8: Intervalos de confiança gerados de uma distribuição Beta (0.5,0.5) ....... 25
Tabela 4.9: Amplitude dos intervalos de confiança ..................................................... 26
Tabela 5.1 : Probabilidade de cobertura dos intervalos de confiança ........................ 32
Tabela 5.2: Amplitudes médias dos intervalos de confiança....................................... 33
LISTAS DE FIGURAS
Figura 2.1: Curva de distribuição do modelo normal para diferentes parâmetros ... 11
Figura 2.2: Distribuição t-Student para diferentes parâmetros ................................. 12
Figura 2.3: Curvas de Distribuições Log-Normal para diferentes parâmetros ......... 13
Figura 2.4: Curvas de Distribuições Weibull ............................................................. 14
Figura 2.5: Curvas de distribuição beta-padrão para diferentes parâmetros ........... 15
Figura 2.6: Curvas de distribuição exponencial para diferentes parâmetros ........... 16
Figura 2.7: Distribuição Uniforme com parâmetros α e β ......................................... 16
Figura 3.1: Histogramas das distribuições amostrais para várias populações ......... 18
Figura 4.1: Intervalos de confiança para o parâmetro θ para diferentes amostras .. 21
Figura 4.2: Curvas de densidade para as distribuições utilizadas ........................... 23
Figura 4.3: Histogramas das distribuições das médias via técnica bootstrap .......... 28
Figura 4.4: QQ Norms das distribuições da média via técnica bootstrap ................. 29
SUMÁRIO
CAPÍTULO 1: INTRODUÇÃO ..................................................................................... 9
CAPÍTULO 2: DISTRIBUIÇÕES DE PROBABILIDADE ............................................ 11
2.1. Modelo de Distribuição Normal .......................................................................... 11
2.2. Modelo t-Student ................................................................................................ 12
2.3. Modelo Log-Normal ............................................................................................ 12
2.4. Distribuição de Weibull ....................................................................................... 13
2.5. Modelo Beta ....................................................................................................... 14
2.6. Modelo Exponencial ........................................................................................... 15
2.7. Modelo Uniforme ................................................................................................ 16
CAPÍTULO 3: DISTRIBUIÇÃO AMOSTRAL DA MÉDIA............................................ 17
3.1. Distribuição amostral da média .......................................................................... 17
CAPÍTULO 4: CONSTRUÇÃO DE INTERVALOS DE CONFIANÇA PARA A MÉDIA20
4.1. Estimação por intervalos de confiança ............................................................... 20
4.2. Intervalo de confiança usual ............................................................................... 21
4.3. Intervalo de confiança percentil bootstrap .......................................................... 21
4.4. Resultados numéricos ........................................................................................ 22
CAPITULO 5: COMPARAÇãO DOS INTERVALOS DE CONFIANÇA VIA MÉTODO
DE SIMULAÇÃO MONTE CARLO ............................................................................ 30
5.1. Método de simulação de Monte Carlo ................................................................ 30
5.2. Resultados da simulação de Monte Carlo .......................................................... 30
CONCLUSÃO............................................................................................................ 35
REFERENCIAS BIBLIOGRÁFICAS .......................................................................... 36
Anexo ........................................................................................................................ 37
CAPÍTULO 1
INTRODUÇÃO
Inferência estatística é o conjunto de técnicas que objetiva estudar a
população através de informações fornecida por uma amostra. Através da inferência
estatística, podemos testar afirmações sobre os parâmetros de uma determinada
população. Para testar essas afirmações é necessário obter estimativas para o
parâmetro de interesse. Dentre tais estimativas, evidencia-se a estimativa intervalar
ou estimação por intervalos de confiança (MAGALHÃES; LIMA, 2008).
A construção de intervalos de confiança para qualquer parâmetro de uma
população baseia-se em distribuições amostrais, que por sua vez dependem da
forma da distribuição da população. Quando a distribuição amostral for conhecida, a
construção de tais intervalos de confiança pode ser feita através de métodos usuais.
Mas quando a população não tiver distribuição conhecida e, em alguns casos a
amostra não for suficientemente grande, pode-se utilizar uma técnica de
reamostragem conhecida como bootstrap para a construção de intervalos de
confiança para os parâmetros de interesse. (DAVISON; HINKLEY, 1997).
A técnica bootstrap visa à obtenção de estimativas intervalares para os
estimadores dos parâmetros de interesse, através da reamostragem do conjunto de
dados original. Essa técnica é muito útil quando não conhecemos a distribuição de
probabilidades do parâmetro de interesse e também, quando o cálculo de
estimadores por métodos analíticos forem complicados (CYMROT; RIZZO, 2006).
Aos intervalos construídos pela técnica bootstrap dá-se o nome de intervalos de
confiança bootstrap.
Neste trabalho pretende-se construir intervalos de confiança para a média
populacional através da técnica bootstrap, quando a distribuição amostral da média
não for normalmente distribuída e, comparar os intervalos de confiança percentil
bootstrap com os intervalos de confiança usuais.
Todo o procedimento computacional será realizado no software free R. O
principal motivo da escolha deste software é a facilidade na criação de novas
funções (PETERNELLI; MELLO, 2007). O Ambiente R, ou simplesmente R, como é
10
usualmente conhecido pelos seus usuários, foi criado em 1996 por Ross Ihaka e
Robert Gentleman. É uma linguagem orientada a objetos que aliada a um ambiente
integrado permite a manipulação de dados, realização de cálculos e geração de
gráficos. Além de ser gratuito, o R apresenta código-fonte aberto podendo ser
modificado e implementado por seus usuários. Assim, o R é uma importante
ferramenta na análise e manipulação de dados, além da facilidade na geração de
gráficos. Pode ser obtido gratuitamente em www.r-project.org, onde é apresentado
em versões de acordo com o sistema operacional UNIX, Windows e Macintosh. Mais
informações sobre a utilização e uma central de correspondência de profissionais do
mundo todo também pode ser encontradas neste site.
O presente trabalho está dividido em cinco capítulos. O segundo capítulo
apresenta os modelos probabilísticos utilizados neste trabalho para realizar as
simulações, bem como suas funções de densidade de probabilidade e suas
respectivas esperanças, variâncias e curvas de densidade para diferentes valores
dos parâmetros. O terceiro capítulo refere-se à distribuição amostral da média
quando a distribuição amostral da media é conhecida ou não. No quarto capítulo é
apresentada a construção dos intervalos de confiança utilizando o método usual e a
técnica de reamostragem bootstrap. No último capítulo comparam-se através do
método de simulação de Monte Carlo os intervalos de confiança construídos,
analisando as suas probabilidades de cobertura e respectivas amplitudes médias.
Por fim, apresenta-se a conclusão e as referencias bibliográficas deste trabalho.
CAPÍTULO 2
DISTRIBUIÇÕES DE PROBABILIDADE
Neste capítulo apresentam-se os modelos de probabilidades e suas
funções densidade de probabilidade, esperanças, variâncias e gráficos das curvas
de densidade para diferentes parâmetros.
2.1. Modelo de Distribuição Normal
μ e
Uma variável aleatória (v.a.) X possui distribuição normal com parâmetros
, com −∞ <
(f.d.p.) é dada por:
< +∞e
f x =
σ√ π
e
> 0, se sua função densidade de probabilidade
, −∞ <
µ / σ
< +∞
(2.1.1)
A esperança e a variância do modelo normal são dadas respectivamente
por:
E(X) =
(2.1.2)
Var(X) = σ
(2.1.3)
A Figura 2.1 apresenta as curvas de densidade do modelo normal para diferentes
0.0
0.2
0.4
0.6
0.8
parâmetros: (−) µ = 0 e σ = 1, (−) µ = -1 e σ = 1, (−) µ = 1e σ = 0,25.
-4
-2
0
x
2
4
Figura 2.1: Curva de distribuição do modelo normal para diferentes parâmetros.
12
2.2. Modelo t-Student
Uma v.a. X possui distribuição t-Student, ou simplesmente distribuição t,
se sua f.d.p. é do tipo
f x =
Γ
π Γ[
/
]
!1 +
#
/
, −∞ <
< +∞
(2.2.1)
A esperança e a variância do modelo t-Student com n grau de liberdade
são dadas respectivamente por:
E(X) = 0
Var X =
(2.2.2)
, se n > 2
(2.2.3)
A Figura 2.2 apresenta as curvas de densidade para a distribuição t-
0.0
0.1
0.2
0.3
0.4
Student com diferentes graus de liberdade (gl): (−) gl = 1, (−) gl = 2 e (−) gl = 4.
-4
-2
0
2
4
Figura 2.2: Distribuição t-Student para diferentes parâmetros.
2.3. Modelo Log-Normal
Uma v.a. X não negativa segue uma distribuição Log-Normal se uma v.a.
Y = ln(X) for distribuída normalmente com parâmetros µ e σ. Assim, a f.d.p. de X é
dada por:
-] / +
e [,
, sex ≥ 00
f x = )√ *+
0, sex < 0
(2.3.1)
13
Vale lembrar que 1 são a média e o desvio-padrão de Y. A média e a
variância de X são dadas respectivamente por:
4
E X = e-3 Var X = e
-3+
(2.3.2)
e+ − 1
(2.3.3)
A Figura 2.3 apresenta as curvas de densidade para diferentes
parâmetros de uma distribuição Log-Normal: (−) µ= 1 e σ = 1, (−) µ= 3 e σ = 2, (−) µ
0.00
0.05
0.10
0.15
0.20
0.25
= 2 e σ = 1.
0
5
10
15
Figura 2.3: Curvas de Distribuições Log-Normal para diferentes parâmetros.
2.4. Distribuição de Weibull
Uma v.a. X possui distribuição de Weibull com parâmetros α e β, com α >
0 e β > 0, se sua f.d.p. é:
6 α
α
β , sex ≥ 0
0
f x = 5 βα x e
0, sex < 0
α
! #
(2.4.1)
A esperança e a variância são dadas respectivamente por:
E X = βΓ !1 + 9#
Var X = β :Γ !1 + 9# − ;Γ !1 + 9#< =
(2.4.2)
(2.4.3)
14
A Figura 2.4 apresenta as curvas de densidade para diferentes
parâmetros de uma distribuição de Weibull: (−) α = 8 e β = 3, (−) α = β = 2 e (−) α = 2
0.0
0.2
0.4
0.6
0.8
1.0
e β = 1.
0
1
2
3
4
Figura 2.4: Curvas de Distribuições Weibull.
2.5. Modelo Beta
Uma v.a. X possui distribuição beta com parâmetros α, β (positivos), A e B se
sua f.d.p. é dada por
f x = ? B-A . Γ α .Γ(β) !B-A# !B-A# , seA≤x≤B 0
0,
caso contrário
1
Γ(α+β)
x-A
α-1
β-1
B-x
(2.5.1)
Com A = 0 e B = 1, temos a distribuição beta-padrão.
Obs.: A função gama Γ B é definida por:
Γ α = CD x α
e dx
(2.5.2)
A esperança e a variância do modelo beta são dadas respectivamente
por:
E X = A + B − A . α3β
α
Var X =
G H αβ
α3β
α3β3
(2.5.3)
(2.5.4)
15
A Figura 2.5 apresenta as curvas de densidade com diferentes
parâmetros para uma distribuição beta-padrão: (− α = 5 e β = 2; (−)α = β = 0,5; (−) α
0
2
4
6
= 2 e β = 0,5.
0.0
0.2
0.4
0.6
0.8
1.0
Figura 2.5: Curvas de distribuição beta-padrão para diferentes parâmetros.
2.6. Modelo Exponencial
Uma v.a. X possui distribuição exponencial com parâmetro λ se sua f.d.p.
é do tipo:
e
, sex ≥ 00
f X = )λ
,
0, sex < 0
/λ
(2.6.1)
A esperança e a variância do modelo exponencial são dadas
respectivamente por:
E X =λ
Var X = λ
(2.6.2)
(2.6.3)
A Figura 2.6 apresenta as curvas de densidade para diferentes
parâmetros de uma distribuição exponencial: (−) λ = 10, (−) λ = 5 e (−) λ = 1.
0
2
4
6
8
10
16
0.0
0.2
0.4
0.6
0.8
1.0
Figura 2.6: Curvas de distribuição exponencial para diferentes parâmetros.
2.7. Modelo Uniforme
Uma v.a. X possui distribuição uniforme com parâmetros α e β (α < β)
reais, se sua f.d.p. é do tipo:
, α ≤ x ≤ β 0
f x = )J 9
0, nosdemaispontos
(2.7.1)
A esperança e a variância do modelo uniforme são respectivamente
dadas por:
E X =
Var X =
α3β
(2.7.2)
β α
(2.7.3)
A Figura 2.7 apresenta a distribuição uniforme com parâmetros α = -1 e
0.3
0.4
0.5
0.6
0.7
β = 1.
-1.0
-0.5
0.0
0.5
1.0
Figura 2.7: Distribuição Uniforme com parâmetros α = - 1 e β = 1.
CAPÍTULO 3
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
Este capítulo refere-se à distribuição amostral da média quando a
população X é normalmente distribuída ou não.
3.1. Distribuição amostral da média
Seja uma população X com parâmetros média populacional µ e variância
populacional
conhecida. Considere retiradas todas as possíveis amostras casuais
simples com reposição de tamanho n desta população e que, para cada amostra
retirada é calculada a média, a estatística destas médias é chamada média amostral
R
X. Dessa forma têm-se duas situações:
•
Quando a população X segue uma distribuição normal
Quando a população X é distribuída normalmente com média µ e variância
, a distribuição amostral da média R
X segue uma distribuição normal com média µ e
variância
•
+
, isto é:
Se X~N μ, σ
R~N μ,
⟹X
+
(3.1.1)
Quando a população X não segue uma distribuição normal
Quando a distribuição da população X não é distribuída normalmente, mas
R
tem-se uma amostra suficientemente grande, a distribuição da média amostral X
X tem uma distribuição em forma de sino
tende a uma distribuição normal, ou seja, R
mais acentuada do que a que está servindo como amostra, segundo Devore (2006).
Este resultado é conhecido com Teorema do Limite Central (TLC). Este teorema de
fundamental importância na teoria da inferência estatística pode ser enunciado da
seguinte maneira (MAGALHAES; LIMA, 2008):
18
Teorema do Limite Central: Suponha uma amostra aleatória simples de tamanho n
retirada de uma população com media µ e variância σ . Representando tal amostra
por n variáveis aleatórias independentes X , X , … , X
R, tem-se que
X
Z=
R X
+/√
e denotando sua média por
~N 0,1 , para n→ ∞
(3.1.2)
ou seja, o TLC nos garante que mesmo a populaçao não tendo distribuição normal,
mas se o tamanho da amostra for suficientemente grande, a distribuiçao amostral da
R se aproxima de uma distribuição normal.
média X
A Figura 3.1 apresenta algumas distribuições amostrais para diferentes
populações. Observe que quando uma população tem distribuição aproximadamente
normal, a distribuição amostral converge com mais rapidez para uma distribuição
normal. Quando temos uma população em forma de V, essa convergência é mais
demorada.
Figura 3.1: Histogramas das distribuições amostrais para várias populações
Fonte: Bussab, W. O; Morenttin, P.A. 1987, p. 197.
Porém, quando a população não for distribuída normalmente e a amostra
não for suficientemente grande, não podemos afirmar qual é a distribuição amostral
19
da média. Neste caso, os procedimentos usuais de inferência estatística, não podem
ser utilizados e, métodos de reamostragem podem se apresentar como métodos
alternativos (CARRASCO, 2002).
CAPÍTULO 4
CONSTRUÇÃO DE INTERVALOS DE CONFIANÇA PARA A MÉDIA
Neste capítulo faz-se uma abordagem de como construir um intervalo de
confiança pelo método usual e pela técnica bootstrap.
4.1. Estimação por intervalos de confiança
Segundo Devore (2006), estimativa pontual de um parâmetro qualquer θ é
o único valor numérico que pode ser considerado sensato para θ. Essa estimativa é
obtida selecionando uma estatística e calculando o valor pelos dados da amostra. A
esta estatística é dada o nome de estimador pontual de θ.
Em algumas situações a estimação pontual não fornece informação sobre
a precisão e confiabilidade da estimativa (DEVORE, 2006). Segundo Hines et al
(2006) uma estimativa da forma I ≤θ ≤S pode ser mais útil, pois fornece uma maior
confiabilidade em relação ao valor do parâmetro de interesse. A esta estimativa dáse o nome de estimativa intervalar ou intervalo de confiança. A notação I ≤θ ≤S é
chamada de intervalo de confiança de 100(1 - α)% de confiança para o parâmetro θ
desconhecido, onde I e S são os limites inferior e superior de confiança e (1 – α) é o
coeficiente de confiança.
A interpretação de um intervalo de confiança é que, ao construir um intervalo
com 100(1 - α)% de confiança, temos a certeza de 100(1 - α)% de conter o
verdadeiro valor do parâmetro. A Figura 4.1 ilustra a interpretação dos intervalos de
confiança para o parâmetro θ. Podemos observar que foram construídos vários
intervalos de confiança para diferentes amostras e em cada intervalo está marcado
(•) a estimativa de θ. Observa-se que há intervalos que contém ou não o verdadeiro
valor do parâmetro θ.
21
Figura 4.1: Intervalos de confiança para o parâmetro θ para diferentes amostras
4.2. Intervalo de confiança usual
Pelos métodos usuais, quando a população possuir distribuição normal
com variância conhecida, um intervalo de confiança para a média populacional µ
pode ser dado pelo valor da média amostral adicionado de um erro para mais ou
para menos. Desta forma o intervalo de confiança usual pode ser dado por
(DEVORE, 2006):
onde o erro é dado por e = z`
normal padrão.
R±e
IC μ, 1 − α % = X
+
√
(4.2.1)
. O valorz` é encontrado na tabela da distribuição
Assim podemos reescrever (4.2.1) da seguinte maneira:
R ± z`
IC μ, 1 − α % = X
+
√
(4.2.2)
ou ainda pela notação apresentada por Magalhães e Lima (2008):
R − z`
IC μ, 1 − α % = ;X
+
√
;R
X + z`
+
√
<
(4.2.3)
4.3. Intervalo de confiança percentil bootstrap
Quando uma população de interesse não tiver distribuição normal, ou
possuir distribuição do parâmetro de interesse desconhecida, ou ainda, quando o
22
cálculo de estimadores por métodos analíticos forem complicados, pode-se utilizar
uma técnica de reamostragem apresentada por Efron (1987) conhecida como
bootstrap. Segundo Davinson e Hinkley (1997) esta técnica pode ser utilizada
quando o tamanho da população é pequeno, quando a distribuição é desconhecida
ou quando outras técnicas não são aplicáveis.
A técnica bootstrap trata a amostra original como se fosse a população de
interesse. Então, a partir de uma amostra original se faz R reamostras e para cada
uma calcula-se a média. No final tem-se R estimativas que serão ordenadas em
ordem crescente xb < xb < ⋯ < xbd e então se escolhe os percentis de interesse que
serão o limite inferior e superior do intervalo de confiança percentil bootstrap. Para
construirmos tal intervalo com 100(1 - α)% de confiança, têm-se os percentis de
ordem:
xb
`
d ! #
exb
d !
`
#
(4.3.1)
que são os limites inferior e superior do intervalo de confiança percentil bootstrap.
4.4. Resultados numéricos
Para este estudo numérico foram geradas no software R, amostras de
tamanhos variados n= {5, 10, 20, 30, 50, 200, 1000} para diferentes distribuições
cujos parâmetros dessas distribuições foram escolhidos de acordo com as curvas de
densidade da Figura 4.2. Para a construção dos intervalos de confiança percentil
bootstrap utilizou-se R = 1000.
23
t-Student - 1 g.l.
Log-Normal(1,1)
Weibull(8,3)
1.0
0.8
0.6
0.15
0.4
0.2
0.05
-2
0
2
4
-4
-2
0
2
4
0
5
10
15
0
1
2
3
x
x
x
x
Beta(2,0.5)
Exponecial(1)
Uniforme(-1,1)
Beta(0.5,0.5)
4
2.5
0.6
0.0
0.2
0.4
0.6
0.8
1.0
2.0
0.3
0
0.0
1.0
0.2
0.4
2
1.5
0.4
0.5
4
0.6
6
0.8
3.0
0.7
1.0
-4
0.0
0.0
0.00
0.05
0.1
0.10
0.10
0.15
0.2
0.20
0.3
0.25
0.20
0.30
0.4
0.25
N(0,1)
0
x
2
4
6
8
10
-1.0
x
-0.5
0.0
0.5
1.0
0.0
0.2
0.4
x
0.6
0.8
1.0
x
Figura 4.2: Curvas de densidade para as distribuições utilizadas.
As Tabelas 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7 e 4.8 apresentam os intervalos
de confiança usuais e percentil bootstrap utilizando as distribuições Normal (0,1), tStudent (gl = 1), Log-normal (1,1), Weibull (8,3), Beta (2;0,5), Exponencial (λ = 1),
Uniforme (-1,1) e Beta (0,5;0,5), respectivamente. Observou-se que os intervalos de
confiança bootstrap estão próximos aos intervalos de confiança usuais, em particular
para amostras maiores.
Tabela 4.1: Intervalos de confiança gerados de uma distribuição Normal (0,1).
(1-α)%
90%
95%
99%
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
Tamanho da amostra
20
30
50
5
10
200
1000
[-0,84;1,07]
[-1,04;0,32]
[-0,58;0,21]
[-0,61;0,01]
[-0,40;0,08]
[-0,07;0,16]
[-0,07;0,04]
[-0,68;1,04]
[-0,99;0,28]
[-0,57;0,19]
[-0,61;0,00]
[-0,41;0,10]
[-0,06;0,16]
[-0,06;0,04]
[-1,03;1,26]
[-1,18;0,45]
[-0,66;0,28]
[-0,67;0,07]
[-0,45;0,13]
[-0,09;0,19]
[-0,08;0,05]
[-0,83;1,19]
[-1,10;0,43]
[0,66;0,27]
[-0,67;0,05]
[-0,45;0,16]
[-0,08;0,18]
[-0,07;0,05]
[-1,38;1,61]
[-1,43;0,70]
[-0,80;0,43]
[-0,79;0,18]
[-0,54;0,22]
[-0,13;0,23]
[-0,10;0,07]
[-1,03;1,54]
[-1,43;0,63]
[-0,89;0,40]
[-0,80;0,16]
[-0,56;0,25]
[-0,13;0,22]
[-0,09;0,07]
24
Tabela 4.2: Intervalos de confiança gerados de uma distribuição t-Student com 1 gl.
(1-α)%
90%
95%
99%
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
5
[-2,00;9,71]
10
Tamanho da amostra
20
30
50
200
1000
[-2,67;4,47] [-2,21;1,83] [-1,32;1,87] [-0,79;6,03] [-11,73;23,68] [-1,88;5,39]
[-0,12;10,58] [-2,15;4,26] [-2,25;2,05] [-1,26;1,84] [-0,47;6,38]
[-3,14;10,86] [-3,37;5,17]
[2,61;2,23]
[-9,41;25,19]
[-1,48;5,52]
[-1,63;2,18] [-1,46;6,70] [-15,19;27,13] [-2,59;6,10]
[-0,33;11,06] [-2,78;5,21] [-2,57;2,41] [-1,56;2,07] [-0,77;7,10] [-11,68;29,62] [-2,02;6,64]
[5,32;13,04]
[-4,70;6,49] [-3,36;2,98] [-2,22;2,77] [-2,72;7,97] [-21,77;33,72] [-3,95;7,46]
[-0,58;14,29] [-3,80;6,20] [-3,11;3,26] [-2,25;2,73] [-1,28;8,52] [-19,33;39,34] [-3,01;8,77]
Tabela 4.3: Intervalos de confiança gerados de uma distribuição Log-Normal (1,1).
(1-α)%
90%
95%
99%
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
5
10
[0,89;10,66]
[1,22;6,43]
Tamanho da amostra
20
30
50
[2,21;5,16]
[2,16;4,23]
200
1000
[2,86;4,59]
[3,94;4,92]
[4,18;4,74]
[1,44;10,33]
[1,67;6,51]
[2,37;5,21]
[2,23;4,22]
[2,88;4,62]
[3,98;4,92]
[4,20;4,74]
[-0,06;11,61]
[0,71;6,94]
[1,93;5,45]
[1,96;4,43]
[2,69;4,75]
[3,85;5,02]
[4,12;4,79]
[1,29;11,77]
[1,40;7,12]
[2,18;5,62]
[2,07;4,35]
[2,71;4,90]
[3,90;5,02]
[4,12;4,80]
[-1,88;13,43]
[-0,26;7,91]
[1,38;5,99]
[1,58;4,82]
[2,37;5,07]
[3,67;5,20]
[4,02;4,90]
[1,04;13,27]
[1,10;8,40]
[1,72;6,28]
[1,87;4,71]
[2,47;5,29]
[3,68;5,21]
[4,05;4,91]
Tabela 4.4: Intervalos de confiança gerados de uma distribuição Weibull (8,3).
(1-α)%
90%
95%
99%
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
5
10
[2,24;2,87]
[2,28;2,84]
[2,18;2,93]
[2,23;2,89]
[2,06;3,05]
[2,13;2,94]
[2,46;3,02]
[2,47;2,99]
[2,40;3,08]
[2,43;3,03]
[2,30;3,18]
[2,31;3,11]
Tamanho da amostra
20
30
50
[2,67;3,02]
[2,67;3,02]
[2,63;3,06]
[2,63;3,06]
[2,57;3,12]
[2,57;3,11]
[2,71;3,02]
[2,71;3,02]
[2,68;3,05]
[2,67;3,05]
[2,63;3,11
[2,59;3,09]
[2,76;2,96]
[2,76;2,96]
[2,74;2,98]
[2,73;2,97]
[2,70;3,01]
[2,69;3,01]
200
1000
[2,75;2,86]
[2,75;2,86]
[2,74;2,87]
[2,74;2,86]
[2,72;2,89]
[2,72;2,88]
[2,79;2,84]
[2,79;2,84]
[2,79;2,84]
[2,79;2,84]
[2,79;2,85]
[2,79;2,85]
Tabela 4.5: Intervalos de confiança gerados de uma distribuição Beta (2,0.5).
(1-α)%
90%
95%
99%
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
5
10
Tamanho da amostra
20
30
50
200
1000
[0,53;0,84] [0,57;0,80] [0,67;0,83] [0,67;0,81] [0,69;0,79] [0,77;0,82] [0,78;0,81]
[0,54;0,82] [0,57;0,80] [0,66;0,82] [0,68;0,81] [0,69;0,79] [0,76;0,82] [0,78;0,81]
[0,50;0,87] [0,54;0,82] [0,65;0,84] [0,66;0,83] [0,67;0,80] [0,76;0,82] [0,78;0,81]
[0,53;0,84] [0,55;0,82] [0,65;0,83] [0,66;0,82] [0,67;0,80] [0,76;0,82] [0,78;0,81]
[0,45;0,92] [0,50;0,86] [0,62;0,87] [0,63;0,85 [0,65;0,82] [0,75;0,83] [0,78;0,81]
[0,48;0,91] [0,51;0,86] [0,62;0,86] [0,63;0,85] [0,66;0,81] [0,75;0,83] [0,77;0,81]
25
Tabela 4.6: Intervalos de confiança gerados de uma distribuição Exponencial (λ = 1).
(1-α)%
90%
95%
99%
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
Tamanho da amostra
20
30
50
5
10
200
1000
[0,02;1,39]
[0,32;2,28]
[0,59;1,63]
[0,73;1,48]
[0,91;1,53]
[0,88;1,15]
[0,93;1,03]
[0,11;1,35]
[0,52;2,35]
[0,65;1,63]
[0,79;1,50]
[0,95;1,50]
[0,89;1,16]
[0,93;1,04]
[-0,11;1,52]
[0,12;2,48]
[0,49;1,74]
[0,66;1,56]
[0,85;1,59]
[0,85;1,18]
[0,92;1,04]
[0,09;1,54]
[0,44;2,62]
[0,60;1,74]
[0,73;1,59]
[0,90;1,58]
[0,87;1,18]
[0,92;1,04]
[-0,36;1,77]
[-0,24;2,84]
[0,29;1,93]
[0,52;1,70]
[0,74;1,70]
[0,80;1,23]
[0,90;1,06]
[0,06;1,78]
[0,32;3,10]
[0,49;2,13]
[0,64;1,74]
[0,78;1,72]
[0,81;1,22]
[0,90;1,06]
Tabela 4.7: Intervalos de confiança gerados de uma distribuição Uniforme (-1,1).
I.C.
(1-α)%
90%
95%
99%
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
Tamanho da amostra
20
30
50
5
10
[-0,04;0,78]
[-0,04;0,74]
[-0,12;0,86]
[-0,10;0,78]
[-0,27;1,01]
[-0,24;0,86]
[-0,31;0,41]
[-0,28;0,39]
[-0,38;0,48]
[-0,33;0,43]
[-0,52;0,62]
[-0,48;0,54]
[-0,27;0,20]
[-0,27;0,20]
[-0,31;0,25]
[-0,31;0,24]
[-0,40;0,33]
[-0,37;0,31]
[-0,29;0,11]
[-0,28;0,12]
[-0,33;0,15]
[-0,32;0,16]
[-0,40;0,22]
[-0,39;0,22]
[-0,18;0,09]
[-0,18;0,10]
[-0,20;0,12]
[-0,20;0,12]
[-0,25;0,17]
[-0,26;0,17]
200
1000
[-0,06;0,08]
[-0.06,0.08]
[-0,07;0,10]
[-0,07;0,09]
[-0,10;0,12]
[-0.10,0.12]
[-0,02;0,04]
[-0,02;0,04]
[-0,03;0,04]
[-0,03;0,04]
[-0,04;0,06]
[-0,04;0,05]
Tabela 4.8: Intervalos de confiança gerados de uma distribuição Beta (0.5,0.5).
I.C.
Usual
Bootstrap
Usual
Bootstrap
Usual
Bootstrap
5
10
[0,49;1,01]
[0,45;0,94]
[0,44;1,06]
[0,43;0,95]
[0,35;1,15]
[0,28;0,96]
[0,61;0,88]
[0,61;0,86]
[0,58;0,90]
[0,58;0,88]
[0,54;0,95]
[0,53;0,91]
Tamanho da amostra
20
30
50
[0,46;0,69]
[0,46;0,68]
[0,44;0,71]
[0,43;0,71]
[0,40;0,75]
[0,40;0,74]
[0,49;0,71]
[0,48;0,70]
[0,47;0,73]
[0,46;0,71]
[0,43;0,77]
[0,41;0,74]
[0,50;0,65]
[0,50;0,65]
[0,48;0,67]
[0,48;0,67]
[0,45;0,70]
[0,45;0,69]
200
1000
[0,46;0,54]
[0,46;0,54]
[0,45;0,55]
[0,45;0,55]
[0,43;0,56]
[0,44;0,57]
[0,49;0,52]
[0,49;0,52]
[0,48;0,53]
[0,48;0,53]
[0,48;0,54]
[0,48;0,53]
A Tabela 4.9 apresenta as amplitudes dos intervalos de confiança usuais e
bootstrap para as diferentes distribuições de probabilidade da Figura 4.2. Como
esperado, observa-se que as amplitudes diminuem conforme o tamanho da amostra
aumenta (exceto para a distribuição t-Student com n = 200) e, que os intervalos
percentis bootstrap apresentam em geral, amplitudes menores do que os intervalos
de confiança usuais.
26
0
1
Tabela 4.9: Amplitude dos intervalos de confiança:
Normal
(1-α)%
90%
3
2
2
2
1
1
1
0
0
0
t-Student
Log-Normal
30
50
200 1000
5
Beta (2,0.5)
30
50
5
200 1000
60
40
40
40
20
20
20
0
0
10
20
30
50
200 1000
10
20
30
50
200 1000
15
15
10
10
10
5
5
5
0
0
5
10
20
30
50
5
10
20
30
50
200 1000
1
1
0,5
0,5
0,5
0
20
30
50
10
20
30
50
200 1000
0,4
0,4
0,4
0,2
0,2
0,2
0,0
5
10
20
30
5
10
20
30
50 200 1000
4
4
4
2
2
2
0
0
5
10
20
30
10
20
30
50
200 1000
1,2
1,2
1,2
0,8
0,8
0,8
0,4
0,4
0,4
10
20
30
5
50 200 1000
10
20
30
50
200 1000
0,6
0,6
0,6
0,4
0,4
0,4
0,2
0,2
0,2
0
0,0
5
10
20
30
50 200 1000
5
10
20
30
50 200 1000
5
10
20
30
50
5
10
20
30
50 200 1000
200 1000
5
10
20
30
50 200 1000
5
10
20
30
50 200 1000
0
0
5
200 1000
0
5
50 200 1000
0
50
0
0
50 200 1000
30
0
5
200 1000
20
0
200 1000
1
10
10
0
5
15
5
Exponencial
20
60
0
Uniforme
10
60
5
Weibull
20
BBootstrap.
99%
3
10
0
1
95%
3
5
Beta (0.5,0.5)
U
Usual e
5
10
5
10
20
30
50
200 1000
0
5
10
20
30
50
200 1000
20
30
50 200 1000
27
A Figura 4.3 apresenta os histogramas referentes às distribuições das
médias via técnica bootstrap utilizando as distribuições apresentadas na Figura 4.2.
Observa-se que quanto maior a amostra há uma convergência dos histogramas para
um modelo simétrico em relação à média. Assim se traçar curvas de densidade
sobre os histogramas, estas se assemelham às curvas normais. Isso é afirmado no
Teorema do Limite Central, ou seja, para amostras grandes a distribuição amostral
se aproxima de uma curva normal. A Figura 4.3 também apresenta os testes de
normalidade de Shapiro Wilk. Note que, para amostras pequenas a normalidade das
médias via bootstrap é rejeitada ao nível de 0,05 e, a medida que o tamanho
amostral aumenta, o teste não rejeita essa normalidades (exceto para as
distribuições t-Student e Exponencial), confirmando o resultado do T.L.C.
A Figura 4.4 apresenta os gráficos de probabilidade normal (QQ-Norm)
para as distribuições das médias via técnica bootstrap. Nesses gráficos quando os
pontos seguem um padrão aproximado de uma reta os dados tendem a serem
aproximadamente normais. Observa-se que as dispersões dos dados em relação à
reta diminuem à medida que o tamanho da amostra aumenta, ou seja, com amostras
maiores, tendem a serem normais.
28
-0.4 0.0
-0.6 -0.2
0.2
150 300
0
Frequencia
150 300
0
Frequencia
150 300
0
Frequencia
150 300
Frequencia
0
Frequencia
150 300
-1.0
-0.2
0.0
0.2
-0.10
0.00
0.10
t-Student(1)-n=200
t-Student(1)-n=1000
10 15
-4
0
4
-4
0 2
4
-3
-1
1
3
0
5
10
Frequency
0
Frequency
0
Frequency
0
Frequency
0
Frequency
0
Frequency
0
5
150 300
t-Student(1)-n=50
150 300
t-Student(1)-n=30
150 300
t-Student(1)-n=20
150 300
t-Student(1)-n=10
150 300
t-Student(1)-n=5
150 300
p=0.474
150 300
p=0.759
-20 0 20
-5
0
5
10
Log-Normal(1,1)-n=5
Log-Normal(1,1)-n=10
Log-Normal(1,1)-n=20
Log-Normal(1,1)-n=30
Log-Normal(1,1)-n=50
Log-Normal(1,1)-n=200
Log-Normal(1,1)-n=1000
10
15
0 2 4 6 8
2
4
6
2
3
4
5
2 3
4
5 6
Frequency
0
Frequency
0
Frequency
0
Frequency
0
Frequency
0
Frequency
0
5
150 300
p<0.001
150 300
p<0.001
150 300
p<0.001
150 300
p=0.086
150 300
p=0.006
150 300
p<0.001
150 300
p<0.001
0
3.5
4.5
4.0 4.4
4.8
Weibull(8,3)-n=5
Weibull(8,3)-n=10
Weibull(8,3)-n=20
Weibull(8,3)-n=30
Weibull(8,3)-n=50
Weibull(8,3)-n=200
Weibull(8,3)-n=1000
2.8
2.6
3.0
3.0
2.8
3.1
2.8
3.0
Frequency
2.70
2.80
0 100
Frequency
2.6
0 100
Frequency
2.5
0 100
Frequency
2.6
0 100
Frequency
2.2
0 100
0 100
Frequency
2.4
250
p=0.593
250
p=0.187
250
p<0.001
250
p=0.002
250
p<0.001
250
p<0.001
250
p<0.001
2.90
2.76 2.80 2.84
Beta(2,0.5)-n=5
Beta(2,0.5)-n=10
Beta(2,0.5)-n=20
Beta(2,0.5)-n=30
Beta(2,0.5)-n=50
Beta(2,0.5)-n=200
Beta(2,0.5)-n=1000
0.9
0.7
0.9
0.75
0.75
0.75
Frequency
0 100
Frequency
0.65
0 100
Frequency
0.60
0 100
Frequency
0.60
0 100
Frequency
0.5
0 100
Frequency
0.7
0 100
0 100
0.5
250
p=0.952
250
p=0.311
250
p=0.726
250
p=0.052
250
p=0.530
250
p=0.028
250
p=0.011
0.74 0.78 0.82
0.77 0.79 0.81
Exp(1)-n=5
Exp(1)-n=10
Exp(1)-n=20
Exp(1)-n=30
Exp(1)-n=50
Exp(1)-n=200
Exp(1)-n=1000
1.0
2.0
0.0
1.5
3.0
0.5
1.5
0.6 1.0
1.4
1.8
0.8
1.2 1.6
Frequency
0
Frequency
0
Frequency
0
Frequency
0
Frequency
0
Frequency
0
0
0.0
150 300
p=0.079
150 300
p=0.108
150 300
p=0.015
150 300
p=0.487
150 300
p=0.131
150 300
p<0.840
150 300
p<0.001
0.7
0.9 1.1
1.3
0.90
1.00
Unif(1-,1)-n=5
Unif(1-,1)-n=10
Unif(1-,1)-n=20
Unif(1-,1)-n=30
Unif(1-,1)-n=50
Unif(1-,1)-n=200
Unif(1-,1)-n=1000
-0.6
0.0 0.4
-0.4
0.0
0.4
-0.4
0.0
-0.3
0.0
0.2
100
Frequency
0
100
Frequency
0
100
Frequency
0
100
Frequency
0
100
Frequency
0
Frequency
0
100
0
-0.2 0.2 0.6
250
p=0.862
250
p<0.001
250
p<0.001
250
p<0.001
250
p<0.001
250
p<0.001
250
p<0.001
100
-0.10
0.05
-0.06 0.00
0.06
Beta(0.5,0.5)-n=5
Beta(0.5,0.5)-n=10
Beta(0.5,0.5)-n=20
Beta(0.5,0.5)-n=30
Beta(0.5,0.5)-n=50
Beta(0.5,0.5)-n=200
Beta(0.5,0.5)-n=1000
0.8
p<0.001
0.5
0.7
p<0.001
0.9
0.4
0.6
p=0.647
0.8
0.4
0.6
p=0.006
0.8
0.40
0.55
0.70
p=0.701
200
Frequency
0
200
Frequency
0
200
Frequency
0
200
Frequency
0
200
Frequency
200
Frequency
0
200
0
0.4
400
p=0.598
400
p=0.799
400
p=0.798
400
p=0.344
400
p=0.457
400
p=0.138
400
p<0.001
0
Frequency
0.0
p=0.712
0 100
Frequency
-1.0
Normal(0,1)-n=1000
p=0.664
2.0
Frequency
0.5
Normal(0,1)-n=200
p=0.005
0
Frequency
0
-1.5 -0.5
Normal(0,1)-n=50
p=0.352
0
Frequency
150 300
0.0 1.0
Normal(0,1)-n=30
p<0.001
0
Frequency
-1.5
Frequency
Normal(0,1)n=20
0
Frequencia
150 300
Normal(0,1)-n=10
0
Frequencia
Normal(0,1)-n=5
0.45
0.55
p=0.543
Figura 4.3: Histogramas das distribuições das médias via técnica bootstrap.
0.48
0.52
p=0.259
29
3
3
Frequencia
-3 -1 1
-0.10 0.05
Frequencia
-3 -1 1
-0.2 0.1
Frequencia
-0.6 0.0
0.0
-0.8
0.5
-1.0
Frequencia
Frequencia
Frequencia
-3 -1 1
3
-3 -1
1
3
t-Student-n=200
t-Student-n=1000
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
-20 20
Frequencia
0
1 3
-2
4
0
-4
-4 0 4
Frequencia
3
3
-3 -1 1
0 5
t-Student-n=50
Frequencia
t-Student-n=30
6 12
t-Student-n=20
Frequencia
t-Student-n=10
Frequencia
t-Student-n=5
Frequencia
Theoretical Quantiles
15
Theoretical Quantiles
3
-3 -1
1
3
Lognormal-n=5
Lognormal-n=10
Lognormal-n=20
Lognormal-n=30
Lognormal-n=50
Lognormal-n=200
Lognormal-n=1000
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
5.0
3.5
5
3
2.0 4.0
2 4 6
6
2
8 14
3
Frequencia
Theoretical Quantiles
3
-3 -1 1
4.0 4.6
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
2
3
-3 -1
1
3
Weibull-n=5
Weibull-n=10
Weibull-n=20
Weibull-n=30
Weibull-n=50
Weibull-n=200
Weibull-n=1000
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
2.85
2.70
3.0
2.7
2.9
2.5
2.5 2.9
2.2 2.8
2.8
3
3
-3 -1 1
2.78 2.84
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
3
-3 -1
1
3
Beta(2,0.5)-n=5
Beta(2,0.5)-n=10
Beta(2,0.5)-n=20
Beta(2,0.5)-n=30
Beta(2,0.5)-n=50
Beta(2,0.5)-n=200
Beta(2,0.5)-n=1000
3
-3 -1 1
3
-3 -1 1
3
3
-3 -1 1
3
-3 -1 1
0.77
0.82
0.74
0.80
Frequencia
-3 -1 1
0.65
0.65
0.60 0.80
0.8
0.5
0.8
0.5
-3 -1 1
0.81
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
0.85
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
3
-3 -1
1
3
Exponencial-n=5
Exponencial-n=10
Exponencial-n=20
Exponencial-n=30
Exponencial-n=50
Exponencial-n=200
Exponencial-n=1000
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
0.90
0.8 1.1
0.8 1.4
1.4
0.6
0.5 1.5
2.5
0.5
Frequencia
-3 -1 1
1.05
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
0.0 1.0 2.0
Theoretical Quantiles
3
-3 -1
1
3
Uniforme-n=5
Uniforme-n=10
Uniforme-n=20
Uniforme-n=30
Uniforme-n=50
Uniforme-n=200
Uniforme-n=1000
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
3
-3 -1 1
-0.06
-0.10 0.10
-0.3 0.0
-0.4 0.2
0.2
-0.4
-0.6 0.2
-0.2 0.6
-3 -1 1
0.04
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
3
-3 -1
1
3
Beta(0.5,0.5)-n=5
Beta(0.5,0.5)-n=10
Beta(0.5,0.5)-n=20
Beta(0.5,0.5)-n=30
Beta(0.5,0.5)-n=50
Beta(0.5,0.5)-n=200
Beta(0.5,0.5)-n=1000
3
-3 -1 1
3
Theoretical Quantiles
-3 -1 1
3
Theoretical Quantiles
-3 -1 1
3
Theoretical Quantiles
-3 -1 1
3
Theoretical Quantiles
0.45
0.70
0.45
0.7
0.4
0.7
0.4
0.9
0.3 0.7
-3 -1 1
Theoretical Quantiles
Frequencia
Theoretical Quantiles
-3 -1 1
3
Theoretical Quantiles
Figura 4.4: QQ Norms das distribuições da média via técnica bootstrap.
0.47 0.52
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
Frequencia
Theoretical Quantiles
0.6
Frequencia
3
Normal-n=1000
Theoretical Quantiles
2.2
Frequencia
-3 -1 1
Normal-n=200
Theoretical Quantiles
-3 -1 1
Frequencia
3
Normal-n=50
Theoretical Quantiles
-3 -1 1
Frequencia
-3 -1 1
Normal-n=30
Theoretical Quantiles
-3 -1 1
Frequencia
3
Normal-n=20
Theoretical Quantiles
0 5
Frequencia
-3 -1 1
Frequencia
Normal-n=10
-1.5 0.0
1.0
-1.0
Frequencia
Normal-n=5
-3 -1
1
3
Theoretical Quantiles
CAPITULO 5
COMPARAÇÃO DOS INTERVALOS DE CONFIANÇA VIA MÉTODO
DE SIMULAÇÃO MONTE CARLO
Neste capítulo realiza-se um estudo de simulação de Monte Carlo para
comparar os intervalos de confiança usuais com os percentis bootstrap através do
calculo das probabilidades de cobertura e das amplitudes médias.
5.1. Método de simulação de Monte Carlo
O método de simulação de Monte Carlo (SMC) foi criado em 1940 pelos
pesquisadores Von Neunann e Ulan para solucionar problemas de blindagem de
reatores nucleares. O termo Monte Carlo foi dado pelos pesquisadores S. Ulan e
Nicholas Metropolis em homenagem a atividade mais popular de Monte Carlo,
Mônaco, os jogos (LIMA et al, 2008).
A simulação Monte Carlo é utilizada na avaliação de fenômenos que se
podem
caracterizar
por
um
comportamento
probabilístico.
Por
meios
de
reamostragens pode-se resolver uma grande quantidade de problemas com a
simulação de cenários e o posterior cálculo de um valor esperado. Dessa forma
consiste na substituição de um processo físico ou matemático por um modelo
probabilístico que possa tratar de problemas determinísticos por meios de números
aleatórios gerados no computador (OLIVEIRA; BARROS; REIS, 2010). Graças ao
avanço da informática temos essa possibilidade de simulações com rapidez e
confiança.
5.2. Resultados da simulação de Monte Carlo
Para calcular a probabilidade de cobertura dos intervalos de confiança no
estudo de Monte Carlo, repete-se o procedimento de construção do intervalo de
confiança B vezes, nas quais se verifica em cada uma se o verdadeiro valor do
parâmetro está contido dentro deste intervalo de confiança ou não, e após as B
31
repetições têm quantas vezes o verdadeiro valor do parâmetro não pertenceu ao
intervalo de confiança. Assim, a probabilidade de cobertura para um intervalo de
confiança pode ser obtida através de (CARRASCO, 2002),
B
1−
∑ ψ(vp ∉ IC)
b =1
(5.2.1)
B
Onde ψ (.) é uma função indicadora, vp é o verdadeiro valor do parâmetro e IC é o
intervalo de confiança.
A amplitude de um intervalo de confiança é outro critério para comparação
de
intervalos
de
confiança.
Com
a
mesma
probabilidade
de
cobertura,
procedimentos de intervalos de confiança que possuem menores amplitudes são
considerados melhores (JENG; MEEKER, 1999).
A Tabela 5.1 apresenta as probabilidades de cobertura para os intervalos
de confiança usuais e bootstrap. Observa-se que as probabilidades de cobertura
para os intervalos de confiança percentis bootstrap estão próximos dos intervalos de
confiança usuais, com exceção para a distribuição t-Student, onde os intervalos de
confiança usuais tem probabilidades de cobertura mais próximas da probabilidade
de cobertura nominal (90%, 95% e 99%) do que os intervalos de confiança percentis
bootstrap. Observa-se também que as probabilidades de cobertura dos intervalos de
confiança aumentam, a medida que o tamanho amostral aumenta.
32
Tabela 5.1: Probabilidade de cobertura dos intervalos de confiança:
Normal
(1-α)%
90%
t-Student
Log-Normal
Weibull
95%
100
90
90
90
80
80
80
70
70
70
60
60
60
50
50
10
20
30
50
200 1000
10
20
30
50
200 1000
100
100
90
90
90
80
80
80
70
70
70
60
60
60
50
50
10
20
30
50
200 1000
10
20
30
50
200 1000
100
100
90
90
90
80
80
80
70
70
60
60
50
10
20
30
50
200 1000
5
10
20
30
50
200 1000
100
100
90
90
80
80
80
70
70
70
60
60
60
50
50
30
50
200 1000
10
20
30
50
200 1000
80
80
80
70
70
70
60
60
60
50
50
30
50
10
20
30
50
200 1000
100
100
100
90
90
90
80
80
80
70
70
70
60
60
60
50
10
20
30
50
200 1000
5
10
20
30
50
200 1000
100
100
100
90
90
90
80
80
80
70
70
70
60
60
60
50
50
5
10
20
30
50
200 1000
10
20
30
50
200 1000
100
100
90
90
90
80
80
80
70
70
70
60
60
60
50
50
10
20
30
50
200 1000
200 1000
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
5
10
20
30
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
50
5
100
5
50
50
50
5
30
50
5
200 1000
20
90
90
20
200 1000
100
100
10
50
50
5
90
5
10
30
50
90
20
5
20
60
100
10
10
70
50
5
5
50
5
100
100
Beta(2,0.5)
50
5
100
5
Exponencial
99%
100
5
Uniforme
80 B
60
UUsual e 100
Bootstrap.
100
5
Beta(0.5,0.5)
100
80
60
50
5
10
20
30
50
200 1000
50
200 1000
33
Tabela 5.2: Amplitudes médias dos intervalos de confiança:
Normal
(1-α)%
90%
3
2
2
2
1
1
1
0
t-Student
10
Log-Normal
Weibull
Beta (2,0.5)
50
0
5
200 1000
10
20
30
50
200 1000
100
100
75
75
75
50
50
50
25
25
25
0
0
10
20
30
50
200 1000
10
20
30
50
200 1000
10
10
8
8
8
6
6
6
4
4
4
2
2
2
0
0
5
10
20
30
50
5
10
20
30
50
200
1000
1,0
1,0
0,5
0,5
0,5
0,0
0,0
0,0
20
30
50
10
20
30
50
200 1000
5
10
20
30
50
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
5
10
20
30
50
200 1000
0
200 1000
1,0
10
5
0
5
10
5
200 1000
5
10
20
30
50
200 1000
0,6
0,6
0,4
0,4
0,2
0,2
0,6
0,4
0,2
0,0
0,0
0,0
5
Exponencial
30
100
5
Uniforme
20
BBootstrap.
99%
3
0
0
1
U
Usual e
95%
3
5
10
20
30
50
5
200 1000
10
20
30
50
200 1000
2,0
2,0
2,0
1,5
1,5
1,5
1,0
1,0
1,0
0,5
0,5
0,5
0,0
0,0
5
10
20
30
50
200 1000
0,0
5
10
20
30
50
200 1000
1,4
1,4
1,4
0,7
0,7
0,7
0
0
5
Beta (0.5,0.5)
0
1
10
20
30
50
200 1000
0,0
5
10
20
30
50
200 1000
0,8
0,8
0,8
0,4
0,4
0,4
0,0
0,0
5
10
20
30
50
200 1000
0,0
5
10
20
30
50
200 1000
200 1000
34
A Tabela 5.2 apresenta as amplitudes médias dos intervalos de confiança
usuais e bootstrap. Observa-se na Tabela 5.2 que as amplitudes médias diminuem
conforme o tamanho amostral aumenta, exceto para a distribuição t-Student com
amostra de tamanho n = 1000. Para intervalos de confiança com maior
confiabilidade têm-se amplitudes maiores do que para um nível de confiança menor,
conforme esperado. Observa-se ainda que as amplitude médias bootstrap foram, na
maioria dos casos, menores que as amplitudes médias dos intervalos de confiança
usuais.
CONCLUSÃO
Através do método de simulação de Monte Carlo observou que as
probabilidades de cobertura dos intervalos percentil bootstrap foram bem próximas à
probabilidade de cobertura dos intervalos usuais. Para as distribuições utilizadas a
diferença entre as probabilidades de cobertura foram maiores quando tomamos
amostras pequenas.
Em relação a amplitude média dos intervalos de confiança, observou-se
que, exceto para a distribuição t-Student com amostra de tamanho n=1000, as
amplitudes médias dos intervalos de confiança diminuem conforme o tamanho da
amostra aumenta, e que os intervalos de confiança percentil bootstrap apresentaram
menores amplitudes que os intervalos de confiança usuais.
Dessa forma a técnica de reamostragem bootstrap pode ser utilizada para a
construção de intervalos de confiança para a média, em particular quando a
população não for normalmente distribuída e/ou a mostra não for suficientemente
grande. Ainda, com o avanço da informática, o uso dessa técnica se torna viável,
pois necessita apenas de um computador para fazer as simulações da amostra, o
que torna o processo mais rápido e com baixo custo.
REFERENCIAS BIBLIOGRÁFICAS
CARRASCO, C. G. “Comparação de Procedimentos para Construção de
Intervalos de Confiança para os Parâmetros do Modelo Poli-Log-Logístico na
Presença de Censuras Aleatórias”. Dissertação de Mestrado, Departamento de
Estatística da UFSCar, São Carlos (SP), 2002.
CYMROT, R.; RIZZO, A. L. T. “Estudo e aplicação da Técnica Bootstrap”. II
Jornada de iniciação cientifica. Universidade Presbiteriana Mackenzie. Brazil, 2006.
DAVISON, A.C.; HINKLEY, D.V. Bootstrap Methods and their Application.
Cambridge: Cambridge University Press, 1997. 582p.
DEVORE, J. L.. Probabilidade e Estatística para Engenharia e Ciências.
Tradução Joaquim Pinheiro Nunes da Silva. São Paulo: Pioneira Thomsom
Learning, 2006.
EFRON, B. Bootstrap methods: another look at the jacknife. Annals of Statistics,
v.7, p. 1- 26, 1979.
HINES, W. W.; MONTGOMERY, D. C.; GOLDSMAN, D. M.; BORROR, C. M..
Probabilidade e Estatística na Engenharia. Tradução Vera Regina L. de Farias e
Flores. 4ª Ed. Rio de Janeiro: LTC, 2006.
JENG, S. L., MEEKER, W.Q. Comparisons of Approximate Confidence Interval
Procedures for Type I Censored Data. Technometrics, v.42, p.135-48, 1999.
LIMA, E. C. P.; VIANA, J. C.; LEVINO, N. A.; MOTA, C. Simulação de Monte Carlo
Auxiliando a Análise de Viabilidade Econômica de Projetos. IV Congresso
Nacional de Excelência em Gestão. Responsabilidade Socioambiental das
Organizações Brasileiras Niterói, RJ, Brasil, 31 de julho, 01 e 02 de agosto de 2008.
MAGALHÃES, M. N; LIMA, Antonio C. P. de. Noções de Probabilidade e
Estatística. 6ª ed. rev., 3ª reimpr..São Paulo:Editora da Universidade de São Paulo,
2008.
OLIVEIRA, P. H. D.; BARROS, N. R.; REIS, S. G. Aplicabilidade do método de
simulação Monte Carlo na previsão dos custos de produção de companhias
industriais: o caso companhia Vale do Rio Doce. PMIRPGCC
(UNB/UFPB/UFPE/UFRN). Revista de Contabilidade e Organizações, FEA-RP/USP,
V. 4, n. 10, p.152-173, Set-Dez, 2010.
PETERNELLI, L. A.; MELLO, M. P. Conhecendo o R: Uma Visão Estatística.
Cadernos didáticos, Editora UFV, 2007.
ANEXO
LISTA DE SIGNIFICADO
Amostra: é qualquer subconjunto da população.
Estimador: é qualquer função das observações das amostras.
Esperança (ou valor esperado): média ponderada de uma variável aleatória.
Estimativa: valores numéricos assumidos pelos estimadores.
Desvio padrão: é dado pela raiz quadrada da variância.
Intervalo de confiança: intervalo de valores, centrado numa estatística amostral, no
qual julgamos, com um risco conhecido de erro, estar o parâmetro da população.
Método de simulação Monte Carlo: ferramenta de simulações estatística que
utiliza métodos de amostragem para resolver problemas de natureza estocástica e
determinística.
Parâmetro: medida usada para descrever uma característica da população.
População: conjunto de indivíduos (ou objeto), tendo pelo menos uma variável
comum observável.
Técnica Bootstrap: técnica de reamostragem que simula a população original a
partir de uma amostra.
Variância: medida que dá a dispersão (ou concentração) da probabilidade em torno
da média.
Variável aleatória continua: uma variável aleatória X é dita continua em R se existir
uma função f(x) tal que:
1) f(x) ≥ 0 (não-negativa)
e
2) C e f x dx = 1
Download

TIAGO DA COSTA MOREIRA