UNIVERSIDADE ESTADUAL DE GOIÁS Unidade Universitária de Ciências Exatas e Tecnológicas Curso de Licenciatura em Matemática Construção de intervalos de confiança percentil bootstrap para a média sob não normalidade Tiago da Costa Moreira Anápolis, 2011 Tiago da Costa Moreira Construção de intervalos de confiança percentil bootstrap para a média sob não normalidade Trabalho de Curso apresentado a Coordenação Adjunta de TC, como parte dos requisitos para obtenção do título de Graduado no Curso de Licenciatura em Matemática da Universidade Estadual de Goiás sob a orientação do Professor MSc. Cleber Giugioli Carrasco. Anápolis, 2011 AGRADECIMENTOS À Deus, pelo dom supremo da vida e por sua presença em minha vida, pois sem Ele nada eu seria. A Ele toda honra e toda glória. Aos meus pais José e Maria, minhas irmãs Luana, Priscila e Miria, que sempre me incentivaram e deram condições para que concretizasse mais essa etapa na minha carreira estudantil. Dedico este trabalho a vocês, que são meus exemplos de vida. Aos colegas de curso, Aninha, César, João, Kellen, Lidianye, Marcos Elias, Tânia, Wilson, pelos momentos de alegrias, tristeza, decepções e preocupações vividos nestes quatro anos. Aos mestres desta instituição, que contribuíram para a minha formação profissional, em especial ao professor Fabiano e a professora Cinthia pela participação na banca avaliadora e ao professor MSc. Cleber Giugioli Carrasco, pela paciência e dedicação com que nos orientou. Foi um prazer receber a orientação do professor Carrasco. Enfim, a todos que de forma direta ou indireta contribuíram para a concretização deste trabalho. A todos um grande abraço. RESUMO Este trabalho apresenta uma técnica de reamostragem conhecida como bootstrap que será utilizada na construção de intervalos de confiança para a média. Posteriormente, através do método de simulação de Monte Carlo, comparam-se os intervalos de confiança construídos através da técnica bootstrap com os intervalos de confiança usuais, analisando suas respectivas probabilidades de cobertura e amplitudes médias. Todo o procedimento utilizado na construção dos intervalos de confiança é implementados no software free R. Palavras-chave: Intervalo de confiança, reamostragem, técnica bootstrap. LISTA DE TABELAS Tabela 4.1: Intervalos de confiança gerados de uma distribuição Normal (0,1)...........23 Tabela 4.2: Intervalos de confiança gerados de uma distribuição t-Student com 1 gl..24 Tabela 4.3: Intervalos de confiança gerados de uma distribuição Log-Normal (1,1) ...24 Tabela 4.4: Intervalos de confiança gerados de uma distribuição Weibull (8,3).......... 24 Tabela 4.5: Intervalos de confiança gerados de uma distribuição Beta (2,0.5) .......... 24 Tabela 4.6: Intervalos de confiança gerados de uma distribuição Exponencial (λ =1)25 Tabela 4.7: Intervalos de confiança gerados de uma distribuição Uniforme (-1,1)..... 25 Tabela 4.8: Intervalos de confiança gerados de uma distribuição Beta (0.5,0.5) ....... 25 Tabela 4.9: Amplitude dos intervalos de confiança ..................................................... 26 Tabela 5.1 : Probabilidade de cobertura dos intervalos de confiança ........................ 32 Tabela 5.2: Amplitudes médias dos intervalos de confiança....................................... 33 LISTAS DE FIGURAS Figura 2.1: Curva de distribuição do modelo normal para diferentes parâmetros ... 11 Figura 2.2: Distribuição t-Student para diferentes parâmetros ................................. 12 Figura 2.3: Curvas de Distribuições Log-Normal para diferentes parâmetros ......... 13 Figura 2.4: Curvas de Distribuições Weibull ............................................................. 14 Figura 2.5: Curvas de distribuição beta-padrão para diferentes parâmetros ........... 15 Figura 2.6: Curvas de distribuição exponencial para diferentes parâmetros ........... 16 Figura 2.7: Distribuição Uniforme com parâmetros α e β ......................................... 16 Figura 3.1: Histogramas das distribuições amostrais para várias populações ......... 18 Figura 4.1: Intervalos de confiança para o parâmetro θ para diferentes amostras .. 21 Figura 4.2: Curvas de densidade para as distribuições utilizadas ........................... 23 Figura 4.3: Histogramas das distribuições das médias via técnica bootstrap .......... 28 Figura 4.4: QQ Norms das distribuições da média via técnica bootstrap ................. 29 SUMÁRIO CAPÍTULO 1: INTRODUÇÃO ..................................................................................... 9 CAPÍTULO 2: DISTRIBUIÇÕES DE PROBABILIDADE ............................................ 11 2.1. Modelo de Distribuição Normal .......................................................................... 11 2.2. Modelo t-Student ................................................................................................ 12 2.3. Modelo Log-Normal ............................................................................................ 12 2.4. Distribuição de Weibull ....................................................................................... 13 2.5. Modelo Beta ....................................................................................................... 14 2.6. Modelo Exponencial ........................................................................................... 15 2.7. Modelo Uniforme ................................................................................................ 16 CAPÍTULO 3: DISTRIBUIÇÃO AMOSTRAL DA MÉDIA............................................ 17 3.1. Distribuição amostral da média .......................................................................... 17 CAPÍTULO 4: CONSTRUÇÃO DE INTERVALOS DE CONFIANÇA PARA A MÉDIA20 4.1. Estimação por intervalos de confiança ............................................................... 20 4.2. Intervalo de confiança usual ............................................................................... 21 4.3. Intervalo de confiança percentil bootstrap .......................................................... 21 4.4. Resultados numéricos ........................................................................................ 22 CAPITULO 5: COMPARAÇãO DOS INTERVALOS DE CONFIANÇA VIA MÉTODO DE SIMULAÇÃO MONTE CARLO ............................................................................ 30 5.1. Método de simulação de Monte Carlo ................................................................ 30 5.2. Resultados da simulação de Monte Carlo .......................................................... 30 CONCLUSÃO............................................................................................................ 35 REFERENCIAS BIBLIOGRÁFICAS .......................................................................... 36 Anexo ........................................................................................................................ 37 CAPÍTULO 1 INTRODUÇÃO Inferência estatística é o conjunto de técnicas que objetiva estudar a população através de informações fornecida por uma amostra. Através da inferência estatística, podemos testar afirmações sobre os parâmetros de uma determinada população. Para testar essas afirmações é necessário obter estimativas para o parâmetro de interesse. Dentre tais estimativas, evidencia-se a estimativa intervalar ou estimação por intervalos de confiança (MAGALHÃES; LIMA, 2008). A construção de intervalos de confiança para qualquer parâmetro de uma população baseia-se em distribuições amostrais, que por sua vez dependem da forma da distribuição da população. Quando a distribuição amostral for conhecida, a construção de tais intervalos de confiança pode ser feita através de métodos usuais. Mas quando a população não tiver distribuição conhecida e, em alguns casos a amostra não for suficientemente grande, pode-se utilizar uma técnica de reamostragem conhecida como bootstrap para a construção de intervalos de confiança para os parâmetros de interesse. (DAVISON; HINKLEY, 1997). A técnica bootstrap visa à obtenção de estimativas intervalares para os estimadores dos parâmetros de interesse, através da reamostragem do conjunto de dados original. Essa técnica é muito útil quando não conhecemos a distribuição de probabilidades do parâmetro de interesse e também, quando o cálculo de estimadores por métodos analíticos forem complicados (CYMROT; RIZZO, 2006). Aos intervalos construídos pela técnica bootstrap dá-se o nome de intervalos de confiança bootstrap. Neste trabalho pretende-se construir intervalos de confiança para a média populacional através da técnica bootstrap, quando a distribuição amostral da média não for normalmente distribuída e, comparar os intervalos de confiança percentil bootstrap com os intervalos de confiança usuais. Todo o procedimento computacional será realizado no software free R. O principal motivo da escolha deste software é a facilidade na criação de novas funções (PETERNELLI; MELLO, 2007). O Ambiente R, ou simplesmente R, como é 10 usualmente conhecido pelos seus usuários, foi criado em 1996 por Ross Ihaka e Robert Gentleman. É uma linguagem orientada a objetos que aliada a um ambiente integrado permite a manipulação de dados, realização de cálculos e geração de gráficos. Além de ser gratuito, o R apresenta código-fonte aberto podendo ser modificado e implementado por seus usuários. Assim, o R é uma importante ferramenta na análise e manipulação de dados, além da facilidade na geração de gráficos. Pode ser obtido gratuitamente em www.r-project.org, onde é apresentado em versões de acordo com o sistema operacional UNIX, Windows e Macintosh. Mais informações sobre a utilização e uma central de correspondência de profissionais do mundo todo também pode ser encontradas neste site. O presente trabalho está dividido em cinco capítulos. O segundo capítulo apresenta os modelos probabilísticos utilizados neste trabalho para realizar as simulações, bem como suas funções de densidade de probabilidade e suas respectivas esperanças, variâncias e curvas de densidade para diferentes valores dos parâmetros. O terceiro capítulo refere-se à distribuição amostral da média quando a distribuição amostral da media é conhecida ou não. No quarto capítulo é apresentada a construção dos intervalos de confiança utilizando o método usual e a técnica de reamostragem bootstrap. No último capítulo comparam-se através do método de simulação de Monte Carlo os intervalos de confiança construídos, analisando as suas probabilidades de cobertura e respectivas amplitudes médias. Por fim, apresenta-se a conclusão e as referencias bibliográficas deste trabalho. CAPÍTULO 2 DISTRIBUIÇÕES DE PROBABILIDADE Neste capítulo apresentam-se os modelos de probabilidades e suas funções densidade de probabilidade, esperanças, variâncias e gráficos das curvas de densidade para diferentes parâmetros. 2.1. Modelo de Distribuição Normal μ e Uma variável aleatória (v.a.) X possui distribuição normal com parâmetros , com −∞ < (f.d.p.) é dada por: < +∞e f x = σ√ π e > 0, se sua função densidade de probabilidade , −∞ < µ / σ < +∞ (2.1.1) A esperança e a variância do modelo normal são dadas respectivamente por: E(X) = (2.1.2) Var(X) = σ (2.1.3) A Figura 2.1 apresenta as curvas de densidade do modelo normal para diferentes 0.0 0.2 0.4 0.6 0.8 parâmetros: (−) µ = 0 e σ = 1, (−) µ = -1 e σ = 1, (−) µ = 1e σ = 0,25. -4 -2 0 x 2 4 Figura 2.1: Curva de distribuição do modelo normal para diferentes parâmetros. 12 2.2. Modelo t-Student Uma v.a. X possui distribuição t-Student, ou simplesmente distribuição t, se sua f.d.p. é do tipo f x = Γ π Γ[ / ] !1 + # / , −∞ < < +∞ (2.2.1) A esperança e a variância do modelo t-Student com n grau de liberdade são dadas respectivamente por: E(X) = 0 Var X = (2.2.2) , se n > 2 (2.2.3) A Figura 2.2 apresenta as curvas de densidade para a distribuição t- 0.0 0.1 0.2 0.3 0.4 Student com diferentes graus de liberdade (gl): (−) gl = 1, (−) gl = 2 e (−) gl = 4. -4 -2 0 2 4 Figura 2.2: Distribuição t-Student para diferentes parâmetros. 2.3. Modelo Log-Normal Uma v.a. X não negativa segue uma distribuição Log-Normal se uma v.a. Y = ln(X) for distribuída normalmente com parâmetros µ e σ. Assim, a f.d.p. de X é dada por: -] / + e [, , sex ≥ 00 f x = )√ *+ 0, sex < 0 (2.3.1) 13 Vale lembrar que 1 são a média e o desvio-padrão de Y. A média e a variância de X são dadas respectivamente por: 4 E X = e-3 Var X = e -3+ (2.3.2) e+ − 1 (2.3.3) A Figura 2.3 apresenta as curvas de densidade para diferentes parâmetros de uma distribuição Log-Normal: (−) µ= 1 e σ = 1, (−) µ= 3 e σ = 2, (−) µ 0.00 0.05 0.10 0.15 0.20 0.25 = 2 e σ = 1. 0 5 10 15 Figura 2.3: Curvas de Distribuições Log-Normal para diferentes parâmetros. 2.4. Distribuição de Weibull Uma v.a. X possui distribuição de Weibull com parâmetros α e β, com α > 0 e β > 0, se sua f.d.p. é: 6 α α β , sex ≥ 0 0 f x = 5 βα x e 0, sex < 0 α ! # (2.4.1) A esperança e a variância são dadas respectivamente por: E X = βΓ !1 + 9# Var X = β :Γ !1 + 9# − ;Γ !1 + 9#< = (2.4.2) (2.4.3) 14 A Figura 2.4 apresenta as curvas de densidade para diferentes parâmetros de uma distribuição de Weibull: (−) α = 8 e β = 3, (−) α = β = 2 e (−) α = 2 0.0 0.2 0.4 0.6 0.8 1.0 e β = 1. 0 1 2 3 4 Figura 2.4: Curvas de Distribuições Weibull. 2.5. Modelo Beta Uma v.a. X possui distribuição beta com parâmetros α, β (positivos), A e B se sua f.d.p. é dada por f x = ? B-A . Γ α .Γ(β) !B-A# !B-A# , seA≤x≤B 0 0, caso contrário 1 Γ(α+β) x-A α-1 β-1 B-x (2.5.1) Com A = 0 e B = 1, temos a distribuição beta-padrão. Obs.: A função gama Γ B é definida por: Γ α = CD x α e dx (2.5.2) A esperança e a variância do modelo beta são dadas respectivamente por: E X = A + B − A . α3β α Var X = G H αβ α3β α3β3 (2.5.3) (2.5.4) 15 A Figura 2.5 apresenta as curvas de densidade com diferentes parâmetros para uma distribuição beta-padrão: (− α = 5 e β = 2; (−)α = β = 0,5; (−) α 0 2 4 6 = 2 e β = 0,5. 0.0 0.2 0.4 0.6 0.8 1.0 Figura 2.5: Curvas de distribuição beta-padrão para diferentes parâmetros. 2.6. Modelo Exponencial Uma v.a. X possui distribuição exponencial com parâmetro λ se sua f.d.p. é do tipo: e , sex ≥ 00 f X = )λ , 0, sex < 0 /λ (2.6.1) A esperança e a variância do modelo exponencial são dadas respectivamente por: E X =λ Var X = λ (2.6.2) (2.6.3) A Figura 2.6 apresenta as curvas de densidade para diferentes parâmetros de uma distribuição exponencial: (−) λ = 10, (−) λ = 5 e (−) λ = 1. 0 2 4 6 8 10 16 0.0 0.2 0.4 0.6 0.8 1.0 Figura 2.6: Curvas de distribuição exponencial para diferentes parâmetros. 2.7. Modelo Uniforme Uma v.a. X possui distribuição uniforme com parâmetros α e β (α < β) reais, se sua f.d.p. é do tipo: , α ≤ x ≤ β 0 f x = )J 9 0, nosdemaispontos (2.7.1) A esperança e a variância do modelo uniforme são respectivamente dadas por: E X = Var X = α3β (2.7.2) β α (2.7.3) A Figura 2.7 apresenta a distribuição uniforme com parâmetros α = -1 e 0.3 0.4 0.5 0.6 0.7 β = 1. -1.0 -0.5 0.0 0.5 1.0 Figura 2.7: Distribuição Uniforme com parâmetros α = - 1 e β = 1. CAPÍTULO 3 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Este capítulo refere-se à distribuição amostral da média quando a população X é normalmente distribuída ou não. 3.1. Distribuição amostral da média Seja uma população X com parâmetros média populacional µ e variância populacional conhecida. Considere retiradas todas as possíveis amostras casuais simples com reposição de tamanho n desta população e que, para cada amostra retirada é calculada a média, a estatística destas médias é chamada média amostral R X. Dessa forma têm-se duas situações: • Quando a população X segue uma distribuição normal Quando a população X é distribuída normalmente com média µ e variância , a distribuição amostral da média R X segue uma distribuição normal com média µ e variância • + , isto é: Se X~N μ, σ R~N μ, ⟹X + (3.1.1) Quando a população X não segue uma distribuição normal Quando a distribuição da população X não é distribuída normalmente, mas R tem-se uma amostra suficientemente grande, a distribuição da média amostral X X tem uma distribuição em forma de sino tende a uma distribuição normal, ou seja, R mais acentuada do que a que está servindo como amostra, segundo Devore (2006). Este resultado é conhecido com Teorema do Limite Central (TLC). Este teorema de fundamental importância na teoria da inferência estatística pode ser enunciado da seguinte maneira (MAGALHAES; LIMA, 2008): 18 Teorema do Limite Central: Suponha uma amostra aleatória simples de tamanho n retirada de uma população com media µ e variância σ . Representando tal amostra por n variáveis aleatórias independentes X , X , … , X R, tem-se que X Z= R X +/√ e denotando sua média por ~N 0,1 , para n→ ∞ (3.1.2) ou seja, o TLC nos garante que mesmo a populaçao não tendo distribuição normal, mas se o tamanho da amostra for suficientemente grande, a distribuiçao amostral da R se aproxima de uma distribuição normal. média X A Figura 3.1 apresenta algumas distribuições amostrais para diferentes populações. Observe que quando uma população tem distribuição aproximadamente normal, a distribuição amostral converge com mais rapidez para uma distribuição normal. Quando temos uma população em forma de V, essa convergência é mais demorada. Figura 3.1: Histogramas das distribuições amostrais para várias populações Fonte: Bussab, W. O; Morenttin, P.A. 1987, p. 197. Porém, quando a população não for distribuída normalmente e a amostra não for suficientemente grande, não podemos afirmar qual é a distribuição amostral 19 da média. Neste caso, os procedimentos usuais de inferência estatística, não podem ser utilizados e, métodos de reamostragem podem se apresentar como métodos alternativos (CARRASCO, 2002). CAPÍTULO 4 CONSTRUÇÃO DE INTERVALOS DE CONFIANÇA PARA A MÉDIA Neste capítulo faz-se uma abordagem de como construir um intervalo de confiança pelo método usual e pela técnica bootstrap. 4.1. Estimação por intervalos de confiança Segundo Devore (2006), estimativa pontual de um parâmetro qualquer θ é o único valor numérico que pode ser considerado sensato para θ. Essa estimativa é obtida selecionando uma estatística e calculando o valor pelos dados da amostra. A esta estatística é dada o nome de estimador pontual de θ. Em algumas situações a estimação pontual não fornece informação sobre a precisão e confiabilidade da estimativa (DEVORE, 2006). Segundo Hines et al (2006) uma estimativa da forma I ≤θ ≤S pode ser mais útil, pois fornece uma maior confiabilidade em relação ao valor do parâmetro de interesse. A esta estimativa dáse o nome de estimativa intervalar ou intervalo de confiança. A notação I ≤θ ≤S é chamada de intervalo de confiança de 100(1 - α)% de confiança para o parâmetro θ desconhecido, onde I e S são os limites inferior e superior de confiança e (1 – α) é o coeficiente de confiança. A interpretação de um intervalo de confiança é que, ao construir um intervalo com 100(1 - α)% de confiança, temos a certeza de 100(1 - α)% de conter o verdadeiro valor do parâmetro. A Figura 4.1 ilustra a interpretação dos intervalos de confiança para o parâmetro θ. Podemos observar que foram construídos vários intervalos de confiança para diferentes amostras e em cada intervalo está marcado (•) a estimativa de θ. Observa-se que há intervalos que contém ou não o verdadeiro valor do parâmetro θ. 21 Figura 4.1: Intervalos de confiança para o parâmetro θ para diferentes amostras 4.2. Intervalo de confiança usual Pelos métodos usuais, quando a população possuir distribuição normal com variância conhecida, um intervalo de confiança para a média populacional µ pode ser dado pelo valor da média amostral adicionado de um erro para mais ou para menos. Desta forma o intervalo de confiança usual pode ser dado por (DEVORE, 2006): onde o erro é dado por e = z` normal padrão. R±e IC μ, 1 − α % = X + √ (4.2.1) . O valorz` é encontrado na tabela da distribuição Assim podemos reescrever (4.2.1) da seguinte maneira: R ± z` IC μ, 1 − α % = X + √ (4.2.2) ou ainda pela notação apresentada por Magalhães e Lima (2008): R − z` IC μ, 1 − α % = ;X + √ ;R X + z` + √ < (4.2.3) 4.3. Intervalo de confiança percentil bootstrap Quando uma população de interesse não tiver distribuição normal, ou possuir distribuição do parâmetro de interesse desconhecida, ou ainda, quando o 22 cálculo de estimadores por métodos analíticos forem complicados, pode-se utilizar uma técnica de reamostragem apresentada por Efron (1987) conhecida como bootstrap. Segundo Davinson e Hinkley (1997) esta técnica pode ser utilizada quando o tamanho da população é pequeno, quando a distribuição é desconhecida ou quando outras técnicas não são aplicáveis. A técnica bootstrap trata a amostra original como se fosse a população de interesse. Então, a partir de uma amostra original se faz R reamostras e para cada uma calcula-se a média. No final tem-se R estimativas que serão ordenadas em ordem crescente xb < xb < ⋯ < xbd e então se escolhe os percentis de interesse que serão o limite inferior e superior do intervalo de confiança percentil bootstrap. Para construirmos tal intervalo com 100(1 - α)% de confiança, têm-se os percentis de ordem: xb ` d ! # exb d ! ` # (4.3.1) que são os limites inferior e superior do intervalo de confiança percentil bootstrap. 4.4. Resultados numéricos Para este estudo numérico foram geradas no software R, amostras de tamanhos variados n= {5, 10, 20, 30, 50, 200, 1000} para diferentes distribuições cujos parâmetros dessas distribuições foram escolhidos de acordo com as curvas de densidade da Figura 4.2. Para a construção dos intervalos de confiança percentil bootstrap utilizou-se R = 1000. 23 t-Student - 1 g.l. Log-Normal(1,1) Weibull(8,3) 1.0 0.8 0.6 0.15 0.4 0.2 0.05 -2 0 2 4 -4 -2 0 2 4 0 5 10 15 0 1 2 3 x x x x Beta(2,0.5) Exponecial(1) Uniforme(-1,1) Beta(0.5,0.5) 4 2.5 0.6 0.0 0.2 0.4 0.6 0.8 1.0 2.0 0.3 0 0.0 1.0 0.2 0.4 2 1.5 0.4 0.5 4 0.6 6 0.8 3.0 0.7 1.0 -4 0.0 0.0 0.00 0.05 0.1 0.10 0.10 0.15 0.2 0.20 0.3 0.25 0.20 0.30 0.4 0.25 N(0,1) 0 x 2 4 6 8 10 -1.0 x -0.5 0.0 0.5 1.0 0.0 0.2 0.4 x 0.6 0.8 1.0 x Figura 4.2: Curvas de densidade para as distribuições utilizadas. As Tabelas 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7 e 4.8 apresentam os intervalos de confiança usuais e percentil bootstrap utilizando as distribuições Normal (0,1), tStudent (gl = 1), Log-normal (1,1), Weibull (8,3), Beta (2;0,5), Exponencial (λ = 1), Uniforme (-1,1) e Beta (0,5;0,5), respectivamente. Observou-se que os intervalos de confiança bootstrap estão próximos aos intervalos de confiança usuais, em particular para amostras maiores. Tabela 4.1: Intervalos de confiança gerados de uma distribuição Normal (0,1). (1-α)% 90% 95% 99% I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap Tamanho da amostra 20 30 50 5 10 200 1000 [-0,84;1,07] [-1,04;0,32] [-0,58;0,21] [-0,61;0,01] [-0,40;0,08] [-0,07;0,16] [-0,07;0,04] [-0,68;1,04] [-0,99;0,28] [-0,57;0,19] [-0,61;0,00] [-0,41;0,10] [-0,06;0,16] [-0,06;0,04] [-1,03;1,26] [-1,18;0,45] [-0,66;0,28] [-0,67;0,07] [-0,45;0,13] [-0,09;0,19] [-0,08;0,05] [-0,83;1,19] [-1,10;0,43] [0,66;0,27] [-0,67;0,05] [-0,45;0,16] [-0,08;0,18] [-0,07;0,05] [-1,38;1,61] [-1,43;0,70] [-0,80;0,43] [-0,79;0,18] [-0,54;0,22] [-0,13;0,23] [-0,10;0,07] [-1,03;1,54] [-1,43;0,63] [-0,89;0,40] [-0,80;0,16] [-0,56;0,25] [-0,13;0,22] [-0,09;0,07] 24 Tabela 4.2: Intervalos de confiança gerados de uma distribuição t-Student com 1 gl. (1-α)% 90% 95% 99% I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap 5 [-2,00;9,71] 10 Tamanho da amostra 20 30 50 200 1000 [-2,67;4,47] [-2,21;1,83] [-1,32;1,87] [-0,79;6,03] [-11,73;23,68] [-1,88;5,39] [-0,12;10,58] [-2,15;4,26] [-2,25;2,05] [-1,26;1,84] [-0,47;6,38] [-3,14;10,86] [-3,37;5,17] [2,61;2,23] [-9,41;25,19] [-1,48;5,52] [-1,63;2,18] [-1,46;6,70] [-15,19;27,13] [-2,59;6,10] [-0,33;11,06] [-2,78;5,21] [-2,57;2,41] [-1,56;2,07] [-0,77;7,10] [-11,68;29,62] [-2,02;6,64] [5,32;13,04] [-4,70;6,49] [-3,36;2,98] [-2,22;2,77] [-2,72;7,97] [-21,77;33,72] [-3,95;7,46] [-0,58;14,29] [-3,80;6,20] [-3,11;3,26] [-2,25;2,73] [-1,28;8,52] [-19,33;39,34] [-3,01;8,77] Tabela 4.3: Intervalos de confiança gerados de uma distribuição Log-Normal (1,1). (1-α)% 90% 95% 99% I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap 5 10 [0,89;10,66] [1,22;6,43] Tamanho da amostra 20 30 50 [2,21;5,16] [2,16;4,23] 200 1000 [2,86;4,59] [3,94;4,92] [4,18;4,74] [1,44;10,33] [1,67;6,51] [2,37;5,21] [2,23;4,22] [2,88;4,62] [3,98;4,92] [4,20;4,74] [-0,06;11,61] [0,71;6,94] [1,93;5,45] [1,96;4,43] [2,69;4,75] [3,85;5,02] [4,12;4,79] [1,29;11,77] [1,40;7,12] [2,18;5,62] [2,07;4,35] [2,71;4,90] [3,90;5,02] [4,12;4,80] [-1,88;13,43] [-0,26;7,91] [1,38;5,99] [1,58;4,82] [2,37;5,07] [3,67;5,20] [4,02;4,90] [1,04;13,27] [1,10;8,40] [1,72;6,28] [1,87;4,71] [2,47;5,29] [3,68;5,21] [4,05;4,91] Tabela 4.4: Intervalos de confiança gerados de uma distribuição Weibull (8,3). (1-α)% 90% 95% 99% I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap 5 10 [2,24;2,87] [2,28;2,84] [2,18;2,93] [2,23;2,89] [2,06;3,05] [2,13;2,94] [2,46;3,02] [2,47;2,99] [2,40;3,08] [2,43;3,03] [2,30;3,18] [2,31;3,11] Tamanho da amostra 20 30 50 [2,67;3,02] [2,67;3,02] [2,63;3,06] [2,63;3,06] [2,57;3,12] [2,57;3,11] [2,71;3,02] [2,71;3,02] [2,68;3,05] [2,67;3,05] [2,63;3,11 [2,59;3,09] [2,76;2,96] [2,76;2,96] [2,74;2,98] [2,73;2,97] [2,70;3,01] [2,69;3,01] 200 1000 [2,75;2,86] [2,75;2,86] [2,74;2,87] [2,74;2,86] [2,72;2,89] [2,72;2,88] [2,79;2,84] [2,79;2,84] [2,79;2,84] [2,79;2,84] [2,79;2,85] [2,79;2,85] Tabela 4.5: Intervalos de confiança gerados de uma distribuição Beta (2,0.5). (1-α)% 90% 95% 99% I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap 5 10 Tamanho da amostra 20 30 50 200 1000 [0,53;0,84] [0,57;0,80] [0,67;0,83] [0,67;0,81] [0,69;0,79] [0,77;0,82] [0,78;0,81] [0,54;0,82] [0,57;0,80] [0,66;0,82] [0,68;0,81] [0,69;0,79] [0,76;0,82] [0,78;0,81] [0,50;0,87] [0,54;0,82] [0,65;0,84] [0,66;0,83] [0,67;0,80] [0,76;0,82] [0,78;0,81] [0,53;0,84] [0,55;0,82] [0,65;0,83] [0,66;0,82] [0,67;0,80] [0,76;0,82] [0,78;0,81] [0,45;0,92] [0,50;0,86] [0,62;0,87] [0,63;0,85 [0,65;0,82] [0,75;0,83] [0,78;0,81] [0,48;0,91] [0,51;0,86] [0,62;0,86] [0,63;0,85] [0,66;0,81] [0,75;0,83] [0,77;0,81] 25 Tabela 4.6: Intervalos de confiança gerados de uma distribuição Exponencial (λ = 1). (1-α)% 90% 95% 99% I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap Tamanho da amostra 20 30 50 5 10 200 1000 [0,02;1,39] [0,32;2,28] [0,59;1,63] [0,73;1,48] [0,91;1,53] [0,88;1,15] [0,93;1,03] [0,11;1,35] [0,52;2,35] [0,65;1,63] [0,79;1,50] [0,95;1,50] [0,89;1,16] [0,93;1,04] [-0,11;1,52] [0,12;2,48] [0,49;1,74] [0,66;1,56] [0,85;1,59] [0,85;1,18] [0,92;1,04] [0,09;1,54] [0,44;2,62] [0,60;1,74] [0,73;1,59] [0,90;1,58] [0,87;1,18] [0,92;1,04] [-0,36;1,77] [-0,24;2,84] [0,29;1,93] [0,52;1,70] [0,74;1,70] [0,80;1,23] [0,90;1,06] [0,06;1,78] [0,32;3,10] [0,49;2,13] [0,64;1,74] [0,78;1,72] [0,81;1,22] [0,90;1,06] Tabela 4.7: Intervalos de confiança gerados de uma distribuição Uniforme (-1,1). I.C. (1-α)% 90% 95% 99% Usual Bootstrap Usual Bootstrap Usual Bootstrap Tamanho da amostra 20 30 50 5 10 [-0,04;0,78] [-0,04;0,74] [-0,12;0,86] [-0,10;0,78] [-0,27;1,01] [-0,24;0,86] [-0,31;0,41] [-0,28;0,39] [-0,38;0,48] [-0,33;0,43] [-0,52;0,62] [-0,48;0,54] [-0,27;0,20] [-0,27;0,20] [-0,31;0,25] [-0,31;0,24] [-0,40;0,33] [-0,37;0,31] [-0,29;0,11] [-0,28;0,12] [-0,33;0,15] [-0,32;0,16] [-0,40;0,22] [-0,39;0,22] [-0,18;0,09] [-0,18;0,10] [-0,20;0,12] [-0,20;0,12] [-0,25;0,17] [-0,26;0,17] 200 1000 [-0,06;0,08] [-0.06,0.08] [-0,07;0,10] [-0,07;0,09] [-0,10;0,12] [-0.10,0.12] [-0,02;0,04] [-0,02;0,04] [-0,03;0,04] [-0,03;0,04] [-0,04;0,06] [-0,04;0,05] Tabela 4.8: Intervalos de confiança gerados de uma distribuição Beta (0.5,0.5). I.C. Usual Bootstrap Usual Bootstrap Usual Bootstrap 5 10 [0,49;1,01] [0,45;0,94] [0,44;1,06] [0,43;0,95] [0,35;1,15] [0,28;0,96] [0,61;0,88] [0,61;0,86] [0,58;0,90] [0,58;0,88] [0,54;0,95] [0,53;0,91] Tamanho da amostra 20 30 50 [0,46;0,69] [0,46;0,68] [0,44;0,71] [0,43;0,71] [0,40;0,75] [0,40;0,74] [0,49;0,71] [0,48;0,70] [0,47;0,73] [0,46;0,71] [0,43;0,77] [0,41;0,74] [0,50;0,65] [0,50;0,65] [0,48;0,67] [0,48;0,67] [0,45;0,70] [0,45;0,69] 200 1000 [0,46;0,54] [0,46;0,54] [0,45;0,55] [0,45;0,55] [0,43;0,56] [0,44;0,57] [0,49;0,52] [0,49;0,52] [0,48;0,53] [0,48;0,53] [0,48;0,54] [0,48;0,53] A Tabela 4.9 apresenta as amplitudes dos intervalos de confiança usuais e bootstrap para as diferentes distribuições de probabilidade da Figura 4.2. Como esperado, observa-se que as amplitudes diminuem conforme o tamanho da amostra aumenta (exceto para a distribuição t-Student com n = 200) e, que os intervalos percentis bootstrap apresentam em geral, amplitudes menores do que os intervalos de confiança usuais. 26 0 1 Tabela 4.9: Amplitude dos intervalos de confiança: Normal (1-α)% 90% 3 2 2 2 1 1 1 0 0 0 t-Student Log-Normal 30 50 200 1000 5 Beta (2,0.5) 30 50 5 200 1000 60 40 40 40 20 20 20 0 0 10 20 30 50 200 1000 10 20 30 50 200 1000 15 15 10 10 10 5 5 5 0 0 5 10 20 30 50 5 10 20 30 50 200 1000 1 1 0,5 0,5 0,5 0 20 30 50 10 20 30 50 200 1000 0,4 0,4 0,4 0,2 0,2 0,2 0,0 5 10 20 30 5 10 20 30 50 200 1000 4 4 4 2 2 2 0 0 5 10 20 30 10 20 30 50 200 1000 1,2 1,2 1,2 0,8 0,8 0,8 0,4 0,4 0,4 10 20 30 5 50 200 1000 10 20 30 50 200 1000 0,6 0,6 0,6 0,4 0,4 0,4 0,2 0,2 0,2 0 0,0 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 5 10 20 30 50 200 1000 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 0 0 5 200 1000 0 5 50 200 1000 0 50 0 0 50 200 1000 30 0 5 200 1000 20 0 200 1000 1 10 10 0 5 15 5 Exponencial 20 60 0 Uniforme 10 60 5 Weibull 20 BBootstrap. 99% 3 10 0 1 95% 3 5 Beta (0.5,0.5) U Usual e 5 10 5 10 20 30 50 200 1000 0 5 10 20 30 50 200 1000 20 30 50 200 1000 27 A Figura 4.3 apresenta os histogramas referentes às distribuições das médias via técnica bootstrap utilizando as distribuições apresentadas na Figura 4.2. Observa-se que quanto maior a amostra há uma convergência dos histogramas para um modelo simétrico em relação à média. Assim se traçar curvas de densidade sobre os histogramas, estas se assemelham às curvas normais. Isso é afirmado no Teorema do Limite Central, ou seja, para amostras grandes a distribuição amostral se aproxima de uma curva normal. A Figura 4.3 também apresenta os testes de normalidade de Shapiro Wilk. Note que, para amostras pequenas a normalidade das médias via bootstrap é rejeitada ao nível de 0,05 e, a medida que o tamanho amostral aumenta, o teste não rejeita essa normalidades (exceto para as distribuições t-Student e Exponencial), confirmando o resultado do T.L.C. A Figura 4.4 apresenta os gráficos de probabilidade normal (QQ-Norm) para as distribuições das médias via técnica bootstrap. Nesses gráficos quando os pontos seguem um padrão aproximado de uma reta os dados tendem a serem aproximadamente normais. Observa-se que as dispersões dos dados em relação à reta diminuem à medida que o tamanho da amostra aumenta, ou seja, com amostras maiores, tendem a serem normais. 28 -0.4 0.0 -0.6 -0.2 0.2 150 300 0 Frequencia 150 300 0 Frequencia 150 300 0 Frequencia 150 300 Frequencia 0 Frequencia 150 300 -1.0 -0.2 0.0 0.2 -0.10 0.00 0.10 t-Student(1)-n=200 t-Student(1)-n=1000 10 15 -4 0 4 -4 0 2 4 -3 -1 1 3 0 5 10 Frequency 0 Frequency 0 Frequency 0 Frequency 0 Frequency 0 Frequency 0 5 150 300 t-Student(1)-n=50 150 300 t-Student(1)-n=30 150 300 t-Student(1)-n=20 150 300 t-Student(1)-n=10 150 300 t-Student(1)-n=5 150 300 p=0.474 150 300 p=0.759 -20 0 20 -5 0 5 10 Log-Normal(1,1)-n=5 Log-Normal(1,1)-n=10 Log-Normal(1,1)-n=20 Log-Normal(1,1)-n=30 Log-Normal(1,1)-n=50 Log-Normal(1,1)-n=200 Log-Normal(1,1)-n=1000 10 15 0 2 4 6 8 2 4 6 2 3 4 5 2 3 4 5 6 Frequency 0 Frequency 0 Frequency 0 Frequency 0 Frequency 0 Frequency 0 5 150 300 p<0.001 150 300 p<0.001 150 300 p<0.001 150 300 p=0.086 150 300 p=0.006 150 300 p<0.001 150 300 p<0.001 0 3.5 4.5 4.0 4.4 4.8 Weibull(8,3)-n=5 Weibull(8,3)-n=10 Weibull(8,3)-n=20 Weibull(8,3)-n=30 Weibull(8,3)-n=50 Weibull(8,3)-n=200 Weibull(8,3)-n=1000 2.8 2.6 3.0 3.0 2.8 3.1 2.8 3.0 Frequency 2.70 2.80 0 100 Frequency 2.6 0 100 Frequency 2.5 0 100 Frequency 2.6 0 100 Frequency 2.2 0 100 0 100 Frequency 2.4 250 p=0.593 250 p=0.187 250 p<0.001 250 p=0.002 250 p<0.001 250 p<0.001 250 p<0.001 2.90 2.76 2.80 2.84 Beta(2,0.5)-n=5 Beta(2,0.5)-n=10 Beta(2,0.5)-n=20 Beta(2,0.5)-n=30 Beta(2,0.5)-n=50 Beta(2,0.5)-n=200 Beta(2,0.5)-n=1000 0.9 0.7 0.9 0.75 0.75 0.75 Frequency 0 100 Frequency 0.65 0 100 Frequency 0.60 0 100 Frequency 0.60 0 100 Frequency 0.5 0 100 Frequency 0.7 0 100 0 100 0.5 250 p=0.952 250 p=0.311 250 p=0.726 250 p=0.052 250 p=0.530 250 p=0.028 250 p=0.011 0.74 0.78 0.82 0.77 0.79 0.81 Exp(1)-n=5 Exp(1)-n=10 Exp(1)-n=20 Exp(1)-n=30 Exp(1)-n=50 Exp(1)-n=200 Exp(1)-n=1000 1.0 2.0 0.0 1.5 3.0 0.5 1.5 0.6 1.0 1.4 1.8 0.8 1.2 1.6 Frequency 0 Frequency 0 Frequency 0 Frequency 0 Frequency 0 Frequency 0 0 0.0 150 300 p=0.079 150 300 p=0.108 150 300 p=0.015 150 300 p=0.487 150 300 p=0.131 150 300 p<0.840 150 300 p<0.001 0.7 0.9 1.1 1.3 0.90 1.00 Unif(1-,1)-n=5 Unif(1-,1)-n=10 Unif(1-,1)-n=20 Unif(1-,1)-n=30 Unif(1-,1)-n=50 Unif(1-,1)-n=200 Unif(1-,1)-n=1000 -0.6 0.0 0.4 -0.4 0.0 0.4 -0.4 0.0 -0.3 0.0 0.2 100 Frequency 0 100 Frequency 0 100 Frequency 0 100 Frequency 0 100 Frequency 0 Frequency 0 100 0 -0.2 0.2 0.6 250 p=0.862 250 p<0.001 250 p<0.001 250 p<0.001 250 p<0.001 250 p<0.001 250 p<0.001 100 -0.10 0.05 -0.06 0.00 0.06 Beta(0.5,0.5)-n=5 Beta(0.5,0.5)-n=10 Beta(0.5,0.5)-n=20 Beta(0.5,0.5)-n=30 Beta(0.5,0.5)-n=50 Beta(0.5,0.5)-n=200 Beta(0.5,0.5)-n=1000 0.8 p<0.001 0.5 0.7 p<0.001 0.9 0.4 0.6 p=0.647 0.8 0.4 0.6 p=0.006 0.8 0.40 0.55 0.70 p=0.701 200 Frequency 0 200 Frequency 0 200 Frequency 0 200 Frequency 0 200 Frequency 200 Frequency 0 200 0 0.4 400 p=0.598 400 p=0.799 400 p=0.798 400 p=0.344 400 p=0.457 400 p=0.138 400 p<0.001 0 Frequency 0.0 p=0.712 0 100 Frequency -1.0 Normal(0,1)-n=1000 p=0.664 2.0 Frequency 0.5 Normal(0,1)-n=200 p=0.005 0 Frequency 0 -1.5 -0.5 Normal(0,1)-n=50 p=0.352 0 Frequency 150 300 0.0 1.0 Normal(0,1)-n=30 p<0.001 0 Frequency -1.5 Frequency Normal(0,1)n=20 0 Frequencia 150 300 Normal(0,1)-n=10 0 Frequencia Normal(0,1)-n=5 0.45 0.55 p=0.543 Figura 4.3: Histogramas das distribuições das médias via técnica bootstrap. 0.48 0.52 p=0.259 29 3 3 Frequencia -3 -1 1 -0.10 0.05 Frequencia -3 -1 1 -0.2 0.1 Frequencia -0.6 0.0 0.0 -0.8 0.5 -1.0 Frequencia Frequencia Frequencia -3 -1 1 3 -3 -1 1 3 t-Student-n=200 t-Student-n=1000 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 -20 20 Frequencia 0 1 3 -2 4 0 -4 -4 0 4 Frequencia 3 3 -3 -1 1 0 5 t-Student-n=50 Frequencia t-Student-n=30 6 12 t-Student-n=20 Frequencia t-Student-n=10 Frequencia t-Student-n=5 Frequencia Theoretical Quantiles 15 Theoretical Quantiles 3 -3 -1 1 3 Lognormal-n=5 Lognormal-n=10 Lognormal-n=20 Lognormal-n=30 Lognormal-n=50 Lognormal-n=200 Lognormal-n=1000 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 5.0 3.5 5 3 2.0 4.0 2 4 6 6 2 8 14 3 Frequencia Theoretical Quantiles 3 -3 -1 1 4.0 4.6 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 2 3 -3 -1 1 3 Weibull-n=5 Weibull-n=10 Weibull-n=20 Weibull-n=30 Weibull-n=50 Weibull-n=200 Weibull-n=1000 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 2.85 2.70 3.0 2.7 2.9 2.5 2.5 2.9 2.2 2.8 2.8 3 3 -3 -1 1 2.78 2.84 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 3 -3 -1 1 3 Beta(2,0.5)-n=5 Beta(2,0.5)-n=10 Beta(2,0.5)-n=20 Beta(2,0.5)-n=30 Beta(2,0.5)-n=50 Beta(2,0.5)-n=200 Beta(2,0.5)-n=1000 3 -3 -1 1 3 -3 -1 1 3 3 -3 -1 1 3 -3 -1 1 0.77 0.82 0.74 0.80 Frequencia -3 -1 1 0.65 0.65 0.60 0.80 0.8 0.5 0.8 0.5 -3 -1 1 0.81 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 0.85 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 3 -3 -1 1 3 Exponencial-n=5 Exponencial-n=10 Exponencial-n=20 Exponencial-n=30 Exponencial-n=50 Exponencial-n=200 Exponencial-n=1000 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 0.90 0.8 1.1 0.8 1.4 1.4 0.6 0.5 1.5 2.5 0.5 Frequencia -3 -1 1 1.05 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 0.0 1.0 2.0 Theoretical Quantiles 3 -3 -1 1 3 Uniforme-n=5 Uniforme-n=10 Uniforme-n=20 Uniforme-n=30 Uniforme-n=50 Uniforme-n=200 Uniforme-n=1000 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 3 -3 -1 1 -0.06 -0.10 0.10 -0.3 0.0 -0.4 0.2 0.2 -0.4 -0.6 0.2 -0.2 0.6 -3 -1 1 0.04 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 3 -3 -1 1 3 Beta(0.5,0.5)-n=5 Beta(0.5,0.5)-n=10 Beta(0.5,0.5)-n=20 Beta(0.5,0.5)-n=30 Beta(0.5,0.5)-n=50 Beta(0.5,0.5)-n=200 Beta(0.5,0.5)-n=1000 3 -3 -1 1 3 Theoretical Quantiles -3 -1 1 3 Theoretical Quantiles -3 -1 1 3 Theoretical Quantiles -3 -1 1 3 Theoretical Quantiles 0.45 0.70 0.45 0.7 0.4 0.7 0.4 0.9 0.3 0.7 -3 -1 1 Theoretical Quantiles Frequencia Theoretical Quantiles -3 -1 1 3 Theoretical Quantiles Figura 4.4: QQ Norms das distribuições da média via técnica bootstrap. 0.47 0.52 Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles Frequencia Theoretical Quantiles 0.6 Frequencia 3 Normal-n=1000 Theoretical Quantiles 2.2 Frequencia -3 -1 1 Normal-n=200 Theoretical Quantiles -3 -1 1 Frequencia 3 Normal-n=50 Theoretical Quantiles -3 -1 1 Frequencia -3 -1 1 Normal-n=30 Theoretical Quantiles -3 -1 1 Frequencia 3 Normal-n=20 Theoretical Quantiles 0 5 Frequencia -3 -1 1 Frequencia Normal-n=10 -1.5 0.0 1.0 -1.0 Frequencia Normal-n=5 -3 -1 1 3 Theoretical Quantiles CAPITULO 5 COMPARAÇÃO DOS INTERVALOS DE CONFIANÇA VIA MÉTODO DE SIMULAÇÃO MONTE CARLO Neste capítulo realiza-se um estudo de simulação de Monte Carlo para comparar os intervalos de confiança usuais com os percentis bootstrap através do calculo das probabilidades de cobertura e das amplitudes médias. 5.1. Método de simulação de Monte Carlo O método de simulação de Monte Carlo (SMC) foi criado em 1940 pelos pesquisadores Von Neunann e Ulan para solucionar problemas de blindagem de reatores nucleares. O termo Monte Carlo foi dado pelos pesquisadores S. Ulan e Nicholas Metropolis em homenagem a atividade mais popular de Monte Carlo, Mônaco, os jogos (LIMA et al, 2008). A simulação Monte Carlo é utilizada na avaliação de fenômenos que se podem caracterizar por um comportamento probabilístico. Por meios de reamostragens pode-se resolver uma grande quantidade de problemas com a simulação de cenários e o posterior cálculo de um valor esperado. Dessa forma consiste na substituição de um processo físico ou matemático por um modelo probabilístico que possa tratar de problemas determinísticos por meios de números aleatórios gerados no computador (OLIVEIRA; BARROS; REIS, 2010). Graças ao avanço da informática temos essa possibilidade de simulações com rapidez e confiança. 5.2. Resultados da simulação de Monte Carlo Para calcular a probabilidade de cobertura dos intervalos de confiança no estudo de Monte Carlo, repete-se o procedimento de construção do intervalo de confiança B vezes, nas quais se verifica em cada uma se o verdadeiro valor do parâmetro está contido dentro deste intervalo de confiança ou não, e após as B 31 repetições têm quantas vezes o verdadeiro valor do parâmetro não pertenceu ao intervalo de confiança. Assim, a probabilidade de cobertura para um intervalo de confiança pode ser obtida através de (CARRASCO, 2002), B 1− ∑ ψ(vp ∉ IC) b =1 (5.2.1) B Onde ψ (.) é uma função indicadora, vp é o verdadeiro valor do parâmetro e IC é o intervalo de confiança. A amplitude de um intervalo de confiança é outro critério para comparação de intervalos de confiança. Com a mesma probabilidade de cobertura, procedimentos de intervalos de confiança que possuem menores amplitudes são considerados melhores (JENG; MEEKER, 1999). A Tabela 5.1 apresenta as probabilidades de cobertura para os intervalos de confiança usuais e bootstrap. Observa-se que as probabilidades de cobertura para os intervalos de confiança percentis bootstrap estão próximos dos intervalos de confiança usuais, com exceção para a distribuição t-Student, onde os intervalos de confiança usuais tem probabilidades de cobertura mais próximas da probabilidade de cobertura nominal (90%, 95% e 99%) do que os intervalos de confiança percentis bootstrap. Observa-se também que as probabilidades de cobertura dos intervalos de confiança aumentam, a medida que o tamanho amostral aumenta. 32 Tabela 5.1: Probabilidade de cobertura dos intervalos de confiança: Normal (1-α)% 90% t-Student Log-Normal Weibull 95% 100 90 90 90 80 80 80 70 70 70 60 60 60 50 50 10 20 30 50 200 1000 10 20 30 50 200 1000 100 100 90 90 90 80 80 80 70 70 70 60 60 60 50 50 10 20 30 50 200 1000 10 20 30 50 200 1000 100 100 90 90 90 80 80 80 70 70 60 60 50 10 20 30 50 200 1000 5 10 20 30 50 200 1000 100 100 90 90 80 80 80 70 70 70 60 60 60 50 50 30 50 200 1000 10 20 30 50 200 1000 80 80 80 70 70 70 60 60 60 50 50 30 50 10 20 30 50 200 1000 100 100 100 90 90 90 80 80 80 70 70 70 60 60 60 50 10 20 30 50 200 1000 5 10 20 30 50 200 1000 100 100 100 90 90 90 80 80 80 70 70 70 60 60 60 50 50 5 10 20 30 50 200 1000 10 20 30 50 200 1000 100 100 90 90 90 80 80 80 70 70 70 60 60 60 50 50 10 20 30 50 200 1000 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 50 5 100 5 50 50 50 5 30 50 5 200 1000 20 90 90 20 200 1000 100 100 10 50 50 5 90 5 10 30 50 90 20 5 20 60 100 10 10 70 50 5 5 50 5 100 100 Beta(2,0.5) 50 5 100 5 Exponencial 99% 100 5 Uniforme 80 B 60 UUsual e 100 Bootstrap. 100 5 Beta(0.5,0.5) 100 80 60 50 5 10 20 30 50 200 1000 50 200 1000 33 Tabela 5.2: Amplitudes médias dos intervalos de confiança: Normal (1-α)% 90% 3 2 2 2 1 1 1 0 t-Student 10 Log-Normal Weibull Beta (2,0.5) 50 0 5 200 1000 10 20 30 50 200 1000 100 100 75 75 75 50 50 50 25 25 25 0 0 10 20 30 50 200 1000 10 20 30 50 200 1000 10 10 8 8 8 6 6 6 4 4 4 2 2 2 0 0 5 10 20 30 50 5 10 20 30 50 200 1000 1,0 1,0 0,5 0,5 0,5 0,0 0,0 0,0 20 30 50 10 20 30 50 200 1000 5 10 20 30 50 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 5 10 20 30 50 200 1000 0 200 1000 1,0 10 5 0 5 10 5 200 1000 5 10 20 30 50 200 1000 0,6 0,6 0,4 0,4 0,2 0,2 0,6 0,4 0,2 0,0 0,0 0,0 5 Exponencial 30 100 5 Uniforme 20 BBootstrap. 99% 3 0 0 1 U Usual e 95% 3 5 10 20 30 50 5 200 1000 10 20 30 50 200 1000 2,0 2,0 2,0 1,5 1,5 1,5 1,0 1,0 1,0 0,5 0,5 0,5 0,0 0,0 5 10 20 30 50 200 1000 0,0 5 10 20 30 50 200 1000 1,4 1,4 1,4 0,7 0,7 0,7 0 0 5 Beta (0.5,0.5) 0 1 10 20 30 50 200 1000 0,0 5 10 20 30 50 200 1000 0,8 0,8 0,8 0,4 0,4 0,4 0,0 0,0 5 10 20 30 50 200 1000 0,0 5 10 20 30 50 200 1000 200 1000 34 A Tabela 5.2 apresenta as amplitudes médias dos intervalos de confiança usuais e bootstrap. Observa-se na Tabela 5.2 que as amplitudes médias diminuem conforme o tamanho amostral aumenta, exceto para a distribuição t-Student com amostra de tamanho n = 1000. Para intervalos de confiança com maior confiabilidade têm-se amplitudes maiores do que para um nível de confiança menor, conforme esperado. Observa-se ainda que as amplitude médias bootstrap foram, na maioria dos casos, menores que as amplitudes médias dos intervalos de confiança usuais. CONCLUSÃO Através do método de simulação de Monte Carlo observou que as probabilidades de cobertura dos intervalos percentil bootstrap foram bem próximas à probabilidade de cobertura dos intervalos usuais. Para as distribuições utilizadas a diferença entre as probabilidades de cobertura foram maiores quando tomamos amostras pequenas. Em relação a amplitude média dos intervalos de confiança, observou-se que, exceto para a distribuição t-Student com amostra de tamanho n=1000, as amplitudes médias dos intervalos de confiança diminuem conforme o tamanho da amostra aumenta, e que os intervalos de confiança percentil bootstrap apresentaram menores amplitudes que os intervalos de confiança usuais. Dessa forma a técnica de reamostragem bootstrap pode ser utilizada para a construção de intervalos de confiança para a média, em particular quando a população não for normalmente distribuída e/ou a mostra não for suficientemente grande. Ainda, com o avanço da informática, o uso dessa técnica se torna viável, pois necessita apenas de um computador para fazer as simulações da amostra, o que torna o processo mais rápido e com baixo custo. REFERENCIAS BIBLIOGRÁFICAS CARRASCO, C. G. “Comparação de Procedimentos para Construção de Intervalos de Confiança para os Parâmetros do Modelo Poli-Log-Logístico na Presença de Censuras Aleatórias”. Dissertação de Mestrado, Departamento de Estatística da UFSCar, São Carlos (SP), 2002. CYMROT, R.; RIZZO, A. L. T. “Estudo e aplicação da Técnica Bootstrap”. II Jornada de iniciação cientifica. Universidade Presbiteriana Mackenzie. Brazil, 2006. DAVISON, A.C.; HINKLEY, D.V. Bootstrap Methods and their Application. Cambridge: Cambridge University Press, 1997. 582p. DEVORE, J. L.. Probabilidade e Estatística para Engenharia e Ciências. Tradução Joaquim Pinheiro Nunes da Silva. São Paulo: Pioneira Thomsom Learning, 2006. EFRON, B. Bootstrap methods: another look at the jacknife. Annals of Statistics, v.7, p. 1- 26, 1979. HINES, W. W.; MONTGOMERY, D. C.; GOLDSMAN, D. M.; BORROR, C. M.. Probabilidade e Estatística na Engenharia. Tradução Vera Regina L. de Farias e Flores. 4ª Ed. Rio de Janeiro: LTC, 2006. JENG, S. L., MEEKER, W.Q. Comparisons of Approximate Confidence Interval Procedures for Type I Censored Data. Technometrics, v.42, p.135-48, 1999. LIMA, E. C. P.; VIANA, J. C.; LEVINO, N. A.; MOTA, C. Simulação de Monte Carlo Auxiliando a Análise de Viabilidade Econômica de Projetos. IV Congresso Nacional de Excelência em Gestão. Responsabilidade Socioambiental das Organizações Brasileiras Niterói, RJ, Brasil, 31 de julho, 01 e 02 de agosto de 2008. MAGALHÃES, M. N; LIMA, Antonio C. P. de. Noções de Probabilidade e Estatística. 6ª ed. rev., 3ª reimpr..São Paulo:Editora da Universidade de São Paulo, 2008. OLIVEIRA, P. H. D.; BARROS, N. R.; REIS, S. G. Aplicabilidade do método de simulação Monte Carlo na previsão dos custos de produção de companhias industriais: o caso companhia Vale do Rio Doce. PMIRPGCC (UNB/UFPB/UFPE/UFRN). Revista de Contabilidade e Organizações, FEA-RP/USP, V. 4, n. 10, p.152-173, Set-Dez, 2010. PETERNELLI, L. A.; MELLO, M. P. Conhecendo o R: Uma Visão Estatística. Cadernos didáticos, Editora UFV, 2007. ANEXO LISTA DE SIGNIFICADO Amostra: é qualquer subconjunto da população. Estimador: é qualquer função das observações das amostras. Esperança (ou valor esperado): média ponderada de uma variável aleatória. Estimativa: valores numéricos assumidos pelos estimadores. Desvio padrão: é dado pela raiz quadrada da variância. Intervalo de confiança: intervalo de valores, centrado numa estatística amostral, no qual julgamos, com um risco conhecido de erro, estar o parâmetro da população. Método de simulação Monte Carlo: ferramenta de simulações estatística que utiliza métodos de amostragem para resolver problemas de natureza estocástica e determinística. Parâmetro: medida usada para descrever uma característica da população. População: conjunto de indivíduos (ou objeto), tendo pelo menos uma variável comum observável. Técnica Bootstrap: técnica de reamostragem que simula a população original a partir de uma amostra. Variância: medida que dá a dispersão (ou concentração) da probabilidade em torno da média. Variável aleatória continua: uma variável aleatória X é dita continua em R se existir uma função f(x) tal que: 1) f(x) ≥ 0 (não-negativa) e 2) C e f x dx = 1