Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Intervalo de Confiança Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/estatistica/ Intervalo de Confiança Um parâmetro pode ser estimado através de um único valor (estimador pontual): f(x) amostra ? X1, X2, ..., Xn X 0 x Ou então pode ser definido um intervalo de estimativas mais prováveis de acordo com a distribuição da estatística (estimador) f( X ) f(x) amostra ? X1, X2, ..., Xn X 0 x 0 X 2 Intervalo de Confiança para X ~ ?(, 2 ) distribuição desconhecida, desconhecido, mas 2 conhecido X X2 ? 1 X~ n Xn Se X ~ N ( , 2 ) : 2 X ~ N (?,?) (, ) n EX Var X 2 n Se n for grande (ou seja, adotando-se o TLC): X ~ ?N ( , 2 n ) mesmo não se conhecendo a distribuição de X 3 Intervalo de Confiança para X ~ ?(, 2 ) X ~ N (, X n 2 n distribuição desconhecida, desconhecido, mas 2 conhecido ) se X tiver distribuição normal ou n for grande (TLC) 0,14 N (0,1) ~ ?N (0,1) (Normal Padrão) 0,12 0,1 0,08 0,06 0,04 0,02 0 0 - 5 10 0 15 + valores mais freqüentes 4 Intervalo de Confiança para X ~ ?(, 2 ) X ~ N (, X Z 2 n distribuição desconhecida, desconhecido, mas 2 conhecido ) se X tiver distribuição normal ou n for grande (TLC) 0,14 n 0,1 X P( z 0,08 z) 1 n P( X z 0,04 X z n 2 0,06 n P( z N (0,1) ~ ?N (0,1) (Normal Padrão) 0,12 n X z IC para 2 1 0,02 ) 1 0 0 n ) 1 - 5 -z 10 0 z 15 + P(| Z | z ) nível de significância P( z Z z ) 1 nível de confiança 5 Intervalo de Confiança para Exemplo: uma v.a. qualquer tem uma distribuição desconhecida com média também desconhecida e variância 2 = 16. Retira-se uma amostra de 25 valores e calcula-se a média amostral. Construa um IC de 95% para supondo que X 12,7. P( X z n X z n 0,14 N (0,1) ) 0,12 0,95 0,1 P(12,7 1,96 4 4 0,08 12,7 1,96 ) 0,95 25 25 0,06 2,5% 0,04 P(12,7 1,568 12,7 1,568) 0,95 P(11,132 14,268) 0,95 2,5% 95% 0,02 0 0 - 5 -z Como poderia obter intervalos de confiança mais estreitos, ou seja, com limites mais próximos da média verdadeira? 10 0 z 15 + ? 1,96 - diminuindo-se o nível de confiança - aumentando-se o tamanho da amostra 6 Como Interpretar o IC para ? Suponha uma v.a. X normalmente distribuída com = 10 e 2 = 4 X ~ N (10,4) Sorteia-se 50 valores aleatoriamente e calcula-se X . Em seguida determina-se o IC para com 95% de confiança, ou seja P( X 1,96 2 2 X 1,96 ) 95% 50 50 P( X 0,5544 X 0,5544) 95% (O IC varia para cada amostra!!!) Interpretação: 95% dos possíveis IC obtidos a partir de uma amostra de tamanho 50, conterão de fato a verdadeira média (ver IC.xls) 7 Distribuição 2 f ( x) 1 x g 21e x 2 g 2 2 ( g 2) g>2 x0 g2 0 E( X ) g Var( X ) 2 g (lê-se qui-quadrado) + (lê-se: X tem distribuição qui-quadrado com g graus de liberdade) X ~ g2 Propriedades: a) se Z ~ N (0,1), então Z 2 ~ 12 b) se X i ~ 2 1, então n X i 1 i ~ n2 8 Distribuição 2 0 t2 + P( g2 t2 ) P( 102 3, 25) ? P(102 3, 25) 0,975 g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0,005 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,95 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,64 50,99 52,34 53,67 66,77 79,49 91,95 104,21 116,32 128,30 140,17 0,010 6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 63,69 76,15 88,38 100,43 112,33 124,12 135,81 0,025 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 59,34 71,42 83,30 95,02 106,63 118,14 129,56 0,050 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 55,76 67,50 79,08 90,53 101,88 113,15 124,34 0,100 2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,20 34,38 35,56 36,74 37,92 39,09 40,26 51,81 63,17 74,40 85,53 96,58 107,57 118,50 0,900 0,016 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,09 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47 17,29 18,11 18,94 19,77 20,60 29,05 37,69 46,46 55,33 64,28 73,29 82,36 0,950 0,0039 0,10 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 11,59 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 26,51 34,76 43,19 51,74 60,39 69,13 77,93 0,975 0,990 0,995 0,0010 0,00016 0,00004 0,051 0,020 0,010 0,22 0,11 0,072 0,48 0,30 0,21 0,83 0,55 0,41 1,24 0,87 0,68 1,69 1,24 0,99 2,18 1,65 1,34 2,70 2,09 1,73 3,25 2,56 2,16 3,82 3,05 2,60 4,40 3,57 3,07 5,01 4,11 3,57 5,63 4,66 4,07 6,26 5,23 4,60 6,91 5,81 5,14 7,56 6,41 5,70 8,23 7,01 6,26 8,91 7,63 6,84 9,59 8,26 7,43 10,28 8,90 8,03 10,98 9,54 8,64 11,69 10,20 9,26 12,40 10,86 9,89 13,12 11,52 10,52 13,84 12,20 11,16 14,57 12,88 11,81 15,31 13,56 12,46 16,05 14,26 13,12 16,79 14,95 13,79 24,43 22,16 20,71 32,36 29,71 27,99 40,48 37,48 35,53 48,76 45,44 43,28 57,15 53,54 51,17 65,65 61,75 59,20 74,22 70,06 67,33 9 Distribuição 2 0 t2 + P( g2 t2 ) P( 102 3,25) ? P( 102 3,25) 0,975 P( 152 ?) 0,9 P( 152 8,55) 0,9 g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0,005 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,95 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,64 50,99 52,34 53,67 66,77 79,49 91,95 104,21 116,32 128,30 140,17 0,010 6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 63,69 76,15 88,38 100,43 112,33 124,12 135,81 0,025 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 59,34 71,42 83,30 95,02 106,63 118,14 129,56 0,050 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 55,76 67,50 79,08 90,53 101,88 113,15 124,34 0,100 2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,20 34,38 35,56 36,74 37,92 39,09 40,26 51,81 63,17 74,40 85,53 96,58 107,57 118,50 0,900 0,016 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,09 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47 17,29 18,11 18,94 19,77 20,60 29,05 37,69 46,46 55,33 64,28 73,29 82,36 0,950 0,0039 0,10 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 11,59 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 26,51 34,76 43,19 51,74 60,39 69,13 77,93 0,975 0,990 0,995 0,0010 0,00016 0,00004 0,051 0,020 0,010 0,22 0,11 0,072 0,48 0,30 0,21 0,83 0,55 0,41 1,24 0,87 0,68 1,69 1,24 0,99 2,18 1,65 1,34 2,70 2,09 1,73 3,25 2,56 2,16 3,82 3,05 2,60 4,40 3,57 3,07 5,01 4,11 3,57 5,63 4,66 4,07 6,26 5,23 4,60 6,91 5,81 5,14 7,56 6,41 5,70 8,23 7,01 6,26 8,91 7,63 6,84 9,59 8,26 7,43 10,28 8,90 8,03 10,98 9,54 8,64 11,69 10,20 9,26 12,40 10,86 9,89 13,12 11,52 10,52 13,84 12,20 11,16 14,57 12,88 11,81 15,31 13,56 12,46 16,05 14,26 13,12 16,79 14,95 13,79 24,43 22,16 20,71 32,36 29,71 27,99 40,48 37,48 35,53 48,76 45,44 43,28 57,15 53,54 51,17 65,65 61,75 59,20 74,22 70,06 67,33 10 Distribuição 2 Se X i ~ N ( , 2 ) Xi ~ ?N (0,1) n ( X i 1 i ( X i )2 2 ~ ?12 )2 ~ ? n2 2 Substituindo-se por X tem-se que n ( X i 1 i X )2 ~ n21 2 n mas s 2 ( X i 1 i X )2 n 1 (perde-se 1 grau de liberdade) n ( X i X ) (n 1) s 2 i 1 2 (n 1) s 2 2 ~ n21 11 Intervalo de Confiança para 2 (n 1) s 2 2 P( xa 2 ~ n21 (n 1) s 2 2 xb ) 1 1 2 1 P 1 2 xa xb (n 1) s n21 2 2 1 0 xa xb + P( xa n21 xb ) 1 (n 1) s 2 (n 1) s 2 2 P 1 xa xb IC para 2 12 Intervalo de Confiança para 2 Exemplo: uma v.a. qualquer tem uma distribuição desconhecida com média e variância 2 desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a variância amostral. Construa um IC de 95% para 2 supondo que s2 = 2,34. 242 (n 1) s 2 (n 1) s 2 2 P 0,95 xa xb 24 .2,34 24 .2,34 P 2 0,95 39,36 12, 40 2,5% 0 xa P 1, 43 2 4,53 0,95 2,5% 95% ? 12,40 xb + ? 39,36 13 Distribuição t de student [( g 1) 2] x2 f ( x) 1 g ( g 2) g tg ( g 1) 2 x - E( X ) 0 Var ( X ) g g 2 X ~ tg 0 + (lê-se: X tem distribuição t de student com g graus de liberdade) Propriedades: a) se Z ~ N (0,1) e W ~ g2 então Z ~ tg W g b) se g então tg N (0,1) 14 Distribuição t de student 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 - 5 0 10 t P(Tg t ) P(T10 2,764) ? P(T10 2,764) 0,01 15 + 20 g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 120 0,1 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,299 1,296 1,289 1,282 0,05 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,676 1,671 1,658 1,645 0,025 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,009 2,000 1,980 1,960 0,01 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,403 2,390 2,358 2,326 0,005 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,678 2,660 2,617 2,576 15 Distribuição t de student Se X i ~ N ( , 2 ) X (n 1) s 2 ~ ?N (0,1) 2 ~ ? n21 n X n 2 ( n 1) s ( n 1) 2 X n s X ~ t?n 1 s n 16 Intervalo de Confiança para X ~ N ( , 2 ) T e 2 desconhecidos X ~ ?tn 1 s n 0,14 tn 1 0,12 0,1 X 0,08 t) 1 s 0,06 n 0,04 s s P ( t X t ) 1 0,02 n n P ( t 2 0 0 P( X t s s X t ) 1 n n - 5 2 1 -t 10 0 t 15 + P( t T t ) 1 IC para 17 Intervalo de Confiança para Exemplo: uma v.a. qualquer tem uma distribuição desconhecida com média e variância 2 também desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e a variância amostral. Construa um IC de 95% para supondo que X 12,7 e s2 = 16. 0,14 t24 0,12 P( X t s s X t ) 0,950,1 n n 0,08 P(12,7 2,064 0,06 4 4 12,7 2,064 ) 0,95 0,04 25 25 2,5% 2,5% 95% 0,02 P(12,7 1,6512 12,7 1,6512)0 0,95 0 P(11,0488 14,3512) 0,95 - 5 -t 10 0 t 15 + ? 2,064 18 Intervalo de Confiança para proporção p Numa urna, há N bolas, sendo K vermelhas e N – K azuis. Assim, pode-se dizer que K/N representa a proporção p de bolas vermelhas na urna (que por sua vez, representa a probabilidade de se selecionar uma bola vermelha desta urna). Mas se N e K são desconhecidos, como estimar p? Considere que n bolas são escolhidas ao acaso (com reposição), definindo-se Y como o número de bolas vermelhas entre as n selecionadas, qual a distribuição de Y? Y ~ Binomial n Y Xi Xi ~ Bernoulli p = P(Xi = 1) i 1 Y ?Proporção Amostral pˆ n pq pˆpˆ ~~ N , ?N(?,?) ( p,?) n (se n é grande) Y E (Y ) np p E ( pˆ ) E n n n Y Var (Y ) npq pq 2 Var( pˆ ) Var 2 n n n n 34 Intervalo de Confiança para proporção p pˆ ~ N ( p, Z pq ) n pˆ p ~ ?N (0,1) pq n pˆ p P( z z) 1 pq n 0,14 N (0,1) 0,12 0,1 0,08 2 0,06 0,04 P( pˆ z pq pq 0,02 p pˆ z ) 1 n n 0 0 P( pˆ z ˆˆ ˆˆ pq pq p pˆ z ) 1 n n - 5 2 1 -z 10 0 z 15 + P( z Z z ) 1 IC para p 35 Intervalos de Confiança (Resumo) N (0,1) se 2 é conhecida tn 1 se 2 é desconhecida para para 2 n21 para p N (0,1) 38 Intervalos de Confiança (Resumo) Observações importantes: • Os ICs são construídos a partir de uma estatística que relaciona o estimador pontual ao seu parâmetro; • Para se conseguir ICs mais estreitos, conservando-se o mesmo nível de confiança, deve-se aumentar o tamanho da amostra; • Caso o IC seja utilizado para verificar se o parâmetro para o qual o IC foi construído tem um determinado valor, deve-se aceitar qualquer valor presente dentro do intervalo considerando o nível de confiança adotado; Ex: se o IC para for P(20,3 < < 43,8) = 95% pode ser 30? SIM* pode ser 21? SIM considerando 95% de confiança pode ser 45? NÃO * “não se pode afirmar que a verdadeira média não seja 30” ou “não se pode negar que ela seja 30” 39