DATA Aula CONTEÚDO PROGRAMÁTICO 10/03 Segunda 1 Níveis de mensuração, variáveis, organização de dados, apresentação tabular 12/03 Quarta 2 Apresentação tabular e gráfica 17/03 Segunda 3 Apresentação gráfica; medidas de tendência central e de posição 19/03 Quarta 4 Medidas de tendência central e de posição; medidas de dispersão ou de variabilidade 24/03 Segunda 5 Medidas de correlação, noções de regressão linear simples, estimando a equação da reta 26/03 Quarta 6 Medidas de associação 31/03 Segunda 7 Consolidação de conteúdo - Exercícios 02/04 Quarta 8 Avaliação 1 14/04 Segunda 9 Noções de probabilidade; noções de amostragem; distribuição binomial 16/04 Quarta 10 Distribuição normal, distribuição amostral da média 23/04 Segunda 11 Teste de hipóteses de parâmetros populacionais – conceitos; teste de hipóteses de uma proporção populacional 28/04 Segunda 12 Teste de hipóteses de associação 30/04 Quarta 13 Avaliação 2 12/05 Segunda 14 Teste de hipóteses de uma média populacional 14/05 Quarta 15 Teste de hipóteses de duas médias com amostras independentes e dependentes 19/05 Segunda 16 Teste de mais de duas médias – ANOVA um fator fixo 21/05 Quarta 17 Estimação de parâmetros por intervalo de confiança: média e proporção 26/05 Segunda 18 Consolidação de conteúdo – Exercícios 28/05 Quarta 19 Avaliação 3 02/06 Segunda 20 Encerramento Aula 17 - Estimação por Intervalo 1 Estimação por ponto X é uma característica que na população possui distribuição normal com média 2 (desvio padrão e variância ). Seja X1, X2, X3, ...Xn uma amostra aleatória de tamanho n extraída desta população. Os parâmetros 2 e podem ser estimados com base na amostra. Se o estimador for um único valor, a estimação é chamada de estimação por ponto. Média aritmética n Populacional Parâmetro estimador : X X i 1 i n Variância n Populacional Parâmetro 2 S (2n ) (X i 1 estimador : i X )2 ou n n S (2n 1) (X i 1 i X )2 n 1 Atenção: Antes dos dados serem coletados, os estimadores são variáveis aleatórias. Aula 17 - Estimação por Intervalo 2 Estimação por intervalo Intervalo de confiança: É um conjunto de valores calculados com base na amostra. Pressupõe-se que cubra o parâmetro de interesse com um certo grau (nível) de confiança. O grau de confiança tem origem na probabilidade associada ao processo de construção do intervalo antes de se obter o resultado amostral. O grau de confiança mais comumente utilizado é o de 95%. Seria impossível construir um intervalo de 100% de confiança a menos que se medisse toda a população. Na maioria das aplicações não sabemos se um específico intervalo de confiança cobre o verdadeiro valor. Só podemos aplicar o conceito freqüentista de probabilidade e dizer que se realizarmos a amostragem infinitas vezes e construirmos intervalos de confiança de 95%, em 95% das vezes os intervalos de confiança estarão corretos (cobrirão o parâmetro) e 5% das vezes estarão errados. Aula 17 - Estimação por Intervalo 3 Exemplos de intervalo de confiança IMC médio, desvio padrão (dp) e IC de 95% segundo sexo e idade (anos). Duas escolas públicas de São Paulo, 2004. Sexo(1) Idade (anos)(2) 7 Masculino Feminino Total 8 9 10 IMC (kg/m ) médio e desvio padrão (dp) (IC 95%) 16,8 (2,5) 17,9 (4,0) 17,3 (3,1) 18,9 (4,0) (16,2 – 17,4) (17,0 – 18,9) (16,5 – 18,1) (17,9 – 19,8) 16,4 (2,30) 16,9 (2,9) 17,4 (3,3) 18,7 (3,1) (15,9 – 17,0) (16,2 – 17,6) (16,6 – 18,2) (17,9 – 19,5) 16,6 (2,4) (16,2 – 17,0) 2 17,4 (3,5) (16,8 – 18,0) 18,7 (3,2) (17,9 – 19,5) 18,8 (3,7) (18,2 – 19,4) (1) Masculino (n=281), Feminino (n=275); (2) 7 anos (n=151); 8 anos (n=138); 9 anos (n=126); 10 anos (n=141) Fonte: Claudia Regina Koga. Dissertação de Mestrado (dados preliminares) Aula 17 - Estimação por Intervalo 4 IC para a proporção populacional “Os dados de composição corporal obtidos pela utilização da BIA, classificados em duas categorias: sem risco de doença cardiovascular e com risco de DCV, resultaram em prevalência de risco de DCV igual a 42,3% (IC95%: 38,1 - 46,5%). Representação gráfica A linha vertical representa o parâmetro populacional. O gráfico foi gerado via programa de computador. São apresentados 50 intervalos de confiança para amostras de tamanho n=20. As linhas horizontais representam os intervalos de confiança. Se o intervalo de confiança não contiver o parâmetro, a linha horizontal não cruzará a linha vertical. A linha vertical é o parâmetro. No exemplo, 3 intervalos não cobrem ("capturam") o parâmetro. Aula 17 - Estimação por Intervalo 5 Construção do intervalo de confiança para a média populacional Pressuposição: A amostra deve ser obtida de forma aleatória É necessário utilizar as propriedades do teorema central do limite X ~ N (, ) ; X ~ N ( , Padronizando-se a média X , obtém-se Z X ) n ~ N (0,1) , que permite calcular n P( z X z) 1 . n P(1,96 Para 5% , X 1,96) 0,95 n P(1,96 X 1,96 n P( X 1,96 P( X 1,96 n n n ) 0,95 X 1,96 X 1,96 n n ) 0,95 ) 0,95 Aula 17 - Estimação por Intervalo 6 Obtém-se um intervalo aleatório centrado na média amostral o qual possui 95% de probabilidade de conter a verdadeira média populacional. O parâmetro será estimado por um conjunto de valores provenientes de uma amostra. Quando isto é feito, a média x 1,96 n é estimada x 1,96 por n um determinado valor ˆ x X ( ), e o intervalo deixa de ser uma variável aleatória. Este intervalo cobre (contém) ou não cobre (não contém) a verdadeira média (parâmetro). Diz-se então que a confiança que se deposita neste intervalo é de 95% porque antes de coletar a amostra de tamanho n, existia, associada a ele, uma probabilidade de 95% de que contivesse a média populacional. Por isso chama-se intervalo de confiança para a média populacional. ( x 1 , 96 ; x 1 , 96 ) x 1 , 96 IC(95%) : n n ou n Aula 17 - Estimação por Intervalo 7 Interpretando Intervalos de Confiança Um intervalo de confiança para um parâmetro é um intervalo de valores no qual pode-se depositar uma confiança que o intervalo cobre (contém) o valor do parâmetro. Por exemplo, se com base em uma amostra encontrarmos que o intervalo (3200 ; 3550) é um intervalo de 95% de confiança para a média ( ) da população de valores do peso médio ao nascer de recém-nascidos no Município de São Paulo, então podemos estar 95% confiantes que o conjunto de valores 3220 – 3500 gramas cobre (contém) o verdadeiro peso médio ao nascer da população. Pode-se também pensar no intervalo de confiança a partir da seleção de milhares de amostras de uma população. Para cada amostra calcula-se um intervalo de confiança com grau de confiança 100(1- )%, para um parâmetro da população. A porcentagem de intervalos que contém o verdadeiro valor do parâmetro é 100(1- ). Na prática, tomamos somente uma amostra e obtemos somente um intervalo. Mas sabemos que 100(1- )% de todas as amostras tem um intervalo de confiança contendo o verdadeiro valor do parâmetro, portanto depositamos uma confiança 100(1- )% que o particular intervalo contém o verdadeiro valor do parâmetro. Aula 17 - Estimação por Intervalo 8 Amplitude do intervalo Para um grau de confiança especificado (por exemplo, 95%), desejamos o intervalo tão pequeno quanto possível. Ex: o intervalo de confiança de 95% para o peso médio ao nascer (gramas) de recém-nascidos no Município de São Paulo de (2500, 4000) traz pouca informação prática porque sabe-se, da experiência, que a média populacional está neste intervalo. Deseja-se um intervalo com amplitude de poucas gramas. É o tamanho da amostra que determina a amplitude do intervalo. Quanto maior a amostra, menor será o intervalo. Aula 17 - Estimação por Intervalo 9 Fórmulas para intervalos de confiança: As fórmulas dos intervalos de confiança são derivadas da distribuição amostral da estatística Intervalo de confiança para a média populacional com variância populacional conhecida Pressuposição: A amostra deve ser obtida de forma aleatória Estatística: média populacional - IC x z / 2. Intervalo de confiança desconhecida para a média x n ; x z / 2. populacional com x n variância populacional Sx Sx IC : x tn1, 2. ; x tn1, 2. n n que pode ser escrito como x t 2,n1 s n . Aula 17 - Estimação por Intervalo 10 Exercício 1 Uma amostra de 25 adolescentes meninos apresenta peso médio de 56 kg e desvio padrão 8 kg. a) encontre o intervalo de confiança de 95% para o peso médio da população da qual esta amostra foi sorteada; b) interprete o intervalo de confiança encontrado Exercício 2 Tomam-se, os pesos de uma amostra aleatória de 12 corredores do sexo masculino. Os dados são apresentados abaixo. Estime o peso médio da população, construindo o intervalo de confiança de 95%. Interprete o intervalo de confiança encontrado. 67,8 61,9 63,0 53,1 62,3 59,7 55,4 58,9 60,9 69,2 63,7 68,3 Exercício 3 Uma máquina enche pacotes de café com variância igual a 100g. Ela estava regulada para encher pacotes com 500g, em média. Uma amostra de 100 pacotes apresentou média igual a 485g. Construa um intervalo de confiança de 95% para µ. Diga se a máquina está trabalhando corretamente ou se precisa ser regulada. Aula 17 - Estimação por Intervalo 11 Intervalo de confiança aproximado para o número de sucessos populacional Pressuposições: 1- np e nq5 2- a amostra deve ser obtida de forma aleatória Estatística: número de sucessos populacional - X X é uma variável aleatória que segue uma distribuição binomial com parâmetros n e p, ie X~ B(n,p). Para n grande, X ~N( np, npq ) com intervalo de confiança para X dado por ICX npˆ z / 2. npˆ qˆ , com pˆ e qˆ estimados na amostra. Aula 17 - Estimação por Intervalo 12 Exemplo: Supor que em uma amostra de 200 casais encontrou-se 10 onde a esposa era mais alta que o marido. Construir o intervalo de confiança de 95% para o número de esposas que são mais altas que seus maridos na população. IC95%, X : 200x0,05 1,96 200x0,05x0,95;200x0,05 1,96 200x0,05x0,95 resultando em IC(95%, Número de casais na população): (4 ; 16) Aula 17 - Estimação por Intervalo 13 Intervalo de confiança aproximado para a proporção populacional Pressuposições: 1- np e nq5 2- a amostra deve ser obtida de forma aleatória Estatística: proporção de sucessos populacional - X N Seja X uma variável aleatória que segue uma distribuição binomial. X~ B(n,p). A proporção de sucessos Para n grande, X p N p ~ N ( p, Com intervalo de confiança para Com pˆ e qˆ , é estimada na amostra por X N pˆ X n pq ). n dado por IC p pˆ z / 2 . pˆ qˆ n . estimados na amostra. Para o exemplo anterior; IC95%, p : 0,05 1,96 0,05x0,95 0,05x0,95 ;0,05 1,96 200 200 IC(95%, p): (2,0% ; 8,0%) Aula 17 - Estimação por Intervalo 14 Resumo: Intervalo de Confiança Média populacional: Com variância conhecida Com variância 2 2 : x Z / 2 desconhecida: 2 n x t / 2 , s n , n 1 Número de sucessos populacional: X Intervalo aproximado: npˆ Z / 2 npˆ qˆ pˆ onde é a proporção de sucessos na amostra. Proporção populacional (p) Intervalo aproximado: pˆ Z / 2 onde pˆ npˆ , npˆ (1 pˆ ) 5 pˆ (1 pˆ ) n é a proporção de sucessos na amostra. Aula 17 - Estimação por Intervalo 15 Apresentação gráfica do efeito do tamanho da amostra: Para amostras menores (n=5), as larguras dos intervalos são maiores a proporção de intervalos que "capturam" o parâmetro é parecida com a anterior (para n=20). Portanto, o tamanho da amostra não interfere na proporção de “captura” do parâmetro mas sim na precisão do estimador. Aula 17 - Estimação por Intervalo 16 Efeito do grau de confiança Para n=20 e =0,25, obtém-se intervalos com os apresentados a seguir Os intervalos são mais estreitos do que para n=20 e =0,05. Uma porcentagem bem maior não contém o parâmetro. Isto é o que 75% de confiança significa. Do total de todas as possíveis amostras, 75% delas resultará em intervalos de confiança que contêm o verdadeiro valor do parâmetro. Aula 17 - Estimação por Intervalo 17 Exemplo Os dados a seguir são provenientes do grupo Western Collaborative Group Study, criado na Califórnia em 1960-61. Foram estudados 3154 homens de meia idade para investigar a relação entre padrões de comportamento e risco de doença coronariana. Os dados apresentados são de 40 homens para os quais foram medidos os níveis de colesterol (mg por 100ml) e realizada uma categorização segundo comportamento. O comportamento de tipo A era caracterizado pela urgência, agressividade e ambição. O de tipo B era relaxado, não competitivo e menos preocupado. Tipo A: nível de colesterol 233 291 312 254 276 234 Tipo B: nível de colesterol 344 185 263 226 175 242 Medidas(mg/100ml) Média Variância (n-1) Desvio padrão (n-1) 250 181 246 252 246 248 224 153 Tipo A 245,05 1342,37 36,64 197 252 212 183 268 202 188 137 224 218 250 202 239 212 239 325 148 194 169 213 Tipo B 210,3 2336,747 48,33991 Com base nos valores fornecidos, a) calcule o intervalo de confiança para o nível médio populacional de colesterol para cada um dos tipos. b) Interprete os intervalos. Explique o que eles significam c) Compare os resultados. IC(95%) para a média populacional com desvio padrão populacional desconhecido: x t n 1 IC(95%) Tipo A: 245,05 2,09336,64 (227,9 261,2) 20 IC(95%) Tipo B: 210,3 2,09348,34 (187,7 232,9) Aula 17 - Estimação por Intervalo 20 S n 18 Exemplo São apresentados dados sobre o estado nutricional de 1226 crianças brasileiras de 2 anos de idade, segundo sexo. Estado nutricional Masculino Feminino total Desnutridas 29 20 49 Normais 574 603 1177 Total 603 623 1226 Fonte: retirado de material de aula da Profa M. R. Cardoso Com base nos dados calcule a proporção de crianças desnutridas e respectivos intervalos de confiança de 90% segundo sexo. Discuta os resultados. Proporção de crianças desnutridas do sexo masculino: pˆ Masc 29 0,048 603 20 Proporção de crianças desnutridas do sexo feminino: pˆ Fe min 0,032 623 IC(95%) aproximado para a proporção populacional: pˆ 1,96 pˆ qˆ n IC(90%) Sexo masculino: 0,048 1,645 0,048x0,952 603 IC(90%) Sexo feminino: 0,032 1,645 0,032x0,968 623 (0,034 0,062) (0,02 0,044) Aula 17 - Estimação por Intervalo 19 Exercício 1 Em um estudo realizado para estimar a prevalência de pessoas que consomem alimentos integrais utilizou uma amostra de 20 pessoas, encontrando-se 4 pessoas com a característica de interesse (consumo de alimentos ricos em fibras). Apresente o intervalo de confiança de 95% para a proporção populacional de pessoas que consomem alimentos ricos em fibras. Interprete o intervalo de confiança encontrado. Exercício 2 Uma amostra aleatória de 60 donas de casa revela que 70% preferem a marca A de lazanha congelada. Construir um intervalo de confiança de 90% para estimar a proporção populacional que tem esta mesma preferência. Aula 17 - Estimação por Intervalo 20