Estatı́stica Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estatı́stica-UFPR Email: [email protected] Resumo Este curso apresenta uma introdução aos métodos estatı́sticos para modelagem de dados. Neste curso, o aluno pensará em problemas práticos de uma forma quantitativa e ganhará um entendimento dos princı́pios básicos em estatı́stica. A obtenção de um conhecimento sólido das idéias básicas dará ao aluno confiança para abordar métodos estatı́sticos mais avançados que podem ser encontrados no futuro. 1 Livros Bussab, W. e Morettin, P. Estatı́stica Básica. Editora Atlas. Speed, T. & Nolan, D. Stats Labs. Soares, J.F. Estatı́stica Conteúdo 1. Introdução: Por que há a necessidade de Estatı́stica? 2. Estatı́sticas Descritivas: sumário de dados, gráfico de barras, gráfico de setores, histograma, ramo-e-folhas, mediana, moda, desvio padrão, amplitude inter-quartis,... 3. Populaçoes e amostras: usando amostras para aprender sobre a população 4. Intervalos de confiança: estimando a média populacional a partir de uma amostra 5. Testes de hipóteses: idéia básica e testes para uma amostra 6. Comparação de dois grupos: As mensurações num grupo tendem a ser maiores em média do que em outro? 7. Correlação: verificando se os valores de duas quantidades tendem a ser relacionadas 8. Regressão: descrevendo como o comportamento de uma quantidade muda com o valor da outra 2 1 1.1 Introdução O que é Estatı́stica? Primeiro deve-se estabelecer o que se deseja dizer com “estatı́stica”. Ela tem pelo menos três significados: 1. coleção de informações numéricas ou dados, 2. medidas resultantes de um conjunto de dados, como por exemplo médias, 3. métodos usados na coleta e interpretação de dados. Qual é o papel da estatı́stica na ciência? • Na ciência, são realizados estudos experimentais ou observacionais, levando à coleção de dados numéricos. • O propósito da investigação é responder uma questão cientı́fica. • O padrão de variação nos dados faz com que a resposta não seja óbvia. • Em geral, a disciplina de estatı́stica refere-se a métodos para coleta e descrição dos dados, e então a verificação da força da evidência nos dados pró ou contra as idéias cientı́ficas. A presença de uma variação não previsı́vel nos dados faz disso uma tarefa pouco trivial. 1.2 Variação Amostral Alguns exemplos onde a variação está presente no dado podem ser encontrados em Landim (1997). 3 2 2.1 Estatı́stica Descritiva Tipos de dado A interpretação das listas de números a olho é muito difı́cil. Ao invés disso, nós deverı́amos produzir um resumo verbal ou numérico e/ou usar métodos gráficos para descrever os pontos principais dos dados. O método mais apropriado dependerá da natureza dos dados, e aqui podemos distinguir dois tipos principais: 1. Dados qualitativos ou categóricos que podem ser: (a) nominais, por exemplo • sexo: masculino, feminino • classificação de fósseis (b) ordinais, i.e. categorias ordenadas, tais como • salinidade: baixa, média, alta • abundância: dominante, abundante, frequente, ocasional, raro 2. Dados quantitativos ou numéricos que podem ser: (a) discretos, i.e. contagens ou número inteiros, por exemplo • número de ovos postos pela tartaruga marinha • número de ataques de asma no ano passado (b) contı́nuos, i.e. medidas numa escala contı́nua, tais como • volume, área, peso, massa • velocidade de corrente As distinções são menos rı́gidas do que a descrição acima insinua. Por exemplo, em geral nós tratarı́amos idade como uma variável contı́nua, mas se a idade for registrada pelo ano mais próximo, podemos trata-la como discreta, e se separarmos a amostra em “crianças”, “adultos jovens”, “idade média”, “velhos”, por exemplo, então temos faixa etária como uma variável ordenada categórica. No entanto, em geral é recomendado manter os dados em sua forma original, categorizando os dados somente para propósitos de apresentação. 4 2.2 Dados qualitativos Para sumarizar dados qualitativos numericamente, utiliza-se contagens, proporções, percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia são homens, poderı́amos relatar a taxa como uma proporção (0.5) ou provavelmente ainda melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000 pessoas são portadores de uma doença rara poderı́amos expressar isto como uma proporção observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil. 2.2.1 Tabulando dados Frequentemente o primeiro passo da descrição de dados é criar uma tabela de frequência. Por exemplo, as espécies de “woodlice” caindo numa armadilha foram: Species Oniscus Porcellio Philoscia Armadilidium tally ||||||||||||||| |||||||| ||||| || ni 12 8 5 2 N = 27 ni /N 12/27 8/27 5/27 2/27 pi 0.444 0.296 0.185 0.074 Σpi = 1 Percentage 44.4% 29.6% 18.5% 7.4% Num relatório, a segunda coluna não seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, então é conveniente colapssar algumas das categorias com somente uma ou duas observações em outra categoria chamada “outros”. Table showing the species of 27 woodlice that fell in a pit-fall trap: Species Oniscus Porcellio Philoscia Armadilidium Frequency 12 8 5 2 Percentage 44.4% 29.6% 18.5% 7.4% Tabelas simples como esta são na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou três categorias. 5 2.2.2 Resumindo numericamente Considere o seguinte conjunto de dados que mostra os escores de abundância médios DAFOR de ocorrência de Nardus stricta em 100 áreas investigadas em Exmoor. Dominante Abundante Frequente Ocasional Raro 8 33 32 17 10 A moda de um conjunto de dados categóricos é a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque é muito dependente da forma como os dados são categorizados. Para os dados de “woodlice” a moda é Oniscus. Para os dados acima, a categoria modal é “Abundante”, mas por muito pouco. A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este é valor do “meio”, mais comumente usado para dados quantitativos. A mediana não faz sentido para os dados “woodlice”. Para os dados de abundância, a categoria mediana é “Frequente”, porque 50% dos dados estão em categorias superiores, e menos do que 50% estão em categorias inferiores. A mediana é mais robusta do que a moda pois é menos sensı́vel à categorização adotada. 2.2.3 Gráficos de Barras 0 10 Frequency 20 30 Dados qualitativos, particularmente quando as categorias são ordenadas, são usualmente bem ilustrados num simples gráfico de barras onde a altura da barra é igual à frequência. Rare Occasional Frequent 6 Abundant Dominant 2.2.4 Gráfico de setores Oniscus Gráfico de setores também podem ser úteis para apresentação de dados categóricos ordenados. Os setores do gráfico são desenhados de tal forma que eles tenham área proporcional à frequência. Então para os dados “woodlice”, os ângulos seriam 0.444 × 360 = 160◦ para Oniscus, etc. Arma dilidiu llio rce m ia sc ilo Ph Po 2.3 2.3.1 Dados quantitativos Histograma De longe o método mais comum de apresentação de dados numéricos é o histograma, relacionado com o gráfico de barras para dados categóricos. As áreas dos retângulos resultantes devem ser proporcionais à frequência. Algumas vezes é conveniente agregar classes de frequência nos extremos da distribuição de forma que os intervalos têm larguras diferentes. Cuidado ao fazer isso - um intervalos que é duas vezes a largura de um outro deve tem altura igual à metada de sua frequência (para preservar a área contida dentro do intervalo) Da mesma forma um intervalo que é três vezes a largura dos outros deve ter um terço da altura de sua frequência observada. Exemplo. 150 peixes mortos foram encontrados vı́timas de contaminção do rio e seus comprimentos foram medidos em milı́metros. As medidas foram expressas na forma de tabela de frequência. Comprimento do peixe (mm) 100-109 110-119 120-129 130-139 140-149 150-159 160-169 170-179 7 Frequência 7 16 19 31 41 23 10 3 40 30 Frequency 20 10 0 100 120 140 Fish lengths (mm) 160 180 O histograma construı́do desses dados é mostrado abaixo. Gráfico de Ramos-e-Folhas Um método gráfico que merece ser mais amplamente utilizado quando a quantidade de dados não é muito grande é o gráfico de ramos-e-folhas como ilustrado a seguir. Exemplo. Um estudo geoquı́mico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr 10.6 14.3 11.5 18.4 11.8 14.1 13.0 9.4 17.4 15.8 13.7 12.6 16.5 11.1 13.5 15.2 12.0 13.7 15.8 15.4 14.0 14.7 17.0 12.5 10.0 16.6 13.6 12.9 18.2 11.4 16.6 Uma vez que a escala tenha sido determinada, a qual define os “ramos” à esquerda da linha veritcal, podemos facilmente escrever os dados no gráfico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos então ordenar as “folhas” no diagrama à direita: 8 9 10 11 12 13 14 15 16 17 18 4 6 5 5 7 1 2 5 4 2 0 4 9 0 3 4 6 0 4 1 6 7 0 8 6 8 0 6 7 8 9 10 11 12 13 14 15 16 17 18 5 4 0 1 0 0 0 2 5 0 2 6 4 5 5 1 4 6 4 4 5 6 6 3 8 6 8 9 7 7 8 7 Acima os ramos são números inteiros e as folhas são valores depois do ponto decimal, mas isto não é essencial em geral; por exemplo, os ramos podem representar centenas e as folhas dezenas (com unidades arredondadas para o decimal mais próximo; as folhas devem ter um único dı́gito). Nota: é importante escrever as folhas em colunas igualmente espaçadas, caso contrário pode resultar uma figura distorcida. O gráfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informação. 0 1 2 Frequency 3 4 5 Compare-o com um histograma para os mesmos dados: 8 10 12 14 16 Concentracao de Cr (ppm) 9 18 20 2.3.2 Resumindo numericamente Para resumir numericamente dados quantitativos o objetivo é escolher medidas apropriadas de locação (“qual o tamanho dos números involvidos?”) e de dispersão (“quanta variação existe?”) para os tipos de dados. Existem três escolhas principais para a medida de locação, a chamada “3 Ms”, as quais estão ligadas a certas medidas de dispersão como segue: M média (o valor ‘médio’) mediana (o valor do ‘meio’) moda (o valor ‘mais comum’) 2.3.3 ‘Dispersão’ desvio padrão IQR proporção Média, variância e desvio padrão Para resumir dados quantitativos aproximadamente simétricos, é usual calcular a média aritmética como uma medida de locação. Se x1 , x2 , . . . , xn são os valores dos dados, então podemos escrever a média como x= x1 + x2 + . . . + xn = n Pn i=1 xi n , P onde ‘ ni=1 xi = x1 + x2 + . . . + xn ’ e frequentemente é simplificada para P mesmo x que significa ‘adicione todos os valores de x’. P xi ou até A variância é definida como o ‘desvio quadrático médio da média’ e é calculada de uma amostra de dados como 2 s = Pn − x)2 = n−1 i=1 (xi Pn 2 i=1 (xi ) − nx2 . (n − 1) A segunda versão é mais fácil de ser calculada, embora muitas calculadoras têm funções prontas para o cálculo de variâncias, e é raro ter que realisar todos os passos manualmente. Comumente as calculadoras fornecerão a raiz quadrada da variância, o desvio padrão, i.e. √ √ s = variância = s2 a qual é medida nas mesmas unidades dos dados originais. Uma informção útil é que para qualquer conjunto de dados, pelo menos 75% deles fica dentro de uma distância de 2 desvio padrão da média, i.e. entre x̄ − 2s e x̄ + 2s. Exemplo. Sete homens foram pesados, e os resultados em kg foram: 57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6. 10 A média é 454.3/7 = 64.9 kg, a variância é (29635.05 − 454.32 /7)/6 = 25.16 kg2 √ e o desvio padrão é 25.16 = 5.02 kg. 2.3.4 A mediana e a amplitude inter-quartis Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mı́nimo e o máximo. Eles são obtidos ordenando os dados do menor para o maior, e 3(n+1) n+1 então conta-se o número apropriado de observações: ou seja é n+1 para 4 , 2 e 4 o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de observações, a mediana é a média dos valores do meio (e analogamente para os quartis inferior e superior). A medidade de dispersão é a amplitude inter-quartis, IQR = Q3 − Q1, i.e. é a diferença entre o quartil superior e o inferior. Exemplo. O número de crianças em 19 famı́lias foi 0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10 A mediana é o (19+1) / 2 = 10o valor, i.e. 3 crianças. O quartil inferior e superior são os valores 5o e 15o , i.e. 2 e 6 crianças, portanto amplitude inter-quartil é de 4 crianças. Note que 50% dos dados estão entre os quartis inferior e superior. 11 2.3.5 Box-and-Whisker Plots Box-and-Whisker plots ou simplesmente box-plots são simples representações diagramáticas dos cinco números sumários: (mı́nimo, quartil inferior, mediana, quartil superior, máximo). Um box-plot para os dados geoquı́micos fica como mostrado a seguir. 10 2.3.6 12 14 16 18 A moda Nem todos os conjuntos de dados são suficientemente balanceados para o cálculo da média ou mediana. Algumas vezes, especialmente para dados de contagem, um único valor domina a amostra. A medida de locação apropriada é então a moda, a qual é o valor que ocorre com maior frequência. A proporção da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de dispersão. Algumas vezes, podemos distinguir claramente ‘picos’ na frequência dos valores registrados. Neste caso (chamado bimodal) deverı́amos apresentar ambas as localizações. Dados deste tipo são particularmente difı́ceis de resumir (e analisar). Exemplo. Dez pessoas registraram o número de copos de cerveja que eles tomaram num determinado sábado: 0, 0, 0, 0, 0, 1, 2, 3, 3, 6 A moda é 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informação separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos. 12 2.4 Dados múltiplos Os resultados de um estudo tipicamente envolverão mais do que uma única amostra de dados como discutido até aqui. Representações gráficas são úteis para comparar grupos de dados ou para verificar se exitem relações entre eles. Existem muitas possibilidades, mas a mais adequada dependerá das peculiaridades de cada conjunto de dados. Além dos exemplos abaixo, podemos criar combinações de métodos já discutidos. Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam ser facilmente comparados). Para um número diferente de grupos, uma série de box-plots verticais funciona bem como um sı́mples resumo dos dados. Para combinações de dados categóricos, uma série de gráficos de setores podem ser produzidos, i.e. dois gráficos de setores, um para homens e um para mulheres. 2.4.1 Gráficos de pontos 90 Para avaliar se existe uma relação entre duas variáveis contı́nuas, podemos produzir um gráfico de pontos. É importante que o eixo x faça sentido. Em geral faz pouco sentido unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Sı́mbolos diferentes podem ser usados para diferentes grupos para adicionar uma nova dimensão ao gráfico. O gráfico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino. M MMM 80 F Weight (kg) 70 M M 60 F M 50 F F F FF M F F F F F M F F M M M M M F M MM M M M 40 F 140 150 160 170 Height (cm) 180 190 200 Para mais do que duas variáveis, pode-se produzir gráficos entre todos os pares possı́veis para produzir uma matriz de gráficos de pontos. 13 2.4.2 Gráfico temporal Um caso especial de um gráfico de pontos é um gráfico temporal onde ‘tempo’ está no eixo x. As medidas são feitas ao longo do tempo. Nestes casos é usual unir pontos sucessivos por retas, e é em geral uma boa prática deixar o eixo x mais longo do que o eixo y. Abaixo mostramos as temperaturas diárias médias em Philadelphia, USA nos dois primeiros meses de 1980. Average temperature -10 -5 0 5 • • • •• •• 0 • • • • • •• • •• • • • • • • • •• • • • • 10 20 •• •• •• • 30 Day 14 ••• • • ••• ••••• 40 • • •• •• • 50 • • • 60 2.4.3 Ladder plot O ladder plot não é um gráfico do tipo padrão mas pode ser útil para visualizar dados pareados. Considere o seguinte exemplo. Um ornitologista deseja saber se um determinado local é usado por pássaros migratórios de uma certa raça para engorda antes de migrar. Ele captura alguns pássaros em Agosto e pesa-os, então em Setembro ele tenta re-capturar os mesmos pássaros e faz novas medidas. Ele re-capturou 10 dos pássaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo mostra as massas desses pássaros. Mass in August (g) 10.3 11.4 10.9 12.0 10.0 11.9 12.2 12.3 11.7 12.0 Mass in September (g) 12.2 12.1 13.1 11.9 12.0 12.9 11.4 12.1 13.5 12.3 O ladder plot destes dados fica como segue: • 10 11 Mass (g) of bird 12 13 • • •• •• • • •• •• • • • • • August September É muito mais fácil ver do gráfico do que da tabela que os pássaros tendem a engordar, e que aqueles que não engordaram tenderam a ser os maiores que provavelmente não necessitam de uma engorda extra. 15 2.5 Exercı́cios 1 1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatı́sticas descritivas, apontando caracterı́sticas principais observadas. (a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estatı́stica no primeiro exame do semestre: 30 57 35 58 37 60 40 60 40 62 49 62 51 65 54 67 54 74 55 89 (b) O número de faltas de 20 trabalhadores num ano (ordenados por tamanho): 0 2 0 2 0 3 0 3 0 4 0 5 0 5 1 5 1 8 1 45 (c) O número de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano: 0 12 1 1 11 0 0 0 0 0 0 0 2 12 12 0 0 11 0 0 2. Produza um gráfico ramos-e-folhas para apresentação dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condição médica. 1.52 1.75 1.65 2.50 1.60 1.73 1.55 1.52 1.57 1.63 1.65 1.65 1.52 1.55 1.60 1.60 1.60 1.63 1.68 1.65 3. Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma hora depois de um acidente ambiental: Before 4.67 4.97 5.11 5.17 5.33 6.22 6.50 7.00 After 5.44 6.11 6.49 6.61 6.67 6.67 6.78 7.89 Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o acidente provocou um aumento significativo nos nı́veis do poluente no afluente. 4. A tabela abaixo fornece o número de grânulos de arenito por cm3 em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B). 16 A 171 431 288 1283 554 295 568 958 2415 1212 B 397 795 257 902 1621 1004 1378 435 1104 396 116 375 151 752 979 208 426 675 410 736 375 440 192 503 1252 688 771 377 700 315 (a) Calcule as médias e desvios-padrão desses duas amostras. (b) Faça histogramas dos dois conjuntos de dados, e compare-os. (c) Qual é o mı́nimo, máximo, mediana, quartil inferior e quartil superior de cada grupo? (d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a comparação. (e) Para cada grupo, o dado é aproximadamente simétrico ou assimétrico? Se assimétrico, em que direção? (f) Você acha que existe uma diferença real entre os números de grânulos de arenito nas duas localidades, ou você acha que as diferenças observadas poderiam ter simplesmente ocorrido como uma consequência dos grupos consistirem de somente 20 amostras cada? (g) Descreva as principais caracterı́sticas dos dados em uma ou duas sentenças. 5. O percentual de açúcar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados: Cereal 1 2 3 4 5 6 7 8 9 açúcar 19 36 3 8 26 16 8 10 54 sal 8 5 10 4 6 6 9 3 3 (a) Faça um gráfico desses dados para investigar a relação entre o conteúdo de açúcar e sal nos cereais matinais. (b) Comente brevemente qualquer padrão observado nos dados. 17 3 3.1 Populações e amostras Inferência estatı́stica Inferência estatı́stica é o processo pelo qual estatı́sticos tiram conclusões acerca da população usando informação de uma amostra. Você pode estar familiar com o termo ‘população’ num sentido biológico/geológico. Em estatı́stica, o termo não se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia também se referir, por exemplo, a fósseis, rochas e sedimentos num determinado local, etc. A população se refere a todos os casos ou situações as quais o pesquisador quer fazer inferências ou estimativas. Diferentes pesquisadores podem querer fazer inferências acerca da concentração de poluentes num determinado lençol freático; predizer a quantidade de petróleo num poço a ser perfurado e assim por diante. Note que o investigador não está interessado em todos os aspectos da população. O pesquisador pode não estar interessado em estudar a concentração de todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo. Uma amostra é um subconjunto da população usado para obter informação acerca do todo. Mas exatamente por quê tomamos uma amostra? população toda? Por quê não usamos a • custo alto para obter informação da população toda • tempo muito longo para obter informação da população toda • algumas vezes impossı́vel, por exemplo, estudo de poluição atmosférica • algumas vezes logicamente impossı́vel, por exemplo, em ensaios destrutivos. 18 Caracterı́sticas de uma população que diferem de um indivı́duo para outro e as quais temos interesse em estudar são chamadas variáveis. Exemplos são comprimento, massa, idade, temperatura, número de ocorrências, etc. Cada unidade (membro) da população que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações. 3.2 Princı́pios de estimação Utilizamos estimativas de uma amostra como nosso “melhor chute” para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão amostral, a mediana amostral, os quais estimam a verdadeira média, desvio padrão e mediana da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados parâmetros. Note que estatı́sticas são usualmente representadas por letras Romanas, (por exemplo, x̄ para a média amostral, s para o desvio padrão amostral), enquanto que parâmetros são usualmente representados por letras Gregas (por exemplo, µ para a média populacional, σ para o desvio padrão populacional). É claro que à medida que a amostra aumenta, mais informação nós teremos acerca da população de interesse, e portanto mais precisa serão as estimativas dos parâmetros de interesse. 19 3.3 Obtendo uma amostra Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população. Na prática não existe forma de garantir isto sem ter informação da população inteira para comparar com a amostra. E em tais circunstâncias não haveria necessidade de amostragem! Ao invés disso, podemos assegurar que não existem vı́cios sistemáticos em nossa amostra através de uma seleção aleatória dos membros da população. Uma amostra aleatória independente é uma amostra selecionada de tal forma que 1. todos os membros da população têm a mesma chance de serem selecionados; 2. cada combinação possı́vel de um dado número de membros tem a mesma chance de ser selecionada. Em princı́pio, a melhor forma de obter uma amostra aleatória de tamanho n é ter uma lista de todos os membros da população, dar a todos um número digamos de 1 a N , e então escolher aleatoriamente n números de 1 a N para definir a amostra. É claro que na prática isto não é exequı́vel, especialmente quando a população é infinita. Na maioria dos casos é difı́cil obter amostras aleatórias. Considere o seguinte diagrama que mostra a ‘população’ de circulos. Pense neles como se fossem grânulos de tamanhos diferentes. O diâmetro médio destes circulos é mm. Suponha que selecionemos uma amostra de 5 destes cı́rculos jogando um lápis sobre o papel repetidamente até que tenhamos atingido 5 circulos. Qual é o diâmetro médio de nossos 5 circulos? O valor está perto de mm? 20 No exemplo acima, o esquema amostral causou um vı́cio. Um vı́cio similar seria obtido por exemplo na amostragem de um particular tipo de animal – pode ser que os animais que se consegue capturar e medir são aqueles que não podem correr tão rápido, ou ao usar uma armadinha, você pode amostrar somente os animais mais famintos, etc. Sempre que uma amostra é obtida, o processo de amostragem deve estar bem documentado de tal forma que quais inferências retiradas acerca da população pode avaliadas à luz da estratégia amostral. 21 4 Distribuições teóricas de frequências Como visto na Seção 2, as distribuições dos dados podem ter uma variedade de formas, incluindo formas simétricas e não simétricas. Introduziremos aqui alguns dos modelos matemáticos mais comumente usados para tais dados. 4.1 A distribuição Normal 0.0 0.1 f(x) 0.2 0.3 0.4 A distribuição Normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes em estatı́stica. Esta distribuição tem uma forma de sino. -4 -2 0 x 2 4 A equação da curva Normal é especificada usando 2 parâmetros: a média populacional µ, e o desvio padrão populacional σ, ou equivalentemente a variância populacional σ 2 . Denotamos N(µ, σ 2 ) à curva Normal com média µ e variância σ 2 . A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento de curva. A distribuição normal é simétrica em torno da média o que implica que e média, a mediana e a moda são todas coincidentes. Para referência, a equação da curva é ( 1 (x − µ)2 f (x) = p exp − 2σ 2 (2πσ 2 ) ) . (1) Felizmente, você não tem que memorizar esta equação. O importante é que você entenda como a curva é afetada pelos valores numéricos de µ e σ. isto é mostrado no diagrama abaixo. A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores especı́ficos podemos determinar a 22 0.8 0.6 N(6,.25) N(0,1) 0.2 f(x) 0.4 N(3,1) 0.0 N(6,4) 0 5 10 x proporção de área sob a curva entre esses dois valores. Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios padrão da média são: Range µ ± 1σ µ ± 2σ µ ± 3σ Proportion 68.3% 95.5% 99.7% Este resultado é usado da seguinte maneira. Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribuição normal, com média 140mm e desvio padrão 15mm. Podemos calcular a proporção dos peixes que têm comprimentos entre 110 e 170mm, por exemplo, como a proporção da área sob a curva entre 110 e 170mm. Então em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e 170mm. Na prática desejamos calcular probabilidades para diferentes valores de µ e σ. Para isso, a variável X cuja distribuição é N (µ, σ 2 ) é transformada numa forma padronizada Z com distribuição N (0, 1) (distribuição normal padrão) pois tal distribuição é tabelada. A quantidade Z é dada por X −µ (2) Z= σ Exemplo: A concentração de um poluente em água liberada por uma fábrica tem distribuição N(8,1.5). Qual a chance, de que num dado dia, a concentração do poluente exceda o limite regulatório de 10 ppm? A solução do problema resume-se em determinar a proporção da distribuição que está acima de 10 ppm, ie P (X > 10). Usando a estatı́stica z temos: P (X > 10) = P (Z > 10 − 8 ) = P (Z > 1.33) = 1 − P (Z ≤ 1.33) = 0.09 1.5 23 (3) Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do tempo. Exercı́cio: A concentração de cadmio em cinzas de um certo lixo radioativo tem distribuição N(1,0.72). Quais são as chances de que uma amostra aleatória das cinzas tenha uma concentração de cadmio entre 0.5 e 1.75 ppm? 24 4.2 A distribuição Binomial Suponha que n experimentos independentes, ou ensaios, são executados, onde n é um número fixo, e que cada experimento resulta num “sucesso” com proabilidade p e numa “falha” com probabilidade 1 − p. O número total de sucessos, X, é uma variável aleatória com parâmetros n e p. Por exemplo, uma moeda é lançada 10 vezes e o número total de caras é contado (aqui “cara” é um sucesso). A probabilidade que X = k, denotada por P (k), pode ser encontrada como: P (X = k) = P (k) = n! pk (1 − p)n−k . k!(n − k)! (4) A média de um variável aleatória Binomial é np e a variância é np(1 − p). Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo (o qual é recessivo), nós encontremos um casamento no qual sabe-se que ambos os parceiros são heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade de que um filho desse casal seja albino é um quarto. (Então a probabilidade de não ser albino é 43 .) Agora considere o mesmo casal com 2 crianças. A chance de que ambas sejam albinas 1 = 0.0625. A desma forma, a chance de ambas serem normais é ( 43 )2 = é ( 14 )2 = 16 9 16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser 1 9 6 1 − 16 − 16 = 16 = 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima 1 com n = 2, p = 4 , and k = 1. Se agora considerarmos a famı́lia com n = 5 crianças, as probabilidades de existam k = 0, 1, 2, . . . , 5 crianças albinas, onde a probabilidade de albinismo é p = 14 , são dadas por 5! k!(5 − k)! P (k) = µ ¶k µ ¶5−k 1 4 3 4 (5) 0.0 0.1 0.2 0.3 0.4 as quais ficam como segue. 0 1 2 3 25 4 5 4.3 A distribuição Poisson 0 20 40 60 80 Uma outra distribuição comum é a distribuição Poisson, e é frequentemente usada para modelar dados de contagem, por exemplo, para descrever o número de nmetóides encontrados em amostras de solo, o número diário de novos casos de câncer de mama, ou o número de células contadas usando um hemocitrômetro. O histograma abaixo mostra o número de organismos encontrados em cada um de 400 quadrados pequenos. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0.0 0.05 0.10 0.15 A distribuição Poisson tem um parâmetro, λ, e a probabilidade de obter exatamente x indivı́duos é dada por λx e−λ . (6) P (x) = x! Quando λ = 4.68, por exemplo, a distribuição fica como segue. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A variância de uma Poisson é igual a sua média, The variance of a Poisson distribution is equal to its mean, λ. 26 4.4 Exercı́cios 2 1. Considere uma distribuição normal com média 10 e desvio padrão 3. (a) Desenhe um esboço desta distribuição. (b) Qual é a proporção da área sob a curva entre 7 e 13? 2. Usinas nucleares que utilizam água para refrigeração de seus condensadores algumas vezes liberam água quente em rios, lagos ou oceanos. Sabe-se que a água quente acima de certa temperatura tem um efeito indesejado sobre plantas e animais que vivem nesses ambientes. Suponha que a alta temperatura liberada por uma certa usina nuclear tem uma distribuição Normal com média 5◦ C e um desvio padrão de 0.5◦ C. (a) Faça um esboço da distribuição. (b) Qual o percentual de dias nos quais o aumento da temperatura é maior do que 5.5◦ C? 3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9 batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Um histograma dos dados mostra uma clara forma normal. Dê uma amplitude de referência de 95% para pulsos em repouso de pessoas sadias com base nesses dados. 4. Você leva se cachorro o veterinário e descobre através de um exame de ultrasonografia que ela está grávida com uma ninhada de 8 filhotes. (a) Qual é a probabilidade de que exatamente 3 dos filhotes sejam fêmeas? (b) Qual é a probabilidade de que existam um número igual de machos e fêmeas? (c) Qual é a probabilidade de que existam mais machos do fêmeas? 5. Um investigador está interessado no número de ovos depositados por uma espécie de pássaro. Na primavera, ele procura e acha 80 ninhos. O número médio de ovos por ninho foi 3.8 e o desvio padrão foi 1.9. Porque a variância é aproximadamente igual á média, ele acha que pode ser razoável descrever o número de ovos por ninho como tendo uma distribuição Poisson com média 3.8. (a) Faça o gráfico dessa distribuição como em suas notas de aula. (b) Se esta realmente representa a distribuição populacional, qual seria a proabilidade de encontrar um ninho com mais do que 5 ovos? (c) Qual seria a probabilidade de não encontrar nenhum ovo num ninho? 27 6. Acredita-se que existam números iguais de machos e fêmeas de uma certa espécie de peixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 deles são machos. Isto provocaria dúvida na afirmação acima de que exite um balanço entre machos e fêmeas no lago? Justifique sua resposta utilizando os recursos estatı́sticos de que dispõe no momento. 28 5 5.1 Intervalos de Confiança A idéia básica de intervalos de confiança Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido) θ. Podemos estimar o parâmetro θ usando informação de nossa amostra. Chamamos o único número que representa o valor mais plausı́vel do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores plausı́veis para o parâmetro baseado nos dados amostrais. Um intervalo de confiança de 95% para um parâmetro populacional fornece um intervalo no qual estariamos 95% confiantes de cobertura do verdadeiro valor do parâmetro. Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então se obtivermos um intervalo de confiança para o parâmetro θ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média destes intervalos de confiança não conterão θ. Podemos obter intervalos de confiança de 95% para: médias, diferenças de médias, proporções, diferenças em proporções, etc. Podemos também criar intervalos de confiança de 90%, 99%, 99.9%, etc, mas os intervalos de confiança de 95% são os mais utilizados. 29 5.2 Teorema Central do Limite Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão aproximadamente normalmente distribuı́das, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes desta distribuição, e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva Normal. A distribuição da média amostral X̄ é aproximadamente √ Normal com média µ e desvio padrão σ/ n. Aqui µ e σ são a média e o desvio padrão populacionais das medidas individuais X, e n é o tamanho amostral. Denota-se X̄ ∼ N (µ, σ 2 /n). A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns procedimentos de inferência sem qualquer conhecimento da distribuição da população. 5.3 Exemplo simulado Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na próxima página sumariza os resultados de um experimento no qual foi utilizado um computador para gerar 2000 observações de duas distribuições bem diferentes (linha superior). Nós então geramos uma amostra de tamanho 2 de cada distribuição e calculamos a média. Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das médias resuktantes das amostras de tamanho dois. Isto foi repetido com média amostrais onde as amostras são de tamanhos 5 (terceira linha) e 10 (quarta linha). Note como a forma da distribuição muda à medida que se muda de uma linha para a próxima, e como as duas distribuições em cada linha tornam-se mais similares nas suas formas à medida que o tamanho das amostras aumenta. Ainda mais, cada distribuição parece mais e mais com uma distribuição Normal. Não é necessário uma amostra de tamanho muito grande para ver uma forma Normal. As média populacionais para as duas distribuições são 5 e 3 respectivamente. Note como, quanto maior o tamanho de amostra mais perto as médias amostrais tendem a estar da média populacional. 30 400 0 100 200 300 400 300 200 100 0 0 2 4 6 8 10 0 2 4 6 8 10 6 8 10 6 8 10 8 10 300 200 100 0 0 100 200 300 400 y 400 x 0 2 4 6 8 10 0 2 4 300 200 100 0 0 100 200 300 400 (y1+y2)/2 400 (x1+x2)/2 0 2 4 6 8 10 0 2 4 300 200 100 0 0 100 200 300 400 (y1+y2+..+y5)/5 400 (x1+x2+..+x5)/5 0 2 4 6 8 10 0 (x1+x2+..+x10)/10 2 4 6 (y1+y2+..y10)/10 31 5.4 Intervalos de confiança de 95% para uma média Na seção anterior vimos que para uma amostra suficientemente grande a distribuição das √ médias amostrais em torno da média populacional é Normal com desvio padrão σ/ n. √ Chamamos de σ/ n o erro padrão (SE) da média, uma vez que quanto menor seu valos. tanto mais próximas estarão as médias amostrais da média populacional µ (i.e. tanto menor será o erro). média populacional = µ desvio padrão populacional = σ S.E. da média = √ σ/ n Isto significa que 68.3% de todas as médias amostrais cairão dentro de ±1 SE da média populacional µ. Similarmente 95% de todas as médias amostrais cairão dentro de ±1.96 × SE de µ. então intervalos da forma σ σ (x̄ − 1.96 × √ , x̄ + 1.96 × √ ) n n conterão a verdadeira média populacional µ 95% das vezes. Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão populacional σ. Para grandes tamanhos amostrais, contudo, o desvio padrão amostral s será uma boa estimativa de σ. Portanto, podemos substituir σ por s de modo que podemos calcular o erro padrão como √ SE = s/ n, e um intervalo de confiança de aproximadamente 95% para µ é: s s (x̄ − 1.96 × √ , x̄ + 1.96 × √ ). n n Este tipo de intervalo de confiança para a média pode ser usado para grandes amostras, independentemente da distribuição da variável original. 32 5.5 intervalos de confiança mais exatos Para amostras pequenas, onde s é uma estimativa menos confiável de σ, devemos construir nosso intervalo de confiança de uma forma ligeiramente diferente. Ao invés de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa redução na confiança. Obtemos o valor requerido da tabela de distribuição t. Tomamos o valor correspondente à linha r = n − 1 graus de liberdade. Note que quanto menor n, maiores os valores de t. Então um intervalo de confiança exato é s s (x̄ − t(n−1,0.05) × √ , x̄ + t(n−1,0.05) × √ ). n n Note ainda que à medida que n cresce, o valor de t torna-se próximo a 1.96. Repare que se a distribuição da variável original é muito distante de ser normalmente distribuı́da, e o tamanho amostral é muito pequeno, então as médias amostrais não terão uma distribuição aproximadamente normal e portanto este tipo de intervalo de confiança não será muito preciso e não deveria ser utilizado. 33 A distribuição t Valores de t para que P (| T |> t) = p, onde T tem um distribuição T de Student com r graus de liberdade. r 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 ∞ 0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290 1.282 0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.645 p 0.05 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.960 34 0.01 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.576 0.001 636.619 31.599 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.768 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.496 3.460 3.435 3.416 3.402 3.390 3.291 5.6 5.6.1 Exemplos Diâmetro de árvores castanheiras A seguir encontra-se uma amostra de 10 árvores castanheiras todas com 8 anos de idade numa certa floresta. O diâmetro (polegadas) das árvores foram medidos à uma altura de 3 pés: 19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1 Queremos encontrar um intervalo de confiança de 95% para o verdadeiro diâmetro médio de todas as árvores castanheiras dessa idade na floresta. Usando uma calculadora, encontramos que x̄ = e que s = . O erro padrão é portanto: s SE = √ = n . Temos uma amostra de tamanho n = 10, então da tabela da distribuição t temos que t= . Então o intervalo de confiança de 95% para a média populacional é x̄ ± t × SE Portanto estamos 95% confiantes de que o diâmetro médio da população da qual a amostra foi retirada está entre e . Quais suposições foram feitas? Podemos checar essas suposições? 5.6.2 Comprimento de plantas Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente normal, e a média amostral e o desvio padrão amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confiança para o comprimento médio populacional de plantes dessa mesma espécie. 35 5.7 Exercı́cios 3 1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9 batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Construa um intervalo de confiança de 95% para a pulsação média em repouso de pessoas sadias com base nesses dados. 2. Tendo sido medido o eixo maior de 9 grãos de quartzo de um corpo arenoso em uma lâmina de arenito, obteve-se um comprimento amostral médio de 1,5mm e um desvio padrão de 0,3mm. Deseja-se construir um intervalo de confiança para o comprimento médio dos grãos de quartzo do corpo arenoso. 3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI médio foi 108.08, e o desvio padrão foi 14.38. • Calcule um intervalo de confiança de 95% para o QI médio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados. • Interprete o intervalo de confiança com palavras. • Foi necessário assumir que os QIs têm distribuição normal neste caso? Por quê? 4. A seguinte tabela mostra os QIs de crianças por classe social dos pais. I II IIIa IIIb IV V Classe social Média DP Número Limite inferior Limite superior Profissional Gerencial Não-Manual (clérico) Manual (com prática) Manual (com pouca prática) Manual (sem prática) 112.27 112.65 13.16 11.01 30 78 107.36 117.18 108.86 13.94 28 104.38 14.41 152 96.97 10.13 37 98.85 14.02 20 • Complete as duas últimas colunas, as quais contem intervalos de confiança de 95% para o QI médio. Ilustre os IC graficamente. • Comente os padrões gerais que você vê. 36 5.8 Intervalos de confiança para uma proporção Pesquisadores frequentemente expressam a frequência de ocorrência de um item numa amostra como uma proporção do total. Por exemplo, uma amostra de larvas de mosquito coletadas de um lago com água limpa parada contem 80 larvas das quais 60 são Aedes detritus. A proporção daquela espécie na amostra é 60/80 = 0.75 ou 75%. Considerando esta amostra uma amostra aleatória, esta proporção é uma estimativa da proporção total populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela proporção. Seja n o tamanho da amostra e seja x o número observado do evento de interesse. Então estimamos a proporção populacional p com a proporção observada p̂ = x/n. Da mesma forma que um conjunto de médias amostrais são distribuı́das nas proximidades da média populacional, as proporções amostrais p̂ são distribuı́das ao redor da verdadeira proporção populacional p. Devido ao Teorema Central do Limite, para n grande e p não muito próximo de 0 ou 1, a distribuição de p̂ será aproximadamente normalmente distribuı́da com média p e um desvio padrão dado por s p(1 − p) . n q Chamamos SE= p(1−p) de erro padrão da proporção amostral. Podemos usar isto na n construção de um intervalo de confiança para a verdadeira proporção p. Um intervalo de confiança de aproximadamente 95% para p é portanto (p̂ − 1.96 × SE , p̂ + 1.96 × SE) onde s SE = p̂(1 − p̂) . n Note que não sabemos o verdadeiro valor de p, e portanto usamos p̂ na fórmula acima para estimar SE. Uma regra geral é que este intervalo de confiança é válido quando quando temos ambos np̂ e n(1 − p̂) maiores do que digamos 10. Em alguns livros o divisor n − 1 é utlizado. Não se preocupe quanto a isso; o intervalo resultante não será notavelmente diferente. 5.8.1 Exemplo Calcule um intervalo de confiança de 95% para a proporção de larvas de mosquito no lago da espécie Aedes detritus. Interprete os resultados. 37 5.9 Comparação de intervalos de confiança Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e fêmeas. Algumas vezes pode-se construir um intervalo de confiança de 95% para a média para cada um dos grupos, e então contrói-se um gráfico com esses intervalos contra um eixo comum para verificar se existe uma interseção (i.e. existem alguns valores em comum). Se os intervalos não se sobrepõem, então temos (pelo menos) 95% de confiança de que as verdadeiras médias não são iguais. Embora estes gráficos sejam úteis para visualização, utilizaremos um aboradgem mais formal (veja Seção 7) para construir um intervalo de confiança para a diferença entre duas médias ou a diferença entre duas proporções. 5.9.1 Exemplo Considere os dados de um estudo investigando a existência de um balanço entre a proporção de peixes machos e fêmeas de uma certa espécie em dois lagos distintos. A proporção observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confiança para as percentagens correspondente nas populações dos dois lagos. 5.10 Exercı́cios 4 1. Um amigo sugere que você lance uma moeda para ajudar você a tomar uma decisão muito importante, o resultado também o afetará. Seu amigo sugere que você escolha cara para tomar a decisão A, e coroa para tomar a decisão B a qual é a preferida por ele. O único problema é que seu amigo insiste que você use uma moeda “da sorte” dele. Você fica um pouco suspeito e decide fazer um experimento enquanto seu amigo não está olhando. Você lança a moeda 40 vezes e cara aparece somente 13 vezes. Construa um intervalo de 95% de confiança para a verdadeira proporção de caras p para ajudá-lo a decidir se você acredita ou não que a moeda é balanceada. O que você conclui? 2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no candidato X. Com uma confiança de 90%, o que você pode dizer acerca da proporção real de votos aquele candidato terá? 3. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido aos nı́veis de poluição do ambiente. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção. 38 6 6.1 Testes de Hipóteses Introdução e notação Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou não de uma hipótese especı́fica (se dois grupos têm a mesma média ou não, ou se o parâmetro populacional tem um valor em particular ou não). Teste de hipóteses fornece-nos a estrutura para que façamos isto. Veremos que intervalos de confiança e testes de hipóteses estão intimamente relacionados. 6.1.1 Os pássaros migratórios engordam antes de migrar? Considere os dados coletados pelo ornitologista na página 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora é natural perguntar se em média estes pássaros engordam entre Agosto e Setembro. Somente 10 pássaros foram capturados e seu peso médio nas duas ocasiões foram 11.47 e 12.35 então o peso médio aumentou para esta amostra em particular. (Note que o mesmo conjunto de pássaros foram medidos ambas as vezes.) Podemos generalizar para o resto dos pássaros que não foram capturados? Será que esta diferença poderia ser devida simplesmente ao acaso? Queremos testar a hipótese nula (H0 ) de que, em média, não existe mudança no peso dos pássaros. Assumiremos que os 10 pássaros foram uma amostra aleatória de todos os pássaros migradores daquela espécie e usaremos primeiramente o que aprendemos sobre intervalos de confiança para responder nossas perguntas. Primeiro vamos calcular as mudanças de peso (Setembro-Agosto): 1.9 0.7 2.2 − 0.1 2.0 1.0 − 0.8 − 0.2 1.8 0.3 Seja µ a mudança média de peso na população. Então nossa hipótese nula H0 e a hipótese alternativa H1 podem ser escritas como segue: H0 : µ = 0, H1 : µ 6= 0. Um procedimento útil é calcular um intervalo de confiança para a média populacional µ como descrito na Seção 5.5, e ver ser o intervalo inclui 0 como um valor plausı́vel. Agora n = 10, x̄ = 0.88 e s = 1.065 para as diferenças, então √ √ SE = s/ n = 1.065/ 10 = 0.337, e um valor-t de 2.262 é obtido da coluna P = 0.05 e linha r = n − 1 = 9. Um intervalo de confiança de 95% para µ é portanto (0.88 − 2.262 × 0.337, 0.88 + 2.262 × 0.337) = (0.12, 1.64). O intervalo não contem o valor 0, fornecendo evidências contra a hipótese nula. 39 Podemos dizer: “existem evidências significativas (P < 0.05) de que, em média, os pássaros da espécie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes de que em média os pesos aumentam por um montante entre 0.12 e 1.64 gramas.” Mas e o intervalo de 99%? Será que ele conteria o valor 0? Este intervalo seria mais amplo e então é mais provável que ele contenha 0. Se ele não incluir 0, isto indicaria uma evidência ainda mais forte contra H0 . Calculando o intervalo de confiança exatamente da mesma forma, exceto que desta vez precisamos olhar na coluna P = 0.01 para obter t = 3.250: (0.88 − 3.250 × 0.337, 0.88 + 3.250 × 0.337) = (−0.21, 1.97). Como esperado, este é mais amplo, e agora inclui o valor 0. Podemos agora dizer: “não existem evidências significativas ao nı́vel de 1% de que, em média, os pássaros da espécie estudada mudam de peso de Agosto para Setembro.” O que nós acabamos de fazer foi conduzir um teste perfeitamente válido para a hipótese nula usando intervalos de confiança. Podemos fazer o teste mais rapidamente e obter exatamente as mesmas conclusões pelo seguinte procedimento: • Calcule t = (x̄ − 0)/SE = 0.88/0.337 = 2.61, o número de erros padrão que x̄ dista de 0. • Compare este valor de t com aqueles na linha r = n − 1 = 9 da tabela. • Para este exemplo, t = 2.61 o qual está entre os valores nas colunas P = 0.01 e P = 0.05. Então nosso valor deve corresponder a um P entre estes e portanto devemos ter 0.01 < P < 0.05. (P é a probabilidade de observar um valor de t tão grande ou mais extremo do que 2.61 se µ = 0.) 40 6.2 Procedimento geral de teste 1. Estabeleça a hipótese nula, H0 e a hipótese alternativa H1 . 2. Decida qual oteste a ser usado, checando se este é válido para o seu problema. 3. Calcule a estatı́stica de teste, T. 4. Encontre a probabilidade (p-valor) de observar um valor tão extremo ou maior do que T se a hipótese nula é de fato verdadeira. Você precisará se referir aos valores crı́ticos nas tabelas estatı́sticas as quais fornecem p-valores correspondendo aos valores das estatı́stica de teste. 5. Avalie a força da evidência contra H0 .(Quanto menor p-valor, tanto mais evidência contra a hipótese nula.) Se necesário, decida se esta é evidência suficiente para rejeitar (ou não rejeitar) a hipótese nula. 6. Estabeleça as conclusões e interpretação dos resultados. O p-valor é a probabilidade de observar dados tão extremos quanto os obtidos se a hipótese nula é verdadeira. Note as seguintes interpretações de p-valores: P P P P P ≥ < < < < 0.10 0.10 0.05 0.01 0.001 Não existe evidência contra H0 Fraca evidência contra H0 Evidência significativa . . . Evidência altamente significativa . . . Evidência muito altamente significativa . . . Esteja ciente da diferença entre significância estatı́stica e significância prática. Um efeito pode ser estatisticamente significante mas não ter qualquer importância prática e viceversa. Por exemplo, um estudo muito grande pode estimar a diferença entre a média de peso de plantas como sendo 0.0001 gramas e concluir que a diferença é estatı́sticamente significativa (p < 0.05). Contudo, na prática, esta diferença é negligı́vel e provavelmente de pouca importância prática. 41 6.3 Teste para uma média Na Seção 5.1.1 conduzimos, através de um exemplo, o chamado teste-t para uma única média. Os passos principais de tal test-t para uma amostra aleatória x1 , x2 , . . . , xn de uma população com média µ são dados a seguir: 1. Estabeleça a hipótese nula, H0 : µ = µ0 , e a hipótese alternativa H1 : µ 6= µ0 . 2. Calcule a média amostral µ̂ = x̄ e o desvio padrão amostral s. √ 3. Calcule o erro padrão, SE= s/ n. 4. Calcule a estatı́stica de teste t = (µ̂ − µ0 )/SE. Este é o número de erros padrão que µ̂ dista do valor de hipótese µ0 . 5. Encontre o p-valor da distribuição t, com r = n − 1 graus de liberdade, da tabela usando os valores absolutos da estatı́stica de teste. 6. Estabeleça conclusões e interprete os resultados. 6.4 Teste para uma proporção Agora suponha que tenhamos um valor hipotético p0 para uma proporção. Podemos realisar um teste de H0 : p = p0 praticamente da mesma forma que o test-t acima. A dualidade com intervalos de confiança segue exatamente da mesma forma. Suponha que tenhamos uma amostra aleatória de tamanho n de uma população de interesse onde a verdadeira proporção de membros numa categoria em particular é p. A hipótese nula é H0 : p = p0 . Se o número observado na categoria de interesse é x, então um teste da hipótese é como segue: 1. Estabeleça a hipótese nula, H0 : p = p0 , e a hipótese alternativa H1 : p 6= p0 . 2. Calcule a proporção amostral p̂ = x/n. 3. Calcule o erro padrão, SE= p p̂(1 − p̂)/n. 4. Calcule t = (p̂ − p0 )/SE, o número de erros padrão que p̂ dista do valor de hipótese p0 . 5. Encontre o p-valor usando o valor absoluto da estatı́stica de teste da tabela da distribuição normal (ou equivalentemente da t com r = ∞ graus de liberdade). Uma regra geral é que este teste é válido quando quando temos ambos np̂ e n(1 − p̂) maiores do que digamos 10. 6.4.1 Exemplo Referindo-se ao exemplo da Seção 5.8, suponha que alguém tenha sugerido de experiências passadas que 60% das larvas de mosquito no lago deveriam ser da espécie Aedes detritus. Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipóteste? 42 6.5 Decisões e poder Ao tomar uma decisão a favor ou contra uma hipótese existem dois tipos de erros que você pode cometer. Você pode rejeitar a hipótese nula quando de fato ela é verdadeira (erro tipo I) ou você pode falhar em rejeitar H0 quando de fato ela é falsa (erro tipo II). Existe um balanço entre esses dois tipos de erros, no sentido de que ao tentar-se minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente denotamos as probabilidades destes dois erros como α e β respectivamente. Verdade H0 verdadeiro H0 falso Decisão Aceitar H0 Rejeitar H0 — Erro Tipo I (1 − α) (α) Erro Tipo II — β (1 − β) O poder de um teste é a probabilidade de rejeitar a hipótese nula quando esta é de fato falsa. Isto é igual a 1 − β. Em geral, quanto maior o tamanho da amostra, maior o poder do teste. É desejável decidir sobre um tamanho de amostra conveniente antes de conduzir um estudo de forma que o resultados do teste de hipótese terá poder suficiente para responder a questão cientı́fica de interesse. 6.6 Dimensionamento de amostras Vimos no Capı́tulo 5 e nas seções anteriores deste capı́tulo como construir intervalos e testes de hipóteses para os principais parâmetros populacionais. Em todos os, supusemos dado o nı́vel de confiança desses intervalos e testes. Evidentemente, o nı́vel de confiança deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimação por intervalo e testes. Sendo conveniente, o nı́vel de confiança pode ser aumentado até tão próximo de 100% quanto se queira, mas isso resultará em intervalos de amplitude cada vez maiores (e testes com poderes cada vez menores), o que significa perda de precisão na estimação. É claro que seria desejável termos intervalos com alto nı́vel de confiança e pequena probabilidade de erro e grande precisão. Isso porém requer uma amostra suficientemente grande, pois, para n fixo, confiança e precisão variam em sentidos opostos. Veremos a seguir como determinar o tamanho das amostras necessárias nos casos de estimação da média ou de uma proporção populacional. Vimos na Seção 5.4 que o intervalo de confiança de 95% para a média µ da população quando σ é conhecido tem semiamplitude d dada pela expressão σ d = z√ , n onde z = 1.96 para uma confiança de 95%. Ora, o problema então resolvido foi, fixados o nı́vel de confiança (1 − α = 0.95) e n, determinar d. Mas, é evidente dessa expressão que podemos resolver outro problema. Fixados, d e o nı́vel de confiança, determinar n, que é o problema da determinação do tamanho de amostra necessário para se realizar a estimação 43 por intervalo com a confiança e a precisão desejadas. Vemos imediatamente que µ n= zσ d ¶2 . Essa será a expressão usada se σ for conhecido. Não conhecendo o desvio-padrão da população, deverı́amos subtituı́-lo por sua estimativa s e usar t de Student na expressão acima. Ocorre porém que não tendo ainda sido retirada a amostra, não dispomos em geral do valor de s. Se não conhecemos nem ao menos um limite superior para σ, a única solução será colher uma amostra-piloto de n0 elementos para, com base nela obtermos uma estimativa de s, empregando a seguir a expressão µ n= t(n0 −1,0.05) s d ¶2 . Se n ≤ n0 , a amostra-piloto já terá sido suficiente para a estimação. Caso contrário, deveremos retirar, ainda, da população os elementos necessários à complementação do tamanho mı́nimo de amostra. Procedemos de forma análoga se desejamos estimar uma proporção populacional com determinada confiança e dada precisão. No caso de população suposta infinita, da expressão s p̂(1 − p̂) , n d=z podemos obter µ ¶2 n= z d p(1 − p). 0.00 0.05 0.10 p(1−p) 0.15 0.20 0.25 O obstáculo à determinação do tamanho de amostra por meio da expressão acima está em desconhecermos p. Essa dificuldade pode ser resolvida através de uma amostra-piloto, analogamente ao caso descrito para a estimação de µ, ou analisando-se o comportamento do fator p(1 − p) para 0 ≤ p ≤ 1. Vê-se da figura a seguir que p(1 − p) é a expressão de uma parábola cujo ponto de máximo é p = 1/2. 0.0 0.2 0.4 0.6 p 44 0.8 1.0 Se substituirmos, p(1 − p) por seu valor máximo, 1/4, seguramente o tamanho de amostra obtido será suficiente para a estimação de qualquer que seja p. Isso equivale a considerar µ ¶2 n= z d 1 = 4 µ z 2d ¶2 . Evidentemente, usando-se essa expressão corre-se o risco de se superdimensionar a amostra. Isso ocorrerá se p for na realidade próximo de 0 ou 1. Se o custo envolvido for elevado e proporcional ao tamanho de amostra, é mais prudente a tomada de uma amostra-piloto. 6.6.1 Exemplos 1. Qual o tamanho de amostra necessário para se estimar a média de uma população infinita cujo desvio-padrão é igual a 4, com 98% de confiança e precisão de 0,5? 2. Qual o tamanho de amostra suficiente para estimarmos a proporção da área com solo contaminado que precisa de tratamento, com precisão de 0,02 e 95% de confiança, sabendo que essa proporção seguramente não é superior a 0,2? 45 6.7 Exercı́cios 5 1. Exercı́cios 3, item 2. Teste a hipótese nula de que essa amostra provém de um corpo arenoso cuja média é µ = 0, 5mm. 2. A fim de testar a ocorrência de estratificação gradacional num certo arenito, amostras foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t verificar se as diferenças entre o tamanho médio das partı́culas da base e do topo são significativas ou não. Estratos 1 2 3 4 5 6 7 base 2,81 3,95 3,75 2,68 3,25 3,90 3,30 topo 3,13 4,13 3,88 2,91 3,65 4,20 3,12 d=t-b 0,32 0,18 0,13 0,23 0,36 0,30 -0,18 3. Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal, em segundos, num dado experimento, obtendo-se: 13 17 15 14 12 16 14 15 17 15 15 13 16 14 15 15 14 16 16 15 Esses dados são suficientes, pergunta-se, para estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de confiança? Caso negativo, qual o tamanho da amostra adicional necessária? 4. Deseja-se estimar a resitência média de certo tipo de peça com precisão de 2kg e 95% de confiança. Desconhecendo-se a variabilidade dessa resistência, roperam-se cinco peças, obtendo-se para elas os seguintes valores de sua resitência (em kg): 50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze peças, a fim de se conseguir o resultado desejado. Qual sua opinião a respeito dessa conclusão? 5. Exercı́cios 4, item 1. Realize um teste estatı́stico para ajudá-lo na decisão se você deve ou não acreditar que a moeda é balanceada. Qual a sua conclusão? 6. Suponha que estejamos interessados em estimar a proporção de todos os motoristas que excedem o limite máximo de velocidade num trecho da rodovia entre CuritibaSão Paulo. Quão grande deve ser a amostra para que estejamos pelo menos 99% confiantes de que o erro de nossa estimativa, a proporção amostral, seja no máximo 0,04? 7. Refaça o exercı́cio anterior, sabendo que temos boas razões para acreditar que a proporção que estamos tentando estimar é no mı́nimo 0,65. 46 7 7.1 Comparando dois grupos Diferença entre médias de dois grupos Na Seção 5.4, vimos como construir um intervalo de confiança para a média populacional µ, de uma amostra aleatória de tamanho n. Lembre-se que este intervalo de confiança era da forma x̄ ± t × SE or (x̄ − t × SE, x̄ + t × SE). Agora consideremos a comparação das médias de das populações (por exemplo, machos e fêmeas) através da estimação das diferenças de médias e calculando um intervalo de confiança para esta diferença das médias. Quando temos amostras independentes de cada uma de duas populações, podemos sumarizá-las pelas suas médias, desvios padrão e tamanhos amostrais. Denote estas medidas por x̄1 , s1 , n1 para a amostra um e x̄2 , s2 , n2 para a amostra dois. Denote as correspondentes médias populacionais e desvios padrão µ1 , µ2 , σ1 e σ2 respectivamente. Para os dados de alturas dos estudantes da página 13, vamos comparar a altura média dos estudantes do sexo masculino com as dos sexo feminino. Seja os grupo dos homens a amostra um, e o grupo das mulheres a amostra dois. As alturas foram medidas em centı́metros e as medidas sumárias foram como segue: x̄1 = 178.85, s1 = 7.734, n1 = 20, x̄2 = 164.09, s2 = 9.750, n2 = 17. Agora claramente uma estimativa natural da diferença entre médias na população, µ1 −µ2 , é dada pela diferença nas médias amostrais: x̄1 − x̄2 , e para nossos dados esta é 178.85 − 164.09 = 14.76. Agora o que precisamos é um erro padrão para esta estimativa para que possamos construir um intervalo de confiança ou realizar um teste da hipótese nula H0 : µ1 − µ2 = 0 versus H1 : µ1 − µ2 6= 0. 7.1.1 Erro padrão - assumindo desvios padrão iguais Primeiramente, assumimos que os desvios padrão populacionais são os mesmos em cada grupo, i.e. σ1 = σ2 = σ. Podemos combinar os dois desvios padrões amostrais para formar uma estimativa combinada do desvio padrão. Atribuı́mos mais peso às amostras maiores. Este desvio padrão combinado sp é a raiz quadrada da variância combinada s2p dada por (n1 − 1)s21 + (n2 − 1)s22 s2p = . n1 + n2 − 2 Para nossos dados temos: s2p = (19 × 7.7342 + 16 × 9.7502 )/35 = 75.92801 √ então sp = 75.92801 = 8.71. Note que está entre s1 e s2 . Se você obtiver um valor que não está entre estes valores então seus cálculos estão errados. 47 Agora podemos calcular o erro padrão das diferenças nas médias como s SE = sp a qual para nossos dados é 8.71 × 7.1.2 1 1 + . n1 n2 p (1/20 + 1/17) = 2.87kg. I.C. para a diferença entre médias assumindo desvios padrão iguais Um intervalo de confiança para µ1 − µ2 é dado por ((x̄1 − x̄2 ) − t × SE, (x̄1 − x̄2 ) + t × SE) , onde t é escolhido apropriadamente. Quando os tamanhos amostrais são grandes um intervalo de confiança aproximado de 95% é obtido usando t = 1.96. Se os tamanhos amostrais não forem tão grandes então un intervalo exato de 95% de confiança deveria de ser calculado selecionando o valor de t da tabela da disitrbuiçÃo t, com n1 + n2 − 2 graus de liberdade e coluna p = 0.05. Para um intervalo de 99% de confiança deverı́amos selecionar o valor na coluna p = 0.01. Exemplo: Para os dados de altura, temos n1 + n2 − 2 = 20 + 17 − 2 = 35, resultando t = 2.03 para um intervalo de confiança de 95% (através de interpolação entre a linha 30 e 40). Um intervalo de confiança de 95% para a diferença nas médias é dado por: (14.76 − 2.03 × 2.87, 14.76 + 2.03 × 2.87) = (8.93, 20.59). Estamos 95% confiantes que, em média, estudantes do sexo masculino são entre 9cm e 21cm mais do que as estudantes do sexo feminino. 7.1.3 Teste para a diferença das médias Um teste para a diferença entre médias corresponde a um teste de H0 : µ1 − µ2 = 0. Seguindo o mesmo tipo de procedimento visto na Seção 6. Nosso teste estatı́stico é: (x̄1 − x̄2 ) − 0 , SE que é a estimativa de µ1 − µ2 menos o valor hipotético (zero neste caso) e tudo dividido pelo erro padrão. t= Sob a hipótese nula, este segue uma distribuição t com n1 + n2 − 2 g.l. O valor obtido para t (ignorando seu sinal) é comparado com os valores tabelados com os graus de liberdade aproriados, para obter um p-valor. Para os nossos dados, temos t = (14.76 − 0)/2.87 = 5.14, e comparando este à linha 30 e 40 da tabela, vemos que devemos ter p < 0.001. Assumindo que nossas amostras foram amostras aleatórias de todos os estudantes, temos evidências bem fortes de a altura média dos estudantes do sexo masculino é diferente daquela das estudantes do sexo feminino. 48 7.1.4 I.C. para diferença de médias - desvios padrão diferentes Uma regra prática é que os desvios padrão populacionais σ1 e σ2 podem em geral ser assumidas iguais se a razão do maior desvio padrão amostral para o menor for menor do que 2 ou 3. Além disso a suposição de variâncias iguais pode ser grosseiramente avaliada através de historgramas dos dados. Testes formais estão disponı́veis se necessário. Se os desvios padrão populacionais não puderem ser assumidos iguais, usamos uma outra fórmula para o erro padrão de x̄1 − x̄2 , dado por s SE = s21 s2 + 2. n1 n2 Note que esta abordagem é usada somente para grandes amostras. A estaı́stica de teste usando este SE não segue uma distribuição t sob a hipótese nula. Contudo, para tamanhos amostrais razoavelmente grandes (digamos ambos maiores do que 30), podemos comparar a estatı́stica de teste acima com uma distribution Normal padrão (última linha da tabela t). Em nosso exemplo, calculamos um erro padrão de 2.87 kg sob a suposição de igauldade de desvios padrão populacionais para ambos os grupos. A fórmula alternativa (a qual não assume desvios padrão populacionais iguais) resulta em s SE = (7.734)2 (9.750)2 + = 2.93 kg 20 17 que praticamente não defire do valor prévio. Então o intervalo de confiança e o resultado de teste de hipótese seriam virtualmente os mesmos usando este erro padrão. 49 7.2 Amostras pareadas Num estudo pareado, temos duas amostras mas cada observação da primeira amostra é pareada com uma observação da segunda amostra. Tal delineamento ocorre, por exemplo, num estudo de medidas feitas antes e depois no mesmo indivı́duo ou num estudo de gêmeos (onde cada conjunto de gêmeos forma um dado pareado). Como esperado, as duas observações do mesmo indivı́duo (ou de um conjunto de gêmeos) são mais prováveis de serem similares, e portanto não são considerados estatı́ticamente independentes. Com dados pareados, podemos usar a seguinte notação: x1i = measurement 1 on pair i, x2i = measurement 2 on pair i a então escrevemos as diferenças nas medidas de cada par como di = x2i − x1i . Agora temos uma amostra de diferenças di , e podemos usar os métodos que já estamos familiares. Podemos calcular um intervalo de confainça para a diferença média e testar se a diferença média é igaul a um particular valor (usualmente zero) ou não. Nos referimos a tal teste como um paired t-test ao contrário do test-t para duas amostras acima. Note que neste caso estamos interessados na diferença média enquanto que quando temos duas amostras independentes, estamos interessados na diferença nas médias. Ainda que numericamente estas quantidades são as mesmas, conceitualmente elas são diferentes. Exemplo: A mudança nos nı́veis de um contaminante numa certa área do inı́cio ao final de seis meses de observação foram (em µ/l): −1.5 −0.6 −0.3 0.2 −2.0 −1.2 A média √ e o desvio padrão são −0.9 e 0.81 µ/l respectivamente. Então o erro padrão é 0.81/ 6 = 0.33 µ/l. Podemos agora realizar um test-t pareado para testar a hipótese nula de que a perda na concentração média é 0. Para isso calculamos t= −0.9 d¯ − 0 = = −2.73. ¯ 0.33 SE(d) Note que este valor é negativo (porque a mudança média observada foi a redução na concentração do poluente — um valor positivo seria um aumento na concentração do poluente). Observamos o valor absoluto da estatı́stica de teste (2.73) na tabela, usando a linha com n − 1 = 5 graus de liberdade. A quinta linha da tabela mostra que 0.01 < p < 0.05 (porque o valor 2.73 está entre os valores tabelados 2.571 e 4.032). Então, rejeitamos a hipótese nula ao nı́vel de 5%. Existe evidência ao nı́vel de 5% de que a área em estudo sofreu uma redução em média nos nı́veis do contaminante durante o perı́odo de seis meses. 50 Podemos adicionar à nossa conclusão o intervalo de confiança de 95% para a redução média nos nı́veis do contaminante: −0.9 ± 2.57 × 0.33 = −0.9 ± 0.85 = (−1.75, −0.05) Estamos 95% confiantes que a redução média nos nı́veis do contaminante está entre 0.05µ/l e 1.75µ/l. 51 7.3 Comparando proporções Voltando aos dados da página 38 acerca de um estudo investigando a existência de uma igualdade na proporção de machos de uma certa espécie em dois lagos distintos. As proporções observadas de machos foram 74.4% dentre 43 peixes capturados no primeiro lago e 60% dentre os 50 do segundo. Se construirmos intervalos de confiança para os percentuais correspondentes de machos na população (peixes da mesma espécie naqueles dois lagos), encontrarı́amos que podemos estar 95% confiantes de que o percentual está entre 61.4% e 87.4% no primeirop lago, e entre 46.4% e 73.6% no segundo. Contudo, nesse tipo de experimento a idéia principal é comparar diretamente os dois lagos. Portanto gostariamos de calcular um intervalo de confiança de 95% para a diferença em proporções. Note contudo que isto é somente apropriado para grandes amostras, e desse modo quando a amostra é pequena devemos ser cautelosos para não super valorizar os resultados. 7.3.1 Intervalo de confiança para a diferença em proporções Seja p1 a verdadeira proporção populacional no grupo 1 (lago 1), se seja p2 a proporção no grupo 2 (lago 2). Estamos interessados na diferença em proporções, p2 − p1 . Estimativas de p1 e p2 são dadas por p̂1 = 0.744 , p̂2 = 0.600, então uma estimativa da diferença em proporções é p̂2 − p̂1 = 0.744 − 0.600 = 0.144 O erro padrão desta diferença é s SE = p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + . n1 n2 Com isso podemos construir um intervalo de confiança da forma ususal, ou seja (p̂2 − p̂1 ) ± 1.96 × SE. 52 Então para os nossos dados temos s SE = 0.744 × (1 − 0.744) 0.600 × (1 − 0.600) + = 0.096. 43 50 Portanto um intervalo de confiança aproximado de 95% para a diferença em proporções é dado por 0.144 ± 1.96 × 0.096, o qual é (−0.044, 0.332), ou (-4.4%,33.2%). Estamos 95% confiantes que a verdadeira diferença percentual entre as proporções de peixes machos nos dois lagos está entre -4.4% e 33.2%. Note que de acordo com este intervalo o valor zero é um valor plausı́vel para as diferenças nos percentuais, e portanto não existem evidências estatı́sticas de que o percentual de peixes do sexo masculino diferem nos dois lagos. 7.3.2 Teste para a diferença de duas proporções Podemos testar a hipótese nula H0 : p2 − p1 = 0 versus a alternativa H1 : p2 − p1 6= 0 usando a estatı́stica (p̂2 − p̂1 ) − 0 t= SE e comparando este valor com a tabela t com ∞ graus de liberdade. 7.4 Exercı́cios 6 1. Um experimento (hipotético) sobre o efeito do álcool na habilidade perceptual motora é conduzido. 10 indivı́duos são testado duas vezes, uma depois de ter tomado dois drinks e uma depois de tomado dois copos de água. Os dois testes foram realizados em dois dias diferentes para evitar influência do efeito do álcool. Metade dos indivı́duos tomou a bebida alcoólica primeiro e a outra metade água. Os escores dos 10 indivı́duos são mostrados abaixo. Escores mais altos refletem uma melhor performance. Deseja-se testar se a bebida alcoólica teve um efeito singificante. Use um nı́vel de significância de 1%. -----------------------------------indivı́duo 1 2 3 4 5 6 7 8 9 10 -----------------------------------água 16 15 11 20 19 14 13 15 14 16 álcool 13 13 12 16 16 11 10 15 9 16 ------------------------------------ 53 2. Um estudo realizado para comparação entre duas lagunas quanto à salinidade em Bimini, Bahamas, obteve as seguintes observações (em partes por mil): -------------------laguna 1 laguna 2 -------------------37.54 39.04 37.01 39.21 36.71 39.05 37.03 38.24 37.32 38.53 37.01 38.71 37.03 38.89 37.70 38.66 37.36 38.51 36.75 40.08 37.45 38.85 -------------------O que você conclui com base nestes dados? 3. Deseja-se comparar os teores de Sr provenientes de amostras de carbonato obtidos a partir de dois métodos diferentes: I-fotômetro de chama; II-análise espectrográfica. --------------------------------Espécimes Método I Método II --------------------------------1 0.96 0.94 2 0.96 0.98 3 0.85 0.87 4 0.86 0.84 5 0.86 0.87 6 0.89 0.93 --------------------------------4. As seguintes amostras aleatórias são medidas da capacidade de produção de calor (em milhões de calorias por tonelada) de especimes de carvão de duas minas: -----------------------------------mina 1 8400 8230 8380 7860 7930 mina 2 7510 7690 7720 8070 7660 -----------------------------------Use um teste de 0.05% de significância para testar se a diferença entre as capacidades médias de calor é significante. 5. Um método de semeadura de nuvens foi bem sucedido em 57 dentre 150 tentativas, enquanto outro método foi eficaz em 33 dentre 100 tentativas. Ao nı́vel de significância de 0.05% podemos concluir que o primeiro método é melhor do o segundo? 54 8 8.1 Correlação Relações entre variáveis Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo, estão as alturas de filhos relacionadas com as alturas dos seus pais? Processos praianos condicionam a inclinação da zona pós-praia abaixo da linha da maré baixa? Ou seja, o ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio está relacionado com o diâmetro médio (em mm) do sedimento do fundo oceânico? ângulo de inclinação y 0.68 2.05 0.85 1.83 0.66 1.84 0.50 1.87 1.86 1.82 2.33 1.85 2.17 1.75 1.83 1.51 1.68 1.38 diâmetro de sedimentos x 0.79 0.55 0.65 0.47 0.81 0.59 0.74 0.47 0.22 0.50 0.23 0.52 0.25 0.47 0.26 0.42 0.41 0.37 Três propósitos principais de tais investigações podem ser: • para verificar se os valores sestão associados. (Os valores de uma medida tendem a crescer (ou decrescer) à medida que a outra cresce?) • para predizer o valor de uma variável a partir de um valor conhecido da outra. • para descrever a relação entre variáveis. (Dado um aumento especı́fico numa variável, qual o crescimento médio esperado para a segunda variável?) A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o valor de uma variável contı́nua a partir de uma outra variável e para descrever a relação entre duas variáveis utiliza-se regressão (veja o próximo capı́tulo). O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados para obter alguma idéia da forma e grau de associação entre duas variáveis. 55 2.0 1.5 0.5 1.0 y 0.2 0.3 0.4 0.5 0.6 0.7 0.8 x Mesmo tendo somente 18 observações, podemos ver que parece existir alguma associação entre ângulo de inclinação do fundo oceânico e diâmetro médio de sedimentos. 8.2 Definições Seja x1 , x2 , . . . , xn o conjunto das medidas de uma das variáveis (perı́odo das ondas), e seja y1 , y2 , . . . , yn as medidas da outra variável (diâmetro médio de sedimentos). Seja x̄, ȳ, sx e sy as médias e desvios padrão amostrais dos dois conjuntos de dados. Para obter uma medida do grau de associação da relação linear entre duas variáveis, usamos o coeficiente de correlação, definido como: r= onde P sxy = sxy . sx sy (xi − x̄)(yi − ȳ) = n−1 P xi yi − nx̄ȳ . n−1 Para os dados do exemplo acima, temos n = 18, x̄ = 0.48, ȳ = 1.58, sx = 0.18, sy = 0.54, xi yi = 12.44 a partir dos quais podemos calcular que r = −0.079. P Assim como para médias e desvios padrão, existe uma letra Grega especial que utlizamos para o coeficiante de correlação populacional: ρ. Podemos considerar r como sendo uma estimativa de ρ, exatamente como x̄ é uma estimativa da média populacional µ. Abaixo estão exemplos de dados com seus coeficientes de correlação correspondentes. 56 8.3 r=0.4 r=0.7 r=1.0 r=-0.3 r=-0.6 r=-0.9 Interpretação do coeficiente de correlação O valor de r está sempre entre −1 e +1, com r = 0 correspondendo à não associação. ( Valores de r negativos positivos ) ( indicam uma associação negativa positiva ) Usamos o termo correlação positiva quando r > 0, e nesse caso à medida que x cresce também cresce y, e correlação negativa quando r < 0, e nesse caso à medida que x cresce, y decresce (em média). Quanto maior o valor de r (positivo ou negativo), mais forte a associação. No extremo, se r = 1 ou r = −1 então todos os pontos no gráfico de dispersão caem exatamente numa linha reta. No outro extremo, se r = 0 não existe nenhuma associação linear. A seguinte quadro fornece um guia de como podemos descrever uma correlação em palavras dado o valor numérico. É claro que as interpretações dependem de cada contexto em particular. Valor de ρ (+ ou −) 0.00 a 0.19 0.20 a 0.39 0.40 a 0.69 0.70 a 0.89 0.90 a 1.00 Uma Uma Uma Uma Uma Interpretação correlação bem fraca correlação fraca correlação moderada correlação forte correlação muito forte Note que correlações não dependem da escala de valores de x ou y. (Por exemplo, obterı́amos o mesmo valor se medı́ssemos altura e peso em metros e kilogramas ou em pés e libras.) 57 8.4 Linearidade e normalidade Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos de descrever (também chamado coeficiente de correlação de Pearson). Nos dados abaixo, mesmo existindo uma clara relação (não-linear) entre x e y, o coeficiente de correlação é zero. Sempre faça o gráfico dos dados de modo que você possa visualizar tais relações. • • • • • y • • • • • • • • • • • • • • • • x Em alguns casos pode ser apropriado transformar x e/ou y. • • • • • ••• •• • • • •• • •••• • • • •• 8 Log Military expenditure Military expenditure 6000 • 4000 • 2000 0 • • • •• • • • •• •• • •••••• • •••••••••• •• • 0 50000 • 6 4 • 2 100000 150000 • •• • • •• • • • • • •• • • ••• •• •• • • •• • •• • • • • • • •• • • • • •• • 6 Gross Domestic Product 7 8 • • • •• 9 10 11 Log Gross Domestic Product 58 12 8.5 Coeficiente de determinação, R2 O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de determinação ou simplesmente R2 . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos uma correlação perfeita (R2 = 1) na prática, porque existem muitos fatores que determinam as relações entre variáveis na vida real. No nosso exemplo da página 56, tivemos r = −0.79, de modo que R2 = 0.62 ou 62%. Então cerca de 38% da variabilidade da inclinação da zona pós-praia abaixo da linha da maré baixa não pode ser descrito (ou explicado) pela variabilidade no diâmetro médio de sedimentos e vice-versa. Fica portanto claro que existem outros fatores que poderiam ser importantes, como por exemplo, profundidade da lâmina d’água, altura das ondas, ângulo de aproximação das ondas, etc. 8.6 Associação não é causalidade Suponha que encontremos uma associação ou correlação entre duas variáveis A e B. Podem existir diversas explicações do porque elas variam conjuntamente, incluindo: • Mudanças em A causam mudanças em B. • Mudanças em B causam mudanças em A. • Mudanças em outras variáveis causam mudanças tanto em A quanto em B. • A relação observada é somente uma coincidência. A terceira explicação é frequentemente a mais apropriada. Isto indica que existe algum processo de conecção atuando. Por exemplo, o número de pessoas usando óculos-de-sol e a quantidade de sorvete consumido num particular dia são altamente correlacionados. Isto não significa que usar óculos-de-sol causa a compra de sorvetes ou vice-versa! É extremamente difı́cil estabelecer relações causais a partir de dados observacionais. Precisamos realizar experimentos para obter mais evidências de um relação causal. 8.7 Exercı́cios 7 1. Um estudo geoquı́mico orientador realizado, utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm: 59 Ni 5.2 5.0 6.8 7.5 2.5 5.0 7.5 7.0 8.0 4.0 Cr 16.8 20.0 14.2 17.5 10.1 15.5 13.8 18.2 13.0 15.0 Ni 4.5 5.4 8.8 18.0 6.2 20.5 10.0 4.0 4.4 15.9 Cr 15.5 13.0 12.5 20.2 12.5 13.5 17.8 12.8 12.2 13.0 (a) Faça o gráfico destes dados com Ni no eixo x. (b) Calcule o coeficiente de correlation r pata estes dados e cheque se o valor obtido parece consistente com seu gráfico. (c) Qual proporção da variabilidade na concentração de Cr pode ser explicada pela concentração de Ni? 2. Prosseguindo o estudo da influência de processos praianos no condicionamento do ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio mediu-se a profundidade da lâmina d’água (em pés). Os dados coletados foram: ângulo de inclinação y 0.68 2.05 0.85 1.83 0.66 1.84 0.50 1.87 1.86 1.82 2.33 1.85 2.17 1.75 1.83 1.51 1.68 1.38 profundidade x 12.4 13.3 11.4 14.1 10.7 13.4 11.6 13.5 11.3 13.3 10.7 14.4 11.1 14.1 12.8 15.3 13.3 14.0 (a) Faça o gráfico desses dados com profundidade da lâmina d’água no eixo x. (b) Calcule o coeficiente de correlação, r e interprete o resultado obtido. (c) Qual proporção da variabilidade em ângulo de inclinação pode ser explicada por profundidade da lâmina d’água? 60 9 9.1 Regressão Idéia básica Em certas situações podemos estar interessados em descrever a relação entre duas variáveis, e também predizer o valor de uma a partir de outra. Por exemplo, se sabemos a altura de um certo estudante, mas não o seu peso, qual seria um bom chute para o peso deste estudante? O coeficiente de correlação apenas indica a grau de associação como um único número. 40 50 60 Weight (kg) 70 80 90 Retorne aos dados de altura e peso de estudantes na página 13. Denote as alturas por x1 , x2 , . . . , xn , e os pesos por y1 , y2 , . . . , yn . (Por enquanto vamos ignorar se eles são do sexo masculino ou feminino). Se estamos interessados em predizer peso de altura então não temos uma relação simétrica entre as duas variáveis. Chamamos peso a variável resposta ou dependente, e altura a variável explanatória, preditora ou independente. A variável resposta é sempre disposta no eixo vertical y, e a variável explanatória é sempre disposta no eixo x. 140 150 160 170 Height (cm) 180 190 200 Se a relação entre as duas variáveis é aproximadamente linear, então os dados podem ser resumidos através do ajuste de uma reta passando pelos dados. A equação dessa reta é dada por y = a + bx onde a é conhecida como o intercepto e b é a inclinação. Intuitivamente, queremos uma reta que forneça pequenas diferenças entre os verdadeiros pesos e aqueles dados pela reta para as alturas correspondentes. 61 O método padrão para obter a melhor reta ajustada é chamado mı́nimos quadrados o qual literalmente miniza a soma dos quadrados das distâncias de yi à reta ajustada. Em princı́pio isto requer traçar retas possı́veis, calculando a soma dos quadrados das distâncias: n n S= X (yi − ŷi )2 = i=1 X {yi − (a + bxi )}2 i=1 e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valor de S. É possı́vel mostrar que a melhor reta é aquela tal que P P b= xi yi − nx̄ȳ (yi − ȳ)(xi − x̄) sxy P = P 2 = 2 2 2 (xi − x̄) x − nx̄ sx e a = ȳ − bx̄. Para os dados de altura e peso a = −51.17kg e b = 0.68kg/cm; então a reta de regressão é y = −51.17 + 0.68x. Nossa reta ajustada é uma estimativa da reta de regressão populacional, y = α+βx. Nossos a e b são estimativas de α e β. (É comum, denotar-se estas estimativas por α̂ e β̂ ao invés de a e b.) O próximo passo é construir intervalos de confiança etc para α e β (intercepto e inclinação populacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas suposições acerca da população. 9.2 Modelo de regressão linear simples Este é o modelo mais simples para descrever a relação entre uma variável explanatória x e uma variável resposta y. O modelo faz a seguintes suposições, em ordem decrescente de importância: 1. o valor médio da variável resposta é uma funçãi linear de x, 2. a variância da variável resposta é constante (ou seja, a mesma para todos os valores de x), 3. a variação aleatória da variável resposta para qualquer valor fixo de x segue uma distribuição Normal, e estes termos de erro são independentes. Em termos algébricos, seja (xi , yi ) para i = 1, . . . , n os valores observados da variável explanatória x e da variável resposta y para os n sujeitos. 62 O modelo de regressão linear é yi = α + βxi + εi onde εi representa desvios independentes aleatórios da relação linear entre y e x e (para satisfazer nossas três suposições acima) εi ∼ Normal(0, σ 2 ). Note que α e β são parâmetros da população, e eles são frequentemente conhecidos como coeficientes. Em particular, β é denominado coeficiente, ou efeito, de x. 0.0 0.2 0.4 sqrt(y) 0.6 0.8 1.0 1.2 1.4 Os dados abaixo parecem satisfazer todas as três suposições: •• • • • • ••• • •• • • •• • •• • ••• • • • • ••• •• •• •• ••• • •• • • • • •••• •• • • • • • • • • ••• • • ••••• • •• • •• ••• • • •• • • • •• ••• • ••• •• •• ••••••• •• ••• •••••• • • • •• • •• • • • • • • •• • ••• •• • •• • ••• • • • ••• • • • • • • • •• ••• • •• • • • • • • •• • •• • • • • • • • • • •• •• • •• •• • ••• • •• • • • • • •• • ••• • • • • • • • • • • • • • • • • • • • •• • ••• •• ••• • ••• • • •••• • • • • •• • • • • • • •• • • • • •• ••• • •• • • ••••••• •• • •• •• • • • •• •• • • •• • • • • • • • ••• • • • •• • • • • • •• • • • •• • • • ••• ••• • • • • • •• •••• • • • • •• • • • • • • • • • •••• • • • •••• • • • • • • •••• • ••• • • •• •• • ••• •• •• ••••••• ••• • • • • • •• •••• •• • ••• • •••• •• • • • •• • •• ••••• •••• •• • • •• •• 0.0 0.2 0.4 0.6 0.8 1.0 x Um exemplo construı́do de dados que não satisfazem nenhuma das suposições é mostrado abaixo: • • • 1.5 • • • 0.0 0.5 y 1.0 •• •• • •• • • • • • • • • •• • • • • • • •• • • • •• ••• • •••• •• • • • • • • • • • • • • • • ••• • • •••• • •• • •• • • • • • • • ••• • • • • •• ••• • •• • • ••••••• •• ••• ••••• • • • • • •• •• • • • • •• • ••• •• •••• •• ••• • • • •• • • • • • • • •• ••• • •• • • • • • • •• • •• • •• ••• • •• • • •• • • • • • • • • ••• •• •• ••• • • • • • •• • •• • • • • • • • •• • • • • • • • • •• • •• • • • • •••• •• • ••• • •••• • • • • • • • • • •• ••• •• ••• • • ••••••••• ••• • • •••• •••• • • • •• • • • • •• ••• •••••••••••••• • •• ••• •••••••• •••••• • ••• ••• •• •• • • • • • • ••••••••••••••••••••••••••••••••• •••••••• ••• •• •••• ••••• • • 0.0 0.2 0.4 0.6 x 63 • 0.8 1.0 9.3 Estimando os parâmetros do modelo Uma tarefa importante associada com o modelo de regressão linear é a estimação dos valores de α e β, os quais juntos determinam a equação da reta ajustada. Um método padrão de estimação em estatı́stica chamado máxima vaerossimilhança leva às mesmas estimativas de mı́nimos quadrados descrito na Seção 9.1, ou seja β̂ = sxy /s2x e α̂ = y − β̂x Em aplicações, não existe garantia de que o modelo de regressão linear será resoável para nossos dados. Devemos sempre sobrepor a reta ajustada y = α̂ + β̂x sobre um scatterplot dos dados para checar se o modelo é razoável. Devemos procurar por evidências de uma relação não-linear, ou desvios muito extremos da reta ajustada. Se acharmos que o modelo está razoável, podemos também estimar σ 2 , a variância dos erros εi , usando a fórmula (n − 1) 2 σ̂ 2 = {s − β̂ 2 s2x } (n − 2) y onde s2y e s2x denotam a variância amostral de y e de x, respectivamente. 9.3.1 Exemplo 40 50 60 Weight (kg) 70 80 90 Para os nossos dados, já sabemos que α̂ = −51.17 e que β̂ = 0.68. Um gráfico dos dados com a reta ajustada é: 140 150 160 170 Height (cm) 180 190 200 O ajuste da reta não parece tão bom. Existem dois pontos bem distantes da reta ajustada, e o da esquerda em particular parece ter uma grande influência na reta ajustada. Na prática é aconselhavel investigar a acurácia destes valores e/ou verificar quanto muda a reta ajsutada quando estes pontos são removidos. Contudo, por enquanto prosseguiremos assumindo que está tudo ok! 64 Para sermos capazes de calcular erros padrão e intervalos de confiança, é importante manter tantas casa decimais quanto possı́vel: β̂ = 0.6846253. As outras quantidades são: n = 37, sx = 11.38700, sy = 11.70791, sxy = 88.77102. Podemos agora obter σ̂ 2 : σ̂ 2 = 36 {(11.707912 ) − (0.68462532 )(11.387002 )} = 78.48 35 Então uma estimativa do desvio padrão dos desvios aleatórios εi em torno da reta é √ σ̂ = 78.48 = 8.86 9.4 I.C. e teste para β Usualmente é de interesse saber qual a nossa precisão na estimativa de β. Para responder esta questão, podemos calcular um intervalo de confiança de 95% para β, como segue: 1. Calcule o erro padrão de β̂, q SE = σ̂ 2 /{(n − 1)s2x } 2. Encontre o valor de tn−2,0.05 , que está na tabela t: linha r = n − 2 e coluna 0.05. 3. Um Intervalo de confiança de 95% é: β̂ ± t × SE Podemos também ter interesse em testar a hipótese H0 : β = 0, ou seja, de que não exista relação entre x e y. Nesse caso, procedemos como segue: 1. Calcule t = (β̂ − 0)/SE. 2. Procure na tabela t, o p-valor correspondente ao seu valor de t na linha r = n − 2 da tabela para sumarizar a evidência contra H0 . 9.4.1 Exemplo Para os dados dos estudantes, um teste da hipótese nula de não existência de relação entre altura e peso fica como segue. q SE = 78.48/(36 ∗ 11.3870022 ) = 0.1297 t = 0.6846/0.1297 = 5.28 (com n − 2 = 35gl → P < 0.001) Podemos calcular um intervalo de confiança de 99% para β (o coeficiente de altura): (0.6846 ± 2.032 × 0.1297) = (0.42, 0.95) 65 9.5 Transformações de dados Uma forma de estender a aplicabilidade do modelo de regressão linear é aplicar uma transformação em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relação entre duas variáveis é não-linear (uma curva pareceria ajusta melhor do que uma reta), então frequentemente a relação pode ser feita linear transformando uma ou ambas as variáveis. Transformações podem ser muito úteis em algumas circunstâncias, mas deveria somente ser considerada como um último recurso uma vez que quando uma or ambas as variáveis são transformadas, os coeficientes deixam de ter interpretações diretas. A idéia é escolher uma transformação que faça a relação aproximadamente linear enquanto ainda premanecendo interpretáveis. Frequentemente, relações biológicas são multiplicativas e não aditivas e transformações logarı́tmicas são particularmente úteis nestes casos. 9.6 Resumo Regressão permite-nos: • Descrever suscintamente o nı́vel geral de uma variável que está associada com cada nı́vel de outra. • Predizer uma variável de uma outra variável. É importante aqui distinguir entre interpolação (predição dentro da amplitude dos dados amostrados; no exemplo, predição do peso de uma pessoa de altura 170 cm) e extrapolação (predição fora da amplitude dos dados; no exemplo, predição do peso de alguém com altura 70cm como sendo aproximadamente −3kg!). 9.7 Exercı́cios 8 1. Com relação aos dados apresentados no Capı́tulo 8 sobre processos praianos condicionando a inclinação da zona pós-praia abaixa da linha da maré baixa. (a) Ajuste um modelo de regressão linear simples a partir do qual podemos predizer a inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio em termos do diâmetro médio do sedimento do fundo oceânico. Adicione a reta ajustada ao gráfico de dispersão apresentado no capı́tulo anterior. (b) Explique em palavras o que a equação de regressão está lhe dizendo. (c) Quais suposições foram feitas para obrter essa equação? (d) Como você poderia decidir se a aparente associação entre inclinação e diâmetro foi ou não meramente casual? (e) Com base nesse equação, qual seria sua predição para a inclinação da zona póspraia para um diâmetro médio do sedimento do fundo oceânico de 0.50mm? 66