Estatı́stica
Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior
Departamento de Estatı́stica-UFPR
Email: [email protected]
Resumo
Este curso apresenta uma introdução aos métodos estatı́sticos para modelagem de dados.
Neste curso, o aluno pensará em problemas práticos de uma forma quantitativa e ganhará
um entendimento dos princı́pios básicos em estatı́stica. A obtenção de um conhecimento
sólido das idéias básicas dará ao aluno confiança para abordar métodos estatı́sticos mais
avançados que podem ser encontrados no futuro.
1
Livros
Bussab, W. e Morettin, P. Estatı́stica Básica. Editora Atlas.
Speed, T. & Nolan, D. Stats Labs.
Soares, J.F. Estatı́stica
Conteúdo
1. Introdução: Por que há a necessidade de Estatı́stica?
2. Estatı́sticas Descritivas: sumário de dados, gráfico de barras, gráfico de setores,
histograma, ramo-e-folhas, mediana, moda, desvio padrão, amplitude inter-quartis,...
3. Populaçoes e amostras: usando amostras para aprender sobre a população
4. Intervalos de confiança: estimando a média populacional a partir de uma amostra
5. Testes de hipóteses: idéia básica e testes para uma amostra
6. Comparação de dois grupos: As mensurações num grupo tendem a ser maiores em
média do que em outro?
7. Correlação: verificando se os valores de duas quantidades tendem a ser relacionadas
8. Regressão: descrevendo como o comportamento de uma quantidade muda com o valor
da outra
2
1
1.1
Introdução
O que é Estatı́stica?
Primeiro deve-se estabelecer o que se deseja dizer com “estatı́stica”. Ela tem pelo menos
três significados:
1. coleção de informações numéricas ou dados,
2. medidas resultantes de um conjunto de dados, como por exemplo médias,
3. métodos usados na coleta e interpretação de dados.
Qual é o papel da estatı́stica na ciência?
• Na ciência, são realizados estudos experimentais ou observacionais, levando à coleção
de dados numéricos.
• O propósito da investigação é responder uma questão cientı́fica.
• O padrão de variação nos dados faz com que a resposta não seja óbvia.
• Em geral, a disciplina de estatı́stica refere-se a métodos para coleta e descrição dos
dados, e então a verificação da força da evidência nos dados pró ou contra as idéias
cientı́ficas. A presença de uma variação não previsı́vel nos dados faz disso uma tarefa
pouco trivial.
1.2
Variação Amostral
Alguns exemplos onde a variação está presente no dado podem ser encontrados em Landim
(1997).
3
2
2.1
Estatı́stica Descritiva
Tipos de dado
A interpretação das listas de números a olho é muito difı́cil. Ao invés disso, nós deverı́amos
produzir um resumo verbal ou numérico e/ou usar métodos gráficos para descrever
os pontos principais dos dados.
O método mais apropriado dependerá da natureza dos dados, e aqui podemos distinguir
dois tipos principais:
1. Dados qualitativos ou categóricos que podem ser:
(a) nominais, por exemplo
• sexo: masculino, feminino
• classificação de fósseis
(b) ordinais, i.e. categorias ordenadas, tais como
• salinidade: baixa, média, alta
• abundância: dominante, abundante, frequente, ocasional, raro
2. Dados quantitativos ou numéricos que podem ser:
(a) discretos, i.e. contagens ou número inteiros, por exemplo
• número de ovos postos pela tartaruga marinha
• número de ataques de asma no ano passado
(b) contı́nuos, i.e. medidas numa escala contı́nua, tais como
• volume, área, peso, massa
• velocidade de corrente
As distinções são menos rı́gidas do que a descrição acima insinua. Por exemplo, em geral
nós tratarı́amos idade como uma variável contı́nua, mas se a idade for registrada pelo ano
mais próximo, podemos trata-la como discreta, e se separarmos a amostra em “crianças”,
“adultos jovens”, “idade média”, “velhos”, por exemplo, então temos faixa etária como
uma variável ordenada categórica. No entanto, em geral é recomendado manter os dados
em sua forma original, categorizando os dados somente para propósitos de apresentação.
4
2.2
Dados qualitativos
Para sumarizar dados qualitativos numericamente, utiliza-se contagens, proporções,
percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala
apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia são
homens, poderı́amos relatar a taxa como uma proporção (0.5) ou provavelmente ainda
melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000
pessoas são portadores de uma doença rara poderı́amos expressar isto como uma proporção
observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil.
2.2.1
Tabulando dados
Frequentemente o primeiro passo da descrição de dados é criar uma tabela de frequência.
Por exemplo, as espécies de “woodlice” caindo numa armadilha foram:
Species
Oniscus
Porcellio
Philoscia
Armadilidium
tally
|||||||||||||||
||||||||
|||||
||
ni
12
8
5
2
N = 27
ni /N
12/27
8/27
5/27
2/27
pi
0.444
0.296
0.185
0.074
Σpi = 1
Percentage
44.4%
29.6%
18.5%
7.4%
Num relatório, a segunda coluna não seria mostrada, e os dados seriam sumarizados num
formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas
categorias, então é conveniente colapssar algumas das categorias com somente uma ou
duas observações em outra categoria chamada “outros”.
Table showing the species of 27 woodlice that fell in a pit-fall trap:
Species
Oniscus
Porcellio
Philoscia
Armadilidium
Frequency
12
8
5
2
Percentage
44.4%
29.6%
18.5%
7.4%
Tabelas simples como esta são na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou três categorias.
5
2.2.2
Resumindo numericamente
Considere o seguinte conjunto de dados que mostra os escores de abundância médios
DAFOR de ocorrência de Nardus stricta em 100 áreas investigadas em Exmoor.
Dominante
Abundante
Frequente
Ocasional
Raro
8
33
32
17
10
A moda de um conjunto de dados categóricos é a categoria que tem o maior percentual
de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque é
muito dependente da forma como os dados são categorizados. Para os dados de “woodlice”
a moda é Oniscus. Para os dados acima, a categoria modal é “Abundante”, mas por muito
pouco.
A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este é
valor do “meio”, mais comumente usado para dados quantitativos. A mediana não faz
sentido para os dados “woodlice”. Para os dados de abundância, a categoria mediana é
“Frequente”, porque 50% dos dados estão em categorias superiores, e menos do que 50%
estão em categorias inferiores. A mediana é mais robusta do que a moda pois é menos
sensı́vel à categorização adotada.
2.2.3
Gráficos de Barras
0
10
Frequency
20
30
Dados qualitativos, particularmente quando as categorias são ordenadas, são usualmente
bem ilustrados num simples gráfico de barras onde a altura da barra é igual à frequência.
Rare
Occasional
Frequent
6
Abundant
Dominant
2.2.4
Gráfico de setores
Oniscus
Gráfico de setores também podem ser úteis para apresentação de dados categóricos ordenados. Os setores do gráfico são desenhados de tal forma que eles tenham área proporcional à frequência. Então para os dados “woodlice”, os ângulos seriam 0.444 × 360 = 160◦
para Oniscus, etc.
Arma
dilidiu
llio
rce
m
ia
sc
ilo
Ph
Po
2.3
2.3.1
Dados quantitativos
Histograma
De longe o método mais comum de apresentação de dados numéricos é o histograma,
relacionado com o gráfico de barras para dados categóricos. As áreas dos retângulos
resultantes devem ser proporcionais à frequência.
Algumas vezes é conveniente agregar classes de frequência nos extremos da distribuição
de forma que os intervalos têm larguras diferentes. Cuidado ao fazer isso - um intervalos
que é duas vezes a largura de um outro deve tem altura igual à metada de sua frequência
(para preservar a área contida dentro do intervalo) Da mesma forma um intervalo que é
três vezes a largura dos outros deve ter um terço da altura de sua frequência observada.
Exemplo. 150 peixes mortos foram encontrados vı́timas de contaminção do rio e seus
comprimentos foram medidos em milı́metros. As medidas foram expressas na forma de
tabela de frequência.
Comprimento do peixe (mm)
100-109
110-119
120-129
130-139
140-149
150-159
160-169
170-179
7
Frequência
7
16
19
31
41
23
10
3
40
30
Frequency
20
10
0
100
120
140
Fish lengths (mm)
160
180
O histograma construı́do desses dados é mostrado abaixo.
Gráfico de Ramos-e-Folhas
Um método gráfico que merece ser mais amplamente utilizado quando a quantidade de
dados não é muito grande é o gráfico de ramos-e-folhas como ilustrado a seguir.
Exemplo. Um estudo geoquı́mico realizado utilizando amostras compostas de sedimentos
de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de
riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr
10.6
14.3
11.5
18.4
11.8
14.1
13.0
9.4
17.4
15.8
13.7
12.6
16.5
11.1
13.5
15.2
12.0
13.7
15.8
15.4
14.0
14.7
17.0
12.5
10.0
16.6
13.6
12.9
18.2
11.4
16.6
Uma vez que a escala tenha sido determinada, a qual define os “ramos” à esquerda da
linha veritcal, podemos facilmente escrever os dados no gráfico de ramos-e-folhas como no
diagrama esquerdo; como um refinamento podemos então ordenar as “folhas” no diagrama
à direita:
8
9
10
11
12
13
14
15
16
17
18
4
6
5
5
7
1
2
5
4
2
0
4
9
0
3
4
6
0
4
1
6
7
0
8
6
8
0
6
7
8
9
10
11
12
13
14
15
16
17
18
5
4
0
1
0
0
0
2
5
0
2
6
4
5
5
1
4
6
4
4
5
6
6
3
8
6
8
9
7
7
8
7
Acima os ramos são números inteiros e as folhas são valores depois do ponto decimal,
mas isto não é essencial em geral; por exemplo, os ramos podem representar centenas
e as folhas dezenas (com unidades arredondadas para o decimal mais próximo; as folhas
devem ter um único dı́gito). Nota: é importante escrever as folhas em colunas igualmente
espaçadas, caso contrário pode resultar uma figura distorcida.
O gráfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a
perda de qualquer informação.
0
1
2
Frequency
3
4
5
Compare-o com um histograma para os mesmos dados:
8
10
12
14
16
Concentracao de Cr (ppm)
9
18
20
2.3.2
Resumindo numericamente
Para resumir numericamente dados quantitativos o objetivo é escolher medidas apropriadas de locação (“qual o tamanho dos números involvidos?”) e de dispersão (“quanta
variação existe?”) para os tipos de dados.
Existem três escolhas principais para a medida de locação, a chamada “3 Ms”, as quais
estão ligadas a certas medidas de dispersão como segue:
M
média (o valor ‘médio’)
mediana (o valor do ‘meio’)
moda (o valor ‘mais comum’)
2.3.3
‘Dispersão’
desvio padrão
IQR
proporção
Média, variância e desvio padrão
Para resumir dados quantitativos aproximadamente simétricos, é usual calcular a média
aritmética como uma medida de locação. Se x1 , x2 , . . . , xn são os valores dos dados, então
podemos escrever a média como
x=
x1 + x2 + . . . + xn
=
n
Pn
i=1 xi
n
,
P
onde ‘ ni=1 xi = x1 + x2 + . . . + xn ’ e frequentemente é simplificada para
P
mesmo x que significa ‘adicione todos os valores de x’.
P
xi ou até
A variância é definida como o ‘desvio quadrático médio da média’ e é calculada de uma
amostra de dados como
2
s =
Pn
− x)2
=
n−1
i=1 (xi
Pn
2
i=1 (xi )
− nx2
.
(n − 1)
A segunda versão é mais fácil de ser calculada, embora muitas calculadoras têm funções
prontas para o cálculo de variâncias, e é raro ter que realisar todos os passos manualmente.
Comumente as calculadoras fornecerão a raiz quadrada da variância, o desvio padrão,
i.e.
√
√
s = variância = s2
a qual é medida nas mesmas unidades dos dados originais.
Uma informção útil é que para qualquer conjunto de dados, pelo menos 75% deles fica
dentro de uma distância de 2 desvio padrão da média, i.e. entre x̄ − 2s e x̄ + 2s.
Exemplo. Sete homens foram pesados, e os resultados em kg foram:
57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.
10
A média é 454.3/7 = 64.9 kg,
a variância é (29635.05 − 454.32 /7)/6 = 25.16 kg2
√
e o desvio padrão é 25.16 = 5.02 kg.
2.3.4
A mediana e a amplitude inter-quartis
Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas
medidas são particularmente úteis para dados não simétricos. A mediana (ou percentil
50) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados
têm valores maiores do que a mediana, a outra metade tem valores menores do que a
mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como
os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados.
Estes três valores são frequentemente usados para resumir os dados juntamente com o
mı́nimo e o máximo. Eles são obtidos ordenando os dados do menor para o maior, e
3(n+1)
n+1
então conta-se o número apropriado de observações: ou seja é n+1
para
4 ,
2 e
4
o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de
observações, a mediana é a média dos valores do meio (e analogamente para os quartis
inferior e superior).
A medidade de dispersão é a amplitude inter-quartis, IQR = Q3 − Q1, i.e. é a diferença
entre o quartil superior e o inferior.
Exemplo. O número de crianças em 19 famı́lias foi
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10
A mediana é o (19+1) / 2 = 10o valor, i.e. 3 crianças.
O quartil inferior e superior são os valores 5o e 15o , i.e. 2 e 6 crianças, portanto
amplitude inter-quartil é de 4 crianças. Note que 50% dos dados estão entre os quartis
inferior e superior.
11
2.3.5
Box-and-Whisker Plots
Box-and-Whisker plots ou simplesmente box-plots são simples representações diagramáticas
dos cinco números sumários: (mı́nimo, quartil inferior, mediana, quartil superior, máximo).
Um box-plot para os dados geoquı́micos fica como mostrado a seguir.
10
2.3.6
12
14
16
18
A moda
Nem todos os conjuntos de dados são suficientemente balanceados para o cálculo da média
ou mediana. Algumas vezes, especialmente para dados de contagem, um único valor
domina a amostra. A medida de locação apropriada é então a moda, a qual é o valor
que ocorre com maior frequência. A proporção da amostra a qual toma este valor modal
deveria ser utilizada no lugar de uma medida formal de dispersão.
Algumas vezes, podemos distinguir claramente ‘picos’ na frequência dos valores registrados. Neste caso (chamado bimodal) deverı́amos apresentar ambas as localizações. Dados
deste tipo são particularmente difı́ceis de resumir (e analisar).
Exemplo. Dez pessoas registraram o número de copos de cerveja que eles tomaram num
determinado sábado:
0, 0, 0, 0, 0, 1, 2, 3, 3, 6
A moda é 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos
adicionar mais informação separando a amostra e dizendo que daqueles que tomaram
cerveja a mediana foi de 3 copos.
12
2.4
Dados múltiplos
Os resultados de um estudo tipicamente envolverão mais do que uma única amostra de
dados como discutido até aqui. Representações gráficas são úteis para comparar grupos
de dados ou para verificar se exitem relações entre eles. Existem muitas possibilidades,
mas a mais adequada dependerá das peculiaridades de cada conjunto de dados.
Além dos exemplos abaixo, podemos criar combinações de métodos já discutidos. Por
exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir
box-plots de altura lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a
lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à direita),
ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam
ser facilmente comparados). Para um número diferente de grupos, uma série de box-plots
verticais funciona bem como um sı́mples resumo dos dados.
Para combinações de dados categóricos, uma série de gráficos de setores podem ser produzidos, i.e. dois gráficos de setores, um para homens e um para mulheres.
2.4.1
Gráficos de pontos
90
Para avaliar se existe uma relação entre duas variáveis contı́nuas, podemos produzir um
gráfico de pontos. É importante que o eixo x faça sentido. Em geral faz pouco sentido
unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Sı́mbolos diferentes
podem ser usados para diferentes grupos para adicionar uma nova dimensão ao gráfico. O
gráfico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.
M
MMM
80
F
Weight (kg)
70
M
M
60
F
M
50
F
F F
FF M
F
F
F
F
F M
F
F
M
M
M
M
M
F
M
MM
M
M
M
40
F
140
150
160
170
Height (cm)
180
190
200
Para mais do que duas variáveis, pode-se produzir gráficos entre todos os pares possı́veis
para produzir uma matriz de gráficos de pontos.
13
2.4.2
Gráfico temporal
Um caso especial de um gráfico de pontos é um gráfico temporal onde ‘tempo’ está
no eixo x. As medidas são feitas ao longo do tempo. Nestes casos é usual unir pontos
sucessivos por retas, e é em geral uma boa prática deixar o eixo x mais longo do que o
eixo y.
Abaixo mostramos as temperaturas diárias médias em Philadelphia, USA nos dois primeiros meses de 1980.
Average temperature
-10 -5
0
5
•
•
•
••
••
0
•
• •
•
• ••
•
•• •
•
•
•
•
•
• ••
• •
•
•
10
20
••
••
••
•
30
Day
14
•••
• •
•••
•••••
40
•
•
••
••
•
50
• •
•
60
2.4.3
Ladder plot
O ladder plot não é um gráfico do tipo padrão mas pode ser útil para visualizar dados
pareados. Considere o seguinte exemplo.
Um ornitologista deseja saber se um determinado local é usado por pássaros migratórios
de uma certa raça para engorda antes de migrar. Ele captura alguns pássaros em Agosto e
pesa-os, então em Setembro ele tenta re-capturar os mesmos pássaros e faz novas medidas.
Ele re-capturou 10 dos pássaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo
mostra as massas desses pássaros.
Mass in August (g)
10.3
11.4
10.9
12.0
10.0
11.9
12.2
12.3
11.7
12.0
Mass in September (g)
12.2
12.1
13.1
11.9
12.0
12.9
11.4
12.1
13.5
12.3
O ladder plot destes dados fica como segue:
•
10
11
Mass (g) of bird
12
13
•
•
••
••
•
•
••
••
•
•
•
•
•
August
September
É muito mais fácil ver do gráfico do que da tabela que os pássaros tendem a engordar, e que
aqueles que não engordaram tenderam a ser os maiores que provavelmente não necessitam
de uma engorda extra.
15
2.5
Exercı́cios 1
1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatı́sticas descritivas, apontando caracterı́sticas principais observadas.
(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de
estatı́stica no primeiro exame do semestre:
30
57
35
58
37
60
40
60
40
62
49
62
51
65
54
67
54
74
55
89
(b) O número de faltas de 20 trabalhadores num ano (ordenados por tamanho):
0
2
0
2
0
3
0
3
0
4
0
5
0
5
1
5
1
8
1
45
(c) O número de exemplares de um jornal mensal em particular lidos por 20 pessoas
num ano:
0
12
1
1
11
0
0
0
0
0
0
0
2
12
12
0
0
11
0
0
2. Produza um gráfico ramos-e-folhas para apresentação dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condição médica.
1.52
1.75
1.65
2.50
1.60
1.73
1.55
1.52
1.57
1.63
1.65
1.65
1.52
1.55
1.60
1.60
1.60
1.63
1.68
1.65
3. Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8
pontos de um afluente medidos antes e uma hora depois de um acidente ambiental:
Before
4.67
4.97
5.11
5.17
5.33
6.22
6.50
7.00
After
5.44
6.11
6.49
6.61
6.67
6.67
6.78
7.89
Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o acidente
provocou um aumento significativo nos nı́veis do poluente no afluente.
4. A tabela abaixo fornece o número de grânulos de arenito por cm3 em 20 amostras
tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade
(B).
16
A
171
431
288
1283
554
295
568
958
2415
1212
B
397
795
257
902
1621
1004
1378
435
1104
396
116
375
151
752
979
208
426
675
410
736
375
440
192
503
1252
688
771
377
700
315
(a) Calcule as médias e desvios-padrão desses duas amostras.
(b) Faça histogramas dos dois conjuntos de dados, e compare-os.
(c) Qual é o mı́nimo, máximo, mediana, quartil inferior e quartil superior de cada
grupo?
(d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos
de dados - um diretamento acime do outro, ou lado a lado para facilitar a
comparação.
(e) Para cada grupo, o dado é aproximadamente simétrico ou assimétrico? Se
assimétrico, em que direção?
(f) Você acha que existe uma diferença real entre os números de grânulos de arenito nas duas localidades, ou você acha que as diferenças observadas poderiam
ter simplesmente ocorrido como uma consequência dos grupos consistirem de
somente 20 amostras cada?
(g) Descreva as principais caracterı́sticas dos dados em uma ou duas sentenças.
5. O percentual de açúcar e sal em 9 cereais matinais mais populares foram medidos,
com os seguintes resultados:
Cereal
1
2
3
4
5
6
7
8
9
açúcar
19
36
3
8
26
16
8
10
54
sal
8
5
10
4
6
6
9
3
3
(a) Faça um gráfico desses dados para investigar a relação entre o conteúdo de
açúcar e sal nos cereais matinais.
(b) Comente brevemente qualquer padrão observado nos dados.
17
3
3.1
Populações e amostras
Inferência estatı́stica
Inferência estatı́stica é o processo pelo qual estatı́sticos tiram conclusões acerca da
população usando informação de uma amostra.
Você pode estar familiar com o termo ‘população’ num sentido biológico/geológico. Em
estatı́stica, o termo não se refere necessariamente a pessoas, plantas, animais, etc. Ele
poderia também se referir, por exemplo, a fósseis, rochas e sedimentos num determinado
local, etc.
A população se refere a todos os casos ou situações as quais o pesquisador quer fazer
inferências ou estimativas. Diferentes pesquisadores podem querer fazer inferências acerca
da concentração de poluentes num determinado lençol freático; predizer a quantidade de
petróleo num poço a ser perfurado e assim por diante.
Note que o investigador não está interessado em todos os aspectos da população. O
pesquisador pode não estar interessado em estudar a concentração de todos os tipos de
poluentes, somente alguns poluentes mais importantes para seu estudo.
Uma amostra é um subconjunto da população usado para obter informação acerca do
todo.
Mas exatamente por quê tomamos uma amostra?
população toda?
Por quê não usamos a
• custo alto para obter informação da população toda
• tempo muito longo para obter informação da população toda
• algumas vezes impossı́vel, por exemplo, estudo de poluição atmosférica
• algumas vezes logicamente impossı́vel, por exemplo, em ensaios destrutivos.
18
Caracterı́sticas de uma população que diferem de um indivı́duo para outro e as quais
temos interesse em estudar são chamadas variáveis. Exemplos são comprimento, massa,
idade, temperatura, número de ocorrências, etc. Cada unidade (membro) da população
que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis,
chamadas observações.
3.2
Princı́pios de estimação
Utilizamos estimativas de uma amostra como nosso “melhor chute” para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão amostral,
a mediana amostral, os quais estimam a verdadeira média, desvio padrão e mediana da
população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais
são chamados parâmetros.
Note que estatı́sticas são usualmente representadas por letras Romanas, (por exemplo, x̄
para a média amostral, s para o desvio padrão amostral), enquanto que parâmetros são
usualmente representados por letras Gregas (por exemplo, µ para a média populacional,
σ para o desvio padrão populacional).
É claro que à medida que a amostra aumenta, mais informação nós teremos acerca da
população de interesse, e portanto mais precisa serão as estimativas dos parâmetros de
interesse.
19
3.3
Obtendo uma amostra
Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são
válidas somente se a amostra é representativa da população. Na prática não existe forma
de garantir isto sem ter informação da população inteira para comparar com a amostra.
E em tais circunstâncias não haveria necessidade de amostragem!
Ao invés disso, podemos assegurar que não existem vı́cios sistemáticos em nossa amostra
através de uma seleção aleatória dos membros da população. Uma amostra aleatória
independente é uma amostra selecionada de tal forma que
1. todos os membros da população têm a mesma chance de serem selecionados;
2. cada combinação possı́vel de um dado número de membros tem a mesma chance de
ser selecionada.
Em princı́pio, a melhor forma de obter uma amostra aleatória de tamanho n é ter uma
lista de todos os membros da população, dar a todos um número digamos de 1 a N , e
então escolher aleatoriamente n números de 1 a N para definir a amostra. É claro que na
prática isto não é exequı́vel, especialmente quando a população é infinita.
Na maioria dos casos é difı́cil obter amostras aleatórias. Considere o seguinte diagrama
que mostra a ‘população’ de circulos. Pense neles como se fossem grânulos de tamanhos
diferentes. O diâmetro médio destes circulos é
mm.
Suponha que selecionemos uma amostra de 5 destes cı́rculos jogando um lápis sobre o
papel repetidamente até que tenhamos atingido 5 circulos. Qual é o diâmetro médio de
nossos 5 circulos? O valor está perto de
mm?
20
No exemplo acima, o esquema amostral causou um vı́cio. Um vı́cio similar seria obtido
por exemplo na amostragem de um particular tipo de animal – pode ser que os animais
que se consegue capturar e medir são aqueles que não podem correr tão rápido, ou ao usar
uma armadinha, você pode amostrar somente os animais mais famintos, etc.
Sempre que uma amostra é obtida, o processo de amostragem deve estar bem documentado
de tal forma que quais inferências retiradas acerca da população pode avaliadas à luz da
estratégia amostral.
21
4
Distribuições teóricas de frequências
Como visto na Seção 2, as distribuições dos dados podem ter uma variedade de formas,
incluindo formas simétricas e não simétricas. Introduziremos aqui alguns dos modelos
matemáticos mais comumente usados para tais dados.
4.1
A distribuição Normal
0.0
0.1
f(x)
0.2
0.3
0.4
A distribuição Normal é a mais familiar das distribuições de probabilidade e também
uma das mais importantes em estatı́stica. Esta distribuição tem uma forma de sino.
-4
-2
0
x
2
4
A equação da curva Normal é especificada usando 2 parâmetros: a média populacional
µ, e o desvio padrão populacional σ, ou equivalentemente a variância populacional σ 2 .
Denotamos N(µ, σ 2 ) à curva Normal com média µ e variância σ 2 . A média refere-se ao
centro da distribuição e o desvio padrão ao espalhamento de curva. A distribuição normal
é simétrica em torno da média o que implica que e média, a mediana e a moda são todas
coincidentes. Para referência, a equação da curva é
(
1
(x − µ)2
f (x) = p
exp
−
2σ 2
(2πσ 2 )
)
.
(1)
Felizmente, você não tem que memorizar esta equação. O importante é que você entenda
como a curva é afetada pelos valores numéricos de µ e σ. isto é mostrado no diagrama
abaixo.
A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores especı́ficos podemos determinar a
22
0.8
0.6
N(6,.25)
N(0,1)
0.2
f(x)
0.4
N(3,1)
0.0
N(6,4)
0
5
10
x
proporção de área sob a curva entre esses dois valores. Para a distribuição Normal, a
proporção de valores caindo dentro de um, dois, ou três desvios padrão da média são:
Range
µ ± 1σ
µ ± 2σ
µ ± 3σ
Proportion
68.3%
95.5%
99.7%
Este resultado é usado da seguinte maneira. Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribuição normal, com média 140mm
e desvio padrão 15mm. Podemos calcular a proporção dos peixes que têm comprimentos entre 110 e 170mm, por exemplo, como a proporção da área sob a curva entre 110 e
170mm.
Então em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e
170mm.
Na prática desejamos calcular probabilidades para diferentes valores de µ e σ. Para isso,
a variável X cuja distribuição é N (µ, σ 2 ) é transformada numa forma padronizada Z com
distribuição N (0, 1) (distribuição normal padrão) pois tal distribuição é tabelada. A
quantidade Z é dada por
X −µ
(2)
Z=
σ
Exemplo: A concentração de um poluente em água liberada por uma fábrica tem distribuição N(8,1.5). Qual a chance, de que num dado dia, a concentração do poluente exceda
o limite regulatório de 10 ppm?
A solução do problema resume-se em determinar a proporção da distribuição que está
acima de 10 ppm, ie P (X > 10). Usando a estatı́stica z temos:
P (X > 10) = P (Z >
10 − 8
) = P (Z > 1.33) = 1 − P (Z ≤ 1.33) = 0.09
1.5
23
(3)
Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios cerca
de 9% do tempo.
Exercı́cio: A concentração de cadmio em cinzas de um certo lixo radioativo tem distribuição N(1,0.72). Quais são as chances de que uma amostra aleatória das cinzas tenha
uma concentração de cadmio entre 0.5 e 1.75 ppm?
24
4.2
A distribuição Binomial
Suponha que n experimentos independentes, ou ensaios, são executados, onde n é um
número fixo, e que cada experimento resulta num “sucesso” com proabilidade p e numa
“falha” com probabilidade 1 − p. O número total de sucessos, X, é uma variável aleatória
com parâmetros n e p.
Por exemplo, uma moeda é lançada 10 vezes e o número total de caras é contado (aqui
“cara” é um sucesso).
A probabilidade que X = k, denotada por P (k), pode ser encontrada como:
P (X = k) = P (k) =
n!
pk (1 − p)n−k .
k!(n − k)!
(4)
A média de um variável aleatória Binomial é np e a variância é np(1 − p).
Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo
(o qual é recessivo), nós encontremos um casamento no qual sabe-se que ambos os parceiros
são heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade
de que um filho desse casal seja albino é um quarto. (Então a probabilidade de não ser
albino é 43 .)
Agora considere o mesmo casal com 2 crianças. A chance de que ambas sejam albinas
1
= 0.0625. A desma forma, a chance de ambas serem normais é ( 43 )2 =
é ( 14 )2 = 16
9
16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser
1
9
6
1 − 16
− 16
= 16
= 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima
1
com n = 2, p = 4 , and k = 1.
Se agora considerarmos a famı́lia com n = 5 crianças, as probabilidades de existam k =
0, 1, 2, . . . , 5 crianças albinas, onde a probabilidade de albinismo é p = 14 , são dadas por
5!
k!(5 − k)!
P (k) =
µ ¶k µ ¶5−k
1
4
3
4
(5)
0.0
0.1
0.2
0.3
0.4
as quais ficam como segue.
0
1
2
3
25
4
5
4.3
A distribuição Poisson
0
20
40
60
80
Uma outra distribuição comum é a distribuição Poisson, e é frequentemente usada
para modelar dados de contagem, por exemplo, para descrever o número de nmetóides
encontrados em amostras de solo, o número diário de novos casos de câncer de mama, ou
o número de células contadas usando um hemocitrômetro. O histograma abaixo mostra o
número de organismos encontrados em cada um de 400 quadrados pequenos.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0.0
0.05
0.10
0.15
A distribuição Poisson tem um parâmetro, λ, e a probabilidade de obter exatamente x
indivı́duos é dada por
λx e−λ
.
(6)
P (x) =
x!
Quando λ = 4.68, por exemplo, a distribuição fica como segue.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A variância de uma Poisson é igual a sua média, The variance of a Poisson distribution is
equal to its mean, λ.
26
4.4
Exercı́cios 2
1. Considere uma distribuição normal com média 10 e desvio padrão 3.
(a) Desenhe um esboço desta distribuição.
(b) Qual é a proporção da área sob a curva entre 7 e 13?
2. Usinas nucleares que utilizam água para refrigeração de seus condensadores algumas
vezes liberam água quente em rios, lagos ou oceanos. Sabe-se que a água quente
acima de certa temperatura tem um efeito indesejado sobre plantas e animais que
vivem nesses ambientes. Suponha que a alta temperatura liberada por uma certa
usina nuclear tem uma distribuição Normal com média 5◦ C e um desvio padrão de
0.5◦ C.
(a) Faça um esboço da distribuição.
(b) Qual o percentual de dias nos quais o aumento da temperatura é maior do que
5.5◦ C?
3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9
batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Um histograma dos dados mostra uma clara forma normal. Dê uma amplitude de referência
de 95% para pulsos em repouso de pessoas sadias com base nesses dados.
4. Você leva se cachorro o veterinário e descobre através de um exame de ultrasonografia
que ela está grávida com uma ninhada de 8 filhotes.
(a) Qual é a probabilidade de que exatamente 3 dos filhotes sejam fêmeas?
(b) Qual é a probabilidade de que existam um número igual de machos e fêmeas?
(c) Qual é a probabilidade de que existam mais machos do fêmeas?
5. Um investigador está interessado no número de ovos depositados por uma espécie
de pássaro. Na primavera, ele procura e acha 80 ninhos. O número médio de ovos
por ninho foi 3.8 e o desvio padrão foi 1.9. Porque a variância é aproximadamente
igual á média, ele acha que pode ser razoável descrever o número de ovos por ninho
como tendo uma distribuição Poisson com média 3.8.
(a) Faça o gráfico dessa distribuição como em suas notas de aula.
(b) Se esta realmente representa a distribuição populacional, qual seria a proabilidade de encontrar um ninho com mais do que 5 ovos?
(c) Qual seria a probabilidade de não encontrar nenhum ovo num ninho?
27
6. Acredita-se que existam números iguais de machos e fêmeas de uma certa espécie de
peixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 deles são
machos. Isto provocaria dúvida na afirmação acima de que exite um balanço entre
machos e fêmeas no lago? Justifique sua resposta utilizando os recursos estatı́sticos
de que dispõe no momento.
28
5
5.1
Intervalos de Confiança
A idéia básica de intervalos de confiança
Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas
desconhecido) θ. Podemos estimar o parâmetro θ usando informação de nossa amostra.
Chamamos o único número que representa o valor mais plausı́vel do parâmetro (baseado
nos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemos que o valor
estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então,
também seria interessante encontrar um intervalo de confiança que forneça um intervalo
de valores plausı́veis para o parâmetro baseado nos dados amostrais.
Um intervalo de confiança de 95% para um parâmetro populacional
fornece um intervalo no qual estariamos 95% confiantes de cobertura
do verdadeiro valor do parâmetro.
Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas).
Então se obtivermos um intervalo de confiança para o parâmetro θ para cada uma dentre
100 amostras aleatórias da população, somente 5, em média destes intervalos de confiança
não conterão θ.
Podemos obter intervalos de confiança de 95% para:
médias, diferenças de médias, proporções, diferenças em proporções, etc.
Podemos também criar intervalos de confiança de 90%, 99%, 99.9%, etc, mas os intervalos
de confiança de 95% são os mais utilizados.
29
5.2
Teorema Central do Limite
Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer
que seja a distribuição da variável de interesse para grande amostras, a distribuição
das médias amostrais serão aproximadamente normalmente distribuı́das, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. Então
podemos ter uma variável original com uma distribuição muito diferente da Normal (pode
até mesmo ser discreta), mas se tomarmos várias amostras grandes desta distribuição, e
então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva
Normal.
A distribuição da média amostral X̄ é aproximadamente
√
Normal com média µ e desvio padrão σ/ n.
Aqui µ e σ são a média e o desvio padrão populacionais das medidas individuais X, e n é
o tamanho amostral. Denota-se
X̄ ∼ N (µ, σ 2 /n).
A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é conhecido como o Teorema Central do Limite e é notável porque permite-nos
conduzir alguns procedimentos de inferência sem qualquer conhecimento da distribuição
da população.
5.3
Exemplo simulado
Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na
próxima página sumariza os resultados de um experimento no qual foi utilizado um computador para gerar 2000 observações de duas distribuições bem diferentes (linha superior).
Nós então geramos uma amostra de tamanho 2 de cada distribuição e calculamos a média.
Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das
médias resuktantes das amostras de tamanho dois. Isto foi repetido com média amostrais
onde as amostras são de tamanhos 5 (terceira linha) e 10 (quarta linha).
Note como a forma da distribuição muda à medida que se muda de uma linha para a
próxima, e como as duas distribuições em cada linha tornam-se mais similares nas suas
formas à medida que o tamanho das amostras aumenta. Ainda mais, cada distribuição
parece mais e mais com uma distribuição Normal. Não é necessário uma amostra de
tamanho muito grande para ver uma forma Normal.
As média populacionais para as duas distribuições são 5 e 3 respectivamente. Note como,
quanto maior o tamanho de amostra mais perto as médias amostrais tendem a estar da
média populacional.
30
400
0
100
200
300
400
300
200
100
0
0
2
4
6
8
10
0
2
4
6
8
10
6
8
10
6
8
10
8
10
300
200
100
0
0
100
200
300
400
y
400
x
0
2
4
6
8
10
0
2
4
300
200
100
0
0
100
200
300
400
(y1+y2)/2
400
(x1+x2)/2
0
2
4
6
8
10
0
2
4
300
200
100
0
0
100
200
300
400
(y1+y2+..+y5)/5
400
(x1+x2+..+x5)/5
0
2
4
6
8
10
0
(x1+x2+..+x10)/10
2
4
6
(y1+y2+..y10)/10
31
5.4
Intervalos de confiança de 95% para uma média
Na seção anterior vimos que para uma amostra suficientemente grande a distribuição das
√
médias amostrais em torno da média populacional é Normal com desvio padrão σ/ n.
√
Chamamos de σ/ n o erro padrão (SE) da média, uma vez que quanto menor seu valos.
tanto mais próximas estarão as médias amostrais da média populacional µ (i.e. tanto
menor será o erro).
média populacional
=
µ
desvio padrão populacional
=
σ
S.E. da média
=
√
σ/ n
Isto significa que 68.3% de todas as médias amostrais cairão dentro de ±1 SE da média
populacional µ. Similarmente 95% de todas as médias amostrais cairão dentro de ±1.96 ×
SE de µ.
então intervalos da forma
σ
σ
(x̄ − 1.96 × √ , x̄ + 1.96 × √ )
n
n
conterão a verdadeira média populacional µ 95% das vezes.
Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão populacional σ. Para grandes tamanhos amostrais, contudo, o desvio padrão
amostral s será uma boa estimativa de σ. Portanto, podemos substituir σ por s de modo
que podemos calcular o erro padrão como
√
SE = s/ n,
e um intervalo de confiança de aproximadamente 95% para µ é:
s
s
(x̄ − 1.96 × √ , x̄ + 1.96 × √ ).
n
n
Este tipo de intervalo de confiança para a média pode ser usado para grandes amostras,
independentemente da distribuição da variável original.
32
5.5
intervalos de confiança mais exatos
Para amostras pequenas, onde s é uma estimativa menos confiável de σ, devemos construir
nosso intervalo de confiança de uma forma ligeiramente diferente.
Ao invés de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa
redução na confiança. Obtemos o valor requerido da tabela de distribuição t. Tomamos
o valor correspondente à linha r = n − 1 graus de liberdade. Note que quanto menor n,
maiores os valores de t. Então um intervalo de confiança exato é
s
s
(x̄ − t(n−1,0.05) × √ , x̄ + t(n−1,0.05) × √ ).
n
n
Note ainda que à medida que n cresce, o valor de t torna-se próximo a 1.96.
Repare que se a distribuição da variável original é muito distante de ser normalmente
distribuı́da, e o tamanho amostral é muito pequeno, então as médias amostrais não terão
uma distribuição aproximadamente normal e portanto este tipo de intervalo de confiança
não será muito preciso e não deveria ser utilizado.
33
A distribuição t
Valores de t para que P (| T |> t) = p, onde T tem um distribuição T de Student com r
graus de liberdade.
r
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
∞
0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.299
1.296
1.294
1.292
1.291
1.290
1.282
0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.676
1.671
1.667
1.664
1.662
1.660
1.645
p
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.009
2.000
1.994
1.990
1.987
1.984
1.960
34
0.01
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.678
2.660
2.648
2.639
2.632
2.626
2.576
0.001
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.551
3.496
3.460
3.435
3.416
3.402
3.390
3.291
5.6
5.6.1
Exemplos
Diâmetro de árvores castanheiras
A seguir encontra-se uma amostra de 10 árvores castanheiras todas com 8 anos de idade
numa certa floresta. O diâmetro (polegadas) das árvores foram medidos à uma altura de
3 pés:
19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1
Queremos encontrar um intervalo de confiança de 95% para o verdadeiro diâmetro médio
de todas as árvores castanheiras dessa idade na floresta. Usando uma calculadora, encontramos que x̄ =
e que s = . O erro padrão é portanto:
s
SE = √ =
n
.
Temos uma amostra de tamanho n = 10, então da tabela da distribuição t temos que
t=
.
Então o intervalo de confiança de 95% para a média populacional é
x̄ ± t × SE
Portanto estamos 95% confiantes de que o diâmetro médio da população da qual a amostra
foi retirada está entre
e
.
Quais suposições foram feitas? Podemos checar essas suposições?
5.6.2
Comprimento de plantas
Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram
plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente
normal, e a média amostral e o desvio padrão amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confiança para o comprimento médio populacional
de plantes dessa mesma espécie.
35
5.7
Exercı́cios 3
1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9
batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Construa
um intervalo de confiança de 95% para a pulsação média em repouso de pessoas
sadias com base nesses dados.
2. Tendo sido medido o eixo maior de 9 grãos de quartzo de um corpo arenoso em uma
lâmina de arenito, obteve-se um comprimento amostral médio de 1,5mm e um desvio
padrão de 0,3mm. Deseja-se construir um intervalo de confiança para o comprimento
médio dos grãos de quartzo do corpo arenoso.
3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI
médio foi 108.08, e o desvio padrão foi 14.38.
• Calcule um intervalo de confiança de 95% para o QI médio populacional dos
meninos entre 6-7 anos de idade em Curitiba usando estes dados.
• Interprete o intervalo de confiança com palavras.
• Foi necessário assumir que os QIs têm distribuição normal neste caso? Por quê?
4. A seguinte tabela mostra os QIs de crianças por classe social dos pais.
I
II
IIIa
IIIb
IV
V
Classe social
Média
DP
Número
Limite inferior
Limite superior
Profissional
Gerencial
Não-Manual
(clérico)
Manual
(com prática)
Manual
(com pouca prática)
Manual
(sem prática)
112.27
112.65
13.16
11.01
30
78
107.36
117.18
108.86
13.94
28
104.38
14.41
152
96.97
10.13
37
98.85
14.02
20
• Complete as duas últimas colunas, as quais contem intervalos de confiança de
95% para o QI médio. Ilustre os IC graficamente.
• Comente os padrões gerais que você vê.
36
5.8
Intervalos de confiança para uma proporção
Pesquisadores frequentemente expressam a frequência de ocorrência de um item numa
amostra como uma proporção do total. Por exemplo, uma amostra de larvas de mosquito
coletadas de um lago com água limpa parada contem 80 larvas das quais 60 são Aedes
detritus. A proporção daquela espécie na amostra é 60/80 = 0.75 ou 75%. Considerando
esta amostra uma amostra aleatória, esta proporção é uma estimativa da proporção total
populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela
proporção.
Seja n o tamanho da amostra e seja x o número observado do evento de interesse. Então
estimamos a proporção populacional p com a proporção observada p̂ = x/n.
Da mesma forma que um conjunto de médias amostrais são distribuı́das nas proximidades
da média populacional, as proporções amostrais p̂ são distribuı́das ao redor da verdadeira
proporção populacional p. Devido ao Teorema Central do Limite, para n grande e p
não muito próximo de 0 ou 1, a distribuição de p̂ será aproximadamente normalmente
distribuı́da com média p e um desvio padrão dado por
s
p(1 − p)
.
n
q
Chamamos SE= p(1−p)
de erro padrão da proporção amostral. Podemos usar isto na
n
construção de um intervalo de confiança para a verdadeira proporção p.
Um intervalo de confiança de aproximadamente 95% para p é portanto
(p̂ − 1.96 × SE , p̂ + 1.96 × SE)
onde
s
SE =
p̂(1 − p̂)
.
n
Note que não sabemos o verdadeiro valor de p, e portanto usamos p̂ na fórmula acima
para estimar SE.
Uma regra geral é que este intervalo de confiança é válido quando quando temos ambos
np̂ e n(1 − p̂) maiores do que digamos 10.
Em alguns livros o divisor n − 1 é utlizado. Não se preocupe quanto a isso; o intervalo
resultante não será notavelmente diferente.
5.8.1
Exemplo
Calcule um intervalo de confiança de 95% para a proporção de larvas de mosquito no lago
da espécie Aedes detritus. Interprete os resultados.
37
5.9
Comparação de intervalos de confiança
Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e fêmeas.
Algumas vezes pode-se construir um intervalo de confiança de 95% para a média para
cada um dos grupos, e então contrói-se um gráfico com esses intervalos contra um eixo
comum para verificar se existe uma interseção (i.e. existem alguns valores em comum).
Se os intervalos não se sobrepõem, então temos (pelo menos) 95% de confiança de que as
verdadeiras médias não são iguais. Embora estes gráficos sejam úteis para visualização,
utilizaremos um aboradgem mais formal (veja Seção 7) para construir um intervalo de
confiança para a diferença entre duas médias ou a diferença entre duas proporções.
5.9.1
Exemplo
Considere os dados de um estudo investigando a existência de um balanço entre a proporção de peixes machos e fêmeas de uma certa espécie em dois lagos distintos. A proporção observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados
e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confiança para as
percentagens correspondente nas populações dos dois lagos.
5.10
Exercı́cios 4
1. Um amigo sugere que você lance uma moeda para ajudar você a tomar uma decisão
muito importante, o resultado também o afetará. Seu amigo sugere que você escolha
cara para tomar a decisão A, e coroa para tomar a decisão B a qual é a preferida
por ele. O único problema é que seu amigo insiste que você use uma moeda “da
sorte” dele. Você fica um pouco suspeito e decide fazer um experimento enquanto
seu amigo não está olhando. Você lança a moeda 40 vezes e cara aparece somente 13
vezes. Construa um intervalo de 95% de confiança para a verdadeira proporção de
caras p para ajudá-lo a decidir se você acredita ou não que a moeda é balanceada.
O que você conclui?
2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no
candidato X. Com uma confiança de 90%, o que você pode dizer acerca da proporção
real de votos aquele candidato terá?
3. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para
consumo devido aos nı́veis de poluição do ambiente. Construa um intervalo de
confiança de 99% para a correspondente verdadeira proporção.
38
6
6.1
Testes de Hipóteses
Introdução e notação
Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados
pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir
sobre a verdade ou não de uma hipótese especı́fica (se dois grupos têm a mesma média
ou não, ou se o parâmetro populacional tem um valor em particular ou não). Teste
de hipóteses fornece-nos a estrutura para que façamos isto. Veremos que intervalos de
confiança e testes de hipóteses estão intimamente relacionados.
6.1.1
Os pássaros migratórios engordam antes de migrar?
Considere os dados coletados pelo ornitologista na página 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora é natural perguntar se em média estes
pássaros engordam entre Agosto e Setembro. Somente 10 pássaros foram capturados e seu
peso médio nas duas ocasiões foram 11.47 e 12.35 então o peso médio aumentou para esta
amostra em particular. (Note que o mesmo conjunto de pássaros foram medidos ambas
as vezes.) Podemos generalizar para o resto dos pássaros que não foram capturados? Será
que esta diferença poderia ser devida simplesmente ao acaso?
Queremos testar a hipótese nula (H0 ) de que, em média, não existe mudança no peso
dos pássaros. Assumiremos que os 10 pássaros foram uma amostra aleatória de todos os
pássaros migradores daquela espécie e usaremos primeiramente o que aprendemos sobre
intervalos de confiança para responder nossas perguntas.
Primeiro vamos calcular as mudanças de peso (Setembro-Agosto):
1.9 0.7
2.2 − 0.1 2.0
1.0 − 0.8 − 0.2
1.8 0.3
Seja µ a mudança média de peso na população. Então nossa hipótese nula H0 e a hipótese
alternativa H1 podem ser escritas como segue:
H0 : µ = 0,
H1 : µ 6= 0.
Um procedimento útil é calcular um intervalo de confiança para a média populacional µ
como descrito na Seção 5.5, e ver ser o intervalo inclui 0 como um valor plausı́vel.
Agora n = 10, x̄ = 0.88 e s = 1.065 para as diferenças, então
√
√
SE = s/ n = 1.065/ 10 = 0.337,
e um valor-t de 2.262 é obtido da coluna P = 0.05 e linha r = n − 1 = 9. Um intervalo de
confiança de 95% para µ é portanto
(0.88 − 2.262 × 0.337, 0.88 + 2.262 × 0.337) = (0.12, 1.64).
O intervalo não contem o valor 0, fornecendo evidências contra a hipótese nula.
39
Podemos dizer: “existem evidências significativas (P < 0.05) de que, em média, os pássaros
da espécie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes
de que em média os pesos aumentam por um montante entre 0.12 e 1.64 gramas.”
Mas e o intervalo de 99%? Será que ele conteria o valor 0? Este intervalo seria mais
amplo e então é mais provável que ele contenha 0. Se ele não incluir 0, isto indicaria uma
evidência ainda mais forte contra H0 .
Calculando o intervalo de confiança exatamente da mesma forma, exceto que desta vez
precisamos olhar na coluna P = 0.01 para obter t = 3.250:
(0.88 − 3.250 × 0.337, 0.88 + 3.250 × 0.337) = (−0.21, 1.97).
Como esperado, este é mais amplo, e agora inclui o valor 0.
Podemos agora dizer: “não existem evidências significativas ao nı́vel de 1% de que, em
média, os pássaros da espécie estudada mudam de peso de Agosto para Setembro.”
O que nós acabamos de fazer foi conduzir um teste perfeitamente válido para a hipótese
nula usando intervalos de confiança. Podemos fazer o teste mais rapidamente e obter
exatamente as mesmas conclusões pelo seguinte procedimento:
• Calcule t = (x̄ − 0)/SE = 0.88/0.337 = 2.61, o número de erros padrão que x̄ dista
de 0.
• Compare este valor de t com aqueles na linha r = n − 1 = 9 da tabela.
• Para este exemplo, t = 2.61 o qual está entre os valores nas colunas P = 0.01 e
P = 0.05. Então nosso valor deve corresponder a um P entre estes e portanto
devemos ter 0.01 < P < 0.05. (P é a probabilidade de observar um valor de t tão
grande ou mais extremo do que 2.61 se µ = 0.)
40
6.2
Procedimento geral de teste
1. Estabeleça a hipótese nula, H0 e a hipótese alternativa H1 .
2. Decida qual oteste a ser usado, checando se este é válido para o seu problema.
3. Calcule a estatı́stica de teste, T.
4. Encontre a probabilidade (p-valor) de observar um valor tão extremo ou maior
do que T se a hipótese nula é de fato verdadeira. Você precisará se referir aos
valores crı́ticos nas tabelas estatı́sticas as quais fornecem p-valores correspondendo
aos valores das estatı́stica de teste.
5. Avalie a força da evidência contra H0 .(Quanto menor p-valor, tanto mais evidência
contra a hipótese nula.) Se necesário, decida se esta é evidência suficiente para
rejeitar (ou não rejeitar) a hipótese nula.
6. Estabeleça as conclusões e interpretação dos resultados.
O p-valor é a probabilidade de observar dados tão extremos quanto os obtidos se a hipótese
nula é verdadeira. Note as seguintes interpretações de p-valores:
P
P
P
P
P
≥
<
<
<
<
0.10
0.10
0.05
0.01
0.001
Não existe evidência contra H0
Fraca evidência contra H0
Evidência significativa . . .
Evidência altamente significativa . . .
Evidência muito altamente significativa . . .
Esteja ciente da diferença entre significância estatı́stica e significância prática. Um efeito
pode ser estatisticamente significante mas não ter qualquer importância prática e viceversa. Por exemplo, um estudo muito grande pode estimar a diferença entre a média de
peso de plantas como sendo 0.0001 gramas e concluir que a diferença é estatı́sticamente
significativa (p < 0.05). Contudo, na prática, esta diferença é negligı́vel e provavelmente
de pouca importância prática.
41
6.3
Teste para uma média
Na Seção 5.1.1 conduzimos, através de um exemplo, o chamado teste-t para uma única
média. Os passos principais de tal test-t para uma amostra aleatória x1 , x2 , . . . , xn de uma
população com média µ são dados a seguir:
1. Estabeleça a hipótese nula, H0 : µ = µ0 , e a hipótese alternativa H1 : µ 6= µ0 .
2. Calcule a média amostral µ̂ = x̄ e o desvio padrão amostral s.
√
3. Calcule o erro padrão, SE= s/ n.
4. Calcule a estatı́stica de teste t = (µ̂ − µ0 )/SE. Este é o número de erros padrão que
µ̂ dista do valor de hipótese µ0 .
5. Encontre o p-valor da distribuição t, com r = n − 1 graus de liberdade, da tabela
usando os valores absolutos da estatı́stica de teste.
6. Estabeleça conclusões e interprete os resultados.
6.4
Teste para uma proporção
Agora suponha que tenhamos um valor hipotético p0 para uma proporção. Podemos
realisar um teste de H0 : p = p0 praticamente da mesma forma que o test-t acima. A
dualidade com intervalos de confiança segue exatamente da mesma forma.
Suponha que tenhamos uma amostra aleatória de tamanho n de uma população de interesse onde a verdadeira proporção de membros numa categoria em particular é p. A
hipótese nula é H0 : p = p0 . Se o número observado na categoria de interesse é x, então
um teste da hipótese é como segue:
1. Estabeleça a hipótese nula, H0 : p = p0 , e a hipótese alternativa H1 : p 6= p0 .
2. Calcule a proporção amostral p̂ = x/n.
3. Calcule o erro padrão, SE=
p
p̂(1 − p̂)/n.
4. Calcule t = (p̂ − p0 )/SE, o número de erros padrão que p̂ dista do valor de hipótese
p0 .
5. Encontre o p-valor usando o valor absoluto da estatı́stica de teste da tabela da
distribuição normal (ou equivalentemente da t com r = ∞ graus de liberdade).
Uma regra geral é que este teste é válido quando quando temos ambos np̂ e n(1 − p̂)
maiores do que digamos 10.
6.4.1
Exemplo
Referindo-se ao exemplo da Seção 5.8, suponha que alguém tenha sugerido de experiências
passadas que 60% das larvas de mosquito no lago deveriam ser da espécie Aedes detritus.
Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipóteste?
42
6.5
Decisões e poder
Ao tomar uma decisão a favor ou contra uma hipótese existem dois tipos de erros que
você pode cometer. Você pode rejeitar a hipótese nula quando de fato ela é verdadeira
(erro tipo I) ou você pode falhar em rejeitar H0 quando de fato ela é falsa (erro tipo
II). Existe um balanço entre esses dois tipos de erros, no sentido de que ao tentar-se
minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente
denotamos as probabilidades destes dois erros como α e β respectivamente.
Verdade
H0 verdadeiro
H0 falso
Decisão
Aceitar H0
Rejeitar H0
—
Erro Tipo I
(1 − α)
(α)
Erro Tipo II
—
β
(1 − β)
O poder de um teste é a probabilidade de rejeitar a hipótese nula quando esta é de fato
falsa. Isto é igual a 1 − β. Em geral, quanto maior o tamanho da amostra, maior o
poder do teste. É desejável decidir sobre um tamanho de amostra conveniente antes de
conduzir um estudo de forma que o resultados do teste de hipótese terá poder suficiente
para responder a questão cientı́fica de interesse.
6.6
Dimensionamento de amostras
Vimos no Capı́tulo 5 e nas seções anteriores deste capı́tulo como construir intervalos e
testes de hipóteses para os principais parâmetros populacionais. Em todos os, supusemos
dado o nı́vel de confiança desses intervalos e testes. Evidentemente, o nı́vel de confiança
deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimação
por intervalo e testes. Sendo conveniente, o nı́vel de confiança pode ser aumentado até tão
próximo de 100% quanto se queira, mas isso resultará em intervalos de amplitude cada
vez maiores (e testes com poderes cada vez menores), o que significa perda de precisão
na estimação. É claro que seria desejável termos intervalos com alto nı́vel de confiança e
pequena probabilidade de erro e grande precisão. Isso porém requer uma amostra suficientemente grande, pois, para n fixo, confiança e precisão variam em sentidos opostos.
Veremos a seguir como determinar o tamanho das amostras necessárias nos casos de estimação da média ou de uma proporção populacional. Vimos na Seção 5.4 que o intervalo
de confiança de 95% para a média µ da população quando σ é conhecido tem semiamplitude d dada pela expressão
σ
d = z√ ,
n
onde z = 1.96 para uma confiança de 95%. Ora, o problema então resolvido foi, fixados o
nı́vel de confiança (1 − α = 0.95) e n, determinar d. Mas, é evidente dessa expressão que
podemos resolver outro problema. Fixados, d e o nı́vel de confiança, determinar n, que é o
problema da determinação do tamanho de amostra necessário para se realizar a estimação
43
por intervalo com a confiança e a precisão desejadas. Vemos imediatamente que
µ
n=
zσ
d
¶2
.
Essa será a expressão usada se σ for conhecido.
Não conhecendo o desvio-padrão da população, deverı́amos subtituı́-lo por sua estimativa
s e usar t de Student na expressão acima. Ocorre porém que não tendo ainda sido retirada
a amostra, não dispomos em geral do valor de s. Se não conhecemos nem ao menos um
limite superior para σ, a única solução será colher uma amostra-piloto de n0 elementos
para, com base nela obtermos uma estimativa de s, empregando a seguir a expressão
µ
n=
t(n0 −1,0.05) s
d
¶2
.
Se n ≤ n0 , a amostra-piloto já terá sido suficiente para a estimação. Caso contrário,
deveremos retirar, ainda, da população os elementos necessários à complementação do
tamanho mı́nimo de amostra.
Procedemos de forma análoga se desejamos estimar uma proporção populacional com determinada confiança e dada precisão. No caso de população suposta infinita, da expressão
s
p̂(1 − p̂)
,
n
d=z
podemos obter
µ ¶2
n=
z
d
p(1 − p).
0.00
0.05
0.10
p(1−p)
0.15
0.20
0.25
O obstáculo à determinação do tamanho de amostra por meio da expressão acima está
em desconhecermos p. Essa dificuldade pode ser resolvida através de uma amostra-piloto,
analogamente ao caso descrito para a estimação de µ, ou analisando-se o comportamento
do fator p(1 − p) para 0 ≤ p ≤ 1. Vê-se da figura a seguir que p(1 − p) é a expressão de
uma parábola cujo ponto de máximo é p = 1/2.
0.0
0.2
0.4
0.6
p
44
0.8
1.0
Se substituirmos, p(1 − p) por seu valor máximo, 1/4, seguramente o tamanho de amostra
obtido será suficiente para a estimação de qualquer que seja p. Isso equivale a considerar
µ ¶2
n=
z
d
1
=
4
µ
z
2d
¶2
.
Evidentemente, usando-se essa expressão corre-se o risco de se superdimensionar a amostra. Isso ocorrerá se p for na realidade próximo de 0 ou 1. Se o custo envolvido for elevado
e proporcional ao tamanho de amostra, é mais prudente a tomada de uma amostra-piloto.
6.6.1
Exemplos
1. Qual o tamanho de amostra necessário para se estimar a média de uma população
infinita cujo desvio-padrão é igual a 4, com 98% de confiança e precisão de 0,5?
2. Qual o tamanho de amostra suficiente para estimarmos a proporção da área com solo
contaminado que precisa de tratamento, com precisão de 0,02 e 95% de confiança,
sabendo que essa proporção seguramente não é superior a 0,2?
45
6.7
Exercı́cios 5
1. Exercı́cios 3, item 2. Teste a hipótese nula de que essa amostra provém de um corpo
arenoso cuja média é µ = 0, 5mm.
2. A fim de testar a ocorrência de estratificação gradacional num certo arenito, amostras
foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t
verificar se as diferenças entre o tamanho médio das partı́culas da base e do topo
são significativas ou não.
Estratos
1
2
3
4
5
6
7
base
2,81
3,95
3,75
2,68
3,25
3,90
3,30
topo
3,13
4,13
3,88
2,91
3,65
4,20
3,12
d=t-b
0,32
0,18
0,13
0,23
0,36
0,30
-0,18
3. Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal, em
segundos, num dado experimento, obtendo-se:
13
17
15
14
12
16
14
15
17
15
15
13
16
14
15
15
14
16
16
15
Esses dados são suficientes, pergunta-se, para estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de confiança? Caso negativo, qual o
tamanho da amostra adicional necessária?
4. Deseja-se estimar a resitência média de certo tipo de peça com precisão de 2kg e
95% de confiança. Desconhecendo-se a variabilidade dessa resistência, roperam-se
cinco peças, obtendo-se para elas os seguintes valores de sua resitência (em kg):
50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze peças, a fim de se conseguir o resultado desejado. Qual sua opinião
a respeito dessa conclusão?
5. Exercı́cios 4, item 1. Realize um teste estatı́stico para ajudá-lo na decisão se você
deve ou não acreditar que a moeda é balanceada. Qual a sua conclusão?
6. Suponha que estejamos interessados em estimar a proporção de todos os motoristas
que excedem o limite máximo de velocidade num trecho da rodovia entre CuritibaSão Paulo. Quão grande deve ser a amostra para que estejamos pelo menos 99%
confiantes de que o erro de nossa estimativa, a proporção amostral, seja no máximo
0,04?
7. Refaça o exercı́cio anterior, sabendo que temos boas razões para acreditar que a
proporção que estamos tentando estimar é no mı́nimo 0,65.
46
7
7.1
Comparando dois grupos
Diferença entre médias de dois grupos
Na Seção 5.4, vimos como construir um intervalo de confiança para a média populacional
µ, de uma amostra aleatória de tamanho n. Lembre-se que este intervalo de confiança
era da forma x̄ ± t × SE or (x̄ − t × SE, x̄ + t × SE). Agora consideremos a comparação
das médias de das populações (por exemplo, machos e fêmeas) através da estimação das
diferenças de médias e calculando um intervalo de confiança para esta diferença das
médias.
Quando temos amostras independentes de cada uma de duas populações, podemos
sumarizá-las pelas suas médias, desvios padrão e tamanhos amostrais. Denote estas medidas por x̄1 , s1 , n1 para a amostra um e x̄2 , s2 , n2 para a amostra dois. Denote as
correspondentes médias populacionais e desvios padrão µ1 , µ2 , σ1 e σ2 respectivamente.
Para os dados de alturas dos estudantes da página 13, vamos comparar a altura média
dos estudantes do sexo masculino com as dos sexo feminino. Seja os grupo dos homens
a amostra um, e o grupo das mulheres a amostra dois. As alturas foram medidas em
centı́metros e as medidas sumárias foram como segue:
x̄1 = 178.85, s1 = 7.734, n1 = 20,
x̄2 = 164.09, s2 = 9.750, n2 = 17.
Agora claramente uma estimativa natural da diferença entre médias na população, µ1 −µ2 ,
é dada pela diferença nas médias amostrais:
x̄1 − x̄2 ,
e para nossos dados esta é 178.85 − 164.09 = 14.76. Agora o que precisamos é um erro
padrão para esta estimativa para que possamos construir um intervalo de confiança ou
realizar um teste da hipótese nula H0 : µ1 − µ2 = 0 versus H1 : µ1 − µ2 6= 0.
7.1.1
Erro padrão - assumindo desvios padrão iguais
Primeiramente, assumimos que os desvios padrão populacionais são os mesmos em cada
grupo, i.e. σ1 = σ2 = σ. Podemos combinar os dois desvios padrões amostrais para formar
uma estimativa combinada do desvio padrão. Atribuı́mos mais peso às amostras maiores.
Este desvio padrão combinado sp é a raiz quadrada da variância combinada s2p dada
por
(n1 − 1)s21 + (n2 − 1)s22
s2p =
.
n1 + n2 − 2
Para nossos dados temos:
s2p = (19 × 7.7342 + 16 × 9.7502 )/35 = 75.92801
√
então sp = 75.92801 = 8.71. Note que está entre s1 e s2 . Se você obtiver um valor que
não está entre estes valores então seus cálculos estão errados.
47
Agora podemos calcular o erro padrão das diferenças nas médias como
s
SE = sp
a qual para nossos dados é 8.71 ×
7.1.2
1
1
+ .
n1 n2
p
(1/20 + 1/17) = 2.87kg.
I.C. para a diferença entre médias assumindo desvios padrão iguais
Um intervalo de confiança para µ1 − µ2 é dado por
((x̄1 − x̄2 ) − t × SE,
(x̄1 − x̄2 ) + t × SE) ,
onde t é escolhido apropriadamente. Quando os tamanhos amostrais são grandes um
intervalo de confiança aproximado de 95% é obtido usando t = 1.96.
Se os tamanhos amostrais não forem tão grandes então un intervalo exato de 95% de
confiança deveria de ser calculado selecionando o valor de t da tabela da disitrbuiçÃo t,
com n1 + n2 − 2 graus de liberdade e coluna p = 0.05. Para um intervalo de 99% de
confiança deverı́amos selecionar o valor na coluna p = 0.01.
Exemplo: Para os dados de altura, temos n1 + n2 − 2 = 20 + 17 − 2 = 35, resultando
t = 2.03 para um intervalo de confiança de 95% (através de interpolação entre a linha 30
e 40). Um intervalo de confiança de 95% para a diferença nas médias é dado por:
(14.76 − 2.03 × 2.87, 14.76 + 2.03 × 2.87)
=
(8.93, 20.59).
Estamos 95% confiantes que, em média, estudantes do sexo masculino são entre 9cm e
21cm mais do que as estudantes do sexo feminino.
7.1.3
Teste para a diferença das médias
Um teste para a diferença entre médias corresponde a um teste de H0 : µ1 − µ2 = 0.
Seguindo o mesmo tipo de procedimento visto na Seção 6.
Nosso teste estatı́stico é:
(x̄1 − x̄2 ) − 0
,
SE
que é a estimativa de µ1 − µ2 menos o valor hipotético (zero neste caso) e tudo dividido
pelo erro padrão.
t=
Sob a hipótese nula, este segue uma distribuição t com n1 + n2 − 2 g.l. O valor obtido para
t (ignorando seu sinal) é comparado com os valores tabelados com os graus de liberdade
aproriados, para obter um p-valor.
Para os nossos dados, temos t = (14.76 − 0)/2.87 = 5.14, e comparando este à linha 30 e
40 da tabela, vemos que devemos ter p < 0.001.
Assumindo que nossas amostras foram amostras aleatórias de todos os estudantes, temos
evidências bem fortes de a altura média dos estudantes do sexo masculino é diferente
daquela das estudantes do sexo feminino.
48
7.1.4
I.C. para diferença de médias - desvios padrão diferentes
Uma regra prática é que os desvios padrão populacionais σ1 e σ2 podem em geral ser
assumidas iguais se a razão do maior desvio padrão amostral para o menor for menor do
que 2 ou 3. Além disso a suposição de variâncias iguais pode ser grosseiramente avaliada
através de historgramas dos dados. Testes formais estão disponı́veis se necessário.
Se os desvios padrão populacionais não puderem ser assumidos iguais, usamos uma outra
fórmula para o erro padrão de x̄1 − x̄2 , dado por
s
SE =
s21
s2
+ 2.
n1 n2
Note que esta abordagem é usada somente para grandes amostras.
A estaı́stica de teste usando este SE não segue uma distribuição t sob a hipótese nula.
Contudo, para tamanhos amostrais razoavelmente grandes (digamos ambos maiores do
que 30), podemos comparar a estatı́stica de teste acima com uma distribution Normal
padrão (última linha da tabela t).
Em nosso exemplo, calculamos um erro padrão de 2.87 kg sob a suposição de igauldade
de desvios padrão populacionais para ambos os grupos. A fórmula alternativa (a qual não
assume desvios padrão populacionais iguais) resulta em
s
SE =
(7.734)2 (9.750)2
+
= 2.93 kg
20
17
que praticamente não defire do valor prévio. Então o intervalo de confiança e o resultado
de teste de hipótese seriam virtualmente os mesmos usando este erro padrão.
49
7.2
Amostras pareadas
Num estudo pareado, temos duas amostras mas cada observação da primeira amostra é
pareada com uma observação da segunda amostra. Tal delineamento ocorre, por exemplo,
num estudo de medidas feitas antes e depois no mesmo indivı́duo ou num estudo de
gêmeos (onde cada conjunto de gêmeos forma um dado pareado). Como esperado, as duas
observações do mesmo indivı́duo (ou de um conjunto de gêmeos) são mais prováveis de
serem similares, e portanto não são considerados estatı́ticamente independentes.
Com dados pareados, podemos usar a seguinte notação:
x1i = measurement 1 on pair i,
x2i = measurement 2 on pair i
a então escrevemos as diferenças nas medidas de cada par como
di = x2i − x1i .
Agora temos uma amostra de diferenças di , e podemos usar os métodos que já estamos
familiares. Podemos calcular um intervalo de confainça para a diferença média e testar
se a diferença média é igaul a um particular valor (usualmente zero) ou não. Nos referimos
a tal teste como um paired t-test ao contrário do test-t para duas amostras acima.
Note que neste caso estamos interessados na diferença média enquanto que quando temos
duas amostras independentes, estamos interessados na diferença nas médias. Ainda que
numericamente estas quantidades são as mesmas, conceitualmente elas são diferentes.
Exemplo: A mudança nos nı́veis de um contaminante numa certa área do inı́cio ao final
de seis meses de observação foram (em µ/l):
−1.5 −0.6 −0.3 0.2 −2.0 −1.2
A média
√ e o desvio padrão são −0.9 e 0.81 µ/l respectivamente. Então o erro padrão é
0.81/ 6 = 0.33 µ/l.
Podemos agora realizar um test-t pareado para testar a hipótese nula de que a perda na
concentração média é 0. Para isso calculamos
t=
−0.9
d¯ − 0
=
= −2.73.
¯
0.33
SE(d)
Note que este valor é negativo (porque a mudança média observada foi a redução na
concentração do poluente — um valor positivo seria um aumento na concentração do
poluente). Observamos o valor absoluto da estatı́stica de teste (2.73) na tabela, usando a
linha com n − 1 = 5 graus de liberdade.
A quinta linha da tabela mostra que 0.01 < p < 0.05 (porque o valor 2.73 está entre os
valores tabelados 2.571 e 4.032). Então, rejeitamos a hipótese nula ao nı́vel de 5%. Existe
evidência ao nı́vel de 5% de que a área em estudo sofreu uma redução em média nos nı́veis
do contaminante durante o perı́odo de seis meses.
50
Podemos adicionar à nossa conclusão o intervalo de confiança de 95% para a redução média
nos nı́veis do contaminante: −0.9 ± 2.57 × 0.33 = −0.9 ± 0.85 = (−1.75, −0.05) Estamos
95% confiantes que a redução média nos nı́veis do contaminante está entre 0.05µ/l e
1.75µ/l.
51
7.3
Comparando proporções
Voltando aos dados da página 38 acerca de um estudo investigando a existência de uma
igualdade na proporção de machos de uma certa espécie em dois lagos distintos. As
proporções observadas de machos foram 74.4% dentre 43 peixes capturados no primeiro
lago e 60% dentre os 50 do segundo. Se construirmos intervalos de confiança para os
percentuais correspondentes de machos na população (peixes da mesma espécie naqueles
dois lagos), encontrarı́amos que podemos estar 95% confiantes de que o percentual está
entre 61.4% e 87.4% no primeirop lago, e entre 46.4% e 73.6% no segundo.
Contudo, nesse tipo de experimento a idéia principal é comparar diretamente os dois
lagos. Portanto gostariamos de calcular um intervalo de confiança de 95% para a
diferença em proporções. Note contudo que isto é somente apropriado para grandes
amostras, e desse modo quando a amostra é pequena devemos ser cautelosos para não
super valorizar os resultados.
7.3.1
Intervalo de confiança para a diferença em proporções
Seja p1 a verdadeira proporção populacional no grupo 1 (lago 1), se seja p2 a proporção
no grupo 2 (lago 2). Estamos interessados na diferença em proporções,
p2 − p1 .
Estimativas de p1 e p2 são dadas por
p̂1 = 0.744 ,
p̂2 = 0.600,
então uma estimativa da diferença em proporções é
p̂2 − p̂1 = 0.744 − 0.600 = 0.144
O erro padrão desta diferença é
s
SE =
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
.
n1
n2
Com isso podemos construir um intervalo de confiança da forma ususal, ou seja
(p̂2 − p̂1 ) ± 1.96 × SE.
52
Então para os nossos dados temos
s
SE =
0.744 × (1 − 0.744) 0.600 × (1 − 0.600)
+
= 0.096.
43
50
Portanto um intervalo de confiança aproximado de 95% para a diferença em proporções é
dado por 0.144 ± 1.96 × 0.096, o qual é (−0.044, 0.332), ou (-4.4%,33.2%). Estamos 95%
confiantes que a verdadeira diferença percentual entre as proporções de peixes machos nos
dois lagos está entre -4.4% e 33.2%.
Note que de acordo com este intervalo o valor zero é um valor plausı́vel para as diferenças
nos percentuais, e portanto não existem evidências estatı́sticas de que o percentual de
peixes do sexo masculino diferem nos dois lagos.
7.3.2
Teste para a diferença de duas proporções
Podemos testar a hipótese nula H0 : p2 − p1 = 0 versus a alternativa H1 : p2 − p1 6= 0
usando a estatı́stica
(p̂2 − p̂1 ) − 0
t=
SE
e comparando este valor com a tabela t com ∞ graus de liberdade.
7.4
Exercı́cios 6
1. Um experimento (hipotético) sobre o efeito do álcool na habilidade perceptual motora é conduzido. 10 indivı́duos são testado duas vezes, uma depois de ter tomado
dois drinks e uma depois de tomado dois copos de água. Os dois testes foram realizados em dois dias diferentes para evitar influência do efeito do álcool. Metade
dos indivı́duos tomou a bebida alcoólica primeiro e a outra metade água. Os escores
dos 10 indivı́duos são mostrados abaixo. Escores mais altos refletem uma melhor
performance. Deseja-se testar se a bebida alcoólica teve um efeito singificante. Use
um nı́vel de significância de 1%.
-----------------------------------indivı́duo
1 2 3 4 5 6 7 8 9 10
-----------------------------------água
16 15 11 20 19 14 13 15 14 16
álcool 13 13 12 16 16 11 10 15 9 16
------------------------------------
53
2. Um estudo realizado para comparação entre duas lagunas quanto à salinidade em
Bimini, Bahamas, obteve as seguintes observações (em partes por mil):
-------------------laguna 1
laguna 2
-------------------37.54
39.04
37.01
39.21
36.71
39.05
37.03
38.24
37.32
38.53
37.01
38.71
37.03
38.89
37.70
38.66
37.36
38.51
36.75
40.08
37.45
38.85
-------------------O que você conclui com base nestes dados?
3. Deseja-se comparar os teores de Sr provenientes de amostras de carbonato obtidos a
partir de dois métodos diferentes: I-fotômetro de chama; II-análise espectrográfica.
--------------------------------Espécimes
Método I
Método II
--------------------------------1
0.96
0.94
2
0.96
0.98
3
0.85
0.87
4
0.86
0.84
5
0.86
0.87
6
0.89
0.93
--------------------------------4. As seguintes amostras aleatórias são medidas da capacidade de produção de calor
(em milhões de calorias por tonelada) de especimes de carvão de duas minas:
-----------------------------------mina 1
8400 8230 8380 7860 7930
mina 2
7510 7690 7720 8070 7660
-----------------------------------Use um teste de 0.05% de significância para testar se a diferença entre as capacidades
médias de calor é significante.
5. Um método de semeadura de nuvens foi bem sucedido em 57 dentre 150 tentativas,
enquanto outro método foi eficaz em 33 dentre 100 tentativas. Ao nı́vel de significância de 0.05% podemos concluir que o primeiro método é melhor do o segundo?
54
8
8.1
Correlação
Relações entre variáveis
Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas.
Por exemplo, estão as alturas de filhos relacionadas com as alturas dos seus pais? Processos
praianos condicionam a inclinação da zona pós-praia abaixo da linha da maré baixa? Ou
seja, o ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa
a estirâncio está relacionado com o diâmetro médio (em mm) do sedimento do fundo
oceânico?
ângulo de inclinação y
0.68
2.05
0.85
1.83
0.66
1.84
0.50
1.87
1.86
1.82
2.33
1.85
2.17
1.75
1.83
1.51
1.68
1.38
diâmetro de sedimentos x
0.79
0.55
0.65
0.47
0.81
0.59
0.74
0.47
0.22
0.50
0.23
0.52
0.25
0.47
0.26
0.42
0.41
0.37
Três propósitos principais de tais investigações podem ser:
• para verificar se os valores sestão associados. (Os valores de uma medida tendem
a crescer (ou decrescer) à medida que a outra cresce?)
• para predizer o valor de uma variável a partir de um valor conhecido da outra.
• para descrever a relação entre variáveis. (Dado um aumento especı́fico numa variável,
qual o crescimento médio esperado para a segunda variável?)
A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o
valor de uma variável contı́nua a partir de uma outra variável e para descrever a relação
entre duas variáveis utiliza-se regressão (veja o próximo capı́tulo).
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados
para obter alguma idéia da forma e grau de associação entre duas variáveis.
55
2.0
1.5
0.5
1.0
y
0.2
0.3
0.4
0.5
0.6
0.7
0.8
x
Mesmo tendo somente 18 observações, podemos ver que parece existir alguma associação
entre ângulo de inclinação do fundo oceânico e diâmetro médio de sedimentos.
8.2
Definições
Seja x1 , x2 , . . . , xn o conjunto das medidas de uma das variáveis (perı́odo das ondas), e
seja y1 , y2 , . . . , yn as medidas da outra variável (diâmetro médio de sedimentos). Seja x̄,
ȳ, sx e sy as médias e desvios padrão amostrais dos dois conjuntos de dados.
Para obter uma medida do grau de associação da relação linear entre duas variáveis,
usamos o coeficiente de correlação, definido como:
r=
onde
P
sxy =
sxy
.
sx sy
(xi − x̄)(yi − ȳ)
=
n−1
P
xi yi − nx̄ȳ
.
n−1
Para os dados do exemplo acima, temos n = 18, x̄ = 0.48, ȳ = 1.58, sx = 0.18, sy = 0.54,
xi yi = 12.44 a partir dos quais podemos calcular que r = −0.079.
P
Assim como para médias e desvios padrão, existe uma letra Grega especial que utlizamos
para o coeficiante de correlação populacional: ρ. Podemos considerar r como sendo
uma estimativa de ρ, exatamente como x̄ é uma estimativa da média populacional µ.
Abaixo estão exemplos de dados com seus coeficientes de correlação correspondentes.
56
8.3
r=0.4
r=0.7
r=1.0
r=-0.3
r=-0.6
r=-0.9
Interpretação do coeficiente de correlação
O valor de r está sempre entre −1 e +1, com r = 0 correspondendo à não associação.
(
Valores de r
negativos
positivos
)
(
indicam uma associação
negativa
positiva
)
Usamos o termo correlação positiva quando r > 0, e nesse caso à medida que x cresce
também cresce y, e correlação negativa quando r < 0, e nesse caso à medida que x
cresce, y decresce (em média).
Quanto maior o valor de r (positivo ou negativo), mais forte a associação. No extremo,
se r = 1 ou r = −1 então todos os pontos no gráfico de dispersão caem exatamente numa
linha reta. No outro extremo, se r = 0 não existe nenhuma associação linear.
A seguinte quadro fornece um guia de como podemos descrever uma correlação em palavras
dado o valor numérico. É claro que as interpretações dependem de cada contexto em
particular.
Valor de ρ (+ ou −)
0.00 a 0.19
0.20 a 0.39
0.40 a 0.69
0.70 a 0.89
0.90 a 1.00
Uma
Uma
Uma
Uma
Uma
Interpretação
correlação bem fraca
correlação fraca
correlação moderada
correlação forte
correlação muito forte
Note que correlações não dependem da escala de valores de x ou y. (Por exemplo, obterı́amos o mesmo valor se medı́ssemos altura e peso em metros e kilogramas ou em pés e
libras.)
57
8.4
Linearidade e normalidade
Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos de
descrever (também chamado coeficiente de correlação de Pearson). Nos dados abaixo,
mesmo existindo uma clara relação (não-linear) entre x e y, o coeficiente de correlação é
zero. Sempre faça o gráfico dos dados de modo que você possa visualizar tais relações.
•
•
•
•
•
y
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
x
Em alguns casos pode ser apropriado transformar x e/ou y.
•
•
•
•
• ••• ••
•
• • ••
•
•••• •
• • ••
8
Log Military expenditure
Military expenditure
6000
•
4000
•
2000
0
•
• •
•• •
•
• •• ••
•
•••••• •
•••••••••• ••
•
0
50000
•
6
4
•
2
100000 150000
• ••
• • •• •
•
•
• • •• •
•
••• •• ••
• • •• •
•• •
•
•
•
•
•
•• • •
•
• •• •
6
Gross Domestic Product
7
8
•
•
•
••
9
10
11
Log Gross Domestic Product
58
12
8.5
Coeficiente de determinação, R2
O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de determinação ou simplesmente R2 . É uma medida da proporção da variabilidade em uma
variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos uma
correlação perfeita (R2 = 1) na prática, porque existem muitos fatores que determinam as
relações entre variáveis na vida real. No nosso exemplo da página 56, tivemos r = −0.79,
de modo que R2 = 0.62 ou 62%. Então cerca de 38% da variabilidade da inclinação da
zona pós-praia abaixo da linha da maré baixa não pode ser descrito (ou explicado) pela
variabilidade no diâmetro médio de sedimentos e vice-versa. Fica portanto claro que existem outros fatores que poderiam ser importantes, como por exemplo, profundidade da
lâmina d’água, altura das ondas, ângulo de aproximação das ondas, etc.
8.6
Associação não é causalidade
Suponha que encontremos uma associação ou correlação entre duas variáveis A e B. Podem
existir diversas explicações do porque elas variam conjuntamente, incluindo:
• Mudanças em A causam mudanças em B.
• Mudanças em B causam mudanças em A.
• Mudanças em outras variáveis causam mudanças tanto em A quanto em B.
• A relação observada é somente uma coincidência.
A terceira explicação é frequentemente a mais apropriada. Isto indica que existe algum
processo de conecção atuando. Por exemplo, o número de pessoas usando óculos-de-sol
e a quantidade de sorvete consumido num particular dia são altamente correlacionados.
Isto não significa que usar óculos-de-sol causa a compra de sorvetes ou vice-versa!
É extremamente difı́cil estabelecer relações causais a partir de dados observacionais.
Precisamos realizar experimentos para obter mais evidências de um relação causal.
8.7
Exercı́cios 7
1. Um estudo geoquı́mico orientador realizado, utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm,
provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em
ppm:
59
Ni
5.2
5.0
6.8
7.5
2.5
5.0
7.5
7.0
8.0
4.0
Cr
16.8
20.0
14.2
17.5
10.1
15.5
13.8
18.2
13.0
15.0
Ni
4.5
5.4
8.8
18.0
6.2
20.5
10.0
4.0
4.4
15.9
Cr
15.5
13.0
12.5
20.2
12.5
13.5
17.8
12.8
12.2
13.0
(a) Faça o gráfico destes dados com Ni no eixo x.
(b) Calcule o coeficiente de correlation r pata estes dados e cheque se o valor obtido
parece consistente com seu gráfico.
(c) Qual proporção da variabilidade na concentração de Cr pode ser explicada pela
concentração de Ni?
2. Prosseguindo o estudo da influência de processos praianos no condicionamento do
ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a
estirâncio mediu-se a profundidade da lâmina d’água (em pés). Os dados coletados
foram:
ângulo de inclinação y
0.68
2.05
0.85
1.83
0.66
1.84
0.50
1.87
1.86
1.82
2.33
1.85
2.17
1.75
1.83
1.51
1.68
1.38
profundidade x
12.4
13.3
11.4
14.1
10.7
13.4
11.6
13.5
11.3
13.3
10.7
14.4
11.1
14.1
12.8
15.3
13.3
14.0
(a) Faça o gráfico desses dados com profundidade da lâmina d’água no eixo x.
(b) Calcule o coeficiente de correlação, r e interprete o resultado obtido.
(c) Qual proporção da variabilidade em ângulo de inclinação pode ser explicada
por profundidade da lâmina d’água?
60
9
9.1
Regressão
Idéia básica
Em certas situações podemos estar interessados em descrever a relação entre duas variáveis,
e também predizer o valor de uma a partir de outra. Por exemplo, se sabemos a altura
de um certo estudante, mas não o seu peso, qual seria um bom chute para o peso deste
estudante? O coeficiente de correlação apenas indica a grau de associação como um único
número.
40
50
60
Weight (kg)
70
80
90
Retorne aos dados de altura e peso de estudantes na página 13. Denote as alturas por
x1 , x2 , . . . , xn , e os pesos por y1 , y2 , . . . , yn . (Por enquanto vamos ignorar se eles são do
sexo masculino ou feminino). Se estamos interessados em predizer peso de altura então não
temos uma relação simétrica entre as duas variáveis. Chamamos peso a variável resposta
ou dependente, e altura a variável explanatória, preditora ou independente. A
variável resposta é sempre disposta no eixo vertical y, e a variável explanatória é sempre
disposta no eixo x.
140
150
160
170
Height (cm)
180
190
200
Se a relação entre as duas variáveis é aproximadamente linear, então os dados podem ser
resumidos através do ajuste de uma reta passando pelos dados. A equação dessa reta é
dada por
y = a + bx
onde a é conhecida como o intercepto e b é a inclinação. Intuitivamente, queremos uma
reta que forneça pequenas diferenças entre os verdadeiros pesos e aqueles dados pela reta
para as alturas correspondentes.
61
O método padrão para obter a melhor reta ajustada é chamado mı́nimos quadrados
o qual literalmente miniza a soma dos quadrados das distâncias de yi à reta ajustada.
Em princı́pio isto requer traçar retas possı́veis, calculando a soma dos quadrados das
distâncias:
n
n
S=
X
(yi − ŷi )2
=
i=1
X
{yi − (a + bxi )}2
i=1
e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valor de
S. É possı́vel mostrar que a melhor reta é aquela tal que
P
P
b=
xi yi − nx̄ȳ
(yi − ȳ)(xi − x̄)
sxy
P
= P 2
= 2
2
2
(xi − x̄)
x − nx̄
sx
e
a = ȳ − bx̄.
Para os dados de altura e peso a = −51.17kg e b = 0.68kg/cm; então a reta de regressão é
y = −51.17 + 0.68x.
Nossa reta ajustada é uma estimativa da reta de regressão populacional, y = α+βx.
Nossos a e b são estimativas de α e β. (É comum, denotar-se estas estimativas por α̂ e β̂
ao invés de a e b.)
O próximo passo é construir intervalos de confiança etc para α e β (intercepto e inclinação
populacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas
suposições acerca da população.
9.2
Modelo de regressão linear simples
Este é o modelo mais simples para descrever a relação entre uma variável explanatória x
e uma variável resposta y. O modelo faz a seguintes suposições, em ordem decrescente de
importância:
1. o valor médio da variável resposta é uma funçãi linear de x,
2. a variância da variável resposta é constante (ou seja, a mesma para todos os valores
de x),
3. a variação aleatória da variável resposta para qualquer valor fixo de x segue uma
distribuição Normal, e estes termos de erro são independentes.
Em termos algébricos, seja (xi , yi ) para i = 1, . . . , n os valores observados da variável
explanatória x e da variável resposta y para os n sujeitos.
62
O modelo de regressão linear é
yi = α + βxi + εi
onde εi representa desvios independentes aleatórios da relação linear entre y e x e (para
satisfazer nossas três suposições acima)
εi ∼ Normal(0, σ 2 ).
Note que α e β são parâmetros da população, e eles são frequentemente conhecidos como
coeficientes. Em particular, β é denominado coeficiente, ou efeito, de x.
0.0
0.2
0.4
sqrt(y)
0.6
0.8
1.0
1.2
1.4
Os dados abaixo parecem satisfazer todas as três suposições:
••
•
• •
•
•••
• ••
•
• ••
• •• • •••
•
•
• •
••• ••
••
•• ••• •
••
• •
• • •••• •• • • • •
•
• • • ••• • • ••••• • •• • •• •••
• • ••
•
•
•
••
••• • ••• •• •• ••••••• •• ••• •••••• • • •
•• •
••
•
•
• • • • •• • ••• •• • •• • •••
• • • ••• • •
• •
•
• • •• ••• • •• • • • •
• • •• •
••
•
•
•
•
•
•
• •
•
•• •• • ••
•• •
••• • •• • • • •
•
•• • ••• • • • •
•
•
•
•
•
•
•
•
•
•
•
•
•
•
• •• •
•••
••
••• • ••• • • •••• • •
• • •• •
• • • • • ••
• • • • •• ••• • •• • • ••••••• •• • •• •• • •
• •• •• • • ••
•
•
•
•
•
•
•
••• • • •
•• •
• •
• • •• • • • •• • • • ••• ••• • • • •
•
•• •••• • • •
• •• • •
•
•
•
•
• • • •••• • • • •••• •
• • • • • •••• • •••
• • ••
••
• ••• •• •• ••••••• ••• • •
• • • •• •••• •• • ••• • •••• ••
•
•
• •• •
•• ••••• •••• •• • • ••
••
0.0
0.2
0.4
0.6
0.8
1.0
x
Um exemplo construı́do de dados que não satisfazem nenhuma das suposições é mostrado abaixo:
•
•
•
1.5
• •
•
0.0
0.5
y
1.0
••
••
• ••
•
•
• •
•
• • • ••
•
•
•
•
•
•
••
• • • •• •••
• •••• •• • • • • •
•
•
•
•
•
•
• • • ••• • • •••• • •• • •• • •
• •
• • • ••• •
•
• • ••
••• • •• • • ••••••• •• ••• ••••• • • •
• • ••
••
• • • • •• • ••• •• •••• •• •••
• • • •• • •
• •
• •
• •• ••• • •• • • • •
• • •• •
••
•
•• ••• •
•• • • ••
•
•
•
•
•
•
•
•
•••
•• •• ••• • • •
•
•
•• • ••
•
•
•
• •
• •
••
•
•
•
•
•
•
•
• •• •
••
• • • • •••• •• • ••• • •••• •
• • •
• • • • • •• ••• •• ••• • • ••••••••• ••• • • •••• •••• • • • ••
•
•
• • •• ••• •••••••••••••• • •• ••• •••••••• •••••• • ••• ••• •• •• • • • •
•
•
••••••••••••••••••••••••••••••••• •••••••• ••• •• •••• ••••• •
•
0.0
0.2
0.4
0.6
x
63
•
0.8
1.0
9.3
Estimando os parâmetros do modelo
Uma tarefa importante associada com o modelo de regressão linear é a estimação dos
valores de α e β, os quais juntos determinam a equação da reta ajustada.
Um método padrão de estimação em estatı́stica chamado máxima vaerossimilhança
leva às mesmas estimativas de mı́nimos quadrados descrito na Seção 9.1, ou seja
β̂ = sxy /s2x
e
α̂ = y − β̂x
Em aplicações, não existe garantia de que o modelo de regressão linear será resoável para
nossos dados. Devemos sempre sobrepor a reta ajustada y = α̂ + β̂x sobre um scatterplot
dos dados para checar se o modelo é razoável. Devemos procurar por evidências de uma
relação não-linear, ou desvios muito extremos da reta ajustada.
Se acharmos que o modelo está razoável, podemos também estimar σ 2 , a variância dos
erros εi , usando a fórmula
(n − 1) 2
σ̂ 2 =
{s − β̂ 2 s2x }
(n − 2) y
onde s2y e s2x denotam a variância amostral de y e de x, respectivamente.
9.3.1
Exemplo
40
50
60
Weight (kg)
70
80
90
Para os nossos dados, já sabemos que α̂ = −51.17 e que β̂ = 0.68. Um gráfico dos dados
com a reta ajustada é:
140
150
160
170
Height (cm)
180
190
200
O ajuste da reta não parece tão bom. Existem dois pontos bem distantes da reta ajustada,
e o da esquerda em particular parece ter uma grande influência na reta ajustada. Na
prática é aconselhavel investigar a acurácia destes valores e/ou verificar quanto muda a
reta ajsutada quando estes pontos são removidos. Contudo, por enquanto prosseguiremos
assumindo que está tudo ok!
64
Para sermos capazes de calcular erros padrão e intervalos de confiança, é importante
manter tantas casa decimais quanto possı́vel: β̂ = 0.6846253. As outras quantidades são:
n = 37,
sx = 11.38700,
sy = 11.70791,
sxy = 88.77102.
Podemos agora obter σ̂ 2 :
σ̂ 2 =
36
{(11.707912 ) − (0.68462532 )(11.387002 )} = 78.48
35
Então uma estimativa do desvio padrão dos desvios aleatórios εi em torno da reta é
√
σ̂ = 78.48 = 8.86
9.4
I.C. e teste para β
Usualmente é de interesse saber qual a nossa precisão na estimativa de β. Para responder
esta questão, podemos calcular um intervalo de confiança de 95% para β, como segue:
1. Calcule o erro padrão de β̂,
q
SE =
σ̂ 2 /{(n − 1)s2x }
2. Encontre o valor de tn−2,0.05 , que está na tabela t: linha r = n − 2 e coluna 0.05.
3. Um Intervalo de confiança de 95% é:
β̂ ± t × SE
Podemos também ter interesse em testar a hipótese H0 : β = 0, ou seja, de que não exista
relação entre x e y. Nesse caso, procedemos como segue:
1. Calcule t = (β̂ − 0)/SE.
2. Procure na tabela t, o p-valor correspondente ao seu valor de t na linha r = n − 2
da tabela para sumarizar a evidência contra H0 .
9.4.1
Exemplo
Para os dados dos estudantes, um teste da hipótese nula de não existência de relação entre
altura e peso fica como segue.
q
SE =
78.48/(36 ∗ 11.3870022 ) = 0.1297
t = 0.6846/0.1297 = 5.28 (com n − 2 = 35gl → P < 0.001)
Podemos calcular um intervalo de confiança de 99% para β (o coeficiente de altura):
(0.6846 ± 2.032 × 0.1297) = (0.42, 0.95)
65
9.5
Transformações de dados
Uma forma de estender a aplicabilidade do modelo de regressão linear é aplicar uma
transformação em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relação
entre duas variáveis é não-linear (uma curva pareceria ajusta melhor do que uma reta),
então frequentemente a relação pode ser feita linear transformando uma ou ambas as
variáveis.
Transformações podem ser muito úteis em algumas circunstâncias, mas deveria somente
ser considerada como um último recurso uma vez que quando uma or ambas as variáveis
são transformadas, os coeficientes deixam de ter interpretações diretas.
A idéia é escolher uma transformação que faça a relação aproximadamente linear enquanto
ainda premanecendo interpretáveis. Frequentemente, relações biológicas são multiplicativas e não aditivas e transformações logarı́tmicas são particularmente úteis nestes casos.
9.6
Resumo
Regressão permite-nos:
• Descrever suscintamente o nı́vel geral de uma variável que está associada com cada
nı́vel de outra.
• Predizer uma variável de uma outra variável. É importante aqui distinguir entre
interpolação (predição dentro da amplitude dos dados amostrados; no exemplo,
predição do peso de uma pessoa de altura 170 cm) e extrapolação (predição fora
da amplitude dos dados; no exemplo, predição do peso de alguém com altura 70cm
como sendo aproximadamente −3kg!).
9.7
Exercı́cios 8
1. Com relação aos dados apresentados no Capı́tulo 8 sobre processos praianos condicionando a inclinação da zona pós-praia abaixa da linha da maré baixa.
(a) Ajuste um modelo de regressão linear simples a partir do qual podemos predizer a inclinação do fundo oceânico situado logo após a linha da maré baixa a
estirâncio em termos do diâmetro médio do sedimento do fundo oceânico. Adicione a reta ajustada ao gráfico de dispersão apresentado no capı́tulo anterior.
(b) Explique em palavras o que a equação de regressão está lhe dizendo.
(c) Quais suposições foram feitas para obrter essa equação?
(d) Como você poderia decidir se a aparente associação entre inclinação e diâmetro
foi ou não meramente casual?
(e) Com base nesse equação, qual seria sua predição para a inclinação da zona póspraia para um diâmetro médio do sedimento do fundo oceânico de 0.50mm?
66
Download

Apostila Estatistica