Distribuição Amostral das
Médias
Bioestatística
Profª. Janaína Jaeger
 Investigações sobre problemas biológicos sempre envolvem mais do que um
indivíduo (com exceção dos relatos de casos clínicos);
 Motivo: fenômenos biológicos → resultados que variam;
 Ao comparar resultados obtidos em situações diferentes, os pesquisadores
desejam considerar a variabilidade entre observações;
 Para se conhecer a variabilidade de uma característica → se mede mais do
que uma unidade experimental ;
 AMOSTRAS (grupo de indivíduos);
 Variáveis quantitativas: média e desvio padrão são importantes para
elaborar conclusões.
- Problema típico: avaliar se um determinado conjunto de dados difere de um padrão
tomado como referência.
Ex: Considere a alcalinidade média no rio Jacuí como sendo de 19,6 mg de
CaCO3/L (medida em 1992). Se em uma amostra recente (medida em 2011) de 16
observações a média for 16,2 mg, estará ela indicando que a alcalinidade no rio
se modificou?
- Pontos a considerar:
 Padrão tomado como referência: 19,6 mg
 Diferença entre as médias (2011 – 1992): 16,2 – 19,6 = - 3,4 mg
 Pergunta: a diferença obtida (- 3,4 mg) pode ser atribuída a uma diminuição
real na alcalinidade ou a um erro aleatório, já que a média 16,2 mg está baseada
em uma amostra de apenas 16 dados?
Para decidir sobre a significância estatística da diferença entre uma
média amostral (16,2 mg) e o parâmetro tomado como referência
(19,6 mg), é necessário saber como é o comportamento aleatório das
médias amostrais, isto é, como é a sua distribuição probabilística:
DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS (DAM)
DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS (DAM)
 Imagine uma população hipotética de 4 valores:
x =
10
20
30
40
Média = 10 + 20 + 30 + 40 / 4 = 100 / 4 = 25
Retire agora dessa população todas as amostras aleatórias possíveis de 2 elementos:
Amostra
Valores
Média da Amostra
1
(10, 10)
10
2
(10, 20)
15
3
(10, 30)
20
4
(10, 40)
25
5
(20, 10)
15
6
(20, 20)
20
7
(20, 30)
25
8
(20, 40)
30
9
(30, 10)
20
10
(30, 20)
25
11
(30, 30)
30
12
(30, 40)
35
13
(40, 10)
25
14
(40, 20)
30
15
(40, 30)
35
16
(40, 40)
40
16 amostras possíveis
A) Distribuição de frequência dos valores de x em uma população de 4 valores
igualmente prováveis;
B) Distribuição de frequência das médias de 2 elementos obtidas dessa população
quanto maior a amostra, mais próximo da normalidade se distribui a curva
representando a média de todas as amostras possíveis, retiradas aleatoriamente
de uma população.
 Apesar dos 4 valores de x serem igualmente frequentes (fr = 0,25 para cada
um) na população original, as médias amostrais com valor próximo de 25 são
mais comuns do que as médias mais extremas;
 Quando as amostras são grandes, as médias de todas as amostras
possíveis, de igual tamanho e retiradas aleatoriamente de uma população,
distribuem-se segundo uma curva normal = Teorema do Limite Central.
Curva Normal ou de Gauss
PROPRIEDADES
DA CURVA DE
GAUSS

Forma de sino, com caudas que jamais tocam o eixo x (valores de x
podem variar de -  a + ). Na prática, no entanto, utiliza-se a curva
normal com limites finitos;

A curva é simétrica em relação à perpendicular que passa pela média
();

A média, a mediana e a moda são coincidentes;

A curva tem dois pontos de inflexão, que correspondem a valores de x
situados, respectivamente, à distância de um desvio padrão () acima e
abaixo da média;

A área sob a curva totaliza 1 ou 100%;

Aproximadamente 68% (2/3) dos valores de x situam-se entre os
pontos ( - ) e ( + );

Aproximadamente 95% dos valores estão entre ( - 2) e ( + 2);

Aproximadamente 99,7% dos valores estão entre ( - 3) e ( + 3).
TRANSFORMAÇÃO
DE UMA VARIÁVEL X EM Z

As variáveis na prática (x) apresentam valores cujas áreas não estão
tabeladas;

Os valores de x podem ser transformados na variável z e então as áreas
desejadas podem ser obtidas da tabela de curva normal:
z=x-


Z pode ser interpretado como: o número de desvios padrão
envolvidos no afastamento de um determinado valor de x em
relação à média.
EXEMPLO 1:

Um treinador deseja selecionar, dentre os jovens que estão prestando
serviço militar no quartel, aqueles com estatura, no mínimo de 180cm,
para formar um time de basquete. Que percentagem é esperada de
jogadores em potencial, sabendo-se que a estatura tem distribuição
normal e, nesses jovens, a média é 175cm e o desvio padrão 6cm?
EXEMPLO 2:

No estudo de genética do desenvolvimento da mosca das frutas, um
procedimento importante consiste em criar uma população de
indivíduos precoces para o desenvolvimento. O tempo decorrido entre
a ovoposição e a emergência do adulto é, em média, 273 horas, com
desvio padrão de 20 horas. Suponha que um geneticista deseje
selecionar 10% da população, correspondendo aos indivíduos que
emergem primeiro, para desenvolver uma população precoce. Qual o
tempo limite a partir do qual os indivíduos que nascem não interessam
mais ao pesquisador?
CARACTERÍSTICAS
DA DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS
DAM


(1) Se a variável x tem distribuição normal, as médias de todas as amostras
aleatórias de igual tamanho, originárias dessa população, distribuem-se também
segundo uma curva de Gauss. Se a distribuição de x não for gaussiana, são
necessárias amostras grandes para que a DAM seja uma distribuição normal;
(2) A distribuição amostral das médias tem centro em  (isto é, na média da
população amostrada). A variabilidade é expressa pelo desvio padrão das médias
ou erro padrão da média, σ (média). O erro padrão é obtido pela fórmula:
CARACTERÍSTICAS
DA DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS
DAM
(3) Como a distribuição amostral das médias é uma curva normal, a área total sob a
DAM é 1

Aproximadamente 68% das médias estão entre  – EP amostral e  + EP
amostral.

Aproximadamente 95% das médias estão entre  – 2EP amostrais e  + 2EP
amostrais.
SIGNIFICÂNCIA ESTATÍSTICA DE UM DESVIO
 Vamos supor que se esteja estudando a variável “estatura” em universitárias gaúchas
e a média seja de 170 cm;
 175 cm? Essa pessoa é maior que a média?????
 Tem uma diferença significativa entre 175 cm e 170 cm?????
 175 cm é estatisticamente diferente de 170cm?????
 Um critério científico para o estabelecimento de uma diferença não pode ser uma
questão de opinião, mas um critério objetivo!
 Qual o critério estatístico utilizado?????
CRITÉRIO ESTATÍSTICO
 Um critério estatístico pressupõe que:
 A distribuição de valores seja Gaussiana;
 Os valores desviantes sejam uma fração pequena da população e que esta fração seja
determinada a priori.
 Atitude razoável: considerar como estatisticamente não-significativos os desvios
apresentados por valores ao redor da média populacional:
 95% dos valores ao redor da média são considerados desvios não-significativos
(47,5% acima e abaixo);
 Valores fora da área de desvios não significativos (5%) são considerados desvios
significativos (2,5% acima e abaixo) → α (região ou nível de significância do teste).
CRITÉRIO ESTATÍSTICO
C=1-a
Os valores de α mais usados em ciências biológicas e da saúde são:
α = 0,05 ; C = 0,95
α = 0,01 ; C = 0,99
α = 0,001 ; C = 0,999
EXEMPLO 3:

Certo pesquisador mediu a pressão arterial de cinco executivos do sexo
masculino, na faixa de 40 a 44 anos, escolhidos aleatoriamente, e obteve os
valores 135; 143; 149; 128 e 158 mmHg. A média observada nessa amostra
foi 142,6 mmHg. A média da pressão arterial sistólica populacional é 129
mmHg e o desvio padrão é 15 mmHg.

Serão esses dados suficientes para afirmar que os executivos apresentam
pressão arterial sistólica diferente daquela observada na população de
homens com essa idade?


O intervalo  ± 1,96 x (erro padrão da média amostral) determina uma região de
95% de desvios não significativos e 5% de desvios significativos.
O intervalo  ± 2,58 x (erro padrão da média amostral) determina uma região de
99% de desvios não significativos e 1% de desvios significativos.
 Nesse caso, o nível de significância escolhido foi α = 5%
 Como se calcula o erro padrão da média amostral?????
 O erro padrão para a pressão sistólica, referente a amostra com n=5 retirada
aleatoriamente da população de homens com 40 – 44 anos é:
Os limites do intervalo de não-significância, portanto, são:
 - 1,96  (x) = 129 – 1,96(6,7) = 129 – 13,1 = 115,9 (limite inferior do intervalo)
 + 1,96  (x) = 129 + 1,96(6,7) = 129 + 13,1 = 142,1 (limite superior do intervalo)
 Assim, as médias amostrais com valores entre 115,9 e 142,1 mmHg não
apresentam desvios significativos em relação à média populacional. Médias com
valores fora desse intervalo desviam-se significativamente de  = 129.
142,6 mmHg está acima do limite superior (142,1 mmHg)
A média obtida nos 5 executivos é estatisticamente diferente da
média da população de homens da mesma faixa etária, ou seja, é
mais elevada!
Uma forma alternativa para decidir sobre a significância
de um desvio
 Ao invés de calcular os limites inferior e superior, esta forma alternativa
calcula o desvio em unidades de erros padrão e depois compara o valor
obtido com o número crítico de erros padrão escolhido
???????????
(1) Escolher inicialmente o critério, ou o nível de significância desejado (por exemplo,
α = 0,05);
(2) Obter o valor crítico de z da tabela (nesse caso, zα = z0,05 = 1,96);
(3) Calcular o afastamento entre x e , em erros padrão:
A média amostral está a 2,03 erros padrão acima de .
(4) Regra de decisão:
(5) Conclusão: A média da amostra de executivos desvia-se significativamente (para
mais) da média de adultos dessa faixa etária, para α = 0,05.
Nunca esquecer… a conclusão “a pressão arterial está
aumentada nos executivos” tem uma probabilidade de erro
que é igual ao tamanho da região de significância (0,05), ou
seja, existe 5% de probabilidade que os estudantes de 20 a 25
anos NÃO tenham a pressão maior que a média da população
(simples acaso).
Tabela: Níveis de significância mais usados em ciências da vida e valores de z correspondentes
Níveis de significância
Z crítico
(α)
(z α)
0,05
1,96
0,01
2,58
0,001
3,29
Afinal, a alcalinidade do Rio Jacuí está ou não alterada?
  = 19,6 mg de CaCO3/L
 σ = 7,7 mg/L
 Média amostral = 16,2 mg/L
 Amostra com 16 valores (n)
 a = 0,05
Download

Aula 4_Distribuição Amostral das médias - Docente