Universidade Federal de Alagoas
Centro de Tecnologia
Estatística
Aula 21
Prof. Marllus Gustavo Ferreira Passos das Neves
Aula 21

Teste de Hipóteses para duas médias
Teste de Hipóteses – 2 amostras
Até o momento vimos testes de hipótese para média
(com s conhecido ou s desconhecido) e para variância
(e desvio padrão)
Observe a série de vazões abaixo ...
Há algo
acontecendo
nela?
E se
calcularmos a
média em 2
períodos?
Teste de Hipóteses – 2 amostras
Inferência Estatística para Duas Populações
Com base nos dados das amostras de cada
população, pode-se apresentar conclusões com
relação a comparação das duas populações, usando
para isto o teste de hipótese.
N1
N2
Teste de Hipóteses – 2 amostras
Nosso objetivo agora é realizar testes de hipóteses a
respeito da diferença ou não entre 2 médias e 2
variâncias
Ou ainda testar se 2 grupos de dados, emparelhados
ou independentes, vêm de populações com médias ou
variâncias diferentes
Mas o que são grupos independentes ou
dependentes (emparelhados)?
Teste de Hipóteses – 2 amostras
Duas amostras são independentes se os valores
amostrais de uma população não estão
relacionados ou de alguma forma emparelhados ou
combinados com os valores amostrais selecionados
de outra população. Se existe alguma relação de
modo que cada valor em uma amostra esteja
emparelhado com o valor correspondente na outra
amostra, as amostras são dependentes ou
emparelhadas
Inferência sobre 2 médias: amostras independentes
Suposições:
1) As 2 amostras são independentes;
2) As amostras são aleatórias;
3) Os 2 tamanhos amostrais são ambos grandes
(n1 > 30 e n2 >30) ou ambas as amostras provêm de
populações com distribuições normais
Estatística de teste

X
t
1

(A  B)
Graus de gl 
2
2
A
B
liberdade

n1  1
 X2  (  1   2 )
AB
2
onde A 
2
s1
n1
e B
n2  1
2
s2
n2
Inferência sobre 2 médias: amostras independentes
Valores críticos  tabela da curva t
Hipóteses: H0: 1 = 2 ou 1 - 2 = 0 e H1: 1 ≠ 2
Intervalo de confiança:
X
onde E  t c 
1



 X 2  E  (  1   2 )  X1  X 2  E
AB , A
2
s1
n1
e B
2
s2
n2
Inferência sobre 2 médias: amostras independentes
Exemplo: investigar se há evidência estatística para
afirmar que o IMC dos alunos e das alunas de cursos
diurnos do Ctec (exceção de Eng. do Petróleo) são
diferentes
Com o que vimos anteriormente (IC para uma
amostra), poderíamos já ter noção se há diferença
ou não?
média
Lim Lim
Gênero N n %N pop gl tc fator amostral s
E Ecorr inf sup
Masculino 606 32 5,28 finita 31 2,04 0,974
23,8 3,0 1,08 1,05 22,8 24,9
Feminino 268 20 7,46 finita 19 2,09 0,964
21,0
1,6 0,60 0,58 20,4 21,6
Inferência sobre 2 médias: amostras independentes
Exemplo: investigar se há evidência estatística para
afirmar que o IMC dos alunos e das alunas de cursos
diurnos do Ctec (exceção de Eng. do Petróleo) são
diferentes
22,8
24,9
23,8
20,4
21,6
21,0
15,0
30,0
A não superposição de Ics parece indicar que há diferença
significativa entre as médias. Entretanto, vamos realizar o
teste formal
Inferência sobre 2 médias: amostras independentes
Exemplo: investigar se há evidência estatística para
afirmar que o IMC dos alunos e das alunas de cursos
diurnos do Ctec (exceção de Eng. do Petróleo) são
diferentes
1) Parâmetro de interesse  1 - 1
2) Hipótese nula H0  1 - 1 = 0
3) Hipótese alternativa H1  1 ≠ 2
4) Nível de significância  a = 0,05
5) Estatística de teste  t (desconhecemos s1 e s2)
6) Região de rejeição para a estatística
95%
2,5%
- tc
2,5%
tc
Inferência sobre 2 médias: amostras independentes
7) Grandezas amostrais necessárias
X1  23,81
X 2  20,98
s1  2,995
s 2  1,629
2
A
s1
n1

2
Estatística de teste
B
t
s2
n2

23,81
8,97
32
2,65
20
 0,280
 0,133
 20,98
 0
0,280  0,133
 4,41
Aplicações
8) Decisão
Valor crítico
de tc
gl 
(A  B)
A
2
n1  1

2
B
2
n2  1

(0,280  0,133)
(0,280)
32  1
2

2
(0,133)
2
 49
20  1
gl = 49, o que significa tc = 2,009 (mais próximo gl = 50)
Como t de teste cai na região crítica, a hipótese H0 tem que
ser rejeitada, ou seja, há evidência estatística suficiente, ao
nível de significância de 5%, para afirmar que os Índices de
Massa Corpórea (IMC) para os homens são diferentes dos
IMCs das mulheres, para alunos do curso diurno do Ctec, com
exceção do curso de Eng. do Petróleo
Aplicações
Os resultados que vimos já seriam vislumbrados com
estatística descritiva?
IMC masculino
IMC feminino
Aplicações
E quanto à normalidade das populações?
IMC masculino
IMC feminino
Aplicações
Exemplo: estabeleça o IC para a diferença entre as
médias do IMC do exemplo anterior
Calculando a margem de erro para gl = 49  tc = 2,009
E  t c  A  B  2,009 
0,280  0,133  2,009  0,643  1,29
Intervalo de confiança:
X
1



 X 2  E  (  1   2 )  X1  X 2  E
2,83  1,29  (  1   2 )  2,83  1,29
1,54  (  1   2 )  4,12
Estamos confiantes 95% de que 1 excede 2
por uma quantidade que está entre 1,54 e 4,12
O valor zero
está neste IC?
Inferência sobre 2 médias: amostras emparelhadas
Exemplos de amostras emparelhadas
Ao conduzir um experimento para testar a eficácia
de uma dieta de baixa gordura, o peso de cada
sujeito é medido uma vez antes da dieta e uma vez
após a dieta
Para testar a eficácia de uma técnica de tratamento
do esgoto com o objetivo de reduzir, por exemplo, a
presença de patógenos, mede-se um indicador antes e
depois do tratamento, em várias amostras
Inferência sobre 2 médias: amostras emparelhadas
Suposições:
1) Os dados amostrais consistem em pares
combinados;
2) As amostras são aleatórias;
3) O no de pares combinados de dados amostrais é
grandes (n > 30) ou os pares de valores têm
diferenças que são de uma população com
distribuição normal
Inferência sobre 2 médias: amostras emparelhadas
d  diferença individual entre 2 valores em um único
par combinado
d  valor médio das diferenças d para a população
de todos os pares combinados
d  valor médio das diferenças d para os dados
amostrais emparelhados (igual à média dos
valores x – y)
sd  desvio padrão das diferenças d para os dados
amostrais combinados
n  no de pares de dados
d  d
Estatística t 
sd
gl = n - 1
de teste
n
Inferência sobre 2 médias: amostras emparelhadas
Hipóteses: H0: d = 0 e H1: 1 ≠ 2 ou H1: d > 0
ou H1: d < 0
Intervalo de confiança:
d  E  d  d  E
onde
E  tc 
sd
n
Aplicações
Exemplo: Um artigo no Journal of Strain Analysis (1983, Vol. 18, No 2)
compara vários métodos para predizer a resistência de cisalhamento para
traves planas metálicas. Dados para 2 desses métodos, os procedimentos
de Karlsruhe e Lehigh, quando aplicados a 9 traves específicas, são
mostrados na tabela. Desejamos determinar se há qualquer diferença (na
média) entre os 2 métodos.
Trave
Método de Karlsruhe
Método de Lehigh
Diferença dj
S1/1
1,186
1,061
0,119
S2/1
1,151
0,992
0,159
S3/1
1,322
1,063
0,259
S4/1
1,339
1,062
0,277
S5/1
1,200
1,065
0,138
S2/1
1,402
1,178
0,224
S2/2
1,365
1,037
0,328
S2/3
1,537
1,086
0,451
S2/4
1,559
1,052
0,507
Aplicações
1) Parâmetro de interesse  D = 1 - 1
2) Hipótese nula H0  D = 0
3) Hipótese alternativa H1  D ≠ 0
4) Nível de significância  a = 0,05
5) Estatística de teste  t (desconhecemos s1 e s2)
6) Região de rejeição para a estatística
95%
2,5%
2,5%
- tc
7) Grandezas amostrais necessárias
d  0,2736
sD  0,1356
Estatística de
teste
t 
tc
d  d
sd
n

0,2736
0,1356
9
 6,05
Aplicações
8) Decisão
Valor crítico de tc
gl = 9 – 1 = 8, duas caudas  tc = 2,306
t
6,05
- 2,306 0 2,306
Como t de teste cai na região crítica, a hipótese H0 tem que
ser rejeitada, ou seja, há evidência estatística suficiente, ao
nível de significância de 5%, para afirmar que os métodos de
previsão fornecem resultados diferentes.
Especificamente, podemos dizer que o método Karlsruhe
produz, em média, previsões maiores para a resistência do que
o método de Lehigh
Universidade Federal de Alagoas
Centro de Tecnologia
Estatística
Aula 21
Prof. Marllus Gustavo Ferreira Passos das Neves
Download

Inferência sobre 2 médias: amostras emparelhadas