Intervalos de Confiança
TAD - PUC-Rio, 1999
Testes de significância
• em vários casos que olhamos supusemos
que a diferença entre tratamentos, se
houvesse, seria positiva
por exemplo, no caso de solados, supusemos que
B poderia causar maior desgaste que A, mas
nunca que A poderia causar maior desgaste que
B.
• para considerar diferenças positivas e
negativas, usamos o fato que a distribuição t
é simétrica.
TAD - PUC-Rio, 1999
Testes de dois lados
• hipótese nula: média das diferenças é 0
• hipótese alternativa: média é diferente de 0
– Pr(t>3,4) com 9 graus de liberdade @ 0,004
– Pr(|t|>3,4) com 9 graus de liberdade @ 0,008
TAD - PUC-Rio, 1999
hipóteses de interesse
• nem sempre a hipótese nula é o que nos
interessa
• podemos admitir alguma degradação no
desgaste considerando a economia
proporcionada por B
• nesse caso usamos a mesma quantidade
(d - m)/sd/(n)1/2 com o valor que admitirmos
para a diferença de desgastes.
– por ex: (0,41-0,1)/0,12 = 2,6
– Pr(t>2,6) @ 0,008
– Pr(|t|>2,6) @ 0,008
TAD - PUC-Rio, 1999
média da população
• poderíamos construir uma tabela com os
níveis de significância para cada possível
valor da média das diferenças
valor hipotético da média
0,00
0,10
TAD - PUC-Rio, 1999
nível de significância
0,008
0,029
Intervalos de Confiança
• Um intervalo de confiança expressa a idéia
de que temos um determinado nível de
confiança em que a média se encontra
naquele intervalo.
• A idéia é: se a média real estiver fora desse
intervalo, as chances de observarmos as
amostras que observamos de fato seriam
muito pequenas...
TAD - PUC-Rio, 1999
intervalo de confiança
 a é o limite de aceitação: médias que
implicariam numa probabilidade menor que a
para a média amostral observada ficam fora
do intervalo de confiança.
 a =5% => intervalo de confiança (1- a), ie, 95%
TAD - PUC-Rio, 1999
média
amostral
tamanho do intervalo de confiança
• Quanto maior o valor de a, maior o grau de
exigência para um valor ficar dentro do
intervalo de confiança.
• Quanto maior o valor de a, menor o intervalo
de confiança.
TAD - PUC-Rio, 1999
tamanho do intervalo de confiança
5%
TAD - PUC-Rio, 1999
Cálculo de intervalo de confiança
• no exemplo do solado:
• Supondo que queremos um intervalo de 95%
 procuramos
na tabela da distribuição t um valor v tal que
Pr(|t|>v)=0,05
 v=2,262
 |(0,41-m)/0,12|<2,262
 -2,62*0,12 -0,41 < m < 2,26*0,12 -0,41
 0,41-0,27 < m < 0,41+0,27
TAD - PUC-Rio, 1999
Cálculo de intervalo de confiança
• de forma geral, dada uma média amostral m,
o intervalo de confiança (1-a) é dado por:
[m-t a /2 sd/(n)1/2,m+ t a /2 sd/(n)1/2 ]
onde t a /2 é o valor para o qual temos uma tail-area
a /2
• podemos também calcular qual deve ser o
tamanho da amostra para um determinado
intervalo de confiança
TAD - PUC-Rio, 1999
cálculo do tamanho da amostra
• Supondo que consideramos aceitável uma
margem de erro de r%:
[m-mr/100,m+mr/100]
[m-t a /2 sd/(n)1/2,m+ t a /2 sd/(n)1/2 ]
 t a /2 sd/(n)1/2 =mr/100
 (n)1/2 =100 t a /2 sd /mr
 n = (100 t a /2 sd /mr)2
não
conhecemos sd, mas podemos usar um experimento
preliminar para estimá-lo
TAD - PUC-Rio, 1999
intervalos de confiança x testes de
significância
• O descarte ou não da hipótese nula está
incluído na informação dada pelo ic.
• Uma vez descartada a hipótese nula, o ic
fornece informação sobre a dimensão da
diferença de médias.
TAD - PUC-Rio, 1999
intervalos de confiança em projetos
sem pares
• podemos usar as mesmas quantidades que
foram usadas para fazer o teste t
TAD - PUC-Rio, 1999
números diferentes de experimentos
• Jardineiro quer testar fertilizantes A e B para
plantas de tomates…
B é fertilizante novo
• Ele tem 11 lotes disponíveis, e resolve tratar 6
deles com B e 5 com A
TAD - PUC-Rio, 1999
Médias
posição 1
2
3
4
5
6
7
8
9
10 11
método Á
A
B
B
A
B
B
B
A
A
B
tempo 29,9 11,4 26,6 23,7 25,3 28,5 14,2 17,9 16,5 21,1 24,3
A
29,9
11,4
25,3
16,5
21,1
B
26,6
23,7
28,5
14,2
17,9
24,3
20,84 22,53
TAD - PUC-Rio, 1999
teste t
• Com amostras aleatórias de uma população
com distribuição normal, comparamos a
quantidade
((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2
com a distribuição t com nA + nB - 2 graus de
liberdade
• podemos usar a mesma quantidade para
cálculo do intervalo de confiança
TAD - PUC-Rio, 1999
intervalo de confiança
• substituindo em
– ((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2
(1,69 - (hB - hA))/3,82
– para um intervalo de 95%, aceitamos as
diferenças d tais que
abs((1,69-d)/3,82) < 2,262
[1,69-8,64, 1,69+8,64]
[d-t a /2 sd/(1/na+1/nb)1/2,d+ t a /2 sd/(1/na+1/nb )1/2 ]
TAD - PUC-Rio, 1999
Análise de variância
comparação de k métodos
TAD - PUC-Rio, 1999
comparação de 3 tratamentos
• com o experimento (randomizado) abaixo,
queremos saber se alguma das dietas
representa um diferença real...
dieta
A
B
C
média
610 635 580 701 640 632
633
595 614 550 602 633 612
601
527 621 564 598 601 593
584
média global
606
tabela 1: ganhos de pesos com 3 dietas
• idéia é trabalhar com os diferenças para as médias, e
estabelecer parcelas dessas diferenças devidas ao
tratamento
TAD - PUC-Rio, 1999
somas de quadrados
• diferenças (desvios) da média global
dieta
A
4 29 -26 95 34 26
B
-11 8 -56 -4 27 6
C
-79 15 -42 -8 -5 -13
tabela 2: desvios da média global
soma total dos quadrados dos desvios das médias:
(soma dos quadrados) (4)2+ (29)2+(-26) 2 +... = 24980
TAD - PUC-Rio, 1999
entre tratamentos
• imaginando que em cada tratamento todos os
resultados foram iguais:
A
B
C
633 633 633 633 633 633
601 601 601 501 601 601
584 584 584 584 584 584
média global
606
tabela 3: pesos sem discrepâncias intra dieta
as diferenças para a média seriam:
A
27 27 27 27 27 27
B
-5 -5 -5 -5 -5 -5
C
-22 -22 -22 -22 -22 -22
tabela 4: desvios da média global sem discrepâncias
soma dos quadrados entre tratamentos: 7428
TAD - PUC-Rio, 1999
intra tratamentos
• desvios da média de cada tratamento
A
-23 2 -53 68 7 -1
B
-6 13 -51 1 32 11
C
-57 37 -20 14 17 9
tabela 5: desvios entre pesos reais e
pesos sem discrepâncias intra dieta
soma dos quadrados dos desvios: 17552
soma de quadrados de desvios intra tratamento
soma de quadrados residual
soma de quadrados dos erros
17552+7428=24980!!!
TAD - PUC-Rio, 1999
graus de liberdade
• Para usar essas quantidades em testes de
hipótese temos precisamos dos graus de
liberdade.
• para N observações, consideramos, no cálculo da
variância, que a média está fixa, e logo que temos N-1
graus de liberdade
– para a soma de quadrados entre tratamentos:
• trabalhamos com 3 valores (tabelas 3 e 4), logo temos 2
graus de liberdade
– para a soma de quadrados intra tratamento:
• para cada dieta, 5 graus de liberdade (tabela 5)
TAD - PUC-Rio, 1999
Média dos desvios quadrados
• Se dividirmos cada soma de quadrados pelos
graus de liberdade correspondentes temos
uma medida da variação correspondente.
• Se as médias das populações com dietas diferentes não
diferem, a média dos desvios dentro de uma dieta deve
ser parecida com a média dos desvios entre dietas!
• Quão diferentes as médias têm que ser para
acreditarmos numa diferença entre as
méidas das populações...
TAD - PUC-Rio, 1999
Razão de variâncias
• Para testar a hipótese nula, usamos:
média dos quad. dos desvios entre tratamentos
média dos quad. dos desvios intra tratamentos
• É comum o uso de uma tabela de análise de
variância (ANOVA)
TAD - PUC-Rio, 1999
Tabela ANOVA
somas de
quadrados
entre dietas
intra-dietas
total
7428
17552
24980
graus de
liberdade
médias de
quadrados
razão de
variâncias
2
15
17
3714
1170,13
3,17
• Uso de tabelas de distribuição t com
combinações de graus de liberdade:
– tabelas F
– 1 tabela para cada nível de significância
TAD - PUC-Rio, 1999
Nesse caso...
• Valor na tabela F para 5% de significância e
2/15 graus de liberdade é 3,68
• Concluímos que o experimento não nos dá
elementos para negar a hipótese nula...
TAD - PUC-Rio, 1999
Download

tabela 2