Intervalos de Confiança TAD - PUC-Rio, 1999 Testes de significância • em vários casos que olhamos supusemos que a diferença entre tratamentos, se houvesse, seria positiva por exemplo, no caso de solados, supusemos que B poderia causar maior desgaste que A, mas nunca que A poderia causar maior desgaste que B. • para considerar diferenças positivas e negativas, usamos o fato que a distribuição t é simétrica. TAD - PUC-Rio, 1999 Testes de dois lados • hipótese nula: média das diferenças é 0 • hipótese alternativa: média é diferente de 0 – Pr(t>3,4) com 9 graus de liberdade @ 0,004 – Pr(|t|>3,4) com 9 graus de liberdade @ 0,008 TAD - PUC-Rio, 1999 hipóteses de interesse • nem sempre a hipótese nula é o que nos interessa • podemos admitir alguma degradação no desgaste considerando a economia proporcionada por B • nesse caso usamos a mesma quantidade (d - m)/sd/(n)1/2 com o valor que admitirmos para a diferença de desgastes. – por ex: (0,41-0,1)/0,12 = 2,6 – Pr(t>2,6) @ 0,008 – Pr(|t|>2,6) @ 0,008 TAD - PUC-Rio, 1999 média da população • poderíamos construir uma tabela com os níveis de significância para cada possível valor da média das diferenças valor hipotético da média 0,00 0,10 TAD - PUC-Rio, 1999 nível de significância 0,008 0,029 Intervalos de Confiança • Um intervalo de confiança expressa a idéia de que temos um determinado nível de confiança em que a média se encontra naquele intervalo. • A idéia é: se a média real estiver fora desse intervalo, as chances de observarmos as amostras que observamos de fato seriam muito pequenas... TAD - PUC-Rio, 1999 intervalo de confiança a é o limite de aceitação: médias que implicariam numa probabilidade menor que a para a média amostral observada ficam fora do intervalo de confiança. a =5% => intervalo de confiança (1- a), ie, 95% TAD - PUC-Rio, 1999 média amostral tamanho do intervalo de confiança • Quanto maior o valor de a, maior o grau de exigência para um valor ficar dentro do intervalo de confiança. • Quanto maior o valor de a, menor o intervalo de confiança. TAD - PUC-Rio, 1999 tamanho do intervalo de confiança 5% TAD - PUC-Rio, 1999 Cálculo de intervalo de confiança • no exemplo do solado: • Supondo que queremos um intervalo de 95% procuramos na tabela da distribuição t um valor v tal que Pr(|t|>v)=0,05 v=2,262 |(0,41-m)/0,12|<2,262 -2,62*0,12 -0,41 < m < 2,26*0,12 -0,41 0,41-0,27 < m < 0,41+0,27 TAD - PUC-Rio, 1999 Cálculo de intervalo de confiança • de forma geral, dada uma média amostral m, o intervalo de confiança (1-a) é dado por: [m-t a /2 sd/(n)1/2,m+ t a /2 sd/(n)1/2 ] onde t a /2 é o valor para o qual temos uma tail-area a /2 • podemos também calcular qual deve ser o tamanho da amostra para um determinado intervalo de confiança TAD - PUC-Rio, 1999 cálculo do tamanho da amostra • Supondo que consideramos aceitável uma margem de erro de r%: [m-mr/100,m+mr/100] [m-t a /2 sd/(n)1/2,m+ t a /2 sd/(n)1/2 ] t a /2 sd/(n)1/2 =mr/100 (n)1/2 =100 t a /2 sd /mr n = (100 t a /2 sd /mr)2 não conhecemos sd, mas podemos usar um experimento preliminar para estimá-lo TAD - PUC-Rio, 1999 intervalos de confiança x testes de significância • O descarte ou não da hipótese nula está incluído na informação dada pelo ic. • Uma vez descartada a hipótese nula, o ic fornece informação sobre a dimensão da diferença de médias. TAD - PUC-Rio, 1999 intervalos de confiança em projetos sem pares • podemos usar as mesmas quantidades que foram usadas para fazer o teste t TAD - PUC-Rio, 1999 números diferentes de experimentos • Jardineiro quer testar fertilizantes A e B para plantas de tomates… B é fertilizante novo • Ele tem 11 lotes disponíveis, e resolve tratar 6 deles com B e 5 com A TAD - PUC-Rio, 1999 Médias posição 1 2 3 4 5 6 7 8 9 10 11 método Á A B B A B B B A A B tempo 29,9 11,4 26,6 23,7 25,3 28,5 14,2 17,9 16,5 21,1 24,3 A 29,9 11,4 25,3 16,5 21,1 B 26,6 23,7 28,5 14,2 17,9 24,3 20,84 22,53 TAD - PUC-Rio, 1999 teste t • Com amostras aleatórias de uma população com distribuição normal, comparamos a quantidade ((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2 com a distribuição t com nA + nB - 2 graus de liberdade • podemos usar a mesma quantidade para cálculo do intervalo de confiança TAD - PUC-Rio, 1999 intervalo de confiança • substituindo em – ((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2 (1,69 - (hB - hA))/3,82 – para um intervalo de 95%, aceitamos as diferenças d tais que abs((1,69-d)/3,82) < 2,262 [1,69-8,64, 1,69+8,64] [d-t a /2 sd/(1/na+1/nb)1/2,d+ t a /2 sd/(1/na+1/nb )1/2 ] TAD - PUC-Rio, 1999 Análise de variância comparação de k métodos TAD - PUC-Rio, 1999 comparação de 3 tratamentos • com o experimento (randomizado) abaixo, queremos saber se alguma das dietas representa um diferença real... dieta A B C média 610 635 580 701 640 632 633 595 614 550 602 633 612 601 527 621 564 598 601 593 584 média global 606 tabela 1: ganhos de pesos com 3 dietas • idéia é trabalhar com os diferenças para as médias, e estabelecer parcelas dessas diferenças devidas ao tratamento TAD - PUC-Rio, 1999 somas de quadrados • diferenças (desvios) da média global dieta A 4 29 -26 95 34 26 B -11 8 -56 -4 27 6 C -79 15 -42 -8 -5 -13 tabela 2: desvios da média global soma total dos quadrados dos desvios das médias: (soma dos quadrados) (4)2+ (29)2+(-26) 2 +... = 24980 TAD - PUC-Rio, 1999 entre tratamentos • imaginando que em cada tratamento todos os resultados foram iguais: A B C 633 633 633 633 633 633 601 601 601 501 601 601 584 584 584 584 584 584 média global 606 tabela 3: pesos sem discrepâncias intra dieta as diferenças para a média seriam: A 27 27 27 27 27 27 B -5 -5 -5 -5 -5 -5 C -22 -22 -22 -22 -22 -22 tabela 4: desvios da média global sem discrepâncias soma dos quadrados entre tratamentos: 7428 TAD - PUC-Rio, 1999 intra tratamentos • desvios da média de cada tratamento A -23 2 -53 68 7 -1 B -6 13 -51 1 32 11 C -57 37 -20 14 17 9 tabela 5: desvios entre pesos reais e pesos sem discrepâncias intra dieta soma dos quadrados dos desvios: 17552 soma de quadrados de desvios intra tratamento soma de quadrados residual soma de quadrados dos erros 17552+7428=24980!!! TAD - PUC-Rio, 1999 graus de liberdade • Para usar essas quantidades em testes de hipótese temos precisamos dos graus de liberdade. • para N observações, consideramos, no cálculo da variância, que a média está fixa, e logo que temos N-1 graus de liberdade – para a soma de quadrados entre tratamentos: • trabalhamos com 3 valores (tabelas 3 e 4), logo temos 2 graus de liberdade – para a soma de quadrados intra tratamento: • para cada dieta, 5 graus de liberdade (tabela 5) TAD - PUC-Rio, 1999 Média dos desvios quadrados • Se dividirmos cada soma de quadrados pelos graus de liberdade correspondentes temos uma medida da variação correspondente. • Se as médias das populações com dietas diferentes não diferem, a média dos desvios dentro de uma dieta deve ser parecida com a média dos desvios entre dietas! • Quão diferentes as médias têm que ser para acreditarmos numa diferença entre as méidas das populações... TAD - PUC-Rio, 1999 Razão de variâncias • Para testar a hipótese nula, usamos: média dos quad. dos desvios entre tratamentos média dos quad. dos desvios intra tratamentos • É comum o uso de uma tabela de análise de variância (ANOVA) TAD - PUC-Rio, 1999 Tabela ANOVA somas de quadrados entre dietas intra-dietas total 7428 17552 24980 graus de liberdade médias de quadrados razão de variâncias 2 15 17 3714 1170,13 3,17 • Uso de tabelas de distribuição t com combinações de graus de liberdade: – tabelas F – 1 tabela para cada nível de significância TAD - PUC-Rio, 1999 Nesse caso... • Valor na tabela F para 5% de significância e 2/15 graus de liberdade é 3,68 • Concluímos que o experimento não nos dá elementos para negar a hipótese nula... TAD - PUC-Rio, 1999