Projeto de Experimentos TAD - PUC-Rio, 1999 Comparação de 2 Tratamentos • Experimentos comparativos simples • Técnicas: uso de conjuntos de referência externa randomização e blocagem testes de significância e intervalos de confiança • Exemplos: TAD - PUC-Rio, 1999 fertilizantes, máquinas, processos industriais algoritmos, sistemas, CPUs Uso de Distribuições de Referência Externas • Deseja-se avaliar se um método modificado gerou melhores resultados que o método tradicional • Dispõe-se de um conjunto de dados grande sobre o método tradicional TAD - PUC-Rio, 1999 Exemplo • Algoritmo A já é rotineiramente executado para tarefa Z e surge a proposta de usar algoritmo B • 10 execuções de A: – média de tempo de execução tA=84.24s • 10 execuções deB: – média de tempo de execução tB=82.94s TAD - PUC-Rio, 1999 Exemplo • Por conta de variações nos tempos individuais não há evidência suficiente para dizer que B é melhor do que A • Erro experimental! algoritmo não determinístico timer com pouca acurácia ou resolução interferência de outros programas competição por banda alocação de recursos aleatória TAD - PUC-Rio, 1999 Populações Conceituais • Considerando as 2 populações conceituais: observações do tempo de execução de A observações do tempo de execução de B queremos saber se a média da população 1 é maior do que a média da população 2 TAD - PUC-Rio, 1999 Hipótese Nula • Supomos que não existe diferença entre as médias: hA = hB e verificamos a chance da diferença observada ter ocorrido por acaso. • no exemplo: Por acaso existem dados sobre 210 execuções anteriores de A... TAD - PUC-Rio, 1999 210 (!) observações de A tempo 88 86 84 82 80 78 100 200 execução TAD - PUC-Rio, 1999 para testar a hipótese nula: • quantas vezes a diferença entre dois grupos sucessivos de 10 observações diferiu por mais de 1,3 seg? • calcula-se as 191 diferenças entre conjuntos adjacentes de 10 observações... TAD - PUC-Rio, 1999 Distribuição das diferenças v1 -1,0 -2,0 -1 .8 -1 TAD - PUC-Rio, 1999 .4 -1 .2 0 -0 .9 -0 .7 -0 .5 -0 .3 v-0 .1 1,0 0. 2 0. 4 0. 6 0. 8 1. 1 1. 4 1,3 comparação com a distribuição de referência • Em apenas 9 casos as diferenças excedem 1,3 • 9 em 191: A probabilidade de cair em uma diferença de 1,3 pode ser aproximada por 9/191=0,047 • Diz-se que a diferença é significativa estatisticamente com nível de probabilidade 0,047 TAD - PUC-Rio, 1999 conclusões • A hipótese nula fica desacreditada... • Parece que o algoritmo B é melhor do que A... TAD - PUC-Rio, 1999 outro exemplo: diagnóstico de pacientes • Dr A. afirma que pode reconhecer que pessoa tem doença D olhando sua língua, método muito mais barato que o exame convencional. • Desejamos fazer um teste para saber se ele está meramente adivinhando ou se ele realmente consegue diagnosticar D TAD - PUC-Rio, 1999 Teste realizado • Dr A. examina 4 grupos de 4 pacientes; em cada grupo 1 paciente tem D • Se ele comete um erro em algum grupo, o experimento acaba; conclui-se que ele está adivinhando • Se ele completa os 4 sem nenhum erro, o experimento acaba e conclui-se que ele não está meramente adivinhando. TAD - PUC-Rio, 1999 interpretação se ele adivinha: 1 Pr(parada no 1o): 2 Pr(parada no 2o): 1/4*3/4= 3 Pr(parada no 3o): 1/4*1/4*3/4= 4 Pr(falha no 4o): 1/4*1/4*1/4*3/4= 3/4 3/16 3/64 3/256 255/256 5 Pr(sucesso): 1/4*1/4*1/4*1/4=1/256 chance de rejeitar a hipótese de advinhação e ela ser correta: 1/256 TAD - PUC-Rio, 1999 Jargão • região de rejeição (evento 5): região crítica • tamanho da região crítica associada ao nível de significância nível de significância: chance de rejeitar uma hipótese verdadeira O aumento da região crítica aumenta a chance de erroneamente rejeitarmos uma hipótese verdadeira Fala-se em níveis de significância mais altos quando as regiões críticas são menores! TAD - PUC-Rio, 1999 testes de hipótese • hipóteses nunca podem ser provadas ou negadas em termos absolutos • rejeição: “Ou a hipótese está errada, ou em nosso experimento observamos um resultado que é improvável sob esta hipótese e mais provável se outra hipótese for verdadeira; o nível de improbabilidade é indicado pelo nível de significância” TAD - PUC-Rio, 1999 dificuldades • O médico pode ter algum nível de acerto sem que consiga acertar sempre… • por exemplo, em cada 3 grupos de 4 ele acerta 2 vezes • P(sucesso)=2/3*2/3*2/3*2/3=16/81 • P(falha)=65/81 • em 65 de 81 experimentos, concluiríamos que ele diagnostica em 1/4 dos casos (adiv.) quando de fato diagnostica em 2/3! TAD - PUC-Rio, 1999 testes de hipótese • aceitação deve ser encarada como nãorejeição! – não existe evidência suficiente de que hipótese seja falsa! mais interessante seria poder estimar a probabilidade p de acerto do diagnóstico – veremos depois em intervalos de confiança TAD - PUC-Rio, 1999 algoritmos A e B - outra forma • Sob certas condições: (y - h)/s(n)1/2 tem uma distribuição t com l graus de liberdade – y tem distribuição normal com média h – s, com l graus de liberdade, é calculado a partir de observações normal e independentemente distribuídas TAD - PUC-Rio, 1999 Distribuição de referência externa com base na distribuição t • Podemos comparar sequências de 10 observações disjuntas e considerar que as diferenças entre elas terão uma distribuição normal... TAD - PUC-Rio, 1999 Diferenças y1 y2 8 3 ,9 4 8 3 ,5 1 -0 ,4 3 8 3 ,9 9 8 4 ,4 2 0 ,4 3 ... ... ... 8 5 ,1 8 8 4 ,2 8 -0 ,9 8 4 ,1 8 8 4 ,0 1 -0 ,1 7 yA yB 84,24 85,54 variância das diferenças desvio padrão TAD - PUC-Rio, 1999 y2- y1 yB- yA 1,3 s2 = 0,36 s = 0,6 hipótese: diferenças seguem distribuição normal com média 0 hipótese nula • Como todas as observações usaram o mesmo algoritmo A, podemos assumir que a média da população (y2-y1) é 0 • Podemos calcular a variância da amostra: s2 = ((-0,43-0)2 + (0,43-0)2 +...+(-0,17-0)2 ) / 10 = 0,36 • e o desvio padrão s=0,6 TAD - PUC-Rio, 1999 hipótese nula • No experimento com A e B, (yB-yA) = 1,3 • t = (1,3 - 0)/0,6 = 2,17 • Podemos usar a tabela da distribuição t com 10 graus de liberdade para interpolar e concluir que P(t>2,17)=0,028 TAD - PUC-Rio, 1999 problema: normalmente não temos uma massa de dados para formar uma distribuição de referência TAD - PUC-Rio, 1999 Amostras Aleatórias • É comum assumirmos que um conjunto de dados é uma amostra aletória da população conceitual de todas as observações possíveis. • Ao testar a hipótese nula, estamos testando se o conjunto de observações (20 no caso) pode ser explicado como uma amostra aleatória de uma única população comum. TAD - PUC-Rio, 1999 com amostras aleatórias... • os valores de y são distribuidos de forma independente em torno das médias: – os erros y11- hA, y12- hA, ...,y21- hB, y22- hB, ..., variam independentemente. • A distribuição da média y tem propriedades especiais: – E(y) = h – V(y) = s2/n TAD - PUC-Rio, 1999 interpretação • Suponha que uma urna contém um número muito grande de bilhetes brancos, cada um com um valor numérico (uma observação y) com média h e variância s2. – aleatoriamente tiramos uma amostra de 10 bilhetes – calculamos a média e escrevemos em um bilhete azul – colocamos o bilhete azul em outra urna TAD - PUC-Rio, 1999 interpretação • Os bilhetes da urna azul terão uma distribuição com média h e variância s2/n. – A distribuição original não precisa ser normal – A nova distribuição será “mais aproximadamente” normal... TAD - PUC-Rio, 1999 para amostras grandes • y como estimador de h • s2 como estimador de s2 – s2 tem valor médio s2 e varia em torno desse valor com desvio padrão 1/n1/2 TAD - PUC-Rio, 1999 voltando ao exemplo • Suponha que os dois conjuntos de 10 observações são amostras aleatórias – vamos assumir que os algoritmos A e B dão origem a distribuições com o mesmo formato (e mesma variância***) e médias possivelmente diferentes ha e hb. TAD - PUC-Rio, 1999 cálculos – variâncias V(yA) = s2/nA V(yB) = s2/nB V(yB-yA) = s2/nA + s2/nB= s2(1/nA + 1/nB) – supondo a distribuição de y normal... z = ((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2 teria uma distribuição normal unitária – mas não temos s! TAD - PUC-Rio, 1999 referência externa • Podemos usar a coleção de 210 observações, para a qual o desvio padrão é 2,88, como o valor do desvio padrão das populações amostradas z = 1,3 - (hB - hA)/1,29 para a hipótese nula: z = 1,3/1,29 = 1,01 P(z>1,01) (consultando TAD - PUC-Rio, 1999 a tabela!) = 0,156 o que mudou: • aqui estamos usando a hipótese de amostragem aleatória para a distribuição das diferenças, mas ainda estamos dependendo da referência externa para calcular a variância! TAD - PUC-Rio, 1999 amostra de uma população normal • Se a amostra é tirada de uma população com distribuição normal com média h e variância s 2: 1 A distribuição de y também é normal 2 A variância da amostra, s2, tem uma distribuição chi-quadrada. 3 A quantidade (y - h) s(n)1/2 tem distribuição t com (n-1) graus de liberdade (n é o tamanho da amostra) TAD - PUC-Rio, 1999 população normal • importância do terceiro resultado: – O desvio (y - h) pode ser julgado em relação a uma estimativa do desvio padrão de y, s(n)1/2, obtida internamente da amostra TAD - PUC-Rio, 1999 população com distribuição normal • considerando que as diferenças tenham distribuição normal V(yB-yA) = s2/nA + s2/nB= s2(1/nA + 1/nB) desvio padrão: s (1/nA + 1/nB)1/ 2 então (tínhamos que (y- h)/ s(n)1/2 seguia distribuição t) (yB-yA) - (0)/s(1/nA + 1/nB)1/ 2 segue distribuição t TAD - PUC-Rio, 1999 Contas (yB-yA) = 1,3 s 2 =[Soma(yA-yA)2 + Soma(yB-yB)2]/ (nA+nB-2)=10,87 t = 1,3/1,47 = 0,88 P(t>0,88)= (interpolação!) 0,195 TAD - PUC-Rio, 1999 Randomização e Blocagem • precauções no projeto do experimento – randomização garante validade de inferências – blocagem elimina fontes de variação TAD - PUC-Rio, 1999 exemplo de randomização • Jardineiro quer testar fertilizantes A e B para plantas de tomates… B é fertilizante novo • Ele tem 11 lotes disponíveis, e resolve tratar 6 deles com B e 5 com A TAD - PUC-Rio, 1999 Randomização p o s iç ã o 1 2 3 4 5 6 7 8 9 10 11 m é to d o Á A B B A B B B A A B te m p o 2 9 ,9 1 1 ,4 2 6 ,6 2 3 ,7 2 5 ,3 2 8 ,5 1 4 ,2 1 7 ,9 1 6 ,5 2 1 ,1 2 4 ,3 A B 2 9 ,9 2 6 ,6 1 1 ,4 2 3 ,7 2 5 ,3 2 8 ,5 1 6 ,5 1 4 ,2 2 1 ,1 1 7 ,9 2 4 ,3 2 0 ,8 4 2 2 ,5 3 TAD - PUC-Rio, 1999 Randomização • Algum método aleatório é usado para escolher a ordem em que os experimentos com A e B serão realizados • Poderíamos comparar a diferença das médias com todas as diferenças obtidas por diferentes atribuições de 5 A e 6 B a essas colunas • combinação de 11 5 a 5 (ou 6 a 6) = 462 TAD - PUC-Rio, 1999 distribuição randômica posição 1 2 3 4 5 6 7 8 9 10 11 m étodo Á A B B A B B B A A B m étodo A A A A A B B B B B B m étodo A A A A B B B B A B B m étodo A A A B A A B B B B B m étodo A A B A A A B B B B B m étodo A B A A B B B B A A B m étodo A A B B B A A A B B B m étodo B B B B A A A B B A A … … … … … … … … … … … tem po TAD - PUC-Rio, 1999 29,9 11,4 26,6 23,7 25,3 28,5 14,2 17,9 16,5 21,1 24,3 distribuição das diferenças das médias 1,69 TAD - PUC-Rio, 1999 11 9 7 5 3 1 -1 -3 -5 -7 -9 33% não há razão para duvidar da hipótese nula! Randomização • Com amostras aleatórias de uma população com distribuição normal, poderíamos comparar a quantidade ((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2 com a distribuição t com nA + nB - 2 graus de liberdade • se randomizarmos o experimento, podemos usar a distribuição t como aproximação para a distribuição randomizada TAD - PUC-Rio, 1999 Comparação em Pares: exemplo 16 14 12 10 8 6 4 2 0 0 5 10 15 • experimento com materiais diferentes de solado • 10 pessoas usando materiais diferentes em cada sapato TAD - PUC-Rio, 1999 uso da diferença 1.2 1 0.8 0.6 0.4 0.2 0 -0.2 0 5 10 15 -0.4 • Usando a diferença de desgaste entre os 2 sapatos, eliminamos a variação entre 2 meninos TAD - PUC-Rio, 1999 Experimento • objetivo é saber se o material B, mais barato, resulta ou não em maior desgaste – randomização: 10 lançamentos de moeda determinaram se o material B deveria ser usado no sapato direito ou esquerdo • Ca Ca Co Ca Co Ca Ca Ca Co Ca TAD - PUC-Rio, 1999 0,8 0,6 0,3 -0,1 1,1 -0,2 0,3 0,5 0,3 média: 0,41 distribuição de randomização • Sob a hipótese nula, de não haver diferença entre A e B, o fato de colocar no sapato esq. ou direito não faria diferença alguma nos resultados; apenas afetaria o sinal da diferença. • Os 10 lançamentos de moedas poderiam dar 1024 resultados diferentes: – m = (+/- 0,8 +/- 0,6 ... +/- 0,3)/10 TAD - PUC-Rio, 1999 randomização - resultados • Apenas 3 das possíveis somas dão valores maiores que 0,41. 4 dão exatamente 0,41 • considerando metade dos empates: 5/1024=0,005 (0,5%) • aumento de desgaste é altamente significativo estatisticamente! TAD - PUC-Rio, 1999 usando a distribuição t • (d - h)/sd/(n)1/2 tem distribuição t com (n-1) graus de liberdade d = 0,41 sd2 = Soma(d-d)2/((n-1) = 0,149 sd = 0,386 sd/(n)1/2 =0,386/(10)1/2 =0,122 (d - h)/sd/(n)1/2 = (0,41-0)/0,122 = 3,4 Pr(t>3,4) com 9 graus de liberdade @ 0,004 compatível com resultado anterior! TAD - PUC-Rio, 1999 outros exemplos de pares • Comparação da percepção visual de objetos aparecendo à esquerda e à direita. • comparação de tempos de comunicação com diferentes mecanismos – uso de diversos programas, cada um com os dois mecanismos • se não há como controlar a carga externa – poderíamos executar os algoritmos A e B simultaneamente, e considerar os pares TAD - PUC-Rio, 1999