Projeto de Experimentos
TAD - PUC-Rio, 1999
Comparação de 2 Tratamentos
• Experimentos comparativos simples
• Técnicas:
uso de conjuntos de referência externa
randomização e blocagem
testes de significância e intervalos de confiança
• Exemplos:


TAD - PUC-Rio, 1999
fertilizantes, máquinas, processos industriais
algoritmos, sistemas, CPUs
Uso de Distribuições de Referência
Externas
• Deseja-se avaliar se um método modificado
gerou melhores resultados que o método
tradicional
• Dispõe-se de um conjunto de dados grande
sobre o método tradicional
TAD - PUC-Rio, 1999
Exemplo
• Algoritmo A já é rotineiramente executado
para tarefa Z e surge a proposta de usar
algoritmo B
• 10 execuções de A:
– média de tempo de execução tA=84.24s
• 10 execuções deB:
– média de tempo de execução tB=82.94s
TAD - PUC-Rio, 1999
Exemplo
• Por conta de variações nos tempos
individuais não há evidência suficiente para
dizer que B é melhor do que A
• Erro experimental!
 algoritmo não determinístico
timer com pouca acurácia ou resolução
interferência de outros programas
competição por banda
alocação de recursos aleatória
TAD - PUC-Rio, 1999
Populações Conceituais
• Considerando as 2 populações conceituais:


observações do tempo de execução de A
observações do tempo de execução de B
queremos saber se a média da população 1 é
maior do que a média da população 2
TAD - PUC-Rio, 1999
Hipótese Nula
• Supomos que não existe diferença entre as
médias:
 hA = hB
e verificamos a chance da diferença observada
ter ocorrido por acaso.
• no exemplo: Por acaso existem dados sobre
210 execuções anteriores de A...
TAD - PUC-Rio, 1999
210 (!) observações de A
tempo
88
86
84
82
80
78
100
200
execução
TAD - PUC-Rio, 1999
para testar a hipótese nula:
• quantas vezes a diferença entre dois grupos
sucessivos de 10 observações diferiu por
mais de 1,3 seg?
• calcula-se as 191 diferenças entre conjuntos
adjacentes de 10 observações...
TAD - PUC-Rio, 1999
Distribuição das diferenças
v1
-1,0
-2,0
-1
.8
-1
TAD - PUC-Rio, 1999
.4
-1
.2
0
-0
.9
-0
.7
-0
.5
-0
.3
v-0
.1
1,0
0.
2
0.
4
0.
6
0.
8
1.
1
1.
4
1,3
comparação com a distribuição de
referência
• Em apenas 9 casos as diferenças excedem
1,3
• 9 em 191: A probabilidade de cair em uma
diferença de 1,3 pode ser aproximada por
9/191=0,047
• Diz-se que a diferença é significativa
estatisticamente com nível de probabilidade
0,047
TAD - PUC-Rio, 1999
conclusões
• A hipótese nula fica desacreditada...
• Parece que o algoritmo B é melhor do que
A...
TAD - PUC-Rio, 1999
outro exemplo:
diagnóstico de pacientes
• Dr A. afirma que pode reconhecer que
pessoa tem doença D olhando sua língua,
método muito mais barato que o exame
convencional.
• Desejamos fazer um teste para saber se ele
está meramente adivinhando ou se ele
realmente consegue diagnosticar D
TAD - PUC-Rio, 1999
Teste realizado
• Dr A. examina 4 grupos de 4 pacientes; em
cada grupo 1 paciente tem D
• Se ele comete um erro em algum grupo, o
experimento acaba; conclui-se que ele está
adivinhando
• Se ele completa os 4 sem nenhum erro, o
experimento acaba e conclui-se que ele não
está meramente adivinhando.
TAD - PUC-Rio, 1999
interpretação se ele adivinha:
1 Pr(parada no 1o):
2 Pr(parada no 2o): 1/4*3/4=
3 Pr(parada no 3o): 1/4*1/4*3/4=
4 Pr(falha no 4o): 1/4*1/4*1/4*3/4=
3/4
3/16
3/64
3/256
255/256
5 Pr(sucesso): 1/4*1/4*1/4*1/4=1/256
 chance
de rejeitar a hipótese de advinhação
e ela ser correta: 1/256
TAD - PUC-Rio, 1999
Jargão
• região de rejeição (evento 5): região crítica
• tamanho da região crítica associada ao nível
de significância
 nível
de significância: chance de rejeitar uma hipótese
verdadeira
 O aumento da região crítica aumenta a chance de
erroneamente rejeitarmos uma hipótese verdadeira
 Fala-se em níveis de significância mais altos quando as
regiões críticas são menores!
TAD - PUC-Rio, 1999
testes de hipótese
• hipóteses nunca podem ser provadas ou
negadas em termos absolutos
• rejeição:
 “Ou a hipótese está errada, ou em nosso
experimento observamos um resultado que é
improvável sob esta hipótese e mais provável se
outra hipótese for verdadeira; o nível de
improbabilidade é indicado pelo nível de
significância”
TAD - PUC-Rio, 1999
dificuldades
• O médico pode ter algum nível de acerto sem
que consiga acertar sempre…
• por exemplo, em cada 3 grupos de 4 ele
acerta 2 vezes
• P(sucesso)=2/3*2/3*2/3*2/3=16/81
• P(falha)=65/81
• em 65 de 81 experimentos, concluiríamos que ele
diagnostica em 1/4 dos casos (adiv.) quando de fato
diagnostica em 2/3!
TAD - PUC-Rio, 1999
testes de hipótese
• aceitação deve ser encarada como nãorejeição!
– não existe evidência suficiente de que hipótese
seja falsa!

mais interessante seria poder estimar a
probabilidade p de acerto do diagnóstico
– veremos depois em intervalos de confiança
TAD - PUC-Rio, 1999
algoritmos A e B - outra forma
• Sob certas condições:
(y - h)/s(n)1/2
tem uma distribuição t com l graus de
liberdade
– y tem distribuição normal com média h
– s, com l graus de liberdade, é calculado a partir de
observações normal e independentemente
distribuídas
TAD - PUC-Rio, 1999
Distribuição de referência externa
com base na distribuição t
• Podemos comparar sequências de 10
observações disjuntas e considerar que as
diferenças entre elas terão uma distribuição
normal...
TAD - PUC-Rio, 1999
Diferenças
y1
y2
8 3 ,9 4
8 3 ,5 1
-0 ,4 3
8 3 ,9 9
8 4 ,4 2
0 ,4 3
...
...
...
8 5 ,1 8
8 4 ,2 8
-0 ,9
8 4 ,1 8
8 4 ,0 1
-0 ,1 7
yA
yB
84,24
85,54
variância das diferenças
desvio padrão
TAD - PUC-Rio, 1999
y2- y1
yB- yA
1,3
s2 = 0,36
s = 0,6
hipótese: diferenças seguem distribuição normal
com média 0
hipótese nula
• Como todas as observações usaram o mesmo
algoritmo A, podemos assumir que a média da
população (y2-y1) é 0
• Podemos calcular a variância da amostra:
s2 = ((-0,43-0)2 + (0,43-0)2 +...+(-0,17-0)2 ) / 10 = 0,36
• e o desvio padrão s=0,6
TAD - PUC-Rio, 1999
hipótese nula
• No experimento com A e B, (yB-yA) = 1,3
• t = (1,3 - 0)/0,6 = 2,17
• Podemos usar a tabela da distribuição t com
10 graus de liberdade para interpolar e
concluir que P(t>2,17)=0,028
TAD - PUC-Rio, 1999
problema: normalmente não temos
uma massa de dados para formar
uma distribuição de referência
TAD - PUC-Rio, 1999
Amostras Aleatórias
• É comum assumirmos que um conjunto de
dados é uma amostra aletória da população
conceitual de todas as observações
possíveis.
• Ao testar a hipótese nula, estamos testando
se o conjunto de observações (20 no caso)
pode ser explicado como uma amostra
aleatória de uma única população comum.
TAD - PUC-Rio, 1999
com amostras aleatórias...
• os valores de y são distribuidos de forma
independente em torno das médias:
– os erros y11- hA, y12- hA, ...,y21- hB, y22- hB, ...,
variam independentemente.
• A distribuição da média y tem propriedades
especiais:
– E(y) = h
– V(y) = s2/n
TAD - PUC-Rio, 1999
interpretação
• Suponha que uma urna contém um número
muito grande de bilhetes brancos, cada um
com um valor numérico (uma observação y)
com média h e variância s2.
– aleatoriamente tiramos uma amostra de 10
bilhetes
– calculamos a média e escrevemos em um bilhete
azul
– colocamos o bilhete azul em outra urna
TAD - PUC-Rio, 1999
interpretação
• Os bilhetes da urna azul terão uma
distribuição com média h e variância s2/n.
– A distribuição original não precisa ser normal
– A nova distribuição será “mais aproximadamente”
normal...
TAD - PUC-Rio, 1999
para amostras grandes
• y como estimador de h
• s2 como estimador de s2
– s2 tem valor médio s2 e varia em torno desse
valor com desvio padrão 1/n1/2
TAD - PUC-Rio, 1999
voltando ao exemplo
• Suponha que os dois conjuntos de 10
observações são amostras aleatórias
– vamos assumir que os algoritmos A e B dão
origem a distribuições com o mesmo formato (e
mesma variância***) e médias possivelmente
diferentes ha e hb.
TAD - PUC-Rio, 1999
cálculos
– variâncias
V(yA) = s2/nA
V(yB) = s2/nB
V(yB-yA) = s2/nA + s2/nB= s2(1/nA + 1/nB)
– supondo a distribuição de y normal...
z = ((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2
teria uma distribuição normal unitária
– mas não temos s!
TAD - PUC-Rio, 1999
referência externa
• Podemos usar a coleção de 210
observações, para a qual o desvio padrão é
2,88, como o valor do desvio padrão das
populações amostradas
 z = 1,3 - (hB - hA)/1,29
 para a hipótese nula:
 z = 1,3/1,29 = 1,01
 P(z>1,01) (consultando
TAD - PUC-Rio, 1999
a tabela!) = 0,156
o que mudou:
• aqui estamos usando a hipótese de
amostragem aleatória para a distribuição das
diferenças, mas ainda estamos dependendo
da referência externa para calcular a
variância!
TAD - PUC-Rio, 1999
amostra de uma população normal
• Se a amostra é tirada de uma população com
distribuição normal com média h e variância
s 2:
1 A distribuição de y também é normal
2 A variância da amostra, s2, tem uma distribuição
chi-quadrada.
3 A quantidade
(y - h)
s(n)1/2
tem distribuição t
com (n-1) graus de liberdade (n é o tamanho da
amostra)
TAD - PUC-Rio, 1999
população normal
• importância do terceiro resultado:
– O desvio (y - h) pode ser julgado em relação a
uma estimativa do desvio padrão de y, s(n)1/2,
obtida internamente da amostra
TAD - PUC-Rio, 1999
população com distribuição normal
• considerando que as diferenças tenham
distribuição normal
V(yB-yA) = s2/nA + s2/nB= s2(1/nA + 1/nB)
desvio padrão: s (1/nA + 1/nB)1/ 2
então (tínhamos que (y- h)/ s(n)1/2 seguia distribuição t)
(yB-yA) - (0)/s(1/nA + 1/nB)1/ 2 segue distribuição t
TAD - PUC-Rio, 1999
Contas
(yB-yA) = 1,3
s 2 =[Soma(yA-yA)2 + Soma(yB-yB)2]/ (nA+nB-2)=10,87
t = 1,3/1,47 = 0,88
P(t>0,88)= (interpolação!) 0,195
TAD - PUC-Rio, 1999
Randomização e Blocagem
• precauções no projeto do experimento
– randomização garante validade de inferências
– blocagem elimina fontes de variação
TAD - PUC-Rio, 1999
exemplo de randomização
• Jardineiro quer testar fertilizantes A e B para
plantas de tomates…
B é fertilizante novo
• Ele tem 11 lotes disponíveis, e resolve tratar 6
deles com B e 5 com A
TAD - PUC-Rio, 1999
Randomização
p o s iç ã o 1
2
3
4
5
6
7
8
9
10
11
m é to d o Á
A
B
B
A
B
B
B
A
A
B
te m p o
2 9 ,9 1 1 ,4 2 6 ,6 2 3 ,7 2 5 ,3 2 8 ,5 1 4 ,2 1 7 ,9 1 6 ,5 2 1 ,1 2 4 ,3
A
B
2 9 ,9
2 6 ,6
1 1 ,4
2 3 ,7
2 5 ,3
2 8 ,5
1 6 ,5
1 4 ,2
2 1 ,1
1 7 ,9
2 4 ,3
2 0 ,8 4 2 2 ,5 3
TAD - PUC-Rio, 1999
Randomização
• Algum método aleatório é usado para
escolher a ordem em que os experimentos
com A e B serão realizados
• Poderíamos comparar a diferença das
médias com todas as diferenças obtidas por
diferentes atribuições de 5 A e 6 B a essas
colunas
• combinação de 11 5 a 5 (ou 6 a 6) = 462
TAD - PUC-Rio, 1999
distribuição randômica
posição 1
2
3
4
5
6
7
8
9
10
11
m étodo Á
A
B
B
A
B
B
B
A
A
B
m étodo A
A
A
A
A
B
B
B
B
B
B
m étodo A
A
A
A
B
B
B
B
A
B
B
m étodo A
A
A
B
A
A
B
B
B
B
B
m étodo A
A
B
A
A
A
B
B
B
B
B
m étodo A
B
A
A
B
B
B
B
A
A
B
m étodo A
A
B
B
B
A
A
A
B
B
B
m étodo B
B
B
B
A
A
A
B
B
A
A
…
…
…
…
…
…
…
…
…
…
…
tem po
TAD - PUC-Rio, 1999
29,9 11,4 26,6 23,7 25,3 28,5 14,2 17,9 16,5 21,1 24,3
distribuição das diferenças das
médias
1,69
TAD - PUC-Rio, 1999
11
9
7
5
3
1
-1
-3
-5
-7
-9
33%
não há razão para duvidar
da hipótese nula!
Randomização
• Com amostras aleatórias de uma população
com distribuição normal, poderíamos
comparar a quantidade
((yB-yA) - (hB - hA))/s(1/nA + 1/nB)1/2
com a distribuição t com nA + nB - 2 graus de
liberdade
• se randomizarmos o experimento, podemos
usar a distribuição t como aproximação para
a distribuição randomizada
TAD - PUC-Rio, 1999
Comparação em Pares: exemplo
16
14
12
10
8
6
4
2
0
0
5
10
15
• experimento com materiais diferentes de solado
• 10 pessoas usando materiais diferentes em cada sapato
TAD - PUC-Rio, 1999
uso da diferença
1.2
1
0.8
0.6
0.4
0.2
0
-0.2 0
5
10
15
-0.4
• Usando a diferença de desgaste entre os 2 sapatos,
eliminamos a variação entre 2 meninos
TAD - PUC-Rio, 1999
Experimento
• objetivo é saber se o material B,
mais barato, resulta ou não em
maior desgaste
– randomização: 10 lançamentos de
moeda determinaram se o material B
deveria ser usado no sapato direito
ou esquerdo
• Ca Ca Co Ca Co Ca Ca Ca Co Ca
TAD - PUC-Rio, 1999
0,8
0,6
0,3
-0,1
1,1
-0,2
0,3
0,5
0,3
média: 0,41
distribuição de randomização
• Sob a hipótese nula, de não haver diferença
entre A e B, o fato de colocar no sapato esq.
ou direito não faria diferença alguma nos
resultados; apenas afetaria o sinal da
diferença.
• Os 10 lançamentos de moedas poderiam dar
1024 resultados diferentes:
– m = (+/- 0,8 +/- 0,6 ... +/- 0,3)/10
TAD - PUC-Rio, 1999
randomização - resultados
• Apenas 3 das possíveis somas dão valores
maiores que 0,41. 4 dão exatamente 0,41
• considerando metade dos empates:
5/1024=0,005 (0,5%)
• aumento de desgaste é altamente
significativo estatisticamente!
TAD - PUC-Rio, 1999
usando a distribuição t
• (d - h)/sd/(n)1/2 tem distribuição t com (n-1)
graus de liberdade
d = 0,41
sd2 = Soma(d-d)2/((n-1) = 0,149
sd = 0,386
sd/(n)1/2 =0,386/(10)1/2 =0,122
(d - h)/sd/(n)1/2 = (0,41-0)/0,122 = 3,4
Pr(t>3,4) com 9 graus de liberdade @ 0,004
compatível com resultado anterior!
TAD - PUC-Rio, 1999
outros exemplos de pares
• Comparação da percepção visual de objetos
aparecendo à esquerda e à direita.
• comparação de tempos de comunicação com
diferentes mecanismos
– uso de diversos programas, cada um com os dois
mecanismos
• se não há como controlar a carga externa
– poderíamos executar os algoritmos A e B
simultaneamente, e considerar os pares
TAD - PUC-Rio, 1999
Download

Noemi 1/2