Virgílio A. F. Almeida
DCC-UFMG
1/2005
!
"
#
Comparando quantitativamente sistemas
experimentais:
Algoritmos, protótipos, modelos, etc
Significado de uma amostra
Intervalos de confiança
Tomando decisões e comparando alternativas
Considerações especiais sobre intervalo de
confiança
Tamanho das amostras
$
%
• Duas fórmulas para intervalo de confiança
– Acima de 30 amostras de qualquer distribuição:
distribuição-z (Normal)
– Pequenas amostras de populações normalmente
distribuídas: distribuiçao-t (Student)
• Um erro comum: usar distribuição-t para populações
não normalmente distribuídas.
– Teorema do limite central base do cálculo do nível
de confiança do intervalo de confiança (IC).
$
%
• Por exemplo, sabendo onde 90% das médias de
amostras se situam, podemos então estabelecer um
intervalo de confiança de 90%
• Chave: Teorema do Limite Central:
– As médias de amostras são distribuidas pela
Normal.
– Desde que sejam independentes
– Média das amostras “significa” que a média
da população é µ
σ
– Desvio padrão (erro padrão) é
n
&
'(
• Intervalo em cada lado da média:
x−x
z=
σ/ n
x ± z1−α
2
s
n
• O nível de significância α é pequeno para níveis
maiores do intervalo de confiança.
• Existem tabelas para a variável z!
&
• Fórmula quase a mesma:
x ± t 1− α
[
]
2 ; n −1
s
n
• Usável para populações normalmente distribuídas!
• Funciona para pequenas amostras
• Similar a Normal (bell-shaped, porem mais espalhada) e
depende do tamanho da amostra n.
)
*
• Por que usamos intervalos de confiança?
– Sumarizar o erro na média da amostra
– Prover elementos para saber se a amostra é
significativa
– Permitir comparações à luz dos erros
• Aviso: num intervalo de 90% de confiança, 10% das
médias n (observações coletada) não incluem a
média da população.
)
+
• A média da população é significativamente nãozero?
• Se o intervalo de confiança inclui 0, a resposta é não!
• Pode-se testar para qualquer valor (média das
somas é a soma das médias)
• Exemplo: as amostras de alturas são consistentes
com a altura média de 1,70 m
– Também consistentes com 1,60 e 1,80!
• Num projeto de pesquisa, geralmente, procura-se o melhor
sistema, o melhor algoritmo:
– Exemplos:
• Determinar o sistema que apresente a melhor relação
QoS-preço, onde QoS é medido experimentalmente.
• Provar que um algoritmo Y executa mais rápido que
outros existentes e sejam similares funcionalmente.
• Métodos diferentes para observações pareadas (com par) e não
pareadas (sem par).
– Pareadas se o i-ésimo teste em cada sistema foi o mesmo
– Não pareadas, caso contrário
,
*
-
.
1. Tratar o problema como uma amostra de n
pares
2. Para cada teste calcule as diferenças dos
resultados
3. Calcule os intervalos de confiança para as
diferenças
4. Se o intervalo inclui 0 (zero), os objetos de
comparação (ex.: sistemas, algoritmos, etc) não
são diferentes
5. Se o intervalo não inclui zero, o sinal da
diferença indica qual dos objetos é melhor,
baseado nos dados experimentais.
.
,
*
-
• Considere dois algoritmos de IA que reconhecem objetos: A e B
• Num teste com vários objetos, o algoritmo A acerta mais que o B?
• Amostra de testes com 14 objetos:
40
4/
3
2
1
5
0
56
/
5
1
56
0
9
/ 44 2
2
9
9 4/ 2
2
/
7 40 8
0
0
2
7
4
2
1
0
0
/
.
*
3
2
1
0
/
'0
'1
'2
'3
• Diferenças entre algoritmos A-B: 2 -2 -7 5 6 -1 -7 6 7 3 2 1 -1 6
(-0.75, 3.6)
• Média 1.4, intervalo de 90%
– Não se pode rejeitar a hipótese que a diferença é 0 e que portanto os
algoritmos tem desempenho similar.
– Intervalo de 70% é (0.10, 2.76), A tem desempenho melhor que B
,
*
:
-
;
• Considere as amostras xa e xb para
cada uma das alternativas, A e B
• Comece com os intervalos de confiança
– Se não houver sobreposição:
<
media
• Algoritmos são diferentes e a maior
média é melhor (pelas métricas usadas)
A
– Se houver sobreposição e cada IC
contem a outra média:
B
• Algoritmos não são diferentes neste
media
nivel
• Se estiverem próximos, pode-se abaixar
o nível de confiança
– Se houver sobreposição e uma média
não está no outro IC
• Tem de fazer o teste-t
B
media
A
B
A
' =4>
,
1 Compute as médias das amostras x a e
2. Compute os desvio-padrões sa e sb
3. Compute adiferença das médias = x a −
4. Compute o desvio padrão das diferenças:
2
a
2
b
s
s
s=
+
na nb
xb
xb
,
' =0>
5. Compute os graus efetivos de liberdade:
ν =
6.
( s a2 / n a + s b2 / n b )
2
a
1
s
na + 1 na
+
2
b
1
s
nb + 1 nb
Compute o intervalo de confiança:
(xa − xb )
7.
2
2
t[1−α / 2 ;ν ] s
Se o intervalo inclui zero, não há diferença
2
− 2
-
*
• Se n1 de n experimentos dão um certo resultado, então podese dizer que a proporção das amostras é dada por:
n1
p=
n
• Exemplos:
– A precisão do algoritmo A de recuperação de informação foi
superior a precisão de B em 55 dos 100 casos analisados.
Com 90% de confiança pode-se dizer que A supera B em
precisão?
– Durante 5000 “samples” coletados, em 1000, o percentual
de “system time” foi inferior a 20%. Com 95% de confiança,
qual o intervalo de confiança onde o sistema operacional
gasta menos de 20% dos recursos?
-
*
• Se n1 de n experimentos dão um certo resultado,
então o intervalo de confiança (IC) para a proporção:
IC→ p z1−α / 2
p(1− p)
n
• A fórmula acima é baseada numa aproximação da
distribuição binomial (variância = np(1-p))
• Na prática, deve-se ter np>10 para obter resultados
válidos
*
1. Selecionar um intervalo de confiança para trabalhar
2. Teste de Hipótese (aulas seguintes)
3. Intervalos de confiança de um único ado
#
$
%
• Depende do custo de se estar errado!!!
– Produção de um paper científico
– Demonstração de um novo algorítmo
experimentalmente
– Geração de um produto
• Os níveis de confiança entre 90% e 95% são os
valores comuns para papers cientificos
• Em geral, use o maior valor que lhe permita
establecer conclusões sólidas num processo
experimental!
• Mas é melhor ser consistente durante todo o paper
que se está trabalhando.
)
?
@
• A null hypothesis (H0) é comum em estatísticas e
tratamento de dados experimentais:
– Pode ser confuso em negativas duplas
– Provê menos informação que intervalos de
confiança
– Em geral mais dificil de computar
• Deve-se entender que rejeitar a hipótese nula implica
que o resultado é significativo.
$
%
'A
• Intervalos de dois lados testam se a média está fora ou
dentro de uma variação definida pelos dois lados do
intervalo (observe os gráficos de bandas de erro do
exemplo anterior. “)
• Teste de intervalos um único lado são úteis somente
quando se está interessado em um limite.
– Ex.: Com 90% de confiança, qual o intervalo para o
tempo médio de resposta ser menor que a média R
alcançada.
P( R ≤ t n −1,α ) =1 − α
$
%
'
Limite inferior
x − t[1−α ;n −1]
s
,x
n
Limite superior
x , x + t[1−α ;n −1]
s
,
n
)
!
• Amostras maiores levam a intervalos mais estreitos
– Obtem-se menores valores de t e v à medida que
n cresce
– n in formulas
• Coleta de amostras pode ser um processo caro!
– Qual o mínimo que se pode querer num
experimento?
• Comece com um pequeno número de medições
preliminares para estimar a variância.
!
)
!
• Para obter um erro percentual ± r %:
100 zs
n=
rx
2
• Aqui z representa ou z or t qdo apropriado
• Para uma proporção p = n1/n:
p(1 − p)
n=z
2
r
2
!
)
!
.
4
• Cinco execuções de um query levaram 22.5, 19.8,
21.1, 26.7, 20.2 seconds
• Quantas execuções devem ser executadas para
obter ± 5% de CI num nível de confiança de 90%?
• x = 22.1, s = 2.8, t0.95;4 = 2.132
n =
(1 0 0 )( 2 .1 3 2 )( 2 .8 )
( 5 )( 2 2 .1 )
2
= 5 . 4 2 = 2 9 .2
!
)
!
.
0
• Suponha que queremos determinar o intervalo de confiança
para x tal que existe um intervalo com probabilidade 1-α tal que
um valor real x esteja no intervalo.
(c1 , c2 ) = ((1 − e) x , (1 + e) x )
c1 = (1 − e) x = x − z1−α / 2
c2 = (1 + e) x = x − z1−α / 2
z1−α / 2 s 2
n=(
)
ex
s
n
s
n
!
)
!
.
0
• Suponha que o tempo médio para gravar um arquivo é 7,94 seg
com desvio padrão de 2,14. Aproximadamente, quantas
medidas serão requeridas se nós desejamos um IC de 90% e
que a média esteja dentro de um intervalo de 7%.
• α = 0.10, 1- α/2= 0.95 e = 0.35
2
( z1−α / 2 s )
1.895(2.14)
=
n=
0.035(794)
ex
n = 213
2
= 212.95
&
I.
-
B
Elaboração de um documento de uma
ou duas páginas no máximo, contendo
os pontos abaixo:
1.
2.
3.
4.
5.
Especificação do problema e contexto
Definição da hipótese
Decisões da carga de trabalho
Metricas a serem usadas
Método de testes
C
• Considere que seu trabalho é comparar o desempenho de dois
algoritmos (A e B) de computação gráfica, que usam métodos
diferentes para geração de faces humanas realísticas.
• São sistema complexos cuja execução leva tempos longos para
geração das faces. O sistema A foi testado 8 vezes e o sistema
B apenas 5, onde em cada experimento utilizou-se o mesmo
padrão de resultado a obter.
• Os tempos de teste dos algoritmos estão na tabela a seguir.
Com base nesses resultados, pede-se que se determine qual
algoritmo teve melhor desempenho?
C
Experimento
Algoritmo A
(seg)
Algoritmo B
(seg)
1
1011
894
2
998
963
3
1113
1098
4
1008
982
5
1100
1046
6
1039
-
7
1003
-
8
1098
-
Download

Aula # 5 - DCC | Departamento de Ciência da Computação