Avaliação de Desempenho de Sistemas
Comparação de Sistemas usando
Amostras de Dados
Paulo Adeodato
Grupo de Inteligência Computacional
Departamento de Informática
Universidade Federal de Pernambuco
© Paulo Adeodato
Conteúdo
Introdução
Amostra x População
Intervalo de confiança
Métodos para determinar o intervalo de confiança
• Quantis de k-médias
• Aproximação pela distribuição normal
• Aproximação pela distribuição t de Student
Comparação entre 2 opções de sistemas com cargas de
trabalho semelhantes
Intervalo de confiança x Teste de hipóteses
Intervalo de confiança assimétrico
© Paulo Adeodato
Introdução
Sample x Example (do inglês)
Ambas derivadas de Essample (do francês antigo)
Em estatística, inferências (a partir de dados) não são
definitivas inquestionáveis: devem ser sempre
apresentadas com os intervalos de confiança associados
Nós apenas medimos os fenômenos do mundo real em
observações discretas e generalizamos as conclusões
para todo o domínio
Há sempre um erro ao processo de generalização
© Paulo Adeodato
População x Amostra
População
(parâmetros valores fixos)
Tendência central
Dispersão
© Paulo Adeodato
Amostra
(estatísticas –
Variáveis aleatórias)
<x>
estimador de
S
estimador de
Intervalo de Confiança (I.C.)
Exemplos de Afirmações / Perguntas
O parâmetro se encontra no intervalo (a,b) com nível de
confiança de 90%.
Os processos A e B são iguais com o nível de confiança de
95%.
Será o processo A melhor que o B com o nível de
significância de 1% ?
Será que a condição K interfere no processo A com um
nível de confiança de 95% ?
© Paulo Adeodato
Intervalo de Confiança (I.C.)
P(a b) = 1 -
onde:
•
valor esperado do parâmetro (desconhecido)
• (a,b) intervalo de confiança (variável aleatória)
•
nível
de significância
• 100(1 - )
“
de confiança
• (1 - )
coeficiente de
“
© Paulo Adeodato
Métodos para Determinar o
Intervalo de Confiança
Quantis de k médias
Teorema Central do Limite (a partir de 1 média)
• Aproximação pela distribuição normal
• Aproximação pela distribuição t de Student
© Paulo Adeodato
Métodos para Determinar o I.C.
Método dos Quantis de k Médias
Toma k amostras {{1x1, 2x1,..., nx1},..., {1xk, 2xk,..., nxk}} de n
exemplos
Calcula as k médias {x1 , x2 ,, xk }
1 n
xi
n
j 1
j
xi
Coloca as k médias em ordem crescente { y1, y2 ,, yk }
Toma as [1+/2(k-1)] e [1+(1- /2)(k-1)]-ésimas médias
como limites inferior e superior do I.C. de nível de
significância , respectivamente
© Paulo Adeodato
Exemplo-1: Quantis de 100 médias
a 90% de Nível de Confiança
Toma k amostras {x1 , x2,.., xk} de n exemplos
n
1
Calcula as k médias
x
x
i
n
j 1
j
i
Coloca as k médias em ordem crescente { y1, y2 ,, y100 }
Toma as [1+0,05(100-1)] e [1+(1-0,05)(100-1)]-ésimas
médias como limites inferior e superior
{ y1,, y5 , y6 ,, y95 , y96 , y100}
a
b
• Bom para interpretar I.C. mas trabalhoso e caro
© Paulo Adeodato
Métodos para Determinar o I.C.
Teorema Central do Limite-1
Toma 1 amostra {x1 , x2,.., xn} de n exemplos
Calcula a média da amostra[uma V.A. de distribuição
N(,2/n)]
n
1
ˆ( ) X X i
n i 1
1 n
x xi
n i 1
Calcula a variância da amostra
2
1
2
2
ˆ
X i X
( ) S
n 1 i 1
n
n
1
2
s2
(
x
x
)
i
n 1 i 1
Faz a transformação para a normal reduzida N(0,1)
Xn x
Zn
n
s
© Paulo Adeodato
Métodos para Determinar o I.C.
Teorema Central do Limite-2
Consulta na tabela o quantil (1-/2) da normal reduzida
Encontra o intervalo de confiança (a,b)
, x z
s
(a, b) x z(1 2 ) s
(1 2 )
n
n
Baixo custo, válido para n 30
© Paulo Adeodato
Métodos para Determinar o I.C.
Teorema Central do Limite-1
Toma 1 amostra {x1 , x2,.., xn} de n exemplos
Calcula a média da amostra[uma V.A. de distribuição
N(,2/n)]
n
n
1
ˆ
( ) X X i
n i 1
Calcula a variância da amostra [uma V.A. de distribuição
2()]
2
n
1
2
2
X i X
ˆ( ) S
n 1 i 1
1
x xi
n i 1
1 n
2
s
(
x
x
)
i
n 1 i 1
2
Faz a transformação para a t de Student com graus
de liberdade
© Paulo Adeodato
t ( ) ~
N (0,1)
2 ( )
Métodos para Determinar o I.C.
Teorema Central do Limite-2
Consulta na tabela o quantil (1-/2) da t de Student
Encontra o intervalo de confiança (a,b)
, x t
s
(a, b) x t(1 2;n 1) s
(1 2:n 1)
n
n
Baixo custo, válido para n < 30
© Paulo Adeodato