Avaliação de Desempenho de Sistemas Comparação de Sistemas usando Amostras de Dados Paulo Adeodato Grupo de Inteligência Computacional Departamento de Informática Universidade Federal de Pernambuco © Paulo Adeodato Conteúdo Introdução Amostra x População Intervalo de confiança Métodos para determinar o intervalo de confiança • Quantis de k-médias • Aproximação pela distribuição normal • Aproximação pela distribuição t de Student Comparação entre 2 opções de sistemas com cargas de trabalho semelhantes Intervalo de confiança x Teste de hipóteses Intervalo de confiança assimétrico © Paulo Adeodato Introdução Sample x Example (do inglês) Ambas derivadas de Essample (do francês antigo) Em estatística, inferências (a partir de dados) não são definitivas inquestionáveis: devem ser sempre apresentadas com os intervalos de confiança associados Nós apenas medimos os fenômenos do mundo real em observações discretas e generalizamos as conclusões para todo o domínio Há sempre um erro ao processo de generalização © Paulo Adeodato População x Amostra População (parâmetros valores fixos) Tendência central Dispersão © Paulo Adeodato Amostra (estatísticas – Variáveis aleatórias) <x> estimador de S estimador de Intervalo de Confiança (I.C.) Exemplos de Afirmações / Perguntas O parâmetro se encontra no intervalo (a,b) com nível de confiança de 90%. Os processos A e B são iguais com o nível de confiança de 95%. Será o processo A melhor que o B com o nível de significância de 1% ? Será que a condição K interfere no processo A com um nível de confiança de 95% ? © Paulo Adeodato Intervalo de Confiança (I.C.) P(a b) = 1 - onde: • valor esperado do parâmetro (desconhecido) • (a,b) intervalo de confiança (variável aleatória) • nível de significância • 100(1 - ) “ de confiança • (1 - ) coeficiente de “ © Paulo Adeodato Métodos para Determinar o Intervalo de Confiança Quantis de k médias Teorema Central do Limite (a partir de 1 média) • Aproximação pela distribuição normal • Aproximação pela distribuição t de Student © Paulo Adeodato Métodos para Determinar o I.C. Método dos Quantis de k Médias Toma k amostras {{1x1, 2x1,..., nx1},..., {1xk, 2xk,..., nxk}} de n exemplos Calcula as k médias {x1 , x2 ,, xk } 1 n xi n j 1 j xi Coloca as k médias em ordem crescente { y1, y2 ,, yk } Toma as [1+/2(k-1)] e [1+(1- /2)(k-1)]-ésimas médias como limites inferior e superior do I.C. de nível de significância , respectivamente © Paulo Adeodato Exemplo-1: Quantis de 100 médias a 90% de Nível de Confiança Toma k amostras {x1 , x2,.., xk} de n exemplos n 1 Calcula as k médias x x i n j 1 j i Coloca as k médias em ordem crescente { y1, y2 ,, y100 } Toma as [1+0,05(100-1)] e [1+(1-0,05)(100-1)]-ésimas médias como limites inferior e superior { y1,, y5 , y6 ,, y95 , y96 , y100} a b • Bom para interpretar I.C. mas trabalhoso e caro © Paulo Adeodato Métodos para Determinar o I.C. Teorema Central do Limite-1 Toma 1 amostra {x1 , x2,.., xn} de n exemplos Calcula a média da amostra[uma V.A. de distribuição N(,2/n)] n 1 ˆ( ) X X i n i 1 1 n x xi n i 1 Calcula a variância da amostra 2 1 2 2 ˆ X i X ( ) S n 1 i 1 n n 1 2 s2 ( x x ) i n 1 i 1 Faz a transformação para a normal reduzida N(0,1) Xn x Zn n s © Paulo Adeodato Métodos para Determinar o I.C. Teorema Central do Limite-2 Consulta na tabela o quantil (1-/2) da normal reduzida Encontra o intervalo de confiança (a,b) , x z s (a, b) x z(1 2 ) s (1 2 ) n n Baixo custo, válido para n 30 © Paulo Adeodato Métodos para Determinar o I.C. Teorema Central do Limite-1 Toma 1 amostra {x1 , x2,.., xn} de n exemplos Calcula a média da amostra[uma V.A. de distribuição N(,2/n)] n n 1 ˆ ( ) X X i n i 1 Calcula a variância da amostra [uma V.A. de distribuição 2()] 2 n 1 2 2 X i X ˆ( ) S n 1 i 1 1 x xi n i 1 1 n 2 s ( x x ) i n 1 i 1 2 Faz a transformação para a t de Student com graus de liberdade © Paulo Adeodato t ( ) ~ N (0,1) 2 ( ) Métodos para Determinar o I.C. Teorema Central do Limite-2 Consulta na tabela o quantil (1-/2) da t de Student Encontra o intervalo de confiança (a,b) , x t s (a, b) x t(1 2;n 1) s (1 2:n 1) n n Baixo custo, válido para n < 30 © Paulo Adeodato