Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas MAB-515 Avaliação e Desempenho (DCC/UFRJ) Aula 7: Intervalos de Confiança Prof. Paulo Aguiar 13 de novembro de 2012 Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas 1 Intervalos de Confiança (IC) 2 Intervalos Parciais de Confiança 3 Intervalo de Confiança para Proporções 4 Comparação de Alternativas Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Percentil 100p%-percentil O ponto t0 tal que t0 = FX−1 (p) = min{t : FX (t) ≥ p}, 0 < p < 1 é chamado 100p%-percentil Se tomarmos o gráfico da pdf, a área à esquerda de 100p% percentil vale p Mediana O 50%-percentil é chamado mediana. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas A distribuição t-Student Pelo Teorema do Limite Central, a função µ̂−µ √ σ/ n é N(0, 1) µ̂−µ √ tem distribuição t-Student com (n − 1) graus de A função σ̂/ n liberdade. A distribuição t-Student com n graus de liberdade tem média n µ = 0 e variância σ 2 = n−2 e é aproximadamente N(0, 1) para n ≥ 25 Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Percentis da distribuição t-Student Para a distribuição normal o 99,95%-percentil = z99,95% = 3, 29. tα;n = 100α%-percentil da distribuição t-Student com n graus de liberdade A área à esquerda de tα;n no gráfico da pdf vale α. n (graus de liberdade) 25 60 120 ∞ Prof. Paulo Aguiar t99,95%;n 3,725 3,460 3,373 3,291 Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Intervalos de Confiança (IC) Definição: Sejam {X1 , X2 , · · · , Xn } amostras independentes de uma população com pdf f (x, θ), onde θ é um parâmetro desconhecido (i.e., a média, a variância, o n-ésimo momento, etc). (L(α), U(α)) é um intervalo de confiança de 100(1 − α)% para θ se P{L(α) ≤ θ ≤ U(α)} ≥ 1 − α, 0 < α < 1 Interpretação: Se 100 intervalos são construı́dos, 100(1 − α)% deles conterá o valor real de θ. Confianças mais comuns: 90% e 95% Intervalo de confiança de 95% obtido com α = 0, 05 Intervalo de confiança de 90% obtido com α = 0, 1 Intervalo de confiança de 99% obtido com α = 0, 01 Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas IC para a Média de uma População com Variância Desconhecida Sejam {X1 , X2 , · · · , Xn } amostras independentes de um parâmetro X com uma distribuição qualquer, com média verdadeira desconhecida E [X ] = µ Queremos calcular o intervalo de confiança para µ, que será um intervalo em torno da média das amostras µ̂ Eessencial ter n amostras independentes do parâmetro O parâmetro X pode ser uma grandeza qualquer como o número médio de fregueses no sistema ou a variância média do tempo de espera numa fila. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Seja tx;n o 100x%- percentil da distribuição t-Student com n graus de liberdade. Então, da definição de percentil, temos: µ̂ − µ P tα/2;n−1 ≤ √ ≤ t1−α/2;n−1 = 1 − α σ̂/ n A distribuição t-Student é simétrica em relação à origem e tα/2;n−1 = −t1−α/2;n−1 . Consequentemente, Intervalo de Confiança para a Média P µ̂ − t1−α/2;n−1 . √σ̂n ≤ µ ≤ µ̂ + t1−α/2;n−1 . √σ̂n = 1 − α Dado (1 − α), obtemos t1−α/2;n−1 da tabela da t-Student O intervalo de confiança de 100(1 − α)% é simétrico em torno √ de µ̂, com largura total de 2t1−α/2;n−1 σ̂/ n Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Valores Assintóticos dos Percentis da t-Student Para n ≥ 30, o percentil t1−α/2;n−1 da t-Student tende para valores assintóticos que são os percentis z1−α/2 da normal unitária. 1−α 0,90 0,95 0,99 100(1 − α/2)% − percentil t0,95 ≈ z0,95 = 1, 645 t0,975 ≈ z0,975 = 1, 960 t0,995 ≈ z0,995 = 2, 576 Para um mesmo conjunto de amostras, quanto maior a confiança, maior o multiplicador e maior o intervalo a ser apresentado! Precisão do IC (quanto menor mais justo o intervalo!) A precisão p é obtida dividindo a metade do intervalo pelo seu σ̂ valor de centro, implicando que p = 100.t1−α/2;n−1 . µ̂√ n Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Exemplo: Suponha que 4 medidas da largura de um terreno dão média µ̂ = 585, 145 m e σ̂ 2 = 0, 010 m2 . Qual o intervalo de confiança de 99%? Solução Para 1 − α = 0, 99, t1−α/2;n−1 = t0,995;3 = 5, 841. U = µ̂ + 5, 841 × 0, 05 e L = µ̂ − 5, 841 × 0, 05. A largura do intervalo é 0,584 m. A precisão do IC é dada por 0,584/2 585,145 Prof. Paulo Aguiar ≈ 1/500 = 0, 5%. Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas IC para a Média de uma População com Variância Conhecida µ̂−µ √ terá o comportamento de uma Se a variância é conhecida, σ/ n N(0, 1) pelo Teorema do Limite Central e, considerando zx como o 100x%-percentil da N(0, 1), pode-se afirmar que: µ̂ − µ P zα/2 ≤ √ ≤ z1−α/2 = 1 − α σ/ n e o intervalo de confiança para a média será dado por σ σ P µ̂ − z1−α/2 . √ ≤ µ ≤ µ̂ + z1−α/2 . √ =1−α n n A única diferença em relação ao caso anterior é o uso do percentil da normal unitária no lugar do percentil da distribuição t-Student. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Distribuição χ2 (chi-square) Seja {Xi } um conjunto de variáveis normais com média 0 e variância σ 2 , isto é, Xi = N(0, σ 2 ). Observe que estamos assumindo que as variáveis são normais! Y = X12 + X22 + · · · + Xn2 tem pdf fY (y ) = 1 2σ 2 n 2 n−2 y 2 Γ( n2 ) y e − 2σ2 Para σ = 1, Y é χ2 central com n graus de liberdade χ2ν;n é o 100ν%-percentil da distribuição χ2 com n graus de liberdade Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Seja {Xi } um conjunto de amostras de X = N(µ, σ 2 ). µ̂ = Xi −µ σ 1 n σ2 X = N µ, i=1 i n . Pn é N(0, 1) e Y = Pn Pn Prova-se que Z = i=1 i=1 Xi −µ σ Xi −µ̂ σ 2 2 é χ2 com n graus de liberdade. é χ2 com (n − 1) graus de liberdade. (n−1)σ̂ 2 σ2 (n−1)σ̂ 2 σ2 = 1 σ2 Pn i=1 (Xi − µ̂)2 = Pn i=1 Xi −µ̂ σ 2 então terá uma distribuição χ2 com (n − 1) graus de liberdade. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas IC para a Variância de uma Pop. Normal com Média Desconhecida Seja {Xi } um conjunto de amostras de X = N(µ, σ 2 ) 2 2 =ν P (n−1)σ̂ ≤ χ 2 ν;n−1 σ 2 (n−1)σ̂ P χ2α/2;n−1 ≤ σ2 ≤ χ21−α/2;n−1 = 1 − α/2 − α/2 = 1 − α Expressão do IC 2 P χ(n−1)σ̂ ≤ σ2 ≤ 2 1−α/2;n−1 O tamanho do IC é (n − 1)σ̂ 2 (n−1)σ̂ 2 χ2α/2;n−1 χ21−α/2;n−1 −χ2α/2;n−1 χ21−α/2;n−1 .χ2α/2;n−1 =1−α = σ̂ 2 . [(n − 1)f1−α ], onde o termo f1−α depende apenas dos percentis da χ2 para um determinado grau de confiança. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas A tabela abaixo mostra a variação de (n − 1)f90% e (n − 1)f95% . (n − 1) (n − 1).f90% (n − 1).f95% 30 0,93689 1,1481 40 0,79153 0,96306 50 0,69757 0,84516 60 0,63057 0,76184 70 0,57972 0,69901 80 0,53944 0,64948 90 0,50653 0,60914 100 0,47898 0,57547 Como σ̂ 2 converge para a variância, então o tamanho do IC para a variância do parâmetro X será determinado pelo produto (n − 1)f1−α . Para n = 101, o IC de 90% será de 0,4790 σ̂ 2 , com precisão de 23,95%, enquanto para confiança de 95% terá precisão de 28,77% apenas. Para obter precisões menores é preciso usar valores maiores de n. Interessante observar que a relação de tamanho entre os intervalos de confiança de 95% e 90% é aproximadamente de 20% assintótico. O estimador da variância está sempre dentro do intervalo e o aumento de n leva à aproximação entre os limites inferior e superior. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Exemplo Para exemplificar, vamos supor que estamos querendo estimar a variância do tempo P médio de espera W numa fila. A cada rodada é calculado Wi = k1 kj=1 Wij , o atraso médio estimado na i-ésima rodada sobre k fregueses por rodada. Se os Wij fossem independentes, Wi convergiria para a normal N(E [W ], V (W )/k) Todavia, os Wij não são independentes e possuem alta correlação e para assumir o comportamento de Normal é preciso que k seja bem grande. Obtido o conjunto {Wi }, o IC estará da variância definido em função do estimador (n−1)σ̂ 2 (n−1)σ̂ 2 1 Pn 2 2 2 σ̂ = n−1 i=1 (Wi − µ̂) por P χ2 ≤ σ ≤ χ2 = 1 − α. 1−α/2;n−1 α/2;n−1 Como σ 2 = V (W )/k, pode-se obter um intervalo de confiança para V (W ) igual a " k(n − 1)σ̂ 2 k(n − 1)σ̂ 2 , χ21−α/2;n−1 χ2α/2;n−1 # Pode-se ver que um aumento de k levará a uma convergência dos valores dos Wi , com consequente diminuição de σ̂ 2 . Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Exemplo: solução alternativa Para o mesmo exemplo, um segundo procedimento seria partir da estimativa da variância do tempo de espera em cada rodada 2 1 Pk 1 Pk Vi = σi2 = k−1 W − W e plotar o intervalo de ij ij j=1 j=1 k confiança da média para o conjunto {Vi }. Aqui a variância é considerada diretamente como o parâmetro de interesse. Também aqui a variância estimada por rodada pode ser muito imprecisa se o valor de k for pequeno, devido à correlação de medidas dentro da própria rodada. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Intervalos Parciais de Confiança Para um IC de 100(1 − α)%, há 100α/2 de probabilidade de que o parâmetro µ será menor do que o limite inferior e igual probabilidade de que o parâmetro será maior que o limite superior. Assumindo simetria nas caldas da pdf, temos: P{L(α) ≤ µ ≤ U(α)} = 1 − α → P{µ < L(α)} = P{µ > U(α)} = α/2 Assim, P{µ ≥ L(α)} = P{µ ≤ U(α)} = 1 − α/2 Para se testar se a média é maior do que um determinado valor com 90% de certeza, então queremos 1 − α/2 = 0, 90 √ O IC parcial será dado por µ̂ − t90%;n−1 σ/ n, µ̂ e, por construção, P{µ > L(α)} = 1 − α/2 = 0, 90, que procuramos. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Exemplo Uma empresa mantém um portfólio de possı́veis interessados em determinada vaga técnica. Sabe-se que a média de idade considerando todos os inúmeros candidatos é de 30 anos com desvio padrão de 10 anos. Quantos candidatos devem ser aleatoriamente chamados para que a idade média dos chamados seja de pelo menos 28 anos com 99% de certeza? A solução é obtida com P{µ > L(α)} = 1 − α/2 = 0, 99, e o limite L(α) > 28 anos No cálculo do IC parcial, como estaremos usando a variância da população para µ̂−µ √ e assumir o comportamento de uma N(0, 1), o percentil formar a variável Zn = σ/ n da normal unitária deverá ser usado no lugar do percentil da t-Student. Espera-se que n seja grande o suficiente para que a aproximação do comportamento de Zn seja boa. Obtendo o percentil z√ 0,99 = 2, 33, temos que o limite inferior do IC parcial L(α) = 30 − z0,99 .σ/ n > 28 ⇒ n > (z0,99 .σ/2)2 = (2, 33.5)2 = (11, 65)2 = 135, 72. A resposta será 136 pessoas. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Intervalo de Confiança para Proporções Sejam dadas n observações de uma população. Assuma que n1 destas observações indicam tipo 1. A fração da população que é do tipo 1 pode ser estimada como a proporção p = nn1 . O intervalo de confiança para a proporção precisa ser construı́do para sabermos com que precisão estamos avaliando a proporção. O de confiança intervalo de 100(1 − α)% será dado por q p ± p(1−p) z1−α/2 = [p ± r ], onde r é a precisão. n Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Dedução do IC para Proporções Cada observação Xi pode ser considerada como uma variável de Bernoulli. P (Xi do tipo 1) = P(Xi = 1) = p, P (Xi 6= do tipo 1) = P(Xi = 0) = 1 − p E [Xi ] = p, E [Xi2 ] = p, V (Xi ) = p(1 − p) O estimador da proporção é dado por Sn = 1 n Pn i=1 Xi i) E [Sn ] = E [Xi ] = p, V (Sn ) = V (X = p(1−p) n n Sn −E [Sn ] Sn −p q = p(1−p) tende para N(0,1). Para n >> 1, Zn = σS n n Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Dedução do IC para Proporções Tomando zx como o 100x%-percentil da distribuição normal unitária, temos: P zα/2 ≤ Zn ≤ z1−α/2 = 1 − α Sn − p ≤ z1−α/2 = 1 − α P −z1−α/2 ≤ q p(1−p) n r P p − z1−α/2 p(1 − p) ≤ Sn ≤ p + z1−α/2 n r p(1 − p) n ! =1−α Como n é finito, para que o intervalo de confiança possa ser considerado válido é necessário ter np ≥ 10. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Aplicação Se 10 dentre 1000 páginas são impressas com erro, a proporção de páginas com erro é de p = 0, 01. Como np = 10, o IC para a proporção pode ser calculado e será q 0, 01 ± z 0,01.0,99 = 0, 01 ± 0, 003z1−α/2 1000 IC de 90% = [0, 005; 0, 015] = [0, 5%; 1, 5%] IC de 95% = [0, 004; 0, 016] = [0, 4%; 1, 6%] z1−α/2 = z0,95 = 1, 645(1 − α = 90%) z1−α/2 = z0,975 = 1, 960(1 − α = 95%) Pode-se afirmar com 90% de confiança que 0,5% a 1,5% das páginas terão erro. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Comparação de Alternativas Assuma que duas alternativas para maximizar o resultado de um sistema estejam disponı́veis, e que ambas podem ser testadas em n condições diferentes, permitindo a obtenção de n pares de resultados (XAi , XBi ) Metodologia Formar o conjunto {Di = XAi − XBi } e obter o IC da média da diferença com a confiança desejada. Se o IC contiver o valor ZERO, inconclusivo; Se o IC estiver acima do ZERO, a alternativa A é considerada a melhor (resultado de A maior do que de B); Se o IC ficar abaixo de ZERO, a alternativa B é considerada a melhor (resultado de B maior do que de A). Caso o interesse seja em minimizar o resultado, a decisão fica invertida. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Comparação de Alternativas Quando as alternativas são testadas separadamente, em número igual de experimentos, e apenas o IC de cada uma delas está disponı́vel, pode-se comparar a posição dos intervalos de confiança em relação a sobreposição completa ou parcial. Tipos de sobreposição Sobreposição completa ocorre quando o centro de cada intervalo está contido no outro intervalo Sobreposição parcial ocorre quando os intervalos de sobrepõem, mas o centro de cada um dos intervalos não está contido no outro IC Se apenas um dos centros estiver contido no outro IC, então temos uma situação intermediária entre sobreposição completa e parcial. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Comparação de Alternativas Melhor Alternativa Quando não houver sobreposição ou quando houver apenas a sobreposição parcial, a melhor alternativa será aquela que apresentar a média maior, se o interesse é em maximizar Se o interesse for em minimizar, a alternativa com menor média será a escolhida Inconclusivo No caso de sobreposição completa ou intermediária entre parcial e completa, não há apontar uma alternativa claramente vencedora e o teste-t deve ser conduzido O teste-t também deve ser utilizado quando o número de observações de cada uma das alternativas não for o mesmo Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Teste-t Assuma amostras XiA e XjB das alternativas A e B com tamanhos diferentes nA e nB . O teste estima a variância da diferença e o número equivalente de graus de liberdade. PnA 1 PnB 1 Calcule a média das amostras: X̂A = 1 i=1 XAi , X̂B = n j=1 XBj n A B Pn A 2 i=1 Calcule a variância das amostras: σ̂A2 = Pn σ̂B2 = B i=1 2 2 XAi −nA (X̂A ) nA −1 2 2 XBi −nB (X̂B ) nB −1 3 Calcule a diferença das médias: X̂A − X̂B 4 Calcule o desvio padrão da média da diferença: σ̂ 2 = 5 Calcule o # efetivo de graus de liberdade: ν = 1 nA +1 σˆA 2 nA σ̂ 2 A nA + σˆB 2 nB (σ̂ 2 )2 !2 + n 1+1 B σ̂ 2 B nB !2 −2 X̂A − X̂B ± t1−α/2;ν .σ̂ 6 Calcule o IC para a média da diferença: 7 Se o intervalo de confiança contiver o valor ZERO, a diferença entre as alternativas A e B não é significativa com confiança de 100(1 − α)%. Se o intervalo de confiança não contiver o valor ZERO, então o sinal da diferença indicará o procedimento melhor. Prof. Paulo Aguiar Introdução à Simulacão Sumário Intervalos de Confiança (IC) Intervalos Parciais de Confiança Intervalo de Confiança para Proporções Comparação de Alternativas Referências The Art Of Computer Systems Performance Analysis, Raj Jain, Wiley, 1991. Prof. Paulo Aguiar Introdução à Simulacão