Probabilidade e Estatística Exemplo da Moeda Balanceada Paulo Adeodato [email protected] Exemplo Será que uma moeda que dá 450 caras em 1000 lançamentos balanceada ? Como elaborar a questão em termos estatísticos ? Como modelar o problema ? Modelagem Estatística Fenômeno do Mundo Real Modelo Probabilístico Hipóteses Amostra Dados Situação Específica (instância) (X1,X2,...X1000) Modelo Estatístico (x1,x2,...x1000) Modelagem-1 Hipótese de independência estatística entre os lançamentos. – Sem desgaste Ensaios de Bernoulli Processo Binomial – argumentos p e n E daí ? Como resolver o problema ? Modelagem-2 Estimação do parâmetro p da distribuição ? Supor que a moeda seja balanceada: p = 0,5 Supor um grau de confiança de 95% e calcular o intervalo de confiança Verificar se 450 caras está dentro desse intervalo Mas, como calcular o intervalo de confiança de uma binomial para n=1000 ? Aproximar a binomial pela normal (Teorema Central do Limite) Distribuição Normal: X~N(,2) Definição Função densidade de probabilidade f ( x) 1 e 2 1 x 2 2 x Função de distribuição acumulada: – Não integrável – Utiliza-se a tabela da Normal Reduzida: N(0,1) Distribuição Normal: X~N(,2) Parâmetros Valor esperado Variância E (X ) V (X ) 2 Importância da Distribuição Normal Modela uma série de fenômenos estocásticos Aproxima a distribuição Binomial Aproxima a soma de variáveis aleatórias independentes (Teorema Central do Limite) – Somas de variáveis aleatórias independentes (em grande número) obedecem a uma Normal Gráfico da Distribuição Normal Simétrico em relação ao valor esperado Pontos de inflexão nos pontos a 1 desviopadrão da média. f(x) x Transformação da Distribuição Normal Para resolvermos de fenômenos modelados por uma distribuição normal de parâmetros genéricos, precisamos reduzi-la a uma N(0,1), por meio da transformação linear abaixo Z X Tabela da Distribuição Normal Reduzida: N(0,1) A tabela apresenta os valores: z e (z) onde (z) = P(Z<z) A tabela se encontra no apêndice de todo livro de probabilidade e estatística Os valores podem estar nos domínios: – 0 x < usar a propriedade de simetria –- < x < Teorema Central do Limite-1 Sejam X1, X2,.. Xn, variáveis aleatórias independentes. Consideremos, ainda, que: E(Xi ) = i e V(Xi ) = i2 Definamos a variável aleatória Sn, como a soma de todas as Xi. O teorema diz que, quando n tende a infinito, a distribuição de Sn tende a uma Normal. E mais... Teorema Central do Limite-2 A variável Zn tende a uma distribuição Normal Reduzida: n Zn Sn i i 1 n i 1 2 i n N (0,1) Teorema Central do Limite Aplicações Esse poderoso teorema faz com que a Normal seja a distrinuição mais importante da Estatística. Exemplos: - A decomposição de um grande projeto em subprojetos para uma melhor estimação de custos e tempo de execução - A implementação de uma resistência elétrica por uma série de resistores em vez de apenas 1, todos de mesma precisão Teorema Central do Limite Aplicações Consideremos um o caso onde X1, X2,.. Xn, além de variáveis aleatórias independentes, sejam identicamente distribuídas (como na estimação de parâmetros) e que tenham E(Xi ) = e V(Xi ) = 2 Assim o teorema se reduz a: S n n Zn n N (0,1) n Teorema Central do Limite Sejam X1, X2,.. Xn, variáveis aleatórias independentes e identicamente distribuídas. Temos: X 1 X 2 ... Xn n E ( X ) n Ou, a média aritmética das observações tendem ao valor esperado da variável aleatória X. Aproximação da Binomial pela Normal A convergência é probabilística. Ela se fundamenta na existência da chamada regularidade estatística. Essa lei é a base para a estimação de parâmetros pelo método dos momentos (a ser vista). Aproximação da Binomial pela Normal-1 Imaginemos o problema de dizer qual é a probabilidade de uma moeda equilibrada, em 1000 lançamentos produzir entre 400 e 600 caras. O processo segue uma distribuição Binomial mas o cálculo envolvido é laborioso demais. O teorema central do limite é a chave para a solução. Aproximação da Binomial pela Normal-2 Definição da Binomial com parâmetros n e p: n k nk P X k p 1 p ,0 k n k Utilizando a aproximação de Stirling: 2 1 1 k np P X k exp - 2 np(1 p ) 2np(1 p ) Aproximação da Binomial pela Normal-3 Fazendo a transformação linear já conhecida: X np Zn np(1 p) chegamos à equivalência, quando n k np k np P X k P Z n np(1 p) np ( 1 p ) Intervalo de Confiança (I.C.) Em estatística, inferências (a partir de dados) não são definitivas inquestionáveis: devem ser sempre apresentadas com os intervalos de confiança associados Nós apenas medimos os fenômenos do mundo real em observações discretas e generalizamos as conclusões para todo o domínio Há sempre um erro ao processo de generalização Exemplos de Afirmações / Perguntas O parâmetro se encontra no intervalo (a,b) com nível de confiança de 90%. Os processos A e B são iguais com o nível de confiança de 95%. Será o processo A melhor que o B com o nível de significância de 1% ? Será que a condição K interfere no processo A com um nível de confiança de 95% ? Intervalo de Confiança (I.C.) P(a b) = 1 - onde: – : valor esperado do parâmetro (desconhecido) – (a,b): intervalo de confiança (variável aleatória) – : nível de significância – 100(1 - ) “ de confiança – (1 - ) coeficiente de “ Métodos para Determinar o Intervalo de Confiança Quantis de k médias Teorema Central do Limite (a partir de 1 média) – Aproximação pela distribuição normal (n30) – Aproximação pela distribuição t de Student (n<30) Método dos Quantis de k Médias-1 Tomam-se k amostras {{1x1, 2x1,..., nx1},..., {1xk, 2xk,..., nxk}} de n exemplos n Calculam as k médias 1 {x1 , x2 ,, xk } xi n j 1 j xi Colocam-se as k médias em ordem crescente { y1, y2 ,, yk } Método dos Quantis de k Médias-2 Tomam-se as [1+/2(k-1)] e [1+(1- /2)(k-1)]ésimas médias como limites inferior e superior do I.C. de nível de significância , respectivamente Exemplo: Quantis de 100 Médias a 90% de Nível de Confiança-1 Tomam-se 100 amostras {x1 , x2,.., xn} de n exemplos n 1 Calculam-se as 100 médias xi j xi n j 1 Colocam-se as 100 médias em ordem crescente { y1, y2 ,, y100 } Toma as [1+0,05(100-1)] e [1+(1-0,05)(100-1)]ésimas médias como limites inferior e superior { y1,, y5 , y6 ,, y95 , y96 , y100} a b Métodos do Teorema Central do Limite-1 Toma-se 1 amostra {x1 , x2,.., xn} de n exemplos Calcula-se a média da amostra [segue uma V.A. de distribuição N(,2/n)] 1 n x xi n i 1 n 1 ˆ ( ) X X i n i 1 Calcula-se a variância da amostra 2 n 1 2 2 1 2 2 ˆ s ( x x ) ( ) S X X i i n 1 i1 n 1 i 1 n Métodos do Teorema Central do Limite-2 Faz-se a transformação para a normal reduzida N(0,1) X x Zn n s Consulta-se na tabela o quantil z[1-/2] da normal reduzida Encontra o intervalo de confiança (a,b) n s s (a, b) x z(1 2 ) , x z(1 2 ) n n Métodos do Teorema Central do Limite-3 Toma-se 1 amostra {x1 , x2,.., xn} de n exemplos Calcula-se a média da amostra [segue uma V.A. de distribuição normal] n 1 x xi n i 1 n 1 ˆ ( ) X X i n i 1 Calcula-se a variância da amostra [uma V.A. de distribuição 2()] 2 n 1 2 2 1 2 2 ˆ s ( x x ) ( ) S X X i i n 1 i1 n 1 i 1 n Métodos do Teorema Central do Limite-4 Faz-se a transformação para a t de Student com graus de liberdade t ( ) ~ N (0,1) ( ) 2 Consulta-se na tabela o quantil t[1-/2;] da t de Student Encontra o intervalo de confiança (a,b) s s (a, b) x t(1 2;n1) , x t(1 2;n1) n n Comparação entre os Métodos Quantis de k médias – bom para interpretar Intervalo de Confiança mas trabalhoso e caro Teorema Central do Limite (a partir de 1 média) – Baixo custo mais utilizado – Aproximação pela distribuição normal (n 30) – Aproximação pela distribuição t de Student (n < 30 e desconhecido) Intervalo de Confiança de um Lado Apenas Se dois métodos são utilizados para produzir algum resultado, como poderemos afirmar que o método A seja melhor que o B? Nesses casos, tomamos o intervalo de confiança do limite inferior a ou de - ao limite superior.