ESTATÍTICA I Professora: Diana Andrade-Pilling [email protected] INTRODUÇÃO Esta apostila destina-se ao curso de Estatística I, aplicado na Universidade do Vale do Paraíba (UNIVAP), para os cursos de Engenharia Aeronáutica, Engenharia ambiental, Engenharia Civil, Engenharia Elétrica, Engenharia Química, Arquitetura e Urbanismo. O material é baseado nos livros: Estatística Básica - Probabilidade e Inferência, de Luiz Gonzaga Morettin – Volume único, Editora Pearson Education; Probabilidade & Estatística para engenharia e ciências, Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers e Keying Ye 8 ª edição, 2009. 2 Índice Capítulo 1 Representação e operações com dados: Tabela de freqüências, Tabelas de freqüências relativas, Histogramas. Capítulo 2 Variáveis aleatórias e Probabilidades: Variáveis aleatórias, Espaço amostral, Função de probabilidade, Regra da adição, Regra da multiplicação, Esperança (ou valor esperado), Variância, Desvio Padrão, Probabilidade condicional, Teorema de Bayes. Capítulo 3 Distribuições de probabilidade para variáveis aleatórias discretas: Distribuição binomial, Variância e esperança de uma variável aleatória binomial, Distribuição de Poisson, Variância e Esperança na distribuição de Poisson. Capítulo 4 Variáveis aleatórias Contínuas: Distribuição Exponencial, Distribuição Normal, Distribuição normal reduzida. 3 CAPÍTULO 1 REPRESENTAÇÃO E OPERAÇÕES COM DADOS TABELAS Tabelas de Freqüências: é uma tabela que relaciona categoria de valores, juntamente com contagens do número de valores que se enquadram em cada categoria. Como exemplo, suponhamos que numa determinada classe de alunos temos a seguinte tabela com o número de faltas: O objetivo é organizar melhor esta tabela, ou seja, queremos construir uma tabela que relacione o número de faltas com o número de vezes que ela ocorreu. Por isso, faz necessário seguir os seguintes passos: Passo 1: Decidir o número de classes da tabela de freqüência. Este número deve ficar entre 5 e 20, geralmente depende das quantidades que dispomos. Vamos escolher 10 classes como exemplo. Passo 2: Determinar a amplitude (A) das classes. Para isso, tomamos o maior valor de falta, subtraímos pelo menor valor e, finalmente, dividimos pelo número de classes escolhidas. Maior valor = 16 Menor valor = 1 4 A= Passo 3: Escolher o limite inferior da tabela como sendo o menor valor encontrado na tabela. No nosso caso, o menor valor é 1. Passo 4: Adicionar a amplitude no menor valor para encontrar o segundo limite inferior. Repita isso para encontrar o terceiro limite superior e assim por diante. Passo 5: Monte a tabela com as classes a esquerda e conte o número de vezes que aquela classe apareceu na sua primeira tabela. Faltas 1-2,4 2,5-3,9 4,0-5,4 5,5-6,9 7,0-8,4 8,5-9,9 10,0-11,4 11,5-12,9 13,0-14,4 14,5-16 Freqüências 9 3 10 6 5 3 6 0 1 2 5 Tabela de Freqüências Relativas: É uma tabela semelhante a tabela de freqüências, mas é obtida através da divisão da freqÜência de cada classe pela freqüência total. A tabela acima possui freqüência total 45, que é a soma de todos os números a direita da tabela. Assim, a tabela de freqüências relativas será a tabela acima com sua coluna a direita dividida por 45. Faltas 1-2,4 2,5-3,9 4,0-5,4 5,5-6,9 7,0-8,4 8,5-9,9 10,0-11,4 11,5-12,9 13,0-14,4 14,5-16 Freqüências Relativas 0,2 0,067 0,222 0,133 0,111 0,067 0,133 0 0,022 0,044 GRÁFICOS O uso de tabelas para resumir um conteúdo de dados nem sempre é útil para tirar algumas conclusões. Assim, o uso de gráficos se faz necessário para melhor representar os dados da tabela. Histograma: é o primeiro gráfico de grande importância. A elaboração deste gráfico necessita de uma tabela de freqüências ou freqüências relativas. Portanto, seguem-se abaixo os passos para a construção de um histograma. Passo 1: Construa uma tabela de freqüências ou de freqüências relativas; Passo 2: Coloque no eixo vertical as informações sobre as freqüências; Passo 3: Coloque no eixo horizontal as informações sobre as classes utilizadas. Passo 4: é de extrema importância colocar um Título, e as legendas nos eixos. 6 Utilizaremos como exemplo a tabela já feita sobre as faltas cometidas pelos alunos de uma determinada classe. Note que utilizaremos a tabela de freqüências relativas, mas poderia ser também a tabela de freqüências. Figura 1: histograma feito sobre os dados da tabela de freqüências relativas de faltas cometidas pelos alunos de uma classe. Figura 1: histog cometidas pelos Exercício 1.1) Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria. a) construa uma tabela de frequência agrupando os dados em intervalos de amplitude 2; 11,0 1,0 b) construa o histograma. 7 Exercício 1.2) Com o intuito de melhor a vida dos moradores da cidade de São paulo, a prefeitura fez uma pesquisa com usuários de transporte coletivo na cidade indagando sobre os diferentes tipos usados nas suas locomoções diárias. Dentre metro, ônibus e trem, o número de diferentes meios de transporte utilizados foi o seguinte: 3, 2, 1, 2, 1, 2, 2, 1, 1, 2, 3, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2, 3. a) complete a tabela de frequência; b) faça uma representação gráfica; c) admitindo que essa amostra represente bem o comportamento do usuário paulistano, você acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande? 8 CAPÍTULO 2 VARIÁVEL ALEATÓRIA E PROBABILIDADE Variáveis aleatórias: Uma variável aleatória é tal que não sabemos ao certo que valor tomará, mas para a qual podemos calcular a probabilidade de tomar determinado valor. Nos experimentos aleatórios, mesmo que as condições iniciais sejam sempre as mesmas, os resultados finais de cada tentativa do experimento serão diferentes e não previsíveis. Exemplos: lançamento de um dado, lançamento de duas moedas. Embora, em geral, não podemos dizer exatamente qual será o valor de uma variável aleatória, freqüentemente podemos eliminar alguns valores. Por exemplo, o número (W) de vezes que um repórter falou a palavra “calor” durante uma semana não pode ser 5/8, nem π, nem 2 , nem qualquer outro número estranho; W deve ser um número inteiro. O número Y no dado também deve ser um número inteiro, mas deve ser um dos seis valores 1, 2, 3, 4, 5, 6. As variáveis aleatórias que só podem tomar valores isolados são chamados “variáveis aleatórias discretas”. Elas não precisam ser inteiras. Por exemplo: suponha que joguemos um dado duas vezes, e seja T a média dos dois números que aparecem. Então, T admite os valores 1; 1,5; 2; 2,5; 3; 3,5; 4; 4,5; 5; 5,5; 6. Espaço amostral: Espaço amostral de um experimento aleatório é o conjunto dos resultados do experimento. Os elementos do espaço amostral serão chamados também de pontos amostrais. No lançamento de um dado, o espaço amostral Ω = {1, 2, 3, 4, 5, 6}. No lançamento de uma moeda, o espaço amostral Ω = {cara (K), coroa (C)} No lançamento de duas moedas, o espaço amostral Ω = {CC, CK, KC, KK}; 9 Exemplo 2.1) Seja uma população de N pessoas. Dessas, M têm olhos azuis. Se não sabemos o valor de M, como podemos estimá-lo? Solução: Observamos uma amostra aleatória de n dessas pessoas e seja x o número de elementos da amostra que tem aquela característica. Então, x é uma variável aleatória, pois seu valor depende dos indivíduos escolhidos para formar a amostra. Exercício 1) Lançam-se três moedas. Escreva o espaço amostral. Funções de Probabilidade A função de probabilidade é uma função que associa a cada evento de F um número real pertencente ao intervalo [0,1]. No caso de uma variável comum, praticamente tudo quanto precisamos saber é seu valor. Com variáveis aleatórias, entretanto, a situação é um pouco diferente. Primeiro, devemos saber quais valores são possíveis, e quais não o são. Por exemplo, se uma variável a aleatória X nunca pode tomar o valor 3/2, escrevemos que a probabilidade de X = 3/2 é zero, ou de forma mais concisa: P(X=3/2) = 0 Feita a relação de todos os valores possíveis, o que devemos saber a seguir é: - Quão viável é cada um desses diversos valores? No caso da jogada de um dado, a situação é muito simples: há apenas seis valores possíveis e eles são igualmente prováveis. Então: P(Y=1) P(Y=2) P(Y=3) P(Y=4) P(Y=5) = = = = = 1/6; 1/6; 1/6; 1/6; 1/6; 10 P(Y=6) = 1/6; No caso de um lançamento de uma moeda uma única vez, seja X o número de vezes que aparece cara. Qual a probabilidade de tirarmos cara? P(X=0) = ½ Î coroa P(X=1) = ½ Î cara Quando fazemos dois lançamentos, temos quatro resultados possíveis: Cara-Cara Cara-Coroa Coroa-Cara Coroa-Coroa (KK) (KC) (CC) (CC) Vamos usar K para cara e C para coroa. Qual a probabilidade de cair duas caras em dois lançamentos? P(KK) = 1 1 1 . = 2 2 4 (K e K) Qual a probabilidade de cair Zero cara? P(CC) = 1 1 1 . = 2 2 4 Então, temos tanta chance de observar nenhuma cara como de observar duas caras. -Qual a probabilidade de cara apenas uma vez em duas jogadas? P((KC) ou (CK)) = P(KC) + P(CK) = 1 1 1 1 1 1 1 . + . = + = 2 2 2 2 4 4 2 Qual a probabilidade de cair cara em nenhuma das vezes ? P(C e C) = 1 1 1 . = 4 2 2 Destes exemplos, podemos relembrar duas regras em probabilidade: 11 Regra da adição: i) para calcular a probabilidade do evento A ou B ocorrer, . P(A U B) = P(A) + P(B), se A e B são mutuamente exclusivos. Exemplo 2.2) Qual a probabilidade de um computador escolher 0 ou 1 num conjunto de números que vai de 0 a 9? Os eventos possíveis são {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} Î 10 possíveis resultados. A probabilidade de sair qualquer um dos números em uma única escolha é igual para todos os valores e vale 1/10. Assim, a probabilidade de sair 0 ou 1 será a soma das probabilidades de sair um dos dois. P(0 ou 1) = P(0) + P(1) = 1 1 2 1 + = = 10 10 10 5 Uma forma simples de lembrar é perceber que se você escolhe dois números em dez, você tem uma probabilidade maior de acertar do que se você escolhesse apenas um número. Isso porque as probabilidades são somadas neste caso. ATENÇÃO: Agora, vamos supor que queremos saber qual a probabilidade de ser escolhido algum número ímpar ou números superiores a 6. Como resultados possíveis temos: Números ímpares: {1, 3, 5, 7, 9} Números superiores a 6: {7, 8, 9} Aqui, deve-se tomar o cuidado de não contar duas vezes a mesma probabilidade de ocorrer o mesmo número. Temos que escrever melhor o nosso conjunto de resultados procurados: {1, 3, 5, 7, 8, 9}, ou seja, temos um total de seis resultados procurados dentro do dez possíveis valores. Então: P(ímpares ou superiores a 6} = 6 = 0,6 10 Poderíamos ter encontrado fazendo: P(ímpares ou superiores a 6} = P(impar} + P(superior a 6} – P(ímpar e superior a 6} 12 = 5 3 2 6 + − = = 0,6 10 10 10 10 Neste caso, os eventos não são mutuamente exclusivos. Assim devemos aplicar a regra geral para a soma: P(A ou B) = P(A) + P(B) – P(A e B) , ou seja, P(A U B) = P(A) + P(B) – P(A ∩ B) , Exemplo 2.3) Retira-se uma carta de um baralho completo de 52 cartas. Qual a probabilidade de asir um rei ou uma carta de espadas? Seja A: saída de um rei; Seja B: saída de uma carta de espadas; P(A) = 4/52; P(B) 13/52; P(A ∩ B) = 1/52 prob. de sair um rei prob de sair uma carta de espadas prob de sair um rei de espadas Assim: P(A U B) = P(A) + P(B) – P(A ∩ B) P(A U B) = 4/52 + 13/52 - 1/52 = 16/52. Regra da multiplicação: i) para calcular a probabilidade de ocorrer o evento A e, em seguida, B. P(A e B) = P(A) . P(B), sendo A e B independentes. Exemplo 2.3) Na extração de duas cartas de um baralho bem misturado, determine a probabilidade de que a primeira carta seja um ás e a segunda seja um rei. Baralho normal: 52 cartas, sendo 04 ases e 04 reis. Então: 4 P(ás) = Î 4 ases em 52 cartas 52 13 Agora, se já tirei uma carta, o baralho ficou com 51 cartas. E a probabilidade de tirar o rei na segunda vez, levando em conta que não coloquei a primeira carta tirada de volta no baralho é: 4 P(rei) = 51 Assim, a probabilidade de tirar um ás e um rei será: P = P(ás).P(rei) = 4 4 16 . = 0,00603 52 51 2652 Uma outra fórmula bastante útil é a fórmula geral para o número de resultados que apresentam h caras em n jogadas de uma moeda. Para isso, devemos primeiro calcular o número de resultados possíveis. No caso da moeda: Número de resultados possíveis = 2n Repare que o número 2 está relacionado com o fato do espaço amostral ser cara ou coroa, ou seja, tem 2 elementos. Se tivéssemos um dado sendo lançado, o espaço amostral teria 6 elementos e, nesse caso, o número possível de resultados seria 6n, onde n é o número de jogadas. Em seguida precisamos saber o número de maneiras possíveis de se obter h caras. n! Esse número é dado por: , onde n! = n (n-1) (n-2)...3 x 2 x 1. h!(n − h)! Assim, a probabilidade de obter h caras em n jogadas de uma moeda equilibrada (não viciada) é: P= n 2 n h!( n − h)! Exemplo 2.4) Qual a probabilidade de obter 5 caras em 6 jogadas de moeda? Esse problema pode ser resolvido de duas maneira: Na primeira: P = 6! 6 6 3 = 6 = = 5 32 2 5!(6 − 5)! 2 5!1! 2.2 6 14 Na segunda, queremos saber a probabilidade de dar 5 caras (independente da ordem) em 6 jogada de moeda. As combinações possíveis são: KKKKKC KKKKCK KKKCKK KKCKKK KCKKKK CKKKKK Para cada uma das combinações acima, teríamos uma probabilidade de 1 1 1 1 1 1 1 P= . . . . . = 6 2 2 2 2 2 2 2 Assim, P (KKKKKC ou KKKKCK ou KKKCKK ou KKCKKK ou KCKKKK ou CKKKKK) = 1 1 1 1 1 1 6 2.3 3 3 + 6 + 6 + 6 + 6 + 6 = 6 = = 5 = (mesma resposta da primeira 6 5 32 2 2 2 2 2 2 2 2.2 2 maneira). Para tornar as coisas mais convenientes, definiremos uma função de probabilidade para uma variável aleatória. O valor da função de probabilidade para um número particular é a função que associa a cada valor assumido pela variável aleatória a probabilidade do evento correspondente. Utilizaremos uma letra minúscula f para representar a função de probabilidade (f.d.p., ou função densidade de probabilidade, ou ainda, função de massa de probabilidade). f(a) = P(X=a) Quando estivermos lidando com mais de uma variável aleatória de uma vez, escrevemos a função densidade de probabilidade como fx(a) para deixar claro que é a f.d.p. da variável aleatória X. Eis a função densidade de probabilidade para a jogada de um dado: f(1) = 1 6 f(4) = 1 6 f(2) = f(5) = 1 6 1 6 f(3) = 1 6 f(6) = 1 6 E a f.d.p. de dar cara para três jogadas de uma moeda: 15 1 8 3 f(1) = 8 3 f(2) = 8 1 f(3) = 8 f(0) = Î nenhuma cara Î 1 cara Î 2 caras Î 3 caras. Podemos estabelecer duas propriedades de imediato, as quais a f. d. p. deve satisfazer: f(a) ≤ 0 ∀ a f(a) ≤ 1 ∀ a ou seja, 0 ≤ f(a) ≤ 1 . em geral, como já vimos, quando desejamos saber a probabilidade de X = a ou X = b, temos: f = f(a) + f(b). É importante verificar que para que haja uma distribuição de probabilidades de uma variável aleatória X é necessário que: f(a1) + f(a2) + f(a3) + ... + f(an) = 1, ou seja, ∑ f (a n ) = 1 Exemplo 2.5) Lançam-se 2 dados. Seja X: soma das faces. Determinar a distribuição de probabilidades de X. Resultados possíveis (1 e 1) X 2 (1 e 2) ou (2 e 1) 3 (1 e 3), ou (2 e 2) ou (3 e 1) 4 (1 1) (1 2) (1 3) e 4), ou (2 e 3) ou (3 e 2) ou (4 e 5 e 5) ou (5 e 1) ou (3 e 3) ou (4 e 6 ou (2 e 4) e 6) ou (6 e 1) ou (3 e 4) ou (4 e 7 ou (2 e 5) ou (5 e 2) P(X) 1 1 1 . = 6 6 36 1 1 1 1 2 . + . = 6 6 6 6 36 1 1 1 1 1 1 3 . + . + . = 6 6 6 6 6 6 36 4 36 5 36 6 36 16 (3 1) (3 4) (4 e 5) ou (5 e 3) ou (1 e 7) ou (7 e 8 ou (4 e 4) e 6) ou (4 e 5) ou (6 e 3) ou (5 e 9 e 6) ou (5 e 5) ou (6 e 4) (6 e 5) ou (5 e 6) (6 e 6) 10 11 12 5 36 4 36 3 36 2 36 1 36 Repare que ∑ P(X) = 1. E o gráfico da distribuição tem a forma: Existem características numéricas que são muito importantes em uma distribuição de probabilidades de uma variável aleatória discreta. São os parâmetros das distribuições. Por isso, vamos falar desses parâmetros abaixo. 17 ESPERANÇA (OU VALOR ESPERADO) O valor esperado da variável aleatória X (ou esperança matemática de X), representado por E(X), é uma média ponderada de todos os valores de X. O peso, ou ponderação, de cada valor é igual a probabilidade de X tomar esse valor. O valor esperado é sempre um número real. E(X) = a1.f(a1) + a2.f(a2) + a3.f(a3) + ... + an.f(an) Ou n E(X) = ∑ i =1 ai . f (ai ) , Ou ainda: n E(X) = ∑ i =1 x i .P ( x i ) Outra notações para o valor esperado de X: μX, μ(X), μ. O valor esperado de uma variável aleatória não é necessariamente um de seus possíveis valores. Exemplo: qual o valor esperado de número Y que aparece num dado: E(X) = 1 1 1 21 3.7 7 1 1 1 .1 + .2 + .3 + .4 + .5 + .6 = = = = 3,5 , 6 6 6 6 6 6 6 2.3 2 Mas Y não assume o valor de 3,5. Exemplo 2.6) Uma seguradora paga R$ 30.000,00 em caso de acidente de carro e cobra uma taxa de R$ 1.000,00. Sabe-se que as chances de que um carro sofra um acidente é de 3%, quanto a seguradora espera ganhar por carro segurado? Solução: A seguradora ganha R$ 1.000,00 por carro e perde R$ (30.000 – 1.000) = 29.000,00 por carro acidentado. Quando vamos ponderar as medidas, sabemos que há 3% de chance (P = 0,03) de perder 29.000 e o restante, (1-0,03) = 0,97 de ganhar. X 1.000 P(X) 0,97 X.P(X) 970 18 -29.000 0,03 1 Assim, E(X) = 2 n ∑ x p( x ) = ∑ i =1 i i -870 x1 p ( x1 ) + x 2 p( x 2 ) = 970 – 870 = R$ 100,00. 1 Então, R$ 100,00 é o lucro médio por carro. Exemplo 2.7) Dada a distribuição abaixo na forma de tabela, dê o valor esperado de X: X 2 3 4 5 6 7 8 9 10 11 12 P(X) 1 36 2 36 3 36 4 36 5 36 6 E(X) = 2.(1/36) + 3.(2/36) + 4.(3/36) + 5.(4/36) + 6.(5/36) + 7. (6/36) + 8.(5/36) + 9. (4/36) + 10. (3/36) + 11.(2/36) + 12 (1/36) = E(X) = (2/36) + (6/36) + (12/36) + (20/36) + (30/36) + (42/36) + (40/36) + (36/36) + (30/36) + (22/36) + (12/36) E(X) = 7 36 5 36 4 36 3 36 2 36 1 36 Exemplo 2.8) Suponha que um número seja sorteado de 1 a 10, inteiros e positivos. Seja X: número de divisores do número sorteado. Calcular o número médio de divisores do número sorteado. 19 Para isso, vamos montar uma tabela para organizar os nossos dados: N0 1 2 3 4 5 6 7 8 9 10 N0 de divisores 1 2 2 3 2 4 2 4 3 4 Repare que X é o número de divisores, que variam de 1 até 4. Então, é necessário montar uma segunda tabela com os valores possíveis de X e suas respectivas probabilidades. X 1 2 3 4 P(X) 1/10 4/10 2/10 3/10 X.P(X) 1/10 8/10 6/10 12/10 E(X) = (1/10) + (8/10) + (6/10) + (12/10) = (27/10) E(X) = 2,7. Exemplo 2.9) Num jogo de dados, Cláudio paga R$20,00 a Lúcio e lança 3 dados. Se sair face 1 em um dos dados apenas, Cláudio ganha R$ 20,00. Se sair face 1 em dois dados apenas, Cláudio ganha R$ 50,00 e se sair 1 nos três dados, Cláudio ganha R$ 80,00. Calcule o lucro médio de Cláudio em uma jogada. Resolução: Para resolver esse problema, vamos organizar nossos dados numa tabela. Para isso precisamos lembrar: P(1 e 1 e 1) = (1/6).(1/6).(1/6) = 1/216 Î todas as faces 1 Seja Y qualquer número diferente de 1, a probabilidade de sair duas faces 1 é: P(1 e 1 e Y) + P(1 e Y e 1) + P(Y e 1 e 1) = (1/6).(1/6).(5/6) + (1/6).(1/6).(5/6) + (1/6).(1/6).(5/6) = 15/216 Da mesma forma que o anterior, a probabilidade de sair apenas uma face 1 será: P(1 e Y e Y) = 3. (1/6).(5/6).(5/6) = 75/216 E a probabilidade de não sair nenhuma face 1: P(Y e Y e Y) = (5/6).(5/6).(5/6) = 125/216 20 X +60 +30 0 -20 P(X) 1/216 15/216 75/216 125/216 X.P(X) 60/216 450/216 0 -2500/216 E(X) = (60 + 450 + 0 - 2500)/216 = -9,21 Exemplo 2.10) Suponha que você ganhe R$ 100,00 multiplicado pleo número que aparece quando se joga um dado. Se Y é variável aleatória que representa o número do dado, e W representa o seu ganho, então W = 100.Y. podemos calcular: E(W) = E(100.Y) = 100.E(Y) = 350 Î E(W) = R$ 350,00. Propriedades do valor esperado: a) Se k é uma constante (não uma variável aleatória), então: E(k) = k b) e E(kX) = k.E(X) c) Sejam X e Y variáveis aleatórias, E(X±Y) = E(X) ± E(Y) VARIÂNCIA O conhecimento da média de uma distribuição é importante, mas não nos dá idéia do grau de dispersão da probabilidade em torno da média. A medida que dá o grau de dispersão (ou de concentração) de probabilidade em torno da média é a Variância. Definição: VAR(X) = E{ [X – E(X)]2} Ou seja: 21 n VAR (X) = ∑ (x i =1 i − μ x ) 2 . p ( xi ) Definiremos uma fórmula mais fácil de ser aplicada: VAR(X) = E{ [X- E(X)]2} = E{ [X2 – 2XE(X) + E2(X)} = E(X2) – 2E(XE(X)) + E(E2(X)) = E(X2) – 2E(X)E(X) + E2(X) = E(X2) -2E2(X) + E2(X) = E(X2) – E2(X) n Onde E(X2) = ∑ (x ) i =1 i 2 . p ( xi ) Outras notações para VAR(X): V(X), σ2(X), σ2X, σ2. Exemplo 2.11) 1) Calculemos a VAR(Y) para a distribuição: Y -2 -1 0 3 5 P(Y) 1/5 1/5 1/5 1/5 1/5 Y.P(Y) -2/5 -1/5 0 3/5 5/5 E(X) = 1 Y2.P(Y) 4/5 1/5 0 9/5 25/5 E(Y2) = 39/5 Gráfico da distribuição de probabilidades 22 Assim, VAR(Y) = E(X2) – E2(X) = 39 2 − 1 = 6,8 . 5 Exemplo 2.12) Vamos agora calcular a variância para a distribuição abaixo: X 0 1 2 P(X) 1/8 6/8 1/8 1 X.P(X) 0 6/8 2/8 E(X) = 1 X2.P(X) 0 6/8 4/8 10/8 Cujo gráfico é: VAR(X) = E(X2) – E2(X) = 10 8 − = 0,25 . 8 8 Observando os gráficos e os valores de VAR(Y), concluímos que: Quanto menor a Variância, menor o grau de dispersão de probabilidades em torno da média e vice-versa; quanto maior a variância, maior o grau de dispersão da probabilidade em torno da média. A variância é uma medida quadrada, e muitas vezes torna-se artificial. Por exemplo: altura média de um grupo de pessoas é 1,70 m e a variância é 25 cm2. Fica um tanto quanto esquisito cm2 de altura. Contornaremos esse problema definindo o desvio padrão. 23 DESVIO PADRÃO Definição: Desvio Padrão da variável X é a raiz quadrada da variância de X, isto é: σ x = VAR( X ) Nos exemplos anteriores: σ x = 0,25 = 0,5 σ x = 6,8 = 2,61 Exemplos de aplicação: Exemplo 2.13) Os empregados A, B, C e D ganham 1, 2, 2 e 4 salários mínimos, respectivamente. Retiram-se amostras com reposição de dois indivíduos e mede-se o salário médio da amostra retirada. Qual a média e desvio padrão do salário médio amostral? Empregado A B C D Amostras A, A A, B A, C A, D B, A B, B B, C B, D C, A C, B C, C C, D D, A D, B D, C D, D X (salário) 1 2 2 4 Salário médio 1 1,5 1,5 2,5 1,5 2 2 3 1,5 2 2 3 2,5 3 3 4 P(X) 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 P(A) ¼ ¼ ¼ ¼ Repare que todas as amostras têm probabilidade de 1/16, mas alguns salários médios se repetem. Como queremos fazer a média dos salários médio, temos que construir outra tabela. Salário Médio (X) 1 1,5 2 2,5 3 3,5 4 P(X) X.P(X) X2.P(X) 1/16 4/16 4/16 2/16 4/16 0 1/16 1/16 9/16 16/16 12,5/16 36/16 0 16/16 1/16 6/16 8/16 5/16 12/16 0 4/16 24 Assim, temos que: E(X) = 1 + 6 + 8 + 5 + 12 + 0 + 4 36 9 = = 16 16 4 E VAR(X) = E(X2) – E2(X) e para encontrá-la, precisamos encontrar E(X2) E(X2) = 1 + 9 + 16 + 12,5 + 36 + 0 + 16 90,5 = 16 16 E 2 90,5 ⎛ 9 ⎞ 9,5 VAR(X) = −⎜ ⎟ = = 0,59375 16 ⎝ 4 ⎠ 16 Desta forma, o desvio padrão do salário médio amostral é: σ = VAR ( X ) = 0 ,59375 = 0 , 77 PROPRIEDADES DA VARIÂNCIA 1) VAR(k) = 0, se k constante. Demonstração: VAR(k) = E(k – E(k))2 = E(k-k)2 = 0. 2) VAR(k.X) = k2.VAR(X) VAR(kX) = E{ [kX – E(kX)]2} = E[ kX – kE(X) ]2 = E[ k (X - E(X) )2 = k2 E [(X – E(X)]2 VAR(kX) = k2 VAR(X) 3) VAR (X ± Y) = VAR (X) + VAR (Y) ± 2cov (X, Y) 25 PROBABILIDADE CONDICIONAL Para introduzir a noção de probabilidade condicional, consideremos o exemplo: Consideremos 250 alunos que cursam o primeiro ciclo de uma faculdade. Destes alunos, 100 são homens (H) e 150 são mulheres (M); 110 cursam física (F) e 140 cursam química (Q). A distribuição de alunos é a seguinte: Disciplina F Q Total 40 70 110 60 80 140 100 150 250 Sexo H M Total Um aluno é sorteado ao acaso. Qual a probabilidade de que esteja cursando química, dado que é mulher? Observando o quadro, vemos que P(Q/M) = 80/150 Î Probabilidade de estar cursando química, condicionado ao fato de mulher. Observamos porém, que P(M∩Q) = 80/250 e P (M) = 150/250. Para obtermos o resultado do problema, basta considerar que: 80 80 P(Q / M ) = 250 = 150 150 250 P(Q / M ) = ou seja, P( M ∩ Q) P( M ) Assim, a probabilidade condicional de A dado que B ocorre (A/B) será dada por: P( A / B) = P( A ∩ B) , se P(B) ≠ 0. P( B) P ( B / A) = P( B ∩ A) P( A) 26 Exemplo 2.14) Duas bolas vão ser retiradas sem reposição de uma urna que contém 2 bolas brancas (B), 3 pretas (P) e 4 verdes (V). Qual a probabilidade de que ambas: a) Sejam verdes? Neste caso, os eventos não são independentes. O fato de uma bola ser retirada e não reposta, indica que na segunda retirada, haverá apenas 8 bolas na urna. P(V na primeira) = 4/9 P(V na segunda) = 3/8 P(V na primeira e V na segunda) = (4/9).(3/8) = (12/72) = (1/6) b) Sejam da mesma cor? P(B U B) = (2/9).(1/8) = (2/72) P(P U P) = (3/9).(2/8) = (6/72) P(V U V) = (4/9).(3/8) = (12/72) Assim, a probabilidade que procuramos será: P = P(BUB ou PUP ou VUV)= P(BUB) + P(PUP) + P(VUV) = (2/72) + (6/72) + (12/72) P = 20/72 = 5/18 = 0,278. TEOREMA DE BAYES O teorema de Bayes é também chamado de teorema da probabilidade a posteriori. Ele relaciona uma das parcelas da probabilidade total com a própria probabilidade total. Considere uma quantidade de interesse desconhecida A (tipicamente não observável). A informação de que dispomos sobre A, resumida probabilisticamente através de P(A), pode ser aumentada observando-se uma quantidade aleatória B relacionada com A. A distribuição amostral P(A|B) define esta relação. A idéia de que após observar o evento B a quantidade de informação sobre o evento A aumenta é bastante intuitiva e o teorema de Bayes é a regra de atualização utilizada para quantificar este aumento de informação. Assim, a equação é dada por: P(A|B) = P( AeB) P( B) 27 Ou seja, é a probabilidade Condicional já estudada. Entretanto, uma generalização disso é considerar que existam mais do que dois sistemas: Ai com i = 1, 2, 3, ..., n e queremos saber qual a probabilidade de um deles, A3, por exemplo, P( A3 ).P( B | A) acontecer sabendo que o evento B P( A1 ).P( B | A1 ) + P( A2 ) P( B | A2 ) + P( A3 ) P( B | A3 ) aconteceu. Então, teremos: P(A3|B) = Generalizando, temos: P(Aj|B) = P( A j ).P( B | A j ) n ∑ P( A ).P( B | A ) i =1 i i = P ( A j ).P( B | A j ) P( A1 ).P( B | A1 ) + P ( A2 ).P ( B | A2 ) + ... + P( An ) P( B | An ) Significa o número de subsistemas do sistema total, tal como o número de urnas ou caixas. Note que o denominador reflete a probabilidade de acontecer o evento B, que já aconteceu, em todos os eventos Ai com i = 1, 2, ..., n., ou seja: P(B) = P(A1).P(B|A1) + P(A2).P(B|A2) + P(An).P(B|An) Então: P(Aj|B) = P ( BeA j ) P( B) Retornamos a equação da Probabilidade Condicional. Exemplo 2.15) Uma urna A contém 3 fichas vermelhas e 2 azuis, e a urna B contém 2 vermelhas e 8 azuis. Joga-se uma moeda, se der cara, extrai-se uma ficha da urna A; se der coroa, extrai-se uma ficha de B. Uma ficha vermelha é extraída. Qual a probabilidade de ter saído cara no lançamento, ou seja, de ter sido sorteada a urna A? Seja P(A) Î a probabilidade de sortear a urna A = ½ Seja P(B) Î a probabilidade de sortear a urna B = ½ 28 P(A) = ½ = P(B), pois existe uma chance de 50% da moeda cair cara e 50 % de cair coroa. A probabilidade de tirar uma ficha vermelha da urna A é: P(V|A) = 3/5 A probabilidade de tirar uma ficha vermelha da urna B é: P(V|B) = 2/10 = 1/5 Então, a probabilidade de sair uma vermelha é: P(V) = P(A).P(V|A) + P(B).P(V|B) = (1/2).(3/5) + (1/2).(1/5) = (4/10) = 0,4. Calculando P(V e A) = P(A). P(V|A) = (1/2).(3/5) = 3/10 = 0,3 3 10 = 3 10 = 0,75 P(VeA ) 4 10 4 P ( V ) = 10 P(A|V) = Exemplo 2.16) A caixa A tem 9 cartas numeradas de 1 a 9. A caixa B tem 5 cartas numeradas de 1 a 5. Uma caixa é escolhida ao acaso e uma carta é retirada. Se o número é par, qual a probabilidade de que a carta sorteada tenha vindo de A? Eu quero saber P(A|par). Caixa A: 1, 2, 3, 4, 5, 6, 7, 8, 9 Î 4 números pares. Caixa B: 1, 2, 3, 4, 5 Î 2 números pares. Então, P(A) = P(B) = ½ P(par|A) = 4/9 P(par|B) = 2/5 P(par) = P(A).P(par|A) + P(B).P(par|B) = (1/2).(4/9) + (1/2).(2/5) = (4/18) + (1/5) = 19/45. Assim, 1 4 2 . 10 P ( A ). P ( par | A ) P ( pareA ) = 2 9 = 9 = = 0,53 P(A|par) = = 19 19 19 P ( par ) P ( par ) 45 45 29 CAPÍTULO 3 DISTRIBUIÇÕES DE PROBABILIDADE DISTRIBUIÇÃO BINOMIAL É uma distribuição discreta de probabilidade aplicável quando um experimento é realizado n vezes, cada prova tendo uma probabilidade de sucesso p e sendo independente de qualquer outra prova anterior. Imagine um cientista que realiza um experimento com dois resultados possíveis: sucesso ou falha. A probabilidade de sucesso em cada prova é p, e a probabilidade de falha é 1-p. Se o experimento é realizado 10 vezes, em quantas provas podemos esperar sucesso? Formulemos primeiro a seguinte questão: se o cientista realiza o experimento duas vezes, qual a probabilidade de ambas as provas resultarem em sucesso? Se A é o evento sucesso na primeira prova e B o evento sucesso na segunda prova, então P(A) = p e P(B) = p. O evento sucesso em ambas as provas pode ser escrito como A∩B (A interseção B). Adotaremos uma hipótese importante: cada prova é independente. Então, podemos multiplicar as probabilidades. P(A∩B) = P(AeB) = P(A).P(B) = p2 Pelo mesmo raciocínio, podemos mostrar que a probabilidade de obter sucesso nas 10 provas será p10. Por exemplo, se p = 0,8 (ou, seja, 80 % de chance de sucesso), a probabilidade de 10 sucessos, será 0,810 = 0,107. Embora as chances de sucesso seja em qualquer prova em particular seja boa, a chance de que haja 10 sucessos seguidos é pequena. 30 Agora! Qual a probabilidade de 9 sucessos e uma falha? Essa questão é um pouquinho mais complicada! Formularemos então, uma questão mais simples para começar: qual a probabilidade de sucesso na primeira prova e falha nas outras nove provas? P = 0,8 x 0,29 = 4,096 x 10-7. Agora, preste atenção nas diferenças abaixo: qual a probabilidade de sucesso apenas na primeira prova? Qual a probabilidade de sucesso exatamente em uma das 10 provas? Para achar a probabilidade de exatamente um sucesso, devemos adicionar a probabilidade de sucesso apenas na primeira prova (4,096 x 10-7) mais a probabilidade de sucesso apenas na segunda prova (4,096 x 10-7) e assim por diante. Como há dez possibilidades: P(exatamente um sucesso em 10 tentativas) = 10 x 0,8 x 0,29 = 4,096 x 10-6. Calculemos a probabilidade de de exatamente dois sucessos de maneira análoga. P(de dois primeiros sucessos e oito falhas subseqüentes) = 0,82 x 0,28 = 1,638 x 10-6. Esse é também a probabilidade de qualquer padrão especificado de ocorrência de 2 sucessos e 8 falhas. A próxima questão é: quantos desses padrões existem? Em outras palavras, quantas maneiras há de escolher 2 entre 10 posições possíveis? Podemos aplicar a análise combinatória. ⎛10 ⎞ ⎜⎜ ⎟⎟ = 45 ⎝2⎠ ⎛ A⎞ A! Temos que lembrar que: ⎜⎜ ⎟⎟ = ⎝ B ⎠ B!( A − B)! Assim, a probabilidade de exatamente dois sucessos, é ⎛10 ⎞ ⎜⎜ ⎟⎟ x 0,82 x 0,28 = 7,373 x 10-5 ⎝2⎠ Estamos agora em condições de dar a fórmula geral para a distribuição de um tipo especial de variável aleatória: a distribuição binomial. A distribuição binomial se aplica a qualquer situação em que se realizem várias provas independentes, cada uma das 31 quais comporta apenas um dentre dois resultados possíveis. Esses dois resultados chamam-se sucesso e falha, embora, em alguns casos, possam ser designados de modos diferentes. Suponha que o cientista realize o experimento n vezes. Seja X o número de sucessos. Se a probabilidade de sucesso em cada prova é p, então a probabilidade de i sucessos é: P(X = i) = ⎛n⎞ i ⎜⎜ ⎟⎟ p (1 − p) n−i ⎝i⎠ Essa é a fórmula da função de probabilidade para a variável aleatória binomial. Formalmente diz-se que X é uma variável aleatória que tem distribuição binomial com parâmetros n e p. Se n é muito grande, os cálculos podem tornar-se difíceis e é possível utilizar uma outra distribuição, chamada distribuição normal que veremos mais tarde. Exemplo 3.1) Uma moeda é lançada 20 vezes. Qual a probabilidade de saírem 8 caras? Resolução: X: número de sucessos (caras) X = 0, 1, 2, ..., 20 Î p = ½ n = 20 i=8 8 12 ⎛ 20 ⎞⎛ 1 ⎞ ⎛ 1 ⎞ P(X=8) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟ = 0,12013 ⎝ 8 ⎠⎝ 2 ⎠ ⎝ 2 ⎠ Exemplo 3.2) Numa criação de coelhos, 40 % são machos. Qual a probabilidade de que nasçam pelo menos dois coelhos machos num dia em que nasceram 20 coelhos? Resolução: X: número de coelhos machos (cm) p = 0,4 Î pois 40% são machos Para calcularmos, deveríamos somar as probabilidades de que nasçam 2, ou 3, ou 4, ou 5, ... ou 20. Mas isso daria muito trabalho. Então, fazemos o seguinte: P(X ≥ 2) = 1 – { P(X = 1) + P(X = 0) } 32 ⎛ 20 ⎞ Lembrando que P(X=0) = ⎜⎜ ⎟⎟0,4 0 x0,6 20 = 0,00003 ⎝0⎠ ⎛ 20 ⎞ e P(X=1) = ⎜⎜ ⎟⎟0,41 x0,619 = 0,00049 ⎝1⎠ Assim, P(X ≥ 2) = 1 – 0,00003 – 0,00049 = 0,99948 Exemplo 3.3) Uma prova tipo teste tem 50 questões independentes. Cada questão tem 5 alternativas. Apenas uma das alternativas é a correta. Se um aluno resolve a prova respondendo a esmo as questões, qual a probabilidade de tirar nota 5? X: número de acertos X: 0, 1, ..., 50 p = 1/5 = 0,20 ⎛ 50 ⎞ P(X=25) = ⎜⎜ ⎟⎟0,20 25 x0,8 25 = 0,000002 ⎝ 25 ⎠ Esperança (valor esperado) e Variância de uma variável aleatória binomial E(X) = n.p Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado. A Variância é definida como: Var (X) = E ((X - μx)2) = E (X – E(X))2 = E[ X2 – 2XE(X) + E2(X) ] = E(X2) – E(2XE(X)) + E2(X) = E(X2) – 2E(X)E(X) + E2(X) = E(X2) – 2E2(X) + E2(X) = E(X2) – E2(X) 33 No caso da distribuição binomial: E(X2) = n.(n-1).p2 +np Var (X) = = E(X2) – E2(X) = n.(n-1).p2 + n.p – n2.p2 = (n2 – n)p2 + n.p – n2p2 = n2p2 – np2 + n.p – n2p2 = n.p - np2 = n.p.(1-p) Var (X) = n.p.(1-p) Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra). A variância da população de uma população yi onde i = 1, 2, ...., N é dada por onde μ é a média da população. Na prática, quando lidando com grandes populações, é quase sempre impossível achar o valor exato da variância da população, devido ao tempo, custo e outras restrições aos recursos. Um método comum de estimar a variância da população é através da tomada de amostras. Quando estimando a variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte é um estimador não enviesado: onde é a média da amostra. 34 Notar que o denominador n-1 acima contrasta com a equação para a variância da população. Uma fonte de confusão comum é que o termo variância da amostra e a notação s2 pode referir-se quer ao estimador não enviesado da variância da população acima como também àquilo que é em termos estritos, a variância da amostra, calculada usando n em vez de n-1. Intuitivamente, o cálculo da variância pela divisão por n em vez de n-1 dá uma sub-estimativa da variância da população. Isto porque usamos a média da amostra como uma estimativa da média da população μ, o que não conhecemos. Na prática, porém, para grandes n, esta distinção é geralmente muito pequena. Exemplo 3.4) Achar a média e a variância da variável aleatória Y = 3X + 2, sendo o experimento repetido 20 vezes e a probabilidade de sucesso em X é de 0,3. E(Y) = 3.E(X) + E(2). Lembrando que E(2) = 2, pois 2 é uma constante (não é uma variável aleatória), temos: E(Y) = 3.np + 2 = [(3.20).0,3] + 2 = 18 + 2 = 20 E das propriedades da variância, temos: VAR(k) = 0, se k constante e VAR(k.X) = k2.VAR(X) Temos: Var (Y) = Var (3.X + 2) = Var (3.X) + Var (2) = 32Var (X) + 0 = 9 Var (X) e Var (X) = n.p.(1-p) Assim, Var (Y) = 9 . 20 . 0,3 . (1 - 0,3) = 9 . 20 . 0,3 . 0,7 = 37,8 Resumindo: 35 Numa distribuição binomial, onde um experimento é repetido n vezes e tem probabilidade de sucesso p, a probabilidade de i sucessos será: ⎛n⎞ P(X=i) = ⎜⎜ ⎟⎟ p i (1 − p) n −i ⎝i⎠ E(X) = n . p Var (X) = n . p . (1 - p). DISTRIBUIÇÃO DE POISSON Aproximação da distribuição binomial pela distribuição de Poisson Muitas vezes, no pequeno (p Æ 0). torna-se muito sofisticadíssimas uso da binomial, acontece que n é muito grande (n Æ ∞) e p é muito Nesses casos não encontramos o valor em tabelas, ou então o cálculo difícil, sendo necessário o uso de máquinas de calcular ou então de computador. Podemos então, fazer uma aproximação da binomial pela distribuição de Poisson. Consideremos: 1) n Æ ∞ (maior que o maior valor tabelado, n > 30). 2) p Æ 0 (p < 0,1) 3) 0 < μ ≤ 10, onde μ = E (X) é a média. Quando isso ocorre, μ = n . p será tomado como λ, ou seja, E(x) = μ = n . p = λ. ⎛n⎞ Nessas condições, se queremos calcular P(X=i) = ⎜⎜ ⎟⎟ p i (1 − p) n −i ⎝i⎠ Mostraremos que P(X=i) ≅ e − λ λi i! Seja P(X=i) = 36 ⎛n⎞ i n! n! p i pi ⎜⎜ ⎟⎟ p (1 − p) n −i = p i (1 − p) n −i = .(1 − p ) n −i = n(n − 1)(n − 2)...(n − i + 1). (1 − p ) n −i i! i!(n − i )! (n − i )! i! ⎝i⎠ Se n . p = λ Î p = λ/n e (1 - p) = (1 - λ/n) Se tomarmos o limite da expressão acima, quando n Æ ∞, teremos: P(X = i) = lim i n −i ⎧⎪ ⎧⎪ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ i − 1 ⎞ i 1 ⎛ λ ⎞ n ⎛ λ ⎞ − i ⎫⎪ ⎛ λ ⎞ 1 ⎛ λ ⎞ ⎫⎪ = ⎨n(n − 1)(n − 2)...(n − i + 1)⎜ ⎟ . .⎜1 − ⎟ ⎬ = lim⎨1.⎜1 − ⎟.⎜1 − ⎟.⎜1 − ⎟.⎜1 − ⎟.λ . ⎜1 − ⎟ .⎜1 − ⎟ ⎬ = n ⎠ i! ⎝ n ⎠ ⎝ n ⎠ ⎪⎭ ⎪⎩ ⎪⎩ ⎝ n ⎠ ⎝ n ⎠ ⎝ n ⎠ ⎝ ⎝ n ⎠ i! ⎝ n ⎠ ⎪⎭ 1 e − λ λi = 1.1.1.1.1.1.....1. λi . e −λ .1 = i! i! e − λ λi Assim, chegamos em P(X=i) = que é chamada de Distribuição de Poisson. i! Logo, a binomial tem distribuição de Poisson como limite quando n Æ ∞ e p Æ 0. Exemplo 3.5) Uma moeda viciada tem probabilidade de cara 0,01. Após ser lançada 200 vezes, calcule a probabilidade de dar 10 caras usando a binomial e a aproximação pela Poisson. Resolução pela binomial: ⎛ 200 ⎞ ⎟⎟(0,01)10 (0,99)190 = 0,000033 P(X=10) = ⎜⎜ ⎝ 10 ⎠ Resolução pela aproximação de Poisson: λ = n . p = 200.0,01 = 2 e −2 .210 = 0,000038 P(X=10) = 10! Logo, a aproximação é bastante boa, pois o erro é 0,000005 apenas. Exemplo 3.6) A probabilidade de uma lâmpada se queimar ao ser ligada é 1/100. Numa instalação de 100 lâmpadas, qual a probabilidade de 2 lâmpadas queimarem ao serem ligadas? 37 X: número de lâmpadas queimadas. ⎛100 ⎞ ⎛100 ⎞ ⎟⎟(0,01) 2 (1 − 0,01) 98 = ⎜⎜ ⎟⎟(0,01) 2 (0,99) 98 = 0,1848 P(X=2) = ⎜⎜ ⎝ 2 ⎠ ⎝ 2 ⎠ Usando a aproximação de Poisson: λ = n . p = 100 . 0,01 = 1 P(X=2) = e −1 .12 = 0,18394 2! Consideremos a probabilidade de ocorrência de sucessos em um determinado intervalo. A probabilidade da ocorrência de um sucesso no intervalo é proporcional ao intervalo. A probabilidade de mais de um sucesso nesse intervalo é bastante pequena com relação a probabilidade de sucesso. e − λ λi P(X=i) = , onde λ é a média. i! A variável X assim definida tem distribuição de Poisson. A distribuição de Poisson é muito usada na distribuição do número de: 1) carros que passam por um cruzamento por minuto, durante uma certa hora do dia; 2) erros tipográficos por página em um material impresso; 3) defeitos por unidade (m2, m3, etc) por peça de fábrica; 4) colônias de bactérias numa dada cultura por 0,01 mm2 numa plaqueta de microscópio; 5) mortes por ataque de coração por ano, numa cidade. É aplicada também em problemas de filas de espera em geral, e outros. 38 Esperança e Variância na distribuição de Poisson Para a Esperança, ou valor esperado, ou ainda a média: E(X) = λ Var (X) = λ Exemplo 3.7) Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que uma página contenha pelo menos 3 erros? X: número de erro por página 1 λ = n.p = 800. =1 800 ⎧ e −1λ0 e −1λ1 e −1λ2 ⎫ + ⎬= P(X ≥ 3) = 1 – P(X < 3) = 1 – { P(X=0) + P(X=1) + P(X=2)} = 1- ⎨ + 0 ! 2 ! 1 ! ⎭ ⎩ 1 – {0,367879 + 0,367879 + 0,183940} = 0,080302 Exemplos 3.8) Numa central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de que: a) Num minuto haja nenhum chamado X: número de chamadas por minuto. Se são 300 telefonemas por hora, são 300 telefonemas em 60 minutos, ou seja, λ = 5, pois temos 5 telefonemas por minuto. e −5 5 0 = 0,006738 P(X=0) = 0! b) em dois minutos hajam 2 chamados λ = 10, pois são 10 chamadas em 2 minutos. 39 P(X=2) = e −10 10 2 = 0,002270 2! c) em t minutos não haja chamado; λ = 5t P(X=0) = e −5t (5t ) 0 e −5t = 0! EXERCÍCIOS: Exercício 3.1) Uma urna tem 20 bolas pretas e 30 brancas. Retiram-se 25 bolas com reposição. Qual a probabilidade de que: a) 2 sejam pretas? b) Pelo menos três sejam pretas? Exercício 3.2) Numa estrada há 2 acidentes para cada 100 km. Qual a probabilidade de que em: Eu estou usando e = 2,7183. a) 250 km ocorram pelo menos 3 acidentes? b) 300 km ocorram 5 acidentes? Exercício 3.3) A probabilidade de um arqueiro acertar um alvo com uma única flecha é de 0,20. Ele lança 30 flexas no alvo. Qual a probabilidade de que: a) Exatamente 4 acertem o alvo? b) Pelo menos 3 acertem o alvo? Exercício 3.4) A experiência mostra que a cada 400 lâmpadas, 2 se queimam ao serem ligadas. Qual a probabilidade de que numa instalação de: 40 a) 600 lâmpadas, no mínimo 3 se queimem? b) 900 lâmpadas, exatamente 8 se queimem? Exercício 3.5) Numa linha adutora de água, de 60 Km de extensão, ocorrem 30 vazamentos no período de um mês. Qual a probabilidade de ocorrer, durante um mês, pelo menos 3 vazamentos num certo setor de 3 km de extensão? Exercício 3.6) Numa fita de som há um defeito em cada 2 metros. Qual a probabilidade de que: a) em 5 metros não aconteça defeito? b) Em 8 metros ocorram pelo menos 3 defeitos? Exercício 3.7) O número de mortes por afogamento em fins de semana, numa cidade praiana, é de 2 para cada 50.000 habitantes. Qual a probabilidade de que em: a) 200.000 habitantes ocorram 5 afogamentos? b) 112.500 habitantes ocorram pelo menos 3 afogamentos? Exercício 3.8) Uma firma recebe 720 mensagens em seu fax em 8 horas de funcionamento. Qual a probabilidade de que: a) em 6 minutos receba pelo menos 4 mensagens? b) Em 4 minutos não receba nenhuma mensagem? Exercício 3.9) Considere 10 tentativas independentes de um experimento. Cada tentativa admite sucesso com probabilidade 0,05. Seja X: número de sucessos. a) Calcular P(1 < X ≤ 4) b) Considere 100 tentativas independentes. Calcular P(X ≤ 2). Exercício 3.10) Numa urna há 40 bolas brancas e 60 pretas. Retiram-se 20 bolas. Qual a probabilidade de que ocorram no mínimo 2 bolas brancas, considerando as extrações: a) sem reposição; b) com reposição; 41 CAPÍTULO 4 VARIÁVEIS ALEATÓRIAS CONTÍNUAS Suponha que escolhamos aleatoriamente um nome do catálogo telefônico e meçamos a altura (em metros) da pessoa assim selecionada. Se H é a altura da pessoa, podemos considerar H como uma variável aleatória. Todavia, ela é diferente das outras variáveis aleatórias estudadas até aqui. Se relacionarmos todos os valores possíveis de H, há valores que, obviamente não são possíveis. Por exemplo, H nunca poderá ser menos de 0,10 m nem mais de 3 m. Todavia, não podemos listar todos os valores possíveis. A altura pode ser 1,60m ou 1,61 m, ou 1,600001 metros, ou 1,600000001m. De fato, admitindo que possamos medir a altura com perfeita precisão (isto é apenas teoria, e não a realidade), há um número infinito de valores possíveis para a altura. Não podemos utilizar uma variável aleatória discreta em um caso como esse, em que o resultado pode ser qualquer número num determinado intervalo. Devemos, ao contrário, utilizar uma variável aleatória contínua. Exemplo de variáveis aleatórias contínuas: i) ii) iii) iv) Altura acima do solo em que um dardo atinge um painel; O intervalo de tempo de vida de uma lâmpada; O intervalo de tempo decorrido até o decaimento de um átomo radioativo; A duração de vida de uma pessoa. Intuitivamente, as variáveis aleatórias discretas são mais fáceis de entender. Entretanto, matematicamente, as variáveis aleatórias contínuas são de mais fácil manejo. Se uma distribuição discreta tem muitos valores possíveis próximos uns dos outros, pode, em geral, ser aproximada por uma distribuição contínua. 42 Figura: Em vermelho uma distribuição discreta. Em azul, curva contínua. Para entendermos melhor, observemos o histograma acima, que mostra o gráfico de distribuição de X. No caso em vermelho, que é para o caso discreto, o gráfico é contituido por retângulos de bases unitárias e alturas iguais às probabilidades de X = x0. As áreas dos retângulos são dadas pela fórmula base x altura (bxh), em cada caso. Ar1 Ar2 Ar3 Ar4 Ar5 = = = = = b1 b2 b3 b4 b5 . h1 = . h2 = . h3 = . h4 = . h5 = 1.0,1 1.0,2 1.0,4 1.0,2 1.0,1 Î Î Î Î Î Ar1 Ar2 Ar3 Ar4 Ar5 = = = = = P(X=1) P(X=2) P(X=3) P(X=4) P(X=5) Para calcularmos, por exemplo: P (1≤ X≤ 3) = 3 ∑ Ar i =1 i = Ar1 + Ar2 + Ar3 = 0,1 + 0,2 + 0,4 = 0,7 . Se ligarmos os pontos médios das bases superiores dos retângulos e ligarmos os mesmos por uma curva, teremos, se considerarmos X uma variável aleatória contínua, uma função contínua f(x), representada no gráfico acima como a curva contínua. Podemos então definir matematicamente Variável aleatória contínua: uma variável aleatória é contínua em ¶R se existir uma função f(x), tal que: 1. f(x) ≥ 0 +∞ 2. ∫ f ( x)dx = 1 −∞ A função f(x) é chama função densidade de probabilidade (f.d.p). Observamos que: 43 b P(a ≤ X ≤ b) = ∫ f ( x)dx a corresponde à área limitada pela função f(x), eixo X e pelas retas X=a e X=b. Veja figua abaixo. A curva mais importante na estatística é a curva em forma de sino, ou a curva normal que retrata a distribuição de grandezas tais como as alturas de uma população. Podemos estender todas as definições de variáveis aleatórias discretas para variáveis aleatórias contínuas. Se X é uma variável aleatória contínua, então: Definição: +∞ E(X) = ∫ x. f ( x)dx −∞ +∞ Var (X) = ∫ {x − E ( x)} . f ( x)dx ou Var (X) = E(X ) – {E(X)} 2 2 −∞ 2 onde, +∞ E(X2) = ∫ x . f ( x)dx 2 −∞ Exemplo 4.1)Verificar se f(x) = { 2x+3, 0, se 0< x ≤ 2 se x ≤0 ou x >2 é uma f. d. p. 44 Resolução: i) Primeiro devemos verificar se f(x) ≥ 0 para todo xÎ Sim, ela é sempre positiva! +∞ ii) Depois verificar se : ∫ f ( x)dx = 1 −∞ 2 Para isso: 2 ∫ f ( x)dx = ∫ (2 x + 3)dx = x 0 2 2 + 3x 0 = 4 + 6 = 10 Î não é f. d. p. 0 Se definirmos f2(x) = (1/10)f(x), f2(x) seria uma função densidade de probabilidade. Exercício 4.1) Seja f(x) = kx, se 0 < x ≤ 1 e f(x) = 0 se x ≤ 0 ou x > 1. Determine a) k a fim de que f(x) seja f. d. p. b) o gráfico de f (x); 1⎞ ⎛ c) P ⎜ 0 ≤ X ≤ ⎟ 2⎠ ⎝ d) E(X) PRINCIPAIS DISTRIBUIÇÕES TEÓRICAS DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS Algumas distribuições de variáveis aleatórias contínuas são importantes. Estudaremos dois tipos delas, mas daremos maior detalhe a mais usada em problemas de estatística, que é a distribuição normal. Distribuição Exponencial Uma variável aleatória contínua em X tem distribuição exponencial de probabilidade se a f. d. p. é dada por: f(x) = ⎧λe − λx ⎨ ⎩ 0 se x ≥ 0 se x < 0. 45 O gráfico da f. d. p de X é: λ 0 E +∞ − λx λ e ∫ dx = 1 0 E a função de distribuição é: x F ( x) = P( X ≤ x) = ∫ λe− λs ds = 1 − e− λx 0 A esperança (ou valor esperado) da distribuição é: ∞ E ( x) = ∫ x.λe − λx dx = (− x.e − λx − 0 1⎞ 1 ⎛ e − λx ) ∞0 = (0 − 0) − ⎜ 0 − ⎟ = λ λ⎠ λ ⎝ 1 Podemos chegar também na variância de modo análogo: Var (X) = 1 λ2 A distribuição Exponencial é largamente utilizada como um modelo para a distribuição dos tempos até a falha de componentes eletrônicos. Nessas aplicações o parâmetro λ representa a taxa de falha para o componente, e 1/λ é o tempo médio até a falha. Conhecendo-se os tempos até a falha de um produto é possível definir os períodos de garantia. 46 Exemplo 4.2) Uma variável aleatória contínua X tem f. d. p. dada por: ⎧ k −x ⎪2 e ⎪ f ( x) = ⎨ ⎪ 0 ⎪ ⎩ Se x ≥ 0 Se X < 0 a) Calcular o valor de k b) Determinar F(x) c) Determinar a mediana da distribuição; +∞ a) Sabemos que ∫ f ( x)dx = 1 , então: 0 +∞ ∞ k −x k −x k −x e dx = 1 ∴ e dx = 1 ∴ ( − e ) ∫0 2 ∫ 20 2 ∞ 0 k = 1∴ (0 − (−1)) = 1∴ k = 2 2 b) Lembrando que: F ( x) = P( X ≤ x) , temos: x ∞ F ( x) = P( X ≤ x) = ∫ e ds = 1 − ∫ e − s ds = 1 − (−e − ∞ − (−e − x )) = 1 + 0 − e− x −s x 0 ⎧1 − e − x ⎪ F ( x) = ⎨ ⎪ 0 ⎩ Se x >0 Se x ≤ 0 47 c) Definição de mediana: m é a mediana da distruição se P(X>m) = P(X<m). Então: ∞ P( X > m) = ∫ e − x dx = −e − x m ∞ = 0 − ( −e − m ) = e − m m da mesma forma: m P( X < m) = ∫ e − x dx = −e − x 0 m = (−e − m + 1) = 1 − e − m 0 Fazendo P(X>m) = P(X<m), tem-se: e− m = 1 − e− m ∴ 2e− m = 1∴ e− m = 1 2 1 1 1 ln e− m = ln ∴ −m = ln ∴ m = − ln = −(−0,693147) 2 2 2 m = 0,693147 48 DISTRIBUIÇÃO NORMAL Pode-se identificar uma distribuição normal especificando-se dois números: a média e a variância (ou o desvio padrão). Conforme já foi visto no caso das distribuição discretas, a média está localizada no pico da distribuição. A variância define a forma da distribuição – se ela é muito dispersa ou se a maior parte da área se concentra na proximidade do pico. Se X é uma variável aleatória normal com média μ e variância σ2, então a função densidade é dada por: f ( x) = 1 2πσ e − (1 / 2 )[( x − μ ) / σ ]2 O desvio padrão σ é a raiz quadrada da variância e é a distância, a partir da média, a qualquer do dois pontos de inflexão – os pontos fronteira onde a curva muda de concavidade (ver figura abaixo). A figura abaixo mostra quatro distribuições normais com a mesma variância mas com médias diferentes. Já a próxima figura exibe quatro distribuições normais com a mesma média, mas com variâncias distintas. A área sobre cada uma das curvas (tanto as curvas acima quanto as curvas abaixo) é 1, como deve ser o caso para uma variável aleatória contínua. As extremidades da curva são chamadas caudas da distribuição. As caudas jamais tocam o eixo. Teoricamente, pois, a variável aleatória normal pode tomar qualquer valor, 49 inclusive valores muito distantes da média. Todavia, pode-se ver que não há muita área sob a curva nas caudas, de modo que a chance de aparecer um valor muito distante da média é remota. Muitas vezes você vai encontrar a distribuição normal com a seguinte notação: X : N(μ, σ2). Distribuição Normal Reduzida Também chamada de distribuição normal padronizada ou Variável normalizada. Na maioria das vezes em que necessitamos da área sob uma curva normal, devemos recorrer a uma tabela, ou usar um computador ou uma calculadora. Seria impossível elaborar uma tabela para cada distribuição normal com todos os valores possíveis da média e da variância. Felizmente, podemos achar os resultados para qualquer distribuição normal apelando para uma tabela de distribuição normal com média μ = 0 e variância σ2 = 1. Essa distribuição é chamada distribuição normal reduzida e a notação será: Z : N(0, 1). Considere Z uma variável aleatória com função de densidade normal reduzida. A figura abaixo exibe o gráfico da função de densidade para Z. 50 f ( x) = 1 2π e ⎛1⎞ −⎜ ⎟ x 2 ⎝2⎠ Função de densidade normal padronizada: μ=0, σ=1. Se quisermos achar a probabilidade de Z estar entre 0 e 1, devemos calcular a área sob a curva entre 0 e 1. (Figura abaixo). P(0 < Z < 1) = área sombreada Infelizmente, não existe uma fórmula simples que nos dê essa área. Pois essa função não pode ser integrada de forma explícita. Ela é calculada numericamente e tabelada. Temos de procurar os resultados em uma tabela tal como a tabela em anexo. A tabela dá a função de distribuição acumulada, que indica a probabilidade de Z ser inferior a um determinado valor z. Usa-se, em geral, a letra maiúscula grega Φ para representar tal função: Φ(a) é igual a probabilidade de Z ser menor do que a, ou seja, Φ(a) = P(Z < a). A função satisfaz a seguinte propriedade: Φ(-a) = 1 - Φ(a). A probabilidade de Z estar entre dois números quaisquer “a” e “b” é dada por P(a < Z <b) = Φ(b) - Φ(a) Já mostramos que Φ(0) = 0,5. Pela tabela da normal padronizada, vemos que Φ(1) = 0,8413. Portanto, a probabilidade de Z estar entre 0 e 1 é 0,8413 – 0,5000 = 0,3413. Pela simetria da função de densidade, vemos que há também uma probabilidade de 0,3413 de Z estar entre -1 e 0. Somando essas probabilidades, temos: P(-1 < Z <0) + P(0 < Z < 1) = 0,3413 + 0,3413 = 0,6826. 51 Portanto há uma chance de 68 % de uma variável aleatória normal padronizada estar entre -1 e 1. Ou seja, há 68 % de chance de uma variável aleatória normal padronizada estar a menos de um desvio-padrão de sua média (em nosso caso, a média é 0 e o desvio-padrão é 1). P(-1 < Z <0) = P(0 < Z < 1) = 0,3413 Essa propriedade particular vale para qualquer variável aleatória normal, independente de sua média e seu desvio padrão: há uma chance de 68% de qualquer variável aleatória normal estar a menos de um desvio-padrão de sua média. Por exemplo, se X é uma variável aleatória normal com média 200 e desvio padrão 30, então há 68% de chance de X estar entre 170 e 230. Apelando-se para a tabela pode-se mostrar também que há 95% de chance de estar a menos de dois desvios-padrão de sua média. Com o auxílio das tabelas da variável normal padronizada, podemos achar probabilidades para qualquer variável normal como segue: suponhamos que Y tenha distribuição normal com média 6 e variância 9; queremos a probabilidade de Y estar entre 5 e 8. Criamos uma nova variável aleatória Z: Z= Y −6 3 Que tem distribuição normal com média 0 e variância 1, em razão da propriedade da adição. Ora, ⎛5−6⎞ ⎛Y − 6⎞ ⎛8− 6⎞ P(5 < Y < 8) = P⎜ ⎟<⎜ ⎟<⎜ ⎟ = P(−1 / 3 < Z < 2 / 3) ⎝ 3 ⎠ ⎝ 3 ⎠ ⎝ 3 ⎠ P(5 < Y < 8) = Φ (0,667) − Φ (−0,333) = 0,7486 − (1 − 0,6293) P (5 < Y < 8) = 0,7486 − 0,3707 P (5 < Y < 8) = 0,3779 De modo geral, se X é uma variável aleatória normal com média μ e variância σ2, então (X-μ)/σ é uma variável aleatória normal padronizada. Suponhamos, por exemplo, que 52 quiséssemos a probabilidade de vendar mais de 230 hambúrgueres numa lanchonte da cidade. Representamos por X1 o número de hambúrgueres. Nesse caso, μ = 200, σ2 = 1600 e σ = 40. Criemos a variável normal padronizada Z1: Z1 = X 1 − 200 40 Assim, 3⎞ ⎛ X − 200 30 ⎞ ⎛ P ( X 1 > 230) = P⎜ 1 > ⎟ = P⎜ Z > ⎟ 40 ⎠ 4⎠ ⎝ ⎝ 40 Ou seja, se X1 > 230, então Z1> do que ¾. A tabela nos diz que a probabilidade de isso ocorrer é 1 – P( Z < 0,75) = 1 – 0,7734 = 0,2266. Se quiséssemos a probabilidade de vender um total de mais de 330 hambúrgueres nas duas lanchonetes. Seja X esse número total. Então, μ = 300, σ2 = 2000 e σ = 44,72. Estabelecendo a variável aleatória normal padronizada: Z= X − 300 44,72 = 330 − 300 30 = = 0,67 44,72 44,72 Se X > 330, então Z > 0,67 e a probabilidade de tal ocorrência é 0,2514 (tabela). P(X>330)=P(Z>0,67) = 1-P(0,67) = 1-0,7486=0,2514. Exemplo 4.3) Seja X: (20,4). Achar os valores reduzidos correspondentes a X1 = 14, X2 = 16, X3 = 18, X4 = 20, X5 = 22, X6 = 24, X7 = 26. De X: (20,4), vemos que μ = 20, σ = 2. Assim, Z = (X-20)/2. Se X1 = 14, Z1 = -3; Se X2 = 16, Z2 = -2; Se X3 = 18, Z3 = -1; Se X4 = 20, Z1 = 0; Î μ = 0; 53 Se X5 = 22, Z2 = 1; Se X6 = 24, Z6 = 2; Se X7 = 26, Z7 = 3; Exemplo 4.4) Usando a tabela. Seja X: N(100, 25). Calcular: a) P(100 ≤ X ≤ 106); Para X = 100: Z= Para X = 106: Z = X − 100 5 =0 106 − 100 = 1,2 5 Então: P(100 ≤ X ≤ 106) = P(0 ≤ X ≤ 1,2) = 0,384930 b) P(89 ≤ X ≤ 107) Da mesma forma: Para X = 89: Z = Para X = 107, Z = 107 − 100 5 89 − 100 5 = −2,2 = 1,4 Então: P(89 ≤ X ≤ 107) = P(-2,2 ≤ X ≤ 1,4) = P(Z=1,4) – P(-2,2) = 0,9192 – 0,0139= 0,9053 c) P(X ≥ 108) Se X = 108, Z = 108 − 100 = 1,6 5 P(X ≥ 108) = P(Z ≥ 1,6) = 1 – P(Z ≤ 1,6) = 1 – 0,9452 = 0,0548. 54 Exemplo 4.7) Um fabricante de baterias sabe, por experiência passada, que as baterias de sua fabricação tem vida média de 600 dias e desvio-padrão de 100 dias, sendo que a duração tem aproximadamente a distribuição normal. Oferece uma garantia de 312 dias, isto é, troca as baterias que apresentarem falhas nesse período. Fabrica 10.000 baterias mensalmente. Quantas deverá trocar pelo uso da garantia, mensalmente? Resolução: ⎧μ = 600 312 − 600 ⎪ = 2,88 Î Z= X: duração da bateria ⎨ 100 ⎪σ = 100 ⎩ P(X ≤ 2,88) = 0,0020, ou seja, existe uma chance de 0,20 % de uma bateria ser trocada durante a garantia. Então, ele deve substituir mensalmente 20 em 10 mil baterias fabricadas por mês. EXERCÍCIOS Exercício 4.2) Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média de 150.000 km e desvio-padrão de 5.000 km. Qual a probabilidade de que um carro, escolhido ao acaso, dos fabricados por essa firma, tenha um motor que dure: a) Menos de 170.000 km? b) Entre 140.000 km e 165.000 km? c) Se a fábrica substitui o motor que apresenta duração inferior à garantia, qual deve ser esta garantia para que a percentagem de motores substituídos seja inferior a 0,2%? Exercício 4.3) O diâmetro X de um cabo elétrico é uma variável aleatória contínua com f.d.p. dada por: ⎧ K (2 x − x 2 ) ⎪ f ( x) = ⎨ ⎪ 0 ⎩ Se 0 ≤ x ≤ 1 Se x < 0 ou x >1 a) Determinar K; b) Calcular E(X) e Var (X). 55 c) Calcular P(0 ≤ x ≤ ½). Exercício 4.4) A variável aleatória X tem f. d. p. dada pelo gráfico abaixo. Determinar: d) P (X > 2); e) M tal que P(X > m) = 1/8; f) E(X) g) Var (X); h) F(x). Exercício 4.5) Uma fábrica de tubo de TV determinou que a vida média dos tubos de sua fabricação é de 800 horas de uso contínuo e segue uma distribuição exponencial. Qual a probabilidade de que a fábrica tenha de substituir um tubo gratuitamente se oferece uma garantia de 300 horas de uso? 56