Probabilidade 1 José Carlos Fogo Junho 2014 Teoria da Probabilidade Sumário Sumário 1 Conceitos Básicos e Definições 3 1.1 Relações entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Algumas definições em probabilidade: . . . . . . . . . . . . . . . . . . . . . 6 1.3 Medidas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.1 Axiomas de Kolmogorov e espaço de probabilidade . . . . . . . . . 9 1.4 Propriedades das probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 Probabilidade condicional e teorema de Bayes . . . . . . . . . . . . . . . . 15 1.5.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5.2 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.5.3 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . 24 1.6 Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.6.1 Amostras ordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.6.2 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.6.3 Amostras Desordenadas . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.6.4 Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2 Variáveis Aleatórias 42 2.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2 Principais modelos de discretos . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.1 Variável Aleatória Constante . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.2 Distribuição uniforme discreta . . . . . . . . . . . . . . . . . . . . . . 49 2.2.3 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.2.4 Distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.2.5 Distribuição geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.2.6 Distribuição binomial negativa . . . . . . . . . . . . . . . . . . . . . . 60 2.2.7 Distribuição hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . 62 2.2.8 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.2.9 Distribuições discretas no R . . . . . . . . . . . . . . . . . . . . . . . 73 3 Valor esperado e momentos de uma v.a. discreta 76 3.1 Valor esperado de uma v.a. discreta . . . . . . . . . . . . . . . . . . . . . . . 76 3.2 Propriedades de Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.3 Variância de uma v.a. discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.3.1 Propriedades de Variância . . . . . . . . . . . . . . . . . . . . . . . . 83 3.3.2 Covariância e coeficiente de corelação . . . . . . . . . . . . . . . . . 85 2 Teoria da Probabilidade 1 Conceitos Básicos e Definições Conceitos Básicos e Definições Estudos de fenômenos ou experimentos aleatórios ⇓ Busca-se avaliar a probabilidade de ocorrência desses fenômenos. APLICAÇÕES: • teoria dos jogos • evolução de doenças • controle de defeitos • evolução do crescimento populacional • teoria da decisão • indústria bélica 1.1 Relações entre conjuntos i) UNIÃO: Notação A ∪ B , sejam A e B eventos quaisquer, a união entre A e B é dada pelos elementos que pertencem a A ou a B ; ii) INTERSECCÃO: Notação A ∩ B ou AB , sejam A e B conjuntos quaisquer, a intersecção entre A e B é dada pelos elementos que pertencem simultaneamente a A e a B ; iii) COMPLENTAR: Notação Ac ; sejam A e B conjuntos tais que A ⊂ B , então, o evento complementar Ac de A, em relação à B , é dado pelos elementos de B que não pertencem a A, ou seja, A∪Ac = B ; iv) DIFERENÇA: Notação B − A; sejam A e B conjuntos quaisquer, então, a diferença B − A é dada pelos elementos de B que não pertencem a A, ou seja, B − A = B ∩ Ac = BAc ; Nota: Se B ⊃ A, então, B − A = Ac ; v) DIFERENÇA SIMÉTRICA: Notação A M B ; é dada pelos elementos que pertencem exclusivamente a A ou a B , ou seja, A M B = (A ∩ B c ) ∪ (Ac ∩ B) = (A − B) ∪ (B − A); 3 Teoria da Probabilidade Conceitos Básicos e Definições vi) CONJUNTOS DISJUNTOS: dois conjuntos A e B são disjuntos, ou mutuamente exclusivos, se a intersecção entre eles é vazia, ou seja, A ∩ B = ∅; vi) PARTIÇÃO: os conjuntos A1 , A2 , . . . , Ak ⊂ Ω formam um partição de Ω se são disjuntos dois-a-dois e se a união entre eles é igual a Ω, ou seja – Ai ∩ Aj = ∅, – k [ ∀ i 6= j ; Ai = Ω. i=1 vi) LEIS DE MORGAN: considere uma sequência qualquer de eventos A1 , A2 , . . ., então, segundo as leis de Morgan, valem as relações ∞ [ !c Ai = i=1 ∞ \ ∞ \ Aci ; i=1 !c Ai = i=1 ∞ [ Aci . i=1 DEMONSTRAÇÃO VISUAL DAS LEIS DE MORGAN: Ω A B AUBUC C (AUBUC)c Figura 1.1: Diagrama de Venn para a união ( A ∪ B ∪ C )c Ω Ω Ω A Cc B Ac Bc C Figura 1.2: Eventos complementares Ac , B c e C c , respectivamente 4 Teoria da Probabilidade Conceitos Básicos e Definições Ω A B C Figura 1.3: Diagrama de Venn para a intersecção Ac ∩ B c ∩ C c DEMONSTRAÇÃO FORMAL DAS LEIS DE MORGAN: 1a parte (Magalhães ou Hoel) IDEIA: mostrar que i) ∞ [ !c ⊂ Ai i=1 ii) ∞ [ ∞ \ Aci ; i=1 !c ⊃ Ai i=1 ∞ \ Aci . i=1 RESULTADO: Sejam A e B conjuntos quaisquer, então, se A ⊂ B e A ⊃ B =⇒ A = B . Prova da parte (i): Seja w ∈ ( ∞ [ Ai )c =⇒ w ∈ / i=1 Desta forma, w ∈ ∞ [ Ai =⇒ w ∈ / Ai , ∀ i = 1, 2, . . . i=1 Aci , ∀i = 1, 2, . . . =⇒ w ∈ ∞ \ Aci , i=1 o que prova a parte (i). Prova da parte (ii): Seja w ∈ ∞ \ Aci =⇒ w ∈ Aci =⇒ w ∈ / Ai , ∀ i = 1, 2, . . . i=1 Desta forma, w ∈ / ∞ [ Ai , ∀ i = 1, 2, . . . =⇒ w ∈ ( i=1 ∞ [ i=1 5 Ai )c , Teoria da Probabilidade Conceitos Básicos e Definições o que prova completa a prova. 1.2 Algumas definições em probabilidade: a) EXPERIMENTO ALEATÓRIO: é um experimento no qual – todos os resultados possíveis são conhecidos antecipadamente; – uma realização do experimento resulta num dos possíveis resultados; – pode ser repetido em condições idênticas. Exemplo: Considere uma caixa com b bolas numeradas de 1 a b. Uma bola é retirada e seu número é anotado. b) ESPAÇO AMOSTRAL: é o conjunto dos resultados possíveis para um experimento aleatório. É denotado por Ω. Pode ser: Finito: formado por um conjunto finito de pontos; i) Discreto Infinito: conjunto infinito e enumerável de pontos; ii) Contínuo: formado por um conjunto não enumerável de pontos. Exemplo: No experimento da retirada de uma bola de uma da caixa, Ω é um espaço amostral finito dado pelo conjunto com b pontos, no caso Ω = { 1, 2, . . . , b }. c) EVENTO: um evento é qualquer subconjunto do espaço amostral Ω, associado a um experimento. Notas: 1) Os eventos serão identificados por letras de fôrma e maiúsculas do algarismo arábico, por exemplo A, B, C, . . .. 2) Aos eventos é que serão associadas probabilidades; Exemplo: Na retirada de uma bola da caixa seja o evento A definido por: A = {o resultado é um número par}. Casos Especiais: 6 Teoria da Probabilidade Conceitos Básicos e Definições i) Evento Complementar: Seja um evento qualquer A ⊂ Ω, então, seu evento complementar Ac será definido pelos elementos de Ω que não estão em A. Um evento A e seu complementar Ac são tais que A ∪ Ac = Ω. ii) Eventos Disjuntos: Dois eventos quaisquer A e B são disjuntos, ou mutuamente exclusivos se A ∩ B = ∅. iii) Eventos Elementares: Seja um espaço amostral finito Ω = {ω1 , ω2 , . . . , ωN }, em que ωi , i = 1, 2, . . . , N são resultados elementares. Um evento formado por um resultado elementar é chamado evento elementar. Neste caso, Ai = {ωi }, i = 1, 2, . . . , N , são eventos elementares. Notas: 1) Sejam dois eventos elementares Ai e Aj , i 6= j , então, Ai ∩ Aj = ∅; 2) Qualquer evento pode ser escrito como uniões de eventos elementares. Particularmente, Ω = A1 ∪ A2 ∪ . . . ∪ AN . Como o espaço amostral é finito, será associada uma probabilidade pi = 1/N para cada ωi , i = 1, 2, . . . , N . É intuitivo que 0 ≤ pi ≤ 1 e que p1 + p2 + . . . + pN = 1. Se, além disso, o espaço amostral for equiprovável (ou homogêneo), então, pi = 1 N ∀ ωi ∈ Ω, i = 1, 2, . . . , N . d) σ -ÁLGEBRA: Seja uma coleção não vazia A de subconjuntos de Ω aos quais desejamos associar probabilidades. Então A deve ser tal que, se A e B ∈ A , faz sentido calcular probabilidades de que i) A ou B ocorra, ou seja, (A ∪ B); ii) A e B ocorram, ou seja, (A ∩ B); iii) não ocorra A, ou seja, Ac . Portanto, para A e B ∈ A , se A atender às propriedades: 7 Teoria da Probabilidade Conceitos Básicos e Definições i) Ω ∈ A ; ii) se A ∈ A =⇒ Ac ∈ A ; iii) se A ∈ A e B ∈ A =⇒ (A ∪ B) ∈ A . então A é dita ser uma álgebra de subconjuntos (eventos) de Ω. Além disso, deseja-se que A seja fechada também para um número infinito e enumerável de operações (uniões e intersecções). Definição: A é uma σ -álgebra de subconjuntos (eventos) de Ω se, e só se i) Ω ∈ A ; ii) se A ∈ A =⇒ Ac ∈ A ; iii) se A1 , A2 , . . . ∈ A =⇒ ∞ [ Ai ∈ A . i=1 Notas: 1) toda σ -álgebra é uma álgebra, porém, nem toda álgebra é uma σ -álgebra; 2) Seja A uma σ -álgebra de Ω, então, se A1 , A2 , . . . ∈ A =⇒ ∞ \ Ai ∈ A . i=1 Exemplo: 1) Considere o lançamento de uma moeda, então Ω = { cara, coroa } • A1 = { ∅, Ω } → menor σ -álgebra; • A2 = { ∅, {cara}, {coroa}, Ω } → σ -álgebra, classe de todos os subconjuntos de Ω. Exemplo: 2) Considere o espaço amostral Ω = { 1, 2, 3 } • A1 = { ∅, Ω, {1}, {2, 3} } → é uma σ -álgebra (todos os complementares e uniões estão presentes). • A2 = { ∅, Ω, {1}, {2}, {1, 3}, {2, 3} } → não é σ -álgebra pois: {1} ∪ {2} ∈ / A2 (todos os complementares estão presentes, mas não todas as uniões). 8 Teoria da Probabilidade 1.3 Conceitos Básicos e Definições Medidas de probabilidade a) EM ESPAÇOS FINITOS: número de resultados favoráveis a um evento, dividido pelo número de resultados possíveis, assumindo que todos os resultados seja equiprováveis P (A) = card(A) card(Ω) em que Ω é o conjunto de resultados possíveis (espaço amostral). b) GENERALIZAÇÃO PARA ESPAÇOS INFINITOS: se Ω é uma região com uma medida bem definida, então P (A) = medida de A medida de Ω Exemplo: Um indivíduo realiza um tiro ao acaso num alvo circular de raio R. Qual a probabilidade de que acerte o círculo central de raio r (r < R)? R P (A) = Ω área central (A) área do alvo (Ω) r A P (A) = 1.3.1 r 2 πr2 = πR2 R Axiomas de Kolmogorov e espaço de probabilidade A definição a seguir é conhecida como Axiomas de Kolmogorov (Kolmogorov, 1933) e define uma medida de probabilidade. MEDIDA DE PROBABILIDADE: Seja Ω um espaço amostral e A uma σ -álbegra de eventos de Ω. P (.) é uma medida de probabilidade em (Ω, A ) se satisfaz i) P (A) ≥ 0, ∀ A ∈ A ; ii) P (Ω) = 1; 9 Teoria da Probabilidade Conceitos Básicos e Definições iii) se A1 , A2 , . . . formam uma seqüência disjunta, então P ∞ [ i=1 ! Ai = ∞ X P (Ai ). i=1 A trinca formada por (Ω, A , P ) é chamada de ESPAÇO DE PROBABILIDADE. Um espaço de probabilidade é formado por um espaço amostral Ω, uma σ -álgebra de eventos de Ω e uma medida de probabilidade P (A) ∀ A ∈ A . Exemplo: 1) Número de ocorrências de um fenômeno. Espaço amostral: Ω = { 1, 2, 3, . . . }; σ -álbegra: A = classe dos subconjuntos de Ω; Medida de probabilidade: P (k) = 1 , k = 1, 2, . . . 2k Checar os axiomas: i) P (A) é dada pela soma de probabilidades de eventos elementares ωi ∈ A, i = 1, 2, . . . =⇒ P (A) ≥ 0, ii) ∞ X P (k) = i=1 ∀ A; 1/2 = 1 =⇒ P (Ω) = 1; 1 − 1/2 iii) A união de eventos disjuntos, forma um conjunto ao se aplica o resultado (i), que equivale à soma das suas probabilidades individuais. Exemplo: 2) Tempo de vida de pacientes. Espaço amostral: Ω = { T ∈ R | 0 ≤ T < ∞ }; σ -álbegra: A = σ -álbegra de Borel; Z Medida de probabilidade: P (A) = dos reais. e−x dx, em que A ⊆ Ω são intervalos no conjunto A 10 Teoria da Probabilidade 1.4 Conceitos Básicos e Definições Propriedades das probabilidades Considere que os conjuntos abaixo seja, eventos no espaço de probabilidade (Ω, A , P ). Então, tem-se que a) P (A) = 1 − P (Ac ); Nota: caso especial P (∅) = 1 − P (Ω) = 0. b) Sejam A e B eventos quaisquer, então P (B) = P (B ∩ A) + P (B ∩ Ac ). PROVA: i) para todo conjunto A tem-se que A ∪ Ac = Ω. ii) Como B = B ∩ Ω = B ∩ (A ∪ Ac ) = (B ∩ A) ∪ (B ∩ Ac ) iii) e como (B ∩ A) e (B ∩ Ac ) são disjuntos, segue-se que P (B) = P (B ∩ A) + P (B ∩ Ac ). Nota: Se A ⊂ B , então A ∩ B = A e P (B) = P (A) + P (B ∩ Ac ). c) Se A ⊂ B , então P (A) ≤ P (B). PROVA: Sai direto da relação anterior e dos axiomas. d) Se A e B são eventos quaisquer, então P (A ∪ B) = P (A) + P (B) − P (A ∩ B). A A ∩ Bc B A∩ B Ac ∩ B Ω Figura 1.4: (A ∪ B ) como união de conjuntos disjuntos 11 Teoria da Probabilidade Conceitos Básicos e Definições PROVA: i) Os conjuntos (A ∩ B c ), (A ∩ B) e (Ac ∩ B) são disjuntos, logo. → A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B), → P (A ∪ B) = P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B). ii) Tem-se, ainda, que → P (A) = P (A ∩ B c ) + P (A ∩ B) e → P (B) = P (Ac ∩ B) + P (A ∩ B). iii) Somando-se as probabilidades em (ii) obtem-se P (A) + P (B) = P (A ∩ B c ) + P (Ac ∩ B) + P (A ∩ B) + P (A ∩ B), e, de (i) tem-se que P (A) + P (B) = P (A ∪ B) + P (A ∩ B), de onde se conclui que =⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Notas: 1) Da relação (d) segue-se que P (B ∪ A) ≤ P (A) + P (B); 2) Se A e B são disjuntos, então P (B ∪ A) = P (A) + P (B). e) Das propriedades (c) e (d) tem-se P ( n [ Ai ) ≤ i=1 n X P (Ai ). i=1 PROVA: Por indução. g) Das leis de Morgan tem-se que P n [ ! Ai =1−P i=1 g) PARTE 1: Se A1 ⊂ A2 ⊂ . . . e A = i=1 ∞ [ Ai ou i=1 PARTE 2: Se A1 ⊃ A2 ⊃ . . . e A = n \ ∞ \ Ai , i=1 então segue-se que lim P (An ) = P (A). n→∞ PROVA: (PARTE 1) → seja B1 = A1 ; 12 ! Aci . Teoria da Probabilidade Conceitos Básicos e Definições → para n ≥ 2, seja Bn o conjunto de pontos que estão em An mas não estão em An−1 , ou seja Bn = An ∩ Acn−1 ; → os conjuntos Bn , n = 1, 2, . . . são todos mutuamente exclusivos e, ainda n ∞ [ [ An = Bi e A = Bi ; i=1 i=1 → conseqüentemente: n X a) P (An ) = P (Bi ) , i=1 b) P (A) = ∞ X P (Bi ) . i=1 Desta forma, aplicando-se o limite para n → ∞ em (a), tem-se lim P (An ) = n→∞ = lim n X n→∞ ∞ X P (Bi ) i=1 de (b) P (Bi ) = P (A) , i=1 o que completa a prova. PROVA: (PARTE 2) Exercício. → observar que A1 ⊃ A2 ⊃ . . . ⇒ Ac1 ⊂ Ac2 ⊂ . . .. Exemplo: 1) Um dado equilibrado é lançado k = 2 vezes e os resultados anotados. O espaço amostral para o experimento é: Ω = ω = (i, j) ∈ R2 | i = 1, . . . 6 e j = 1, . . . , 6 Sejam: A = classe de todos os subconjuntos de Ω e P = probabilidade uniforme para todos os pontos de Ω, ou seja, P ({ω}) = 1 . card(Ω) O número de eventos elementares w’s é dado por card(Ω) = nk , em que → n total de resultados possíveis em uma realização do experimento, no caso n = 6, → k é o número de realizações do experimento, no caso k = 2. Nesse caso, tem-se: card(Ω) = 36 ⇒ P ({ω}) = Considere os eventos: A = a soma dos resultados é um número ímpar; 13 1 , ∀ ω ∈ Ω. 36 Teoria da Probabilidade Conceitos Básicos e Definições B = o resaultado do primeiro lançamento é um número ímpar; C = o produto é um número ímpar. Encontrar P (A ∪ B) e P (A ∪ B ∪ C). Pontos favoráveis a cada um dos eventos: A = { (1,2), (1,4), (1,6), (3,2), (3,4), (3,6), (5,2), (5,4), (5,6), (2,1), (4,1), (6,1), (2,3), (4,3), (6,3), (2,5), (4,5), (6,5) }; B = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6) }; C = { (1,1), (1,3), (1,5), (3,1), (3,3), (3,5), (5,1), (5,3), (5,5) }. Resultados: I card(A) = 18 =⇒ P (A) = 1 18 = ; 36 2 I card(B) = 18 =⇒ P (B) = 1 18 = ; 36 2 I card(C) = 9 =⇒ P (C) = 9 1 = . 36 4 Intersecções: i) A ∩ B = { (1,2), (1,4), (1,6), (3,2), (3,4), (3,6), (5,2), (5,4), (5,6) } ⇒ P (A ∩ B) = 1 ; 4 ii) A ∩ C = { ∅ } ⇒ P (A ∩ C) = 0; iii) como C ⊂ B , segue-se que B ∩ C = C, ⇒ P (B ∩ C) = P (C) = 1 ; 4 iv) de (ii), tem-se que A ∩ B ∩ C = { ∅ } ⇒ P (A ∩ B ∩ C) = 0; Da propriedade (d), tem-se que: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 1 1 1 3 + − = 2 2 4 4 Para encontrar P (A ∪ B ∪ C) utiliza-se, ainda, a propriedade (d) fazendo: P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C] = P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C] = P (A) + P (B) − P (A ∩ B) + P (C) − P [(A ∩ B) ∪ (B ∩ C)] = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) 1 1 1 1 1 3 + + − − = = 2 2 4 4 4 4 14 Teoria da Probabilidade Conceitos Básicos e Definições Esse problema pode ser resolvido escolhendo-se um outro espaço amostral. O lançamento de um dado pode ser representado por p se o resultado for par e por i se o resultado for ímpar. Assim sendo, o novo espaço amostral pode ser escrito por: Ω1 = { (p, p), (p, i), (i, p), (i, i) } Como o espaço amostral original Ω é um espaço equiprovável, é fácil verificar que: 1 P [(p, p)] = P [(p, i)] = P [(i, p)] = P [(i, i)] = . 4 Pontos favoráveis a cada um dos eventos: A = {(p, i), (i, p)} =⇒ P (A) = 2 1 = ; 4 2 B = {(p, i), (i, i)} =⇒ P (B) = 2 1 = ; 4 2 1 C = {(i, i)} =⇒ P (C) = . 4 1.5 Probabilidade condicional e teorema de Bayes Em muitas situações, conhecimentos passados podem influenciar as probabilidades dos eventos. Por exemplo, a probabilidade de chuva num determinado dia pode ser influenciada se choveu no dia anterior. Sejam A e B eventos quaisquer associados ao espaço de probabilidade (Ω, A , P ), então, para todo ω ∈ Ω, → se ω ∈ B , então ω ∈ A ⇐⇒ ω ∈ (A ∩ B). Em outras palavras, sabendo que o evento B ocorreu, então, o evento A ocorre se, e só se, ocorre a intersecção A ∩ B . Nesse caso, tem-se um novo espaço amostral dado pelo evento B , uma nova σ -álgebra AB e uma nova medida de probabilidade PB , aplicada em subconjuntos de AB , satisfazendo os axiomas de Kolmogorov PB = P (A ∩ B) . P (B) Portanto, (B , AB e PB ) formam um novo espaço de probabilidade. Prova: A prova fica como exercício para o leitor. 15 Teoria da Probabilidade Conceitos Básicos e Definições Esquematicamente: A A∩ B B Ω Figura 1.5: Evento condicional. 1.5.1 Probabilidade condicional Sejam os eventos A e B tais que P (B) > 0, então, define-se a probabilidade condicional de B dado que ocorreu A por P (A|B) = P (A ∩ B) . P (B) Notas: 1) Se P (B) = 0 =⇒ P (A|B) = P (A) (Magalhães, 2004); 2) Da definição de probabilidade condicional tem-se a relação P (A∩B) = P (A|B)P (B), conhecida como regra do produto das probabilidades. Exemplo 1) Uma caixa comtém r bolas vermelhas numeradas de 1 a r e b bolas brancas, numeradas de 1 a b. Uma bola é extraída, sua cor observada. Sabendo que a bola é vermelha, qual a probabilidade de que seja a de número 1? A caixa contém (r + b) bolas logo, a probabilidade de uma bola qualquer é Censidere os eventos: A = { a bola extraída é vermelha }, logo, P (A) = r (r + b) B = { a bola extraída é a de número 1 }, logo, P (B) = 16 2 (r + b) 1 . (r + b) Teoria da Probabilidade Como P (B ∩ A) = Conceitos Básicos e Definições 1 , então, (r + b) P (B|A) = 1/(r + b) 1 P (B ∩ A) = = . P (A) r/(r + b) r Exemplo 2) Duas moedas idênticas são lançadas. Determine: a) A probabilidade de se obter 2 caras sabendo que se obteve cara na primeira moeda. Espaço amostral =⇒ Ω = {(c, c); (c, c̄); (c̄, c); (c̄, c̄)}, em que c = cara e c̄ = coroa. Sejam os eventos: C1 = { cara na 1a moeda } 2 P (C1 ) = P [(c, c); (c, c̄)] = ; 4 2 P (C2 ) = P [(c, c); (c̄, c)] = . 4 =⇒ C2 = { cara na 2a moeda } =⇒ Como P (C2 ∩ C1 ) = P [(c, c)] = 1 , 4 logo, P (C2 |C1 ) = P (C2 ∩ C1 ) P [(c, c)] 1/4 1 = = = . P (C1 ) P [(c, c); (c, c̄)] 2/4 2 b) A probabilidade de se obter 2 caras sabendo que se obteve pelo menos uma cara. Neste caso os eventos são definidos por: =⇒ {sair duas caras} = C1 ∩ C2 ; =⇒ {sair ao menos um cara} = C1 ∪ C2 ; Desta forma: P (C1 ∩ C2 |C1 ∪ C2 ) = P (C1 ∩ C2 ) P [(c, c)] 1/4 1 = = = . P (C1 ∪ C2 ) P [(c, c); (c, c̄); (c̄, c)] 3/4 3 Exemplo 3) (Urna de Polya) Uma caixa comtém r bolas vermelhas e b bolas brancas. Uma bola é extraída, sua cor observada e, a seguir, a bola é recolocada na caixa com mais c > 0 bolas da mesma cor. Esse procedimento é repetido m vezes. O interesse aqui consiste em saber qual a probabilidade de se extrair uma bola vermelha (ou branca) em cada uma das m retiradas. 17 Teoria da Probabilidade Conceitos Básicos e Definições Sejam: i) Rj : a j -ésima bola retirada é vermelha; ii) Bj : a j -ésima bola retirada é branca, 1 ≤ j ≤ m. Então: ⇒ Rj e Bj são disjuntos e ⇒ na j -ésima extração tem-se [b + r + (j − 1) c] bolas na urna. Para j = 1: i) P (R1 ) = r , b+r ii) P (B1 ) = b . b+r Para j = 2: i) P (R2 |R1 ) = (r + c) ; (b + r + c) ii) P (R1 R2 ) = P (R1 )P (R2 |R1 ); ⇒ P (R1 R2 ) = (r + c) r . (b + r) (b + r + c) De maneira análoga, ⇒ P (B1 R2 ) = b r . (b + r) (b + r + c) Logo, a probabilidade de que se extraia uma bola vermelha na segunda retirada é: P (R2 ) = P (R1 R2 ) + P (B1 R2 ) r r+c b r = + b+r b+r+c b+r b+r+c r r+c b = + b+r b+r+c b+r+c r r+c+b = b+r b+r+c r = b+r Portanto: 18 Teoria da Probabilidade Conceitos Básicos e Definições i) P (R2 ) = P (R1 ) = r , b+r ii) P (B2 ) = P (B1 ) = b . b+r Para j = 3: Qual a probabilidade de vermelha na 3a extração? Possibilidades: i) R1 R2 R3 ⇒ P (R1 R2 R3 ) = P (R3 |R1 R2 )P (R2 |R1 )P (R1 ); ii) R1 B2 R3 ⇒ P (R1 B2 R3 ) = P (R3 |R1 B2 )P (B2 |R1 )P (R1 ); iii) B1 R2 R3 ⇒ P (B1 R2 R3 ) = P (R3 |B1 R2 )P (R2 |B1 )P (B1 ); iv) B1 B2 R3 ⇒ P (B1 B2 R3 ) = P (R3 |B1 B2 )P (B2 |B1 )P (B1 ). Com um pouco de esforço algébrico obtêm-se: i) P (R3 ) = P (R1 ) = r , b+r ii) P (B3 ) = P (B1 ) = b . b+r Enfim, pode-se provar por indução que, P (Rj ) = P (R1 ) e P (Bj ) = P (B1 ), ∀ 1 ≤ j ≤ m. 1.5.2 Teorema de Bayes Sejam os eventos E1 , E2 , . . . , Em em (Ω, A , P ) formando uma partição em Ω tal que todos têm probabilidades positivas, ou seja, P (Ei ) > 0, ∀ i = 1, 2, . . . , m. Considere, ainda, um evento A qualquer, P (A) > 0, ocorrendo sobre a partição de Ω. O objetivo, nesta situação, consiste em determinar a probabilidade de ocorrência de uma das partes de Ω dado que ocorreu o evento A, ou seja, P (Ek |A), k = 1, 2, . . . , m. Cmo pode-se observar pela Figura (1.6), o evento A pode ser escrito como união de partes disjuntas, formadas pela intersecção de A com as partes de Ω, ou seja A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) ∪ (A ∩ E4 ) ∪ (A ∩ E5 ) ∪ (A ∩ E6 ) = 6 [ (A ∩ Ei ) i=1 19 Teoria da Probabilidade Conceitos Básicos e Definições Figura 1.6: Ocorrência de um evento A sobre uma partição de Ω com m = 6. Para um m qualquer, A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ . . . ∪ (A ∩ Em ) = m [ (A ∩ Ei ), i=1 logo, a probabilidade do evento A é dada por P (A) = P "m [ # (A ∩ Ei ) = i=1 m X P (A ∩ Ei ). i=1 Pela regra do produto, tem-se que P (A) = P "m [ # (A ∩ Ei ) = i=1 m X P (A|Ei )P (Ei ). i=1 O resultado acima é conhecido como lei da probabilidade total. Para um Ek qualquer, k = 1, 2, . . . , m, pode-se escrever P (A ∩ Ek ) = P (A|Ek )P (Ek ), logo, a probabilidade de ocorrência de Ek dado que ocorreu A, é dada por: P (Ek |A) = P (Ek |A) = P (Ek ∩ A) P (A) P (A|Ek )P (Ek ) m X , k = 1, 2, . . . , m, (1.1) P (A|Ei )P (Ei ) i=1 o resultado em (1.1) é conhecido como teorema de Bayes. Foi obtido pelo Reverendo Thomas Bayes e publicado em 1763, sendo um dos teoremas mais importantes da teoria estatística. Exemplo 1) Numa população adulta 40% são homens e 60% mulheres. Sabe-se, ainda, que 50% dos homens e 30% das mulheres são fumantes. Determine: 20 Teoria da Probabilidade Conceitos Básicos e Definições a) A probabilidade de que uma pessoa escolhida ao acaso nesta população seja fumante. Partição do espaço amostral =⇒ sexo = {H, M }. Sejam os eventos: H = { a pessoa escolhida é do sexo masculino (homem) } M = { a pessoa escolhida é do sexo feminino (mulher) } =⇒ =⇒ P (H) = 0.40; P (M ) = 0.60; F = { a pessoa escolhida é fumante }; F c = { a pessoa escolhida não é fumante }. Como P (F |H) = 0.50 e P (F |M ) = 0.30, então, pela regra da probabilidade total: P (F ) = P (F ∩ H) + P (F ∩ M ) P (F ) = P (F |H)P (H) + P (F |M )P (M ) P (F ) = 0.50 · 0.40 + 0.30 · 0.60 P (F ) = 0.38 b) A probabilidade de que seja um homem sabendo que é um fumante. Pelo teorema de Bayes, tem-se a relação: P (H|F ) = P (H ∩ F ) P (F ) P (H|F ) = P (F |H)P (H) P (F ) P (H|F ) = 0.20 0.38 P (H|F ) = 0.5263, portanto, a probabilidade de ser um homem dado que é fumante é de 0.5263. Uma forma conveniente para se representar as probabilidades acima é através da ”arvore de probabilidades”, nas quais representamos as probabilidades das partes e probabilidades condicionais em ramos, conforme Figura (1.7). Nesse esquema, as probabilidades conjuntas (das intersecções) são obtidas percorrendo-se os ramos e multiplicando-se as probabilidades. 21 Teoria da Probabilidade Conceitos Básicos e Definições Figura 1.7: Diagrama de árvore para o exemplo (1). Exemplo 2) Sabe-se que numa população 8% das pessoas são infectadas por um vírus causador de uma doença muito grave. Um teste para detecção do vírus é eficiente em 99% dos casos nos quais os indivíduos são infectados, mas resulta em 2% de resultados positivos para os não infectados (falsos positivos). Se o teste de uma pessoa dessa população der resultado positivo, qual a probabilidade de que ela seja da fato infectada? Defindo-se: I ⇒ grupo das pessoas infectadas; I c ⇒ grupo dos não infectados; T + ⇒ o resultado do teste é positivo; T − ⇒ o resultado do teste é negativo; tem-se as probabilidades: P (I) = 0.08; P (I c ) = 0.92; P (T + |I) = 0.99 e P (T + |I c ) = 0.02. Porém, deseja-se calcular a probabilidade: P (I|T + ) que pela regra da probabilidade condicional é dada por P (I|T + ) = P (I ∩ T + ) . P (T + ) As probabilidades podem ser representadas na seguinte tabela: Tabela 1.1: Probabilidades Resultado do teste − + T T + I P (I ∩ T ) P (I ∩ T − ) Ic P (I c ∩ T + ) P (I c ∩ T − ) Totais das colunas P (T + ) P (T − ) Grupo 22 Totais das linhas 0.08 0.92 1.00 Teoria da Probabilidade Conceitos Básicos e Definições Pela regra do produto e pela lei da probabilidade total, encontra-se P (T + ) de: P (T + ) = P (I ∩ T + ) + P (I c ∩ T + ) = P (T + |I)P (I) + P (T + |I c )P (I c ) = 0.99 · 0.08 + 0.02 · 0.92 = 0.0792 + 0.0184 = 0.0976 e, pelo teorema de Bayes, tem-se P (I|T + ) = P (T + |I)P (I) 0.0792 = = 0.8115. + P (T ) 0.0976 Qual seria a confiança no teste se o resultado fosse negativo, ou seja, qual a probabilidade de o teste sendo negativo a pessoa de fato não seja infectada? Deseja-se: P (I c |T − ) = P (I c ∩ T − ) . P (T − ) Como: P (T − ) = P (I ∩ T − ) + P (I c ∩ T − ) = 0.01 · 0.08 + 0.98 · 0.92 = 0.9024, então, P (I c |T − ) = P (T − |I c )P (I c ) 0.9016 = = 0.9991, − P (T ) 0.9024 portanto, se o teste for negativo a pessoa pode se sentir segura. Na Figura (1.8) é apresentada o diagrama de árvore para o resultado acima. Figura 1.8: Diagrama de árvore para o exemplo (2). 23 Teoria da Probabilidade 1.5.3 Conceitos Básicos e Definições Independência de eventos Sejam o espaço de probabilidade (Ω, A , P ) e sejam os eventos A e B ∈ A , tal que P (B) > 0. Pela regra da multiplicação pode-se escrever P (A ∩ B) = P (A|B) P (B). Em alguns casos, no entanto, informações prévias a respeito do evento B não afetam a probabilidade de ocorrência de A, isto é, a probabilidade concicional de A dado B é igual à P (A), ou seja P (A|B) = P (A). Definição: Sejam dois eventos A e B , com probabilidades maiores do que zero, tais que a ocorrência de um deles não altera a probabilidade de ocorrência do segundo, então, esses eventos são ditos indepententes. Da regra da multiplicação das probabilidades, portanto, se dois eventos A e B são independentes então a probabilidade de ocorrência conjunta dos dois é dada pelo produto das probabilidades individuais, ou seja, P (A ∩ B) = P (A) P (B). Seja A1 , A2 , . . . , Ak , k eventos independentes, então, de (1.2) P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 ) · P (A2 ) · . . . · P (Ak ) Exemplo 1) Duas moedas idênticas são lançadas separadamente. Ω = {(c, c); (c, c̄); (c̄, c); (c̄, c̄)}, em que c = cara e c̄ = coroa. Sejam os eventos: =⇒ 1 P (A) = P [(c, c); (c̄, c)] = ; 2 B = { cara no 1º lançamento } =⇒ 1 P (B) = P [(c, c); (c, c̄)] = . 2 A = { cara no 2º lançamento } Determine P (A|B). P (A|B) = P (A ∩ B) 1/4 1 = = = P (A). P (B) 1/2 2 24 (1.2) Teoria da Probabilidade Conceitos Básicos e Definições Portanto, conclui-se que A e B são independentes, ou seja, a ocorrência de cara no primeiro lançamento não altera a probabilidade de que saia cara no segundo lançamento. Propriedades de independência: a) Seja um evento A tal que P (A) = 0, então A é independente de todo evento E ∈ A , em que P (E) > 0; Prova: Se P (A) = 0 =⇒ P (E ∩ A) = P (E|A)P (A) = 0 = P (E) · P (A), ∀ E∈A b) Se A ∈ A é um evento qualquer tal que P (A) > 0, então A é independente de ∅ e Ω; Prova: i) A prova de que A e ∅ são independentes sai direto de (a), já que P (∅) = 0; ii) Para a prova de que A e Ω são independentes, considere que A = A ∩ Ω, logo =⇒ P (Ω ∩ A) = P (A) = P (A) · (1) = P (A)P (Ω) c) Se os eventos de A e B forem independentes, então A e B c ; Ac e B ; Ac e B c também o são; Prova: A seguir será apresentada apenas a prova de que A e B c também são independentes. As demais ficam como exerício para o leitor. O evento A pode ser escrito por A = (A ∩ B) ∪ (A ∩ B c ), (A ∩ B) e (A ∩ B c ) disjuntos, logo P (A) = P (A ∩ B) + P (A ∩ B c ) P (A) = P (A)P (B) + P (A ∩ B c ) P (A) − P (A)P (B) = P (A ∩ B c ) P (A)[1 − P (B)] = P (A ∩ B c ) P (A)P (B c ) = P (A ∩ B c ) Definição: Seja A1 , A2 , . . . , Ak , k eventos independentes. Se, para qualquer subconjunto A1 , A2 , . . . , Ar , tal que r ≤ k , os eventos forem independentes, ou seja, P (A1 ∩ A2 ∩ . . . ∩ Ar ) = P (A1 ) · P (A2 ) · . . . · P (Ar ), então A1 , A2 , . . . , Ak são chamados mutuamente independentes. 25 Teoria da Probabilidade Conceitos Básicos e Definições Em outras palavras, os eventos A1 , A2 , . . . , Ak são mutuamente independentes se forem independentes dois-a-dois, três-a-três, e assim por diante . . . Exemplo 2) A probabilidade de que um homem esteja vivo daqui a 10 anos é de 3/4 e de sua esposa, é de 5/6. Qual é a probabilidade de que, daqui a 10 anos: a) Ambos estejam vivos? Considere os eventos: H = { homem vivo daqui a 10 anos } =⇒ P (H) = 3/4 logo P (H c ) = 1/4; M = { mulher viva daqui a 10 anos } =⇒ P (M ) = 5/6 logo P (M c ) = 1/6. Espaço amostral Ω = {HM, HM c , H c M, H c M c } Assumindo independência entre os eventos H e M , a probabilidade de que ambos estejam vivos daqui a 10 anos é dada por P (HM ) = P (H)P (M ) = 5 3 5 · = 4 6 8 b) Ao menos um esteja vivo? Ainda assumindo independência entre H e M , a probabilidade de ao menos um esteja vivo daqui a 10 anos é dada por P (HM, HM c , H c M ) = P (H)P (M ) + P (H)P (M c ) + P (H c )P (M ) P (HM, HM c , H c M ) = 3 5 1 5 3 1 · + · + · 4 6 4 6 4 6 P (HM, HM c , H c M ) = 15 5 3 23 + + = 24 24 24 24 A solução acima é simplificada com a aplicação do evento complementar P (HM ) = 1 − P (H c M c ) = 1 − Exemplo 3) Aplicação em confiabilidade de sistemas. 26 1 1 23 · = 4 6 24 Teoria da Probabilidade Conceitos Básicos e Definições Um sistema de componentes é determinado por um conjunto de itens associados numa dada configuração. As configrações mais simples são os sistemas em série e em paralelo. A associação de ambas as configurações são chamadas de sistemas série-paralelo. Neste sentido, a confiabilidade de um sistema num dado instante t é dada pela probabilidade de que este esteja funcionando normalmente. Considere um componente tal que a probabilidade de que esteja funcionando num instante t dada por p, 0 ≤ p ≤ 1. Dois destes componentes são colocados em funcionamento segundo as configurações abaixo. Assumindo que os componentes funcionem de maneira independente, determine a confiabilidade do sistema em cada um dos casos. Sejam os eventos: S = { o sistema funciona no tempo t } =⇒ Ci = { o componente i funciona no tempo t } confiabilidade do sistema = P (S) =⇒ P (Ci ) = p a) Sistema em série: na configuração em série, o sistema funciona se os dois componentes funcionarem simultaneamente, desta forma P (S) = P (C1 ∩ C2 ) = p2 Figura 1.9: Sistema em série b) Sistema em paralelo: o sistema funciona se pelo menos um dos componentes estiver funcionando, logo P (S) = P (C1 ∪ C2 ) = p + p − p2 = 2p − p2 Figura 1.10: Sistema em paralelo 27 Teoria da Probabilidade Conceitos Básicos e Definições c) Sistema série-paralelo: o sistema série-paralelo, com a configuração dada pela Figura 1.11, funciona se C1 funcionar e, (C2 ou C3 funcionar). Obd: Fica para o leitor mostrar que a confiabilidade deste sistema é dada por P (S) = 2p2 − p3 Figura 1.11: Sistema série-paralelo Exemplo 4) Uma moeda equilibrada é lançada tês vezes. Dê o espaço amostral: i) Ω = {(c, c, c); (c, c, c̄); (c, c̄, c); (c̄, c, c); (c, c̄, c̄); (c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)}, em que c = cara e c̄ = coroa. ii) Verifique se os eventos {ocorrem pelo menos duas caras} e {ocorre coroa no 1º lançamento} são independentes. A = { ocorrem pelo menos duas caras } =⇒ A = {(c, c, c); (c, c, c̄); (c, c̄, c); (c̄, c, c)} B = { ocorre coroa no 1º lançamento } =⇒ A = {(c̄, c, c); (c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)} No lançamento de uma moeda P (c) = P (c̄) = 1/2, logo, os eventos elementares de Ω têm todos probabilidade 1/8. Desta forma, verifica-se facilmente que 1 P (A) = P (B) = . 2 Ainda, A ∩ B = {(c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)} =⇒ 3 P (A ∩ B) = , 8 portanto, P (A|B) = 3/8 3 = 6= P (A)P (B). 1/2 4 Logo, os eventos A e B não são independentes. 28 Teoria da Probabilidade 1.6 Conceitos Básicos e Definições Contagem Considere um espaço amostral finito e equiprovável Ω, no qual cada evento elementar tem probabilidade P ({ωi }) = 1 , card(Ω) i = 1, 2, . . . , card(Ω). Considere um evento A pertencente ao espaço de probabilidade (Ω, A , P ), então, a probabilidade do evento A é definida por P (A) = card(A) card(Ω) Assim sendo, a determinação de P (A) resume-se num problema de contagem do número de elementos de A e de Ω, o que é um procedimento simples quando tanto Ω tem poucos pontos, mas pode ser, trabalhoso, ou até mesmo impraticável, quando o número de pontos é grande (ou mesmo moderado). 1.6.1 Amostras ordenadas Considere dois conjuntos S e U , com m e n elementos, respectivamente. Ao serem selecionados um elemento de cada conjunto, podem-se formar (m × n) duplas do tipo (xi , yj ), i = 1, 2, . . . , m; j = 1, 2, . . . , n, conforme mostra a Figura 1.12. Figura 1.12: Seleção alatória em dois conjuntos finitos. Considere, agora, n conjuntos distintos S1 , S2 , . . . , Sn , de tamanhos s1 , s2 , . . . , sn , respectivamente. Se selecionarmos um elemento de cada conjunto teremos (s1 × s2 × . . . × sn ) n−uplas do tipo (x1 , x2 , . . . , xn ). 29 Teoria da Probabilidade Conceitos Básicos e Definições Se, no entanto, os n conjuntos forem o mesmo conjunto S , com s pontos, então existirão n s n−uplas do tipo (x1 , x2 , . . . , xn ) para as quais xi , i = 1, 2, . . . , n, é um ponto de S . Esta situação, em que o número de elementos de S permanece constante, caracteriza uma ”amostra aleatória com reposição”. Com a condição inicial de que o espaço amostral é equiprovável, todas as sn n−uplas têm igual probabilidade de serem selecionadas, sendo essa probabilidade igual a 1 . sn (1.3) Exemplo 1) Uma moeda equilibrada é lançada n vezes. Determine a probabilidade de se obter ao menos uma cara nos n lançamentos. Nessa situação, o conjunto S é dado por: S = {c, c̄}, sendo que P ({c}) = P ({c̄}) = 1/2. Como s = 2, então, o número de n−uplas possíveis é igual a 2n . Seja o evento de interesse A = { ao menos uma cara nos n lançamentos }. Definindo Ai = { o evento cara no i−ésimo lançamento }, então, A= n [ Ai , i=1 cuja probabilidade é dada por: P (A) = 1 − P (Ac ) " P (A) = 1 − P n [ !c # Ai i=1 Das leis de Morgan, tem-se que P (A) = 1 − P n \ ! Aci i=1 P (A) = 1 − n Y P (Aci ) i=1 Portanto, a probabilidade desejada é dada por: n 1 . P (A) = 1 − 2 30 Teoria da Probabilidade Conceitos Básicos e Definições Se, por exemplo, n = 10, P (A) = 1 − 1 1023 = . 1024 1024 Considere, agora, o conjunto S , contendo s elementos distintos, sendo que o elemento escolhido não é recolocado no conjunto após a seleção. Neste caso, a amostra alatória é do tipo ”sem reposição”. Repetindo o procedimento n vezes, o número de n−uplas possíveis, sem que nenhum xi , i = 1, 2, . . . , n, seja repetido, é dado por: As,n = s × (s − 1) × . . . × (s − n + 1), (1.4) sendo que a quantidade As,n representa um arranjo de s elementos tomados n-a-n. Exemplo 2) Seja um conjunto S com s elementos distintos. Considerendo uma amostragem aleatória com reposição, qual a probabilidade de que nenhum elemento de S apareça repetido na amostra. Seja o evento E = { nenhum elemento repetido na amostra }, então P (A) = total de amostras para as quais nenhum elemento apareça repetido . total de amostras possíveis Desta forma, de (1.3) e (1.4), temos que a probabilidade acima é dada por P (E) = As,n s(s − 1) . . . (s − n + 1) = n s sn (s − n + 1) s (s − 1) ... s s s 1 2 n−1 P (E) = 1− 1− ... 1 − s s s P (E) = P (E) = n−1 Y k=1 k 1− s . (1.5) Como na maioria das situações práticas o número de elementos do conjunto S (ou ”população”) é muito grande, calculando o limite em (1.5), tem-se "n−1 # Y k 1− lim P (E) = lim = 1, s→∞ s→∞ s k=1 ou seja, quando as populações são muito grandes, as amostras aleatórias “com” e “sem” 31 Teoria da Probabilidade Conceitos Básicos e Definições reposição se equivalem. Exemplo 3) Qual a probabilidade de que, num grupo com n pessoas, não existam duas com aniversário na mesma data? (este problema é muito popular, sendo conhecido como “problema dos aniversários”) Seja: S = {1, 2, 3, . . . , 365}, então S é definido como sendo os dias do ano e, s = 365. Considerando que uma data de nascimento é uma seleção aleatória de um elemento de S , então, para E = { nenhuma coincidência de datas de aniversário no grupo }: P (E) = n−1 Y k=1 k 1− 365 . Por exemplo, para um grupo de n = 4 pessoas P (E) = 1 1− 365 2 3 1− 1− = 0.9836. 365 365 Desta forma, a probabilidade de que, num grupo de quatro pessoas, pelo duas delas façam aniversário na mesma data, é de 1 − 0.9836 = 0.0164. 1.6.2 Permutações Considere n caixas e n bolas distintas, numeradas de 1 a n. De quantas meneiras diferentes podem-se colocar as n bolas nas n caixas, de modo que cada caixa contenha exatamente 1 bola? O número de bolas possíveis para se colocar na primeira caixa é n, na segunda caixa é (n − 1), na terceira (n − 2), e assim por diante, sendo que, para a n−ésima caixa, só restará uma bola. O número de possibilidade, assim definido, é dado pela permutação das n bolas Pn = n (n − 1) (n − 2) . . . 1 = n! Na permutação, uma número n de objetos ou items são reorganizados em n posições distintas, tal que, cada posição seja ocupada por apenas um item. Assim sendo, uma compsição específica de bolas nas caixas tem probabilidade de ocorrência 1 1 = Pn n! 32 Teoria da Probabilidade Conceitos Básicos e Definições Qual é a probabilidade de que a bola i seja colocada na caixa j , i, j = 1, 2, ...n? Fixando uma bola e uma caixa restam (n − 1) bolas para serem permutadas nas (n − 1) caixas, logo, o número de possibilidade tal que a bola i esteja na caixa j é dado por Pn−1 = (n − 1)!. Desta forma, a probabilidade do evento A = { a bola i seja colocada na caixa j } é P (A) = (n − 1)! 1 Pn−1 = = . Pn n! n Por sua vez, a probabilidade de que, permutando-se n bolas em n caixas, exatamente k bolas caiam em k caixa específicas é dada por: Pn−k (n − k)! 1 = = . Pn n! An,k Exemplo 4) Numa festa de final de ano, n = 8 casais concordam em participar de uma brincadeira na qual, todos os casais participantes são separados e novos pares são formados por sorteio para dançarem pelo menos uma música. Qual é a probabilidade de que exatamento 4 casais sejam mantidos, ou seja, 4 garotas fiquem com seus respectivos namorados? Defindo o evento A = { 4 casais sejam mantidos }, então, n = 8 e k = 4, logo P (A) = 1.6.3 (8 − 4)! 1 = = 0.000595. 8! A8,4 Amostras Desordenadas Considere o conjunto S , com s elementos, logo existem As,n amostras distintas de tamanho n, n < s, extraídas sem reposição. Nesta situação, considera-se a ordem das observações na amostra, ou seja, amostras com os elementos em diferentes ordenações são consideradas distintas. Em muitas situações, no entanto, o interesse recai nos elementos da amostras, independente da ordem em que são selecionados. É o caso de amostras desordenadas. Neste sentido, uma amostra sem reposição {x1 , x2 , . . . , xn } pode ser reordenada de n! maneiras diferentes (todas com os mesmos elementos), fato este, que deve ser considerado no momento da contagem. Portanto, dividindo o número de amostras sem reposição pelo total de reordenações, obtem-se o número de amostras possíveis, sem reposição e sem considerar a ordem dos 33 Teoria da Probabilidade Conceitos Básicos e Definições elementos, ou seja, As,n n! Multiplicando-se o numerador e denominador por (s − n)!, tem-se As,n s(s − 1) · · · (s − n + 1) (s − n)! s! = = n! n! (s − n)! n! (s − n)! O termo As,n /n! é conhecido ! como coeficiente binomial ou combinação, podendo ser re- s n presentado por Cs,n ou . Logo, a combinação de s elementos, tomados n-a-n é dada por s n ! = s! , n! (s − n)! n < s. Exemplo Considere a amostra {3, 1, 7}. como n = 3, o número de reordenações dos seus elementos é 3! = 6: {3, 1, 7}, {3, 7, 1}, {1, 3, 7}, {1, 7, 3}, {7, 3, 1} {7, 1, 3} Notas: a) O coeficiente a x ! é bem definido para a ∈ R e x ∈ N, por exemplo, se a = −π e x = 3, então −π 3 ! = −π(−π − 1)(−π − 2) π(π − 1)(π − 2) =− = −11.1497. 3! 6 b) Por definição, 0! = 1 e Aa,0 = 1. c) Para a inteiro positivo, se x > a ou x < 0 p.def. =⇒ a x ! = 0; Exemplo 5) Considere S = {1, 2, . . . , s}, um conjunto finito. Qual a probabilidade de se extrair k < s elementos de S tal que os valores estejam em ordem crescente, ou seja, tal que 1 ≤ x1 < x2 < . . . < xk ≤ s? 34 Teoria da Probabilidade Conceitos Básicos e Definições O número de amostras de tamanho k < n que podem ser retiradas de S tal que não hajam repetições é An,k = n(n − 1) . . . (n − k + 1). Dessas As,k existem k! reordenações, das quais apenas uma contém os valores em sequência. Portanto, a probabilidade desejada é: P (A) = 1 k! = As,k Cs,k Assumindo S = {1, 2, 3, 4, 5}, então s = 5 e k = 3 (amostras de tamamho 3 de um conjunto com 5 elementos). A seguir são apresentadas todas as amostras possíveis, com destaque em negrito para as amostras nas quais os valores estão em ordem crescente. 1 1 2 2 3 3 2 3 1 3 1 2 3 2 3 1 2 1 1 1 2 2 4 4 2 4 1 4 1 2 4 2 4 1 2 1 1 1 2 2 5 5 2 5 1 5 1 2 5 2 5 1 2 1 1 1 3 3 4 4 3 4 1 4 1 3 4 3 4 1 3 1 1 1 3 3 5 5 3 5 1 5 1 3 5 3 5 1 3 1 1 1 4 4 5 5 4 5 1 5 1 4 5 4 5 1 4 1 2 2 3 3 4 4 3 4 2 4 2 3 4 3 4 2 3 2 2 2 3 3 5 5 3 5 2 5 2 3 5 3 5 2 3 2 2 2 4 4 5 5 4 5 2 5 2 4 5 4 5 2 4 2 3 3 4 4 5 5 4 5 3 5 3 4 5 4 5 3 4 3 . Amostras possíveis A5,3 = 60 . Reordenações 3! = 6 . Probabilidade do evento A = { extrair uma amostra de tamanho 3 com os valores em ordem crescente }: P (A) = 6 1 = = 0.10 60 10 Exemplo 6) Qual é a probabilidade de se obter um royal straight flush numa mão de pôquer, antes da troca de cartas? Um royal straight flush é uma sequência com as maiores cartas (A, K, Q, J, 10), sendo todas do mesmo naipe. 35 Teoria da Probabilidade Conceitos Básicos e Definições . Antes da troca de cartas tem-se A52,5 mãos possíveis. . Reordenações: 5! = 120 possibilidades de se obter a mesma mão. . Probabilidade do evento A = { obter a mão (A, K, Q, J, 10) com todas as cartas do mesmo naipe } P (A) = 4 ∼ 4 × 5! = = 1.54 × 10−6 A52,5 C5,5 Fica como exercício para o leitor calcular as probabilidades de se obter as demais mãos no jogo no pôquer (antes da troca das cartas). . Straight flush (cinco cartas do mesmo naipe, em sequência); . Quadra (quatro cartas do mesmo valor); . Full house (uma trinca e um par); . Flush (as cinco cartas do mesmo naipe); . Straight (cinco cartas em sequência, sem consideração de naipes); . Trinca (três cartas do mesmo valor); . Dois pares (pares com cartas de valores distintos); . Par (duas cartas do mesmo valor). Exemplo 7) No jogo da megasena o que mais vantajoso: A = { escolher d = 10 dezenas e jogar todas as combinações possiveis de 6 dezenas } ou B = { fazer 210 jogos distintos de 6 dezenas }? Espaço amostral Ω = {1, 2, 3, . . . , 60} Total de possibilidades com jogos de 6 dezenas: C60,6 = 60! . 54! 6! Total de jogos possíveis de 6 dezenas dentre as d = 10 escolhidas: C10,6 = 10! = 210. 4! 6! Portanto, as chances de se ganhar na megasena são iguais para os dois casos visto que: P (A) = P (B) = 1.6.4 210 ≈ 4.2 × 10−6 C60,6 Partições Seja uma população S , de tamanho s, dividida em k subpopulações S1 , S2 , . . . , Sk com s1 , s2 , . . . , sk elementos, respectivamente. Considerando o caso de amostras desordenadas e sem reposição, a probabilidade de que, numa amostra de tamanho n sejam selecionados exatamente n1 , n2 , . . . , nk elementos 36 Teoria da Probabilidade Conceitos Básicos e Definições de S1 , S2 , . . . , Sk , tal que ni < si , i = 1, 2, . . . , k , é dada por P (n1 , n2 , . . . , nk ) = em que k X si = s e i=1 k X s1 n1 ! s2 n2 ! ··· s n sk nk ! ! , ni = n. i=1 Exemplo 7) Num grupo de com 12 professores e 5 alunos do curso de Estatística, devem ser escolhidas n = 5 pessoas para formar uma comissão para falar com o Reitor. Quantas comissões podem ser formadas de tal forma que, dos escolhidos, 3 sejam professores e 2 sejam alunos? O grupo tem um total de N = 12 + 5 = 17, desta forma, o total de comissões é dado por 17 5 ! = 17! = 6188 comissões. 12! 5! O número de copmissões com exatamente 3 professores e 2 alunos é dado por 12 3 ! 5 2 ! = 2200 comissões com 3 prof. e 2 alunos. Desta forma: P (comissão com 3 professores e 2 alunos) = 12 3 ! 17 5 5 2 ! ! = 2200 = 0.355, 6188 Exemplo 8 - Captura e recaptura) Num lago há uma população de peixes de tamanho N . Uma rede é lançada, m peixes são capturados e marcados, após o que, são devolvidos à água. A rede é lançada uma 2ª vez e um total de n peixes são capturados. Qual é a probabilidade do evento: A = { exatamente x, dentre os n peixes capturados no 2º lançamento, são marcados } 37 Teoria da Probabilidade Conceitos Básicos e Definições Após a primeira captura tem-se N peixes no lago, dos quais m são marcados. Da partição da população desejamos que no segundo lançamento da rede sejam capturados x peixes marcados e (n − x) não marcados, logo P (A) = m x ! N −m n−x ! N n ! (1.6) Uma situação prática envolvendo o problema da captura e recaptura refere-se à estimação do tamanho da população N . Conhecendo m da primeira captura e tendo observado n e x do segundo lançamento da rede, como podemos estimar o tamanho da população de peixes N ? Da inferência estatística tem-se que uma estimativa para o tamanho da população é dada pelo valor de N que maximiza a probabilidade em (1.6). Assumindo, por exemplo, m = 50 e n = 30, qual é a probabilidade de que exatamente x peixes do segundo lançamento da rede sejam marcados? P (A) = 50 x ! N − 50 30 − x ! N 30 ! . (1.7) Portanto, dado o número de peixes marcados na segunda captura, ou seja, dado x, o tamanho da população de peixes no lago é estimado pelo valor de N que maximiza (1.7). Simplificando ainda mais, considere m = 10 e n = 5. A probabilidade de que x = 1 peixe do segundo lançamento da rede seja marcado é P (A) = 10 1 ! 38 N − 10 4 ! N 5 ! . Teoria da Probabilidade Conceitos Básicos e Definições Com um pouco de álgebra, obtem-se P (A) = 50(N − 10)(N − 11)(N − 12)(N − 13) , N (N − 1)(N − 2)(N − 3)(N − 4) N > 13. A seguir são apresentados a tabela com os cálculos para a obtenção de N e a curva com o valor de P (A) versus N . Pelos valores apresentados, verifica-se que valor de N pode ser estimatido em N = 49 ou N = 50. N P (A) 14 0.0050 20 0.1354 30 0.3400 40 0.4165 48 0.4311 49 0.4313 50 0.4313 51 0.4311 60 0.4217 80 0.3814 100 0.3394 120 0.3029 Exemplo 9 - Jogo da Megasena) Retomando o problema da megasena, considere que o apostador escolha um número d de dezenas e aposte todos os jogos possíveis com 6 dezenas. Se o apostador conseguir acertar as 6 dezenas sorteadas, além de ganhar na sena, de quebra, ele consegue algumas quinas e quadras. Quantas quinas e quadras o apostador consegue ao acertar as seis dezenas sorteadas? De maneira geral, apostando nos Cd,6 jogos possíveis e acertando as 6 dezenas sorteadas, tem-se 39 Teoria da Probabilidade Conceitos Básicos e Definições . ou seja, são 6 dezenas sorteadas, dentre as d escolhidas e (d − 6) não sorteadas; . Q acertos dentre as 6 dezenas sorteadas e (6 − Q) erros, dentre as dezenas não sorteadas; ! 6 Q d−6 6−Q ! (1.8) . se o apostador acertar as 6 dezenas, então Q = 6 e o número de senas é igual a 6 6 ! d−6 6−6 ! = 6 6 ! d−6 0 ! =1 Este resultado é óbvio, uma vez que o procedimento de escolha implica a inexistência de repetições, logo, haverá apenas um jogo de seis dezenas coincidindo com as dezenas sorteadas. Mas, acertando a sena, quantas quinas e quadras são, também, obtidas? O raciocínio é o mesmo que no caso anterior, isto é, tendo feito a sena, sendo Q acertos dentre as 6 dezenas sorteadas e (6 − Q) erros dentre as não sorteadas, então . fazendo Q = 5, o número de quinas obtidas é dado por 6 5 ! d−6 6−5 ! 6 5 = ! d−6 1 ! = 6(d − 6), d > 6 . da mesma forma, para Q = 4, o número de quadras é 6 4 ! d−6 6−4 ! = 6 4 ! d−6 2 ! = 15 (d − 6)(d − 7) , d > 6. 2 . Se d = 10, como no exercício anterior, então, além de ganhar na megasena, o apostador conseguirá 6 5 ! 6 4 ! 4 1 ! 4 2 ! = 24 quinas e = 90 quadras Pode-se generalizar o resultado em (1.8) para os casos em que o apostador acerte 5 dezenas (faz a quina) ou apenas 4 dezenas (faz a quadra). Desta forma, substituindo-se os 40 Teoria da Probabilidade Conceitos Básicos e Definições valores 6 na primeira linha de (1.8) por 5 e 4, respectivamente, pode-se calcular o número de quinas e quadras, possíveis, para as duas situações. i) Se o apostador acertar 5 das dezenas sorteadas: 5 Q ! d−5 6−Q ! . com Q = 5, serão (d − 5) quinas, d > 6, . com Q = 4, o número de quadras é igual a 5(d − 5)(d − 6) , d > 6. 2 ii) Acertando-se 4 dezenas: 4 Q . com Q = 4, consegue-se ! d−4 6−Q ! (d − 4)(d − 5) , quadras d > 6. 2 Na Tabela 1.2 são apresentados os números de senas, quinas e quadras se acertar 6, 5 ou 4 dezenas, dentre as d escolhidas, com todas as Cd,6 apostas possíveis. Tabela 1.2: Número de senas, quinas e quadras na megasena nos jogos com d dezenas escolhidas e combinadas. Dezenas Acertos número apostadas 6 5 4 de d senas quinas quadras quinas quadras quadras jogos 6 1 0 0 1 0 1 1 7 1 6 0 2 5 3 7 1 12 15 3 15 6 28 8 9 1 18 45 4 30 10 84 10 1 24 90 5 50 15 210 11 1 30 150 6 75 21 462 12 1 36 225 7 105 28 924 13 1 42 315 8 140 36 1716 14 1 48 420 9 180 45 3003 15 1 54 540 10 225 55 5005 41 Teoria da Probabilidade 2 Variáveis Aleatórias Variáveis Aleatórias Dado um fenômeno aleatório, definido num espaço de probabilidade (Ω, A , P ), tem-se o interesse em conhecer a estrutura probabilística de quantidades associadas a esse fenômeno. Para isso, se faz necessário a introdução do conceito de variável aleatória e a especificação de modelos para tais variáveis. Definição 2.1. Seja o espaço de probabilidade (Ω, A , P ), então, define-se por variável aleatória, ou simplesmente v.a., qualquer função X : Ω → R tal que: X −1 n o (Ω) = ω ∈ Ω : X(ω) ∈ I ∈ A , para todo intervalo I ⊂ R. Uma variável aleatória é uma função que leva os elementos do espaço amostral Ω a um subconjunto dos reais R (Figura 2.1). Figura 2.1: Variável aleatória X : Ω → R. Exemplo 2.1. As variáveis aleatórias são classificadas em dois tipos: i) VA discreta: é aquela para a qual o conjunto I é um conjunto finito ou infinito enumerável, por exemplo: n o a) I = 1, 2, 3, 4, 5, 6 ; 42 Teoria da Probabilidade Variáveis Aleatórias n o b) I = N = 0, 1, 2, 3, 4, ... . ii) VA contínua: é aquela para a qual o conjunto I é um conjunto infinito não enumerável, ou seja, é uma v.a. que assume valores em intervalos de números reais, por exemplo: a) I = R = (−∞, ∞); b) I = [0, 1] ⊂ R. Notas: a) Para v.a.’s contínuas, a função que normalmente associa pontos de Ω ao conjunto I ⊆ R, é a função identidade; b) Para v.a.’s discretas, a função que normalmente associa pontos de Ω ao conjunto I ⊆ R, é uma contagem ou soma. 2.1 Variáveis Aleatórias Discretas X é uma v.a. discreta, num espaço de probabilidade (Ω, A , P ), é uma n função com doo mínio em Ω e cujo contradomínio é um conjunto finito ou infinito enumerável x1 , x2 , x3 , . . . n o dos números reais R, tal que, ω ∈ Ω : X(ω) = xi é um evento para todo i e, portanto, pode-se calcular a sua probabilidade de ocorrência h i P {ω ∈ Ω : X(ω) = xi } , i = 1, 2, 3, . . . . Notas: n o n o a) Por simplicidade, representamos o evento ω ∈ Ω : X(ω) = xi por X = xi e as probabilidades são simplificadas por: h i P {ω ∈ Ω : X(ω) = xi } = P (X = xi ) n o ∗ b) Se x ∈ / I, então ω ∈ Ω : X(ω) = x = ∅, que também é um evento. Nesse caso, ∗ P h ω ∈ Ω : X(ω) = x 43 ∗ i = P (X = x∗ ) = 0 Teoria da Probabilidade Variáveis Aleatórias c) Se o conjunto I de possíveis valores de uma v.a. discreta X é formado por valores inteiros, ou inteiros não negativos, então, X é uma v.a. inteira, ou uma v.a. interia não negativa. A maioria das v.a.’s discretas são inteiras não negativas. Definição 2.2. Função de probabilidade de uma v.a. discreta X é uma função p(x) que atribui probabilidade a cada um dosnpossíveis valores o de X . Seja X assumindo valores I = x1 , x2 , x3 , . . . , então, para todo x ∈ I p(x) = P (X = x). Propriedades: A função p(x) de X em (Ω, A , P ) satisfaz: a) 0 ≤ p(xi ) ≤ 1, ∀ xi ∈ I; b) X p(xi ) = 1. i Prova: a) Como p(x) é uma medida de probabilidade, por definição, 0 ≤ p(x) ≤ 1; o n b) Como, por definição, os eventos w ∈ Ω : X(ω) = xi , i = 1, 2, . . . são disjuntos, então X i p(xi ) = X P (X = xi ) i =P " [n w ∈ Ω : X(ω) = xi # o i = P (Ω) = 1. Definição 2.3. Função de distribuição, também chamada de função de distribuição acumulada (fda) de uma v.a. discreta X é uma função F (x) que retorna a probabilidade de X assumir valores até o ponto x. n o Seja X assumindo valores I = x1 , x2 , x3 , . . . , então, para todo x ∈ I F (x) = P (X ≤ x). Propriedades: F (x) apresenta as propriedades: 44 Teoria da Probabilidade Variáveis Aleatórias a) F (x) é uma função do tipo escada, ou seja, para os pontos xi , xi+1 ∈ I e x tal que xi ≤ x < xi+1 , F (x) = F (xi ), isto é, F (x) é constante no intervalo [xi , xi+1 ) (ver Figura 2.2). b) Dada F (x), para xa e xb ∈ I, tal que xa < xb , P (xa < X ≤ xb ) = F (xb ) − F (xa ). Desta forma, para um valor qualquer xi ∈ I, tem-se p(xi ) = F (xi ) − F (xi−1 ), ou seja, a probabilidade num ponto xi é dada pela altura do “degrau” em F (xi ). Exemplo 2.2. Seja a v.a. X discreta, com distribuição de probabilidade dada por: x p(x) F (x) 0 1 2 3 4 5 0.15 0.28 0.26 0.18 0.08 0.05 0.15 0.43 0.69 0.87 0.95 1.00 Assim, temos: a) p(3) = P (X = 3) = 0.18; b) F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.69; c) P (1 ≤ X < 5) = P (0 < X ≤ 4) = F (4) − F (0) = 0.80, Ainda: P (1 ≤ X < 5) = 4 X P (X = x) = 0.28 + 0.26 + 0.18 + 0.08 = 0.80; x=1 d) P (2 ≤ X ≤ 4) = F (4) − F (1) = 0.52. Exemplo 2.3. Considere 2 lançamentos independentes de uma moeda n equilibrada. oDefinindo X como sendo o número de caras nos 2 lançamentos, temos Ω = Logo: 45 cc; cc̄; c̄c; c̄c̄ . Teoria da Probabilidade Variáveis Aleatórias h i p(0) = P { c̄c̄ } X( c̄c̄ ) = 0 = 1/4 h i p(1) = P { cc̄ } ∪ { c̄c } X( cc̄ ) = X( c̄c ) = 1 = 1/2 i p(2) = P { cc } X( cc ) = 2 = 1/4 h Portanto, a função de probabilidade de X , é dada por: x p(x) 0 1/4 1 1/2 2 1/4 A função de distribuição da v.a. X , é dada por: 0, 1/4, F (x) = 3/4, 1, x < 0; 0 ≤ x < 1; 1 ≤ x < 2; x ≥ 2. Figura 2.2: Função distribuição acumulada da v.a. X Exemplo 2.4. Seja uma v.a. X assumindo os valores { 3, 4, 5, 6 }. Obter k ∈ R de modo que p(x) seja uma função de probabilidade: p(x) = k (x − 2)2 46 Teoria da Probabilidade Variáveis Aleatórias Das propriedades da função de probabilidade, X p(x) = 1, portanto: x k [(3 − 2)2 + (4 − 2)2 + (5 − 2)2 + (6 − 2)2 ] =1 k [1 + 22 + 32 + 42 ] =1 30k =1 1 k= . 30 (x − 2)2 , x ∈ {3, 4, 5, 6}. Desta forma, a função de probabilidade de X é dada por p(x) = 30 Exemplo 2.5. Considere o jogo no qual um alvo circular de raio 1 é dividido em n regiões anelares concêntricas de raio 1/n, 2/n, . . . , 1. Lança-se um dardo ao acaso e, se ele atingir a região Ai , delimitada pelos raios (i − 1)/n e i/n, i = 1, 2, . . . , n, ganha-se (n − i) reais (ver Figura 2.3) An 0 An−1 1 R=1 A2 n − 2 A1 n−1 Figura 2.3: Regiões anelares identificadas em vermelho e ganho obtido em azul. Seja a v.a. X = importância ganha em um lançamento, obtenha a função de probabilidade de X . Aqui, o espaço de probabilidade (Ω, A , P ) é o espaço uniforme sobre o disco de raio 1. X é uma v.a. discreta definida neste espaço, assumindo os valores {0, 1, 2, . . . , n − 1}. Ainda, Ai = {X = n − i} é um evento que ocorre se, e só se, o dardo atinge a região delimitada pelos círculos de raios (i − 1)/n e i/n. 47 Teoria da Probabilidade Variáveis Aleatórias A probabilidade para o evento Ai são dadas por: P (X = n − i) = área de Ai área total 2 2 i−1 i −π π n n P (X = n − i) = π P (X = n − i) = i2 − (i2 − 2i + 1) n2 P (X = n − i) = 2i − 1 , n2 i = 1, 2, . . . , n. Com x = n − i, então, a função de probabilidade de X é: 2(n − x) − 1 , x ∈ {0, 1, 2, . . . , (n − 1)} n2 p(x) = 0, c.c. Com p(x) assim definida: i) Certifique-se de que p(x) é de fato uma função de probabilidade; ii) Calcule a probabilidade de se acertar a região mais central do alvo (mosca). 2.2 2.2.1 Principais modelos de discretos Variável Aleatória Constante Seja uma v.a. X que associa um único valor k ∈ R para todo ω ∈ Ω. Então {ω ∈ Ω | X(ω) = k} é todo o espaço amostral Ω e, X(ω) = k é uma v.a. discreta com função de probabilidade: ( p(x) = 1, x = k 0, x = 6 k. A função de probabilidade de uma v.a. é também chamada de degenerada em k e sua 48 Teoria da Probabilidade Variáveis Aleatórias função de distribuição é dada por ( F (x) = 0, x < k 1, x ≥ k. Na Figura (2.4) são apresentadas as funções de probabilidade p(x) e de distribuição F (x) 1 ● p(x) F(x) 1 para o modelo degenerado num ponto. ● k k X X Figura 2.4: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo degenerado num ponto 2.2.2 Distribuição uniforme discreta Considere a v.a. X assumindo valores em I = {x1 , x2 , . . . , xn }. X tem distribuição uniforme discreta se cada elemento de I tiver mesma probabilidade, ou seja 1 n, x∈I p(x) = P (X = x) = 0, x ∈ /I Notação: X ∼ Ud (I) Notas: i) O modelo uniforme discreto considera que os elementos x1 , x2 , . . . , xn de I são equiprováveis. 49 Teoria da Probabilidade Variáveis Aleatórias ii) Normalmente I é um subconjunto dos naturais (I ⊂ N) definido por limites [a, b], em que a < b são os parâmetros do modelo. Neste caso X ∼ Ud (a, b). A função de distribuição acumulada da v.a. da uniforme discreta é definida por P i I[xi |xi ≤x] F (x) = n x ∈ {x1 , x2 , . . . , xn }, em que I[xi |xi ≤x] = 1, se xi ≤ x e I[xi |xi ≤x] = 0, caso contrário. Exemplo 2.6. Considere o lançamento de um dado equilibrado e seja a v.a. X = valor observado, então, I = {1, 2, 3, 4, 5, 6} e X ∼ Ud (1, 6) p(x) = F (x) = 1 , 6 x 6 x = 1, 2, 3, 4, 5, 6; x = 1, 2, 3, 4, 5, 6. Na Figura (2.5) são apresentadas as funções de probabilidade e de distribuição acumulada ● 1 1/6 para o exemplo. ● p(x) F(x) ● ● ● ● ● ● ● ● ● ● 1 2 3 4 5 6 1 X 2 3 4 5 6 X Figura 2.5: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo Ud (1, 6) 50 Teoria da Probabilidade 2.2.3 Variáveis Aleatórias Distribuição de Bernoulli Considere, agora, um evento A ⊂ Ω, tal que, X(ω) = 1, se ω ∈ A e X(ω) = 0, se ω ∈ Ac , então, A ocorre se, e só se, X(ω) = 1. A v.a. X é uma variável indicadora de A, pois o valor de X indica a ocorrência de A e, P (A) = P [{ω ∈ Ω | X(ω) = 1}] = P (X = 1) Normalmente, o evento A é chamado de sucesso e Ac de fracasso e a v.a. assim definida, é chamada de v.a. de Bernoulli, em que p = P (A) é a probabilidade de sucesso e (1 − p) = P (Ac ) é a probabilidade de fracasso. Notas: i) Uma realização da v.a. de Bernoulli recebe o nome de “ensaio de Bernoulli ”. ii) Ensaio de Bernoulli é todo experimento com apenas dois resultados possíveis, denotados por sucesso e fracasso. Esses resultados são representados pelos valores 1 e 0 da v.a. X , com probabilidades de corrência p e (1 − p), respectivamente. Assim, X = 1, representa um sucesso, X = 0, representa um fracasso. iii) A probabilidade de sucesso p é o parâmetro do modelo de Bernoulli. Seja X uma variável de Bernoulli com probabilidade de sucesso p, então, sua função de probabilidade é definida por 1 − p, x = 0 p(x) = p, x=1 0, x 6= 1 e x 6= 0. Notação: para indicar que uma v.a. tem distribuição de Bernoulli, usamos a seguinte notação: X ∼ Bernoulli(p). A função de probabilidade para o modelo de Bernoulli pode ser mais elegantemente representada por: p(x) = px (1 − p)1−x , 51 x = 0, 1. Teoria da Probabilidade Variáveis Aleatórias A função de distribuição para o modelo de Bernoulli, por sua vez, é dada por 0, x<0 F (x) = 1 − p, 0 ≤ x < 1 1, x ≥ 1. A Figura (2.6) apresenta as funções de probabilidade e de distribuição acumulada para o modelo de Bernoulli com parâmetro p. Nota: Como veremos no restante da seção, a v.a. de Bernoulli serve de base para a ● ● ● p p(x) F(x) 1−p 1 1−p definição de grande parte dos modelos discretos de probabilidade. ● 0 1 0 X 1 X Figura 2.6: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo Bernoulli (p) 2.2.4 Distribuição binomial Exemplo 2.7. Considere o experimento no qual uma moeda honesta é lançada três vezes, sendo que a probabilidade de se obter cara em um lançamento é p e de se obter coroa é (1 − p), 0 ≤ p ≤ 1. Para este experimento, o espaço amostral é dado por Ω = {(c, c, c), (c, c, c̄), (c, c̄, c), (c̄, c, c), (c, c̄, c̄), (c̄, c, c̄), (c̄, c̄, c), (c̄, c̄, c̄)} em que c = cara e c̄ = coroa. Definindo a v.a. X = número de caras obtidos nos três lançamentos, determinar a função de probabilidade de X . 52 Teoria da Probabilidade Variáveis Aleatórias Para cada elemento do espaço amostral, a v.a. X assume os valores: ⇒ X(c, c, c) = 3 ω = (c, c, c) ω = (c, c, c̄) ω = (c, c̄, c) ω = (c̄, c, c) ⇒ X(c, c, c̄) = X(c, c̄, c) = X(c̄, c, c) = 2 ω = (c, c̄, c̄) ⇒ X(c, c̄, c̄) = X(c̄, c, c̄) = X(c̄, c̄, c) = 1 ω = (c̄, c, c̄) ω = (c̄, c̄, c) ω = (c̄, c̄, c̄) ⇒ X(c̄, c̄, c̄) = 0 Uma vez que os lançamentos da moeda são independentes, a v.a. X tem a seguinte função de probabilidade: x 0 1 2 3 p(x) (1 − p)3 3p(1 − p)2 3p2 (1 − p) p3 Os três elementos de Ω para os quais X = 2, resultam das possíveis combinações nas quais são obtidas duas cara e uma coroa, implicando que a probabilidade individual p2 (1 − p) seja multiplicada por 3. Desta forma, a probabilidade P (X = 2) pode ser escrita como 3 2 p(2) = p (1 − p). 2 O mesmo acontece com X = 1, resultado das possíveis combinações nas quais se obtem uma cara nos três lançamentos da moeda, sendo a probabilidade P (X = 1) escrita por 3 p(1) = p(1 − p)2 . 1 Como podemos observar, p(x) é uma função de probabilidade discreta, pois: i) p(x) ≥ 0 ∀ x = 0, 1, 2, 3, uma vez que 0 ≤ p ≤ 1; ii) 3 X p(x) = [p + (1 − p)]3 = 1. x=0 53 Teoria da Probabilidade Variáveis Aleatórias Considerando que a moeda é honesta, ou seja p = 1/2, temos x p(x) 0 1/8 1 3/8 2 3/8 3 1/8 A distribuição de probabilidade acima, como veremos pela definição (2.4), é a distribuição binomial com parâmetros n = 3 e p = 0.5. Definição 2.4. Considere n repetições independentes de um ensaio de Bernoulli cuja probabilidade de sucesso é P (sucesso) = p e seja a v.a. X que conta o número de sucesso nas n realizações independentes do ensaio, então, X tem distribuição binomial com parâmetros n e p e a sua função de probabilidade é dada pela expressão n x p(x) = p (1 − p)n−x , x x = 0, 1, . . . , n. Notação: X ∼ binomial(n, p). 0.3 1 ● ● 0.6 ● ● 0 0 0.2 0.1 0.4 F(x) 0.2 p(x) 0.8 ● 0 1 2 3 4 ● ● ● ● 0 1 X ● 2 3 4 X Figura 2.7: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo binomial (4, 0.6) Notas: i) A distribuição de Bernoulli é um caso especial da binomial para o qual n = 1. ii) A função de distribuição acumulada F (x) não tem uma forma explicita, sendo definda por F (x) = X xi ≤x 54 P (X = xi ). Teoria da Probabilidade Variáveis Aleatórias iii) Se a v.a. X conta os sucessos em n ensaios independentes de Bernoulli, X ∼ binomial(n, p). Então, se nos mesmos n ensaios, a v.a. Y contar o número de fracassos: Y ∼ binomial(n, 1 − p). Exemplo 2.8. Uma indústria que produz placas para componentes eletrônicos, usadas na fabricação de celulares, afirma que no processo de produção dessas placas 1% sai com defeito nas furações. Considerando que na inspeção dessas placas, 10 unidades são selecionadas aleatoriamente e avaliadas: Defina uma v.a. para esse caso e determine a sua função de probabilidade p(x). Uma vez que p(x) seja definida, qual é a probabilidade de que a inspeção encontre: a) exatamente uma placa com defeito? b) pelo menos uma placa com defeito? c) no máximo três placas com defeito? A inspeção de cada uma das placas resulta em um, dentre dois resultados possíveis (placa com defeito ou placa boa), o que caracteriza um ensaio de Bernoulli no qual o resultado de interesse (sucesso) é dado pela placa com defeito. Alé disso, como as inspeções são independentes, a probabilidade de uma placa ser defeituosa (dada pelo índice de defeitos da produção, ou seja, p = 0.01) é comum a todos os ítens produzidos. Portanto, definindo a v.a. X = número de placas com defeito encontradas na inspeção das n = 10 placas selecionadas, X tem distribuição binomial com parâmetros n = 10 e p = 0.01 e sua função de probabilidade é dada por 10 p(x) = P (X = x) = (0.01)x (0.99)10−x , x x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. As probabilidades solicitadas nos itens (a), (b) e (c) são, portanto, calculadas por 10 a) p(1) = P (X = 1) = (0.01)1 (0.99)9 = 0.09135. 1 b) Pelo evento complementar temos que: P (X ≥ 1) = 1 − P (X = 0) = 1 − (0.99)10 = 0.09562 c) F (3) = P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = 0.90438 + 0.09135 + 0.00415 + 0.00011 = 0.99999 55 Teoria da Probabilidade Variáveis Aleatórias Exemplo 2.9. Uma indústria vende um produto em embalagens de ½ kg. O processo de empacotamento tem como limite inferior o peso de 495 g , sendo que, os pacotes devem ter peso superior a este limite. Apesar da automação, o processo produz 6% de pacotes abaixo do limite, o que preocupa o dono da indústria numa possível inspeção. Nas inspeções, os fiscais do órgão competente costumam recolher 20 pacotes do produto das prateleiras dos supermercados e pesar cada um deles. Desta forma, qual é a probabilidade de que: a) apenas um pacote esteja abaixo do limite de peso? b) no máximo dois pacotes estejam abaixo do limite de peso? Seja a v.a. X = número de pacotes, da amostra, abaixo do limite de peso. Então, X ∼ binomial(20, 0.06). Respostas: a) 20 P (X = 1) = (0.06)(0.94)19 = 0.3703; 1 b) F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) 20 20 = (0.94) + 0.3703 + (0.06)2 (0.94)18 2 = 0.2901 + 0.3703 + 0.2246 = 0.8850. 2.2.5 Distribuição geométrica Definição 2.5. Considere uma sequência de ensaios independentes de Bernoulli com probabilidade de sucesso igual a p e seja a v.a. X que conta o número de fracassos até a ocorrência do primeiro sucesso. Então, X tem distribuição geométrica com parâmetro p e a sua função de probabilidade é dada pela expressão p(x) = p(1 − p)x , x = 0, 1, 2, . . . Notação: X ∼ geométrica(p). Exemplo 2.10. Num jogo de cassino, dois dados são lançados por um jogador que aposta uma certa quantia de dinheiro antes do lançamento. O jogador dobra o valor apostado se obter soma 11 ou 12 nos dados. Para tentar dobrar a posta, porém, o jogador tem até 3 tentativas, após as quais, ele perde o que apostou e precisa apostar novamente para continuar jogando. 56 Teoria da Probabilidade Variáveis Aleatórias Qual é a probabilidade do jogador dobrar a aposta numa rodada de lançamentos? Seja a v.a. X = número de lançamentos com somas diferentes de 11 ou 12, até que o jogador ganhe. Então, X ∼ geométrica(p). Mas, qual deve ser o valor de p? Para isso precisamos do espaço amostral para os lançamentos dos dados: Ω = {(i, j) ∈ N2 | 1 ≤ i ≤ 6 e 1 ≤ j ≤ 6}, (Ω é equiprovável) Seja o evento A = { valores favoráveis ao jogador }, então, A = {(6, 5), (5, 6), (6, 6)}. Logo, a probabilidade de sucesso p é igual a P (A), isto é: p= 1 3 = . 36 12 Assim, o jogador dobra o valor apostado se: I sair soma 11 ou 12 no primeiro lançamento dos dados; I sair soma 11 ou 12 no segundo lançamento, não tendo saído no primeiro; I sair soma 11 ou 12 no terceiro lançamento, não tendo saído no primeiro nem no segundo lançamentos. Desta forma, temos que calcular P (X ≤ 2), uma vez que X conta os fracassos até o primeiro sucesso. Portanto: F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) 1 = 12 11 12 0 1 + 12 11 12 1 1 + 12 11 12 2 " 2 # 11 1 11 = 1+ + 12 12 12 = 0.2297. Priopriedades: i) A função de distribuição acumulada F (x) é de fácil obtenção, sendo calculada a partir 57 Teoria da Probabilidade Variáveis Aleatórias do resultado P (X ≥ x) = ∞ X P (X = k) k=x = p(1 − p)x + p(1 − p)x+1 + p(1 − p)x+2 + . . . =p (1 − p)x 1 − (1 − p) = (1 − p)x . Desta forma, temos que a função distribuição acumulada F (x) é dada por F (x) = P (X ≤ x) F (x) =1 − P (X ≥ x + 1) F (x) = 1 − (1 − p)x+1 . No exemplo acima, p = 1/12 e, portanto: F (2) = P (X ≤ 2) = 1 − 11 12 3 = 0.2297. ii) A v.a. geométrica pode, ainda, ser definida como Y = número de ensaios até o primeiro sucesso. Neste caso, Y assume valores a partir do 1, ou seja, y ∈ {1, 2, 3, . . .} e, em função disto, a sua função de probabilidade passa a ser escrita como p(y) = P (Y = y) = p(1 − p)y−1 , y ∈ N∗ , em que N∗ é o conjunto dos naturais, excluindo-se o zero, ou seja, N∗ = N − {0}. Nota: Se a v.a. X conta o número de fracassos até o primeiro sucesso e a v.a. Y conta o número de ensaios até o primeiro sucesso, então, a relação1 entre elas é dada por: Y = X + 1 e: p(y) = P (Y = y) = P (X + 1 = y) = P (X = y − 1) = p(1 − p)y−1 ; P (Y ≥ y) = (1 − p)y−1 ; F (y) = P (Y ≤ y) = 1 − P (Y ≥ y + 1) = 1 − (1 − p)y . 1 A relação entre duas v.a. discretas será vista em mais detalhes na seção funções de v.a.’s. 58 Teoria da Probabilidade Variáveis Aleatórias iii) Uma propriedade importante da v.a. geométrica é a falta de memória, representada pela relação P (X ≥ x + k | X ≥ x) = P (X ≥ k). Ou seja, dado que X já atingiu o valor x, a probabilidade de alcançar o valor x + k só depende de k , reiniciando-se a contagem. Prova: P (X ≥ x + k | X ≥ x) = P [(X ≥ x + k), (X ≥ x)] P (X ≥ x) = P (X ≥ x + k) P (X ≥ x) = (1 − p)x+k (1 − p)x = (1 − p)k = P (X ≥ k) Exemplo 2.11. Considere um processo de produção cuja proporção de defeitos é de 0.03. No processo de produção os itens são inspecionados um-a-um até que apareça o primeiro com defeito quando, então, o processo é interrompido e ajustado. a) Determine a probabilidade de que o processo seja ajustado sómente após o 40º item produzido. Seja X = número de itens bons até o primeiro com defeito. Então: X ∼ geométrica(0.03). Temos que calcular: P (defeito no item 41 ou defeito no item 42 ou . . .) = P (X ≥ 40) = (1 − 0.03)40 = (0.97)40 = 0.2957. b) Sabendo que já foram produzidos 25 itens, não havendo nenhum defeito, qual é a probabilidade de que o primeiro item com defeito apareça após o 35º item produzido? P (X ≥ 35 | X ≥ 25) = P (X ≥ 35 − 25) = (0.97)10 = 0.7374. 59 Teoria da Probabilidade Variáveis Aleatórias c) Qual deve ser o intervalo de manutenção preventiva k se desejamos que nenhum item com defeito ocorra entre duas manutenções consecutivas com probabilidade de pelo menos 0.50? Devemos obter k tal que P (X ≥ k) ≥ 0.50. Tomando a igualdade, temos P (X ≥ k) = 0.50 = (0.97)k , logo, o valor de k é dado por (0.97)k = 0.50 k ln(0.97) = ln(0.50) k= ln(0.50) = 22.8 ln(0.97) Ainda: I se k = 22 =⇒ P (X ≥ 22) = (0.97)22 = 0.5117. I se k = 23 =⇒ P (X ≥ 23) = (0.97)23 = 0.4963. Logo, as manutenções devem ser feitas a cada 22 itens produzidos. 2.2.6 Distribuição binomial negativa Definição 2.6. Considere uma sequência de ensaios independentes de Bernoulli com probabilidade de sucesso igual a p. A v.a. X que conta o número de fracassos até a ocorrência do r−ésimo sucesso tem distribuição binomial negativa com parâmetro r > 0 e p e sua função de probabilidade é dada por x+r−1 r p(x) = p (1 − p)x , r−1 x = 0, 1, 2, . . . (2.1) Notação: X ∼ BN (r, p). x+r−1 Nota: O termo refere-se ao número de combinações possíveis para os r−1 (x + r − 1) ensaios, anteriores ao r−ésimo sucesso, dos quais x são fracassos e (r − 1) são sucessos. Exemplo 2.12. Numa linha de montagem de uma grande indústria os parafusos são fornecidos em caixas com 50 unidades cada, sendo que a compra dos parafusos é feita em lotes de 250 caixas. No recebimento dos parafusos o setor competente retira uma caixa do lote e realiza uma inspeção, aceitando o lote se até a inspeção da metade da caixa, no máximo 2 60 Teoria da Probabilidade Variáveis Aleatórias parafusos tiverem a rosca “espanada” (aceitando o lote a empresa arca com o prejuízo dos demais parafusos que vierem a espanar). Por outro lado, se até a inspeção da metade da caixa, três ou mais parafusos espanarem, o lote todo é devolvido ao fornecedor. Considerando que o fabricante dos parafusos afirma que 9% dos parafusos produzidos acabam espanando na hora do uso, cacule a probabilidade de que a devolução do lote ocorra exatamente ao se testar a metade da caixa de parafusos. Seja X = número de parafusos bons até o 3º ruim. Note que, o lote será devolvido se ao se testar o 25º parafuso, aparecer o 3º ruim, logo I x = 25 − 3 = 22 parafusos bons e I r = 3 parafusos espanados. Desta forma, X tem distribuição X ∼ BN (3, 0.09). 22 + 3 − 1 P (X = 22) = (0.09)3 (0.91)22 3−1 24 = (0.09)3 (0.91)22 2 = 0.0253. Exemplo 2.13. Uma linha de produção adota-se como critério de parada para regulagem das máguinas a observação do k−ésimo item com defeito. Sabendo que a proporção de defeitos é 0 ≤ p ≤ 1, qual é a probabilidade de que a produção tenha que ser interrompida para regulagem na n−ésima peça produzida? Se X = número de peças boas até a k−ésima com defeito, X ∼ BN (k, p). (n − k) + k − 1 k p (1 − p)n−k k−1 n−1 k p (1 − p)n−k . k−1 P (X = n − k) = = Notas 2.1. Das relações entre as combinações, temos uma forma alternativa da binomial 61 Teoria da Probabilidade Variáveis Aleatórias negativa. Considere x+r−1 x+r−1 x −r , = = (−1) x r−1 x −r (−r)(−r − 1) · · · (−r − x + 1) = em que: (−1) . x x! x Portanto, a função de probabilidade da binomial negativa, em (2.1), pode ser escrita na forma alternativa −r r p(x) = (−1) p (1 − p)x , x x x = 0, 1, 2, . . . Exemplo 2.14. Considere X ∼ BN (4, 0.25), calcular P (X = 5). x + r − 1 = 5 + 4 − 1 = 8 e r − 1 = 3, logo 8 i) p(5) = (0.25)4 (0.75)5 = 0.0519; 3 ii) p(5) = (−1)5 2.2.7 (−4)(−5)(−6)(−7)(−8) 6720 (0.25)4 (0.75)5 = (0.25)4 (0.75)5 = 0.0519. 5! 5! Distribuição hipergeométrica Definição 2.7. Considere uma população de tamanho N , sendo que m indivíduos (ou elementos) desta população apresentam uma crarcterística de interesse e (N − m) não apresentam a tal característica, portanto, a população é particionada em duas subpopulações. Uma amostra de tamanho n é retirada ao acaso e sem reposição desta população, sendo que, para cada elemento da amostra é observada a presença, ou não, da característica de interesse. Nota: A característica de interesse pode ser a presença de uma doença, um hábito de comportamento, uma característica física, um defeito ou falha ou até o resultado de uma mensuração classificado por um ponto de corte. Com a população particionada em duas, a observação individual de cada elemento da amostra caracteriza um ensaio de Bernoulli. A diferença da situação aqui apresentada com o modelo binomial é que, neste caso, a amostra é retirada sem reposição, fazendo com que os ensaios de Bernoulli não sejam mais independentes. Seja a v.a. X = número de elementos na amostra que apresentam a característica de interesse. 62 Teoria da Probabilidade Variáveis Aleatórias Então, X tem distribuição hipergeométrica com parâmetros m, N e n Notação: X ∼ HG(m, N, n). A função de probabilidade do modelo hipergeométrico é dada por: m N −m x n−x p(x) = P (X = x) = , N n max{0, n − (N − m)} ≤ x ≤ min{m, n}. Exemplo 2.15. Sabe-se que um gene recessivo, responsável por uma doença, aparece em 16% da população sem que a mesma se manifeste. Se, de uma população de tamanho 500, selecionamos ao acaso uma amostra sem reposição com 20 pessoas, qual é a probabilidade de que encontremos 3 portadoras do gene? Seja X = número de pessoas na amostra com o gene. Se, da população 16% apresentam o gene, então m = 500(0.16) = 80, logo: X ∼ HG(80, 500, 20). Como, n − (N − m) = 20 − (500 − 80) = −400, temos que I max{0, n − (N − m)} = max{0, −400} = 0; I min{m, n} = min{80, 20} = 20, então 0 ≤ x ≤ 20. Calculando a probabilidade: 80 420 (82160)(7.9737 × 1029 ) 3 17 = 0.2456. p(3) = = 500 2.66720 × 1035 20 Calcule a probabilidade de que seja encontrado apenas uma pessoa portadora do gene. 80 420 (80)(3.77718 × 1032 ) 1 19 p(1) = = = 0.1133. 500 2.66720 × 1035 20 63 Teoria da Probabilidade Variáveis Aleatórias Os cálculos foram feitos no R com o comando choose(n,k) (ver Quadro 1). Quadro 1: Cálculo da hipergeométrica no R 1 3 5 7 9 11 13 15 17 19 > ## > choose (80 ,3) [1] 82160 > choose (420 ,17) [1] 7.973741 e +29 > choose (500 ,20) [1] 2.667199 e +35 > p3 <- choose (80 ,3)* choose (420 ,17)/ choose (500 ,20) > round ( p3 ,4) [1] 0.2456 > ## > choose (80 ,1) [1] 80 > choose (420 ,19) [1] 3.777175 e +32 > p1 <- choose (80 ,1)* choose (420 ,19)/ choose (500 ,20) > round ( p1 ,4) [1] 0.1133 > ## Exemplo 2.16. Quatro peças com defeito foram acidentalmente misturadas num lote com outras 16 peças boas. Selecionando-se 5 peças sem reposição, qual é a probabilidade de que 2 sejam defeituosas? E pelo menos 2? Seja X = número de peças com defeito na amostra. X ∼ HG(4, 20, 5). Condição: I max{0, n − (N − m)} = max{0, −11} = 0; I min{m, n} = min{4, 5} = 4, então 0 ≤ x ≤ 4. Calculando as probabilidades: p(2) = 4 16 2 3 20 5 = (6)(560) = 0.2167. 15504 64 Teoria da Probabilidade Variáveis Aleatórias P (X ≥ 2) = 1 − F (1) = 1 − [P (X = 0) + P (X = 1)] = 1 − (0.2817 + 0.4696) = 0.2487. Relação entre a hipergemométrica e binomial m N −m x n−x p(x) = N n (N − m)! m! × x!(m − x)! (n − x)! [(N − m) − (n − x)]! p(x) = N! n!(N − n)! p(x) = n!(N − n)! m! (N − m)! × × N! x!(m − x)! (n − x)! (N − m − n + x)! p(x) = n! (N − n)! m! (N − m)! × × × x!(n − x) N! (m − x)! (N − m − n + x)! (2.2) Desenvolvendo cada um dos três últimos termos da expressão (2.2), obtem-se (N − n)! (N − n)! = N! N (N − 1) (N − 2) · · · (N − n)! = = = 1 N (N − 1) (N − 2) · · · (N − n + 1) N N 1− Nn 1 Qn−1 i=1 1 N 1− 1 N 1− i N 65 2 N ···N 1 − n−1 N (2.3) Teoria da Probabilidade Variáveis Aleatórias m! m (m − 1) (m − 2) · · · (m − x)! = (m − x)! (m − x)! = m (m − 1) (m − 2) · · · (m − x + 1) 1 =mm 1− m x =m x−1 Y j=1 j 1− m 2 m 1− m x−1 ···m 1 − m (2.4) (N − m)! (N − m) (N − m − 1) (N − m − 2) · · · [(N − m − n + x)]! = [(N − m − n + x)]! [(N − m − n + x)]! = (N − m) (N − m − 1) (N − m − 2) · · · [(N − m) − (n − x) + 1] = (N − m) (N − m) 1 − n−x = (N − m) n−x−1 Y k=1 1 N −m k 1− N −m n−x−1 · · · (N − m) 1 − N −m (2.5) Substituindo-se os resultados em (2.3), (2.4) e (2.5) em (2.2), p(x) pode ser reescrita como: p(x) = n x ! x n−x m (N − m) Nn " Qx−1 j=1 1− j m Qn−1 i=1 Aplicando o limite para N → ∞, então m → ∞, tal que Assim sendo: i → 0, N j →0 m × e k → 0. N −m 66 Qn−x−1 k=1 1− i N m → p. N 1− k N −m # Teoria da Probabilidade Variáveis Aleatórias Portanto, ! p(x) ∼ = n x ! p(x) ∼ = n x m x N − m n−x N N px (1 − p)n−x . Ou seja, para N grande, a distribuição hipergeométrica se comporta como uma binomial com parâmetros n e p = m/N . Na prática isso significa que, se N for grande (N → ∞), não há diferença entre as amostragens “com” e “sem” reposição. Exemplo 2.17. Sabe-se que, numa população de tamanho 5000 proprietários de veículos, apenas 130 são proprietários de Ferrari. Se uma amostra aleatória de 20 proprietários de veículos é retirada sem reposição desta população, determine as probabilidade de que: a) Exatamente 1 seja proprietário de ferrari; b) Nenhum seja proprietário de ferrari; c) No máximo 2 sejam proprietários de ferrari; Seja a v.a. X = proprietário de ferrari na amostra, então, X ∼ HG(130, 5000, 20). N = 5000 e m = 130, assim, proporção de proprietários de ferrari é igual a p = 0.026. Como N é grande a distribuição de X pode ser aproximada pela binomial(20, 0.026). Na Tabela (2.1) são apresentados os resultados obtidos com a distribuição hipergeométricae com a aproximação pela binomial. 2.2.8 Distribuição de Poisson Considere a situação na qual se observe a ocorrência de um determinado evento, como, por exemplo, chamadas telefônicas; acessos a um sistema via web; chegadas de pessoas numa fila de banco; microorganismos (bactérias ou coliformes) em amostras de água, etc... Definição 2.8. Seja a v.a. X que conta a ocorrência de um evento por unidade de medida (tempo, área, volume, etc...), então, X tem distribuição de Poisson com parâmetro λ e sua função de probabilidade é da forma: p(x) = P (X = x) = λx e−λ , x! 67 x = 0, 1, 2, . . . . Teoria da Probabilidade Variáveis Aleatórias Tabela 2.1: Aproximação da HG(130, 5000, 20) pela binomial(20, 0.026). calculado pela Aproximado pela erro hipergeométrica binomial relativo Cálculo a) P (X = 1) 130 4870 20 1 19 = 0.3161 (0.026)1 (0.974)19 = 0.3152 5000 1 20 0.28% b) P (X = 0) 130 4870 20 0 20 = 0.5898 (0.026)0 (0.974)20 = 0.5904 5000 0 20 0.10% c) P (X = 2) 130 4870 20 2 18 = 0.0798 (0.026)2 (0.974)18 = 0.0799 5000 0 20 0.13% então, P (X ≤ 2) = 0.9857 P (X ≤ 2) ≈ 0.9855 68 0.20% Teoria da Probabilidade Variáveis Aleatórias X ∼ P oisson(λ). Notas: i) O parâmetro λ é a taxa de ocorrência do evento. ii) O modelo de Poisson também aparece na forma p(x) = P (X = x) = (λ∆t)x e−λ∆t , x! x = 0, 1, 2, . . . , (2.6) em que ∆t é o intervalo de ocorrência (na maioria das vezes o tempo). Exemplo 2.18. Na fila de um banco, em horário de pico, os clientes chegam a uma taxa de 2.5 por minuto. Qual é a probabilidade de que, em um minuto: a) Chegue apenas um cliente? b) Cheguem no máximo 3 clientes? c) cheguem pelo menos 3 clientes? d) Qual é a probabilidade de que, em 5 minutos, 10 clientes entrem na fila? Seja a v.a. X = número de clientes que chegam na fila do banco por minuto, então, λ = 2.5 clientes/min e X ∼ P oisson(2.5). A função de probabilidade de X é dada por: p(x) = P (X = x) = 2.5x e−2.5 , x! x = 0, 1, 2, . . . . a) p(1) = P (X = 1) = 2.51 e−2.5 = 0.2052 1! b) F (3) = P (X ≤ 3) = 2.50 e−2.5 2.51 e−2.5 2.52 e−2.5 2.53 e−2.5 + + + 0! 1! 2! 3! = = 0.0821 + 0.2052 + 0.2565 + 0.2138 = 0.7576 69 Teoria da Probabilidade Variáveis Aleatórias c) P (X ≥ 3) = 1 − P (X ≤ 2) = 1 − (0.0821 + 0.2052 + 0.2565) = 0.4562 d) Seja a v.a. Y = número de clientes que chegam na fila em 5 minutos, então ∆t = 5, λ∆t = 12.5 e Y ∼ P oisson(12.5). Assim, utilizando a relação dada em (2.6), temos2 : pY (10) = P (Y = 10) = 12.510 e−12.5 = 0.0956. 10! Nota: Na prática ocorre que, se X tem distribuição de Poisson com taxa λ = 2.5 clien- 1 tes/min, então, em 5 minutos, a taxa será de λ = 5 × 2.5 = 12.5 clientes/5min. ● 0.6 ● ● ● ● ● ● ● 0.1 0.4 p(x) F(x) 0.2 0.8 ● ● ● ● 0.2 ● 0 0 ● ● ● 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 X X Figura 2.8: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo P oisson (2.5) Exemplo 2.19. Uma oficina recebe microcomputadores para concerto segundo uma distribuição de Poisson com taxa de 3 equipamentos/dia. Qual a probabilidade de que num dia comum cheguem 6 microcomputadores para concerto? X = número de equipamntos que chegam para conserto em um dia, X ∼ P oisson(3). p(6) = P (X = 6) = 2 36 e−3 = 0.0504. 6! O índice na função de probabilidade pY (10) indica que a probabilidade deve ser calculada, agora, a partir da distribuição de probabilidade da v.a. Y . 70 Teoria da Probabilidade Variáveis Aleatórias Considere que a oficina tem bancadas para atender no máximo 5 equipamentos/dia e que os equipamentos além desses 5 fiquem na espera ou desistam do serviço. Sendo assim, o proprietário planeja ampliar as instlações para poder atender a demanda diária em até 99% dos dias. De quanto ele deve ampliar suas instalações? O que o dono da oficina deseja encontrar o valor de k tal que P (X ≤ k) ≥ 0.99, ou seja: k X 3x e−3 x=0 x! ≥ 0.99 Com uma tabela de probabilidades acumuladas temos: x p(x) F (x) 0 1 2 3 4 5 6 7 8 0.0948 0.1494 0.2240 0.2240 0.1680 0.1008 0.0504 0.0216 0.0081 0.0948 0.1992 0.4232 0.6472 0.8152 0.9160 0.9664 0.9880 0.9961 Portanto, com k = 8 bancadas, ele consegue atender toda a demanda em 99% dos dias, ou seja, ele precisa ampliar suas instalações em 3 bancadas. Aproximação da binomial pela Poisson Seja X ∼ binomial(n, p), então, para n grande e p pequeno, tal que λ = np é constante, a distribuição binomial pode ser aproximada pela Poisson. Prova: p(x) = n! px (1 − p)n−x x!(n − x)! Para λ = np, então, p = λ/n e, n(n − 1)(n − 2) . . . (n − x)! p(x) = x!(n − x)! 71 x n−x λ λ 1− n n Teoria da Probabilidade p(x) = λ x n(n − 1)(n − 2) . . . (n − x + 1) x! nx λ 1− n −x λ 1− n n λx x! −x n n n−1 n−x+1 λ λ ··· 1− 1− n n n n n λx x! −x n 1 2 x−1 λ λ 1− 1− ··· 1 − 1− 1− n n n n n λx x! "x−1 Y = = = Variáveis Aleatórias k=1 k 1− n # −x n λ λ 1− 1− n n (2.7) Aplicando o limite para n → ∞ em cada uma das parcelas de (2.7), temos que: "x−1 # Y k lim 1− =1 n→∞ n k=1 (2.8a) −x λ lim 1 − =1 n→∞ n (2.8b) n λ lim 1 − = e−λ (limite fundamental) n→∞ n (2.8c) Desta forma, substituindo (2.8a),(2.8b) e (2.8c) em (2.7), p(x) pode ser aproximada por: p(x) ≈ λx e−λ x! Para n grande e p pequeno, tal que λ = np, a binomial se comporta como uma P oisson(λ). Exemplo 2.20. O número de fraudes com cartões de crédito/débito tem aumentado ultimamente, mas ainda a proporção é baixa, sendo igual a 0.25%. Considerando que o gerente de uma agência bancária possui 4000 clientes com cartões, qual é a probabilidade de ocorrência de: a) Uma única fraude. b) Cinco freudes 72 Teoria da Probabilidade Variáveis Aleatórias c) Dez fraudes. d) Não mais do que 15 fraudes. Seja X = número de fraudes dentre os clientes do banco, X ∼ binomial(4000, 0.0025). Com a aproximação pela P oisson, λ = 4000 × 0.0025 = 10 fraudes, logo: p(x) ≈ a) p(1) ≈ 10x e−10 x! 101 e− 10 = 0.000454 1! 105 e− 10 b) p(5) ≈ = 0.0378 5! c) p(10) ≈ 101 0e− 10 = 0.1251 10! d) F (15) = P (X ≤ 15) ≈ 15 X 10k e− 10 k=0 k! = 0.9513 Nota: Valores calculados pelo R considerando a distribuição binomial (erro relativo entre parênteses): 4000 a) p(1) = (0.0025)1 (0.9975)3999 = 0.000449, (1.01%) 1 4000 b) p(5) = (0.0025)5 (0.9975)3995 = 0.0377, (0.25%) 5 4000 c) p(10) = (0.0025)10 (0.9975)3990 = 0.1253, (0.13%) 10 d) F (15) = P (X ≤ 15) = 15 X 4000 k=0 2.2.9 k (0.0025)k (0.9975)4000−k = 0.9515, (0.023%) Distribuições discretas no R O software R tem funções programadas para o cálculo das distribuições de probabilidades discretas. Cada uma delas é identificada pelo nome da distribuição, conforme mostra a Tabela (2.2), precedido pelos prefixos d, p e q, indicando, respectivamente, se o cálculo é da função de probabilidade (aqui identificada como densidade), função de distribuição ou do quantil. Por exemplo, considere a distribuição binomial(n, p), então, temos os camandos: a) dbinom(x,n,p) que retorna p(x) = P (X = x), 73 Teoria da Probabilidade Variáveis Aleatórias c) pbinom(x,n,p) que retorna F (x) = P (X ≤ x) e, q) qbinom(q,n,p) que retorna o quantil associado à probabilidade q , ou seja, x = F −1 (q). Nota: os prefixos d, p e q funcionam da mesma maneira para os demais modelos, mudando apenas os parâmetros de cada um deles (Tabela 2.2). Modelo Tabela 2.2: Modelos discretos de probabilidade no R F. probabilidade F. distribuição (f.d.a.) Quantil p(x) binomial dbinom(x,n,p) geométrica dgeom(x,p) binomial negativa dnbinom(x,r,p) hipergeométrica dhyper(x,m,N,n) Poisson dpois(x,λ) q = F (x) pbinom(x,n,p) pgeom(x,p) pnbinom(x,r,p) phyper(x,m,N,n) ppois(x,λ) x = F −1 (q) qbinom(q,n,p) qgeom(q,p) qnbinom(q,r,p) qhyper(q,m,N,n) qpois(q,λ) Exemplo 2.21. Obter, no R : i) p(5) = P (X = 5), F (9) = P (X ≤ 9) e o ponto x tal que P (X ≤ x) = 0.05, em que X ∼ BN (4, 0.25); ii) p(5) = P (Y = 5), P (2 < Y ≤ 6) e o ponto y tal que P (Y ≤ y) = 0.25, em que, Y ∼ P oisson(3) iii) p(2) = P (Z = 2) e o ponto z tal que P (Z ≤ z) = 0.975, em que Z ∼ HG(10, 80, 12). No Quadro (2) são apresentados os valores obtidos no R . Quadro 2: Modelos discretos de probabilidade no R 1 3 5 7 9 11 13 15 17 > ### > ## binomial negativa > dnbinom (5 ,4 ,0.25) [1] 0.0519104 > > pnbinom (9 ,4 ,0.25) [1] 0.415747 > > qnbinom (0.05 ,4 ,0.25) [1] 3 > > ## Poisson > dpois (5 ,3) [1] 0.1008188 > > ppois (6 ,3) - ppois (2 ,3) [1] 0.5433014 74 Teoria da Probabilidade 19 21 23 25 27 29 Variáveis Aleatórias > > qpois (0.25 ,3) [1] 2 > > ## hipergeométrica > dhyper (2 ,10 ,80 ,12) [1] 0.2705104 > > qhyper (0.975 ,10 ,80 ,12) [1] 4 > > ## 75 Teoria da Probabilidade 3 Valor esperado e momentos de uma v.a. discreta Valor esperado e momentos de uma v.a. discreta 3.1 Valor esperado de uma v.a. discreta Definição 3.1. O valor esperado de uma v.a. discreta X , definida no espaço de probabilidade (Ω, A , P ) é dado por E(X) = X X(ω) · P (ω), ω∈Ω E(X) é, ainda, chamado de esperança ou média de X . Lema 3.1. Considere uma v.a. discreta X , com função de probabilidade p(x), tal que ∞ X |xi |p(xi ) < ∞, i=1 se a v.a. assume valores num subconjunto I ⊆ R, então, a esperança de X é dada por E(X) = µx = X x p(x). x∈I Prova: Livro Carlos A. Dantas, p. 78 Por outro lado, se ∞ X |xi |p(xi ) = ∞ (não converge), então, X não tem esperança finita. i=1 Exemplo 3.1. Seja uma v.a. discreta X com função de probabilidade p(x) = 1 , x (x + 1) x = 1, 2, 3, . . . Verificando se p(x) é uma função de probabilidade: ∞ X x=1 p(x) = ∞ X x=1 76 1 x (x + 1) Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta ∞ X ∞ X 1 1 − p(x) = x x+1 x=1 x=1 1 1 1 1 1 = lim 1 − + − + ··· + − k→∞ 2 2 3 k k+1 = lim 1 − k→∞ 1 k+1 = 1, portanto, p(x) é uma função de probabilidade discreta, porém, ∞ X x=1 ∞ X |x| x = x(x + 1) x(x + 1) x=1 = ∞ X x=1 1 = ∞ (não converge), x+1 ou seja, X não tem esperança finita. Interpretação física de valor esperado Seja uma va discreta X assumindo valores {x1 , x2 , . . . , xn } com probabilidades p(x1 ), p(x2 ), . . ., p(xn ). Considere, ainda, G como sendo o centro de gravidade (ou centro de massa) dos valores de X , então: n X (xi − G)p(xi ) = 0 i=1 n X xi p(xi ) − i=1 n X Gp(xi ) = 0 i=1 G= n X xi p(xi ) = E(X), i=1 portanto, a média E(X) é o centro de massa dos valores de X . 77 Teoria da Probabilidade 3.2 Valor esperado e momentos de uma v.a. discreta Propriedades de Esperança Seja uma v.a. discreta X , com esperança finita E(X) i) Se a é uma constante, então, E(a) = a; ii) Sejam a e b constantes, então, E(aX + b) = aE(X) + b; iii) Se Y é uma v.a. discreta tal que E(Y ) < ∞, então, para a e b constantes E(aX + bY ) = aE(X) + bE(Y ); Prova: (resultado: desigualdade triangular |a + b| ≤ |a| + |b|) I 1ª parte: mostrar que E(a X + b Y ) existe. X |aX(ω) + bY (ω)| P (ω) ≤ ω∈Ω X [|aX(ω)| + |bY (ω)|] P (ω) = ω∈Ω = X |a| |X(ω)| P (ω) + ω∈Ω = |a| X X |X(ω)| P (ω) + |b| ω∈Ω =⇒ |b| |Y (ω)| P (ω) ω∈Ω X |Y (ω)| P (ω) < ∞. ω∈Ω E(a X + b Y ) existe. I 2ª parte: E(aX + bY ) = X (aX + bY ) (ω)P (ω) ω∈Ω = X [aX(ω) + bY (ω)] P (ω) ω∈Ω =a X X(ω)P (ω) + b X ω∈Ω ω∈Ω = a E(X) + b E(Y ) iv) Seja a v.a. Y = g(X) tal que ∞ X |g(xi )|p(xi ) < ∞, então i=1 E(Y ) = E[g(X)] = X x 78 g(x) p(x). Y (ω)P (ω) Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta Prova: Seja Y = g[(X)], então, se E[g(X)] existe, considere ω ∈ Ω para os quais y = g[X(ω)]. Assim, para todos g[X(ω)] com valores iguais a y tem-se: X g(x)p(x) = x X g[X(ω)]P (ω) ω = X X y ω:g[X(ω)]=y = X = X y y yP (ω) X P (ω) ω:g[X(ω)]=y yP (Y = y) = E[g(X)] y Exemplo 3.2. Seja uma va discreta X com função de probabilidade p(x) = 0.1|x − 1|, x ∈ {−2, −1, 0, 2, 4} Então, o valor esperado de X é: E(X) = X xp(x) x = (−2)0.3 + (−1)0.2 + (0)0.1 + (2)0.1 + (4)0.3 = 0.6 Ainda, se g(X) = X 2 , temos E[g(X)] = E(X 2 ) = X x2 p(x) x = (−2)2 0.3 + (−1)2 0.2 + (0)2 0.1 + (2)2 0.1 + (4)2 0.3 = (4)(0.3 + 0.1) + (1)0.2 + (16)0.3 = 6.6 v) Se a v.a. X é tal que a ≤ X ≤ b, então, a ≤ E(X) ≤ b; 79 Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta vi) Sejam X e Y v.a.’s discretas com esperanças finitas E(X) e E(Y ), respectivamente. a) Se X e Y são tais que X ≥ Y , então, E(X) ≥ E(Y ); b) Se X e Y são independentes, então, E(XY ) = E(X)E(Y ). Teorema 3.1. Seja uma v.a. X , inteira não negativa. Então, X tem esperança finita se, e somente se, a série ∞ X P (X ≥ x) converge e, neste caso, i=1 E(X) = ∞ X P (X ≥ x). i=1 Prova: Se X é inteira não negativa, então, X ∈ {0, 1, 2, . . .}, da definição de esperança: E(X) = ∞ X xP (X = x) = i=0 ∞ X xP (X = x), i=1 ou seja, E(X) = ∞ X 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + · · · i=1 E(X) = P (X = 1) + P (X = 2) + P (X = 2) + P (X = 3) + P (X = 3) + P (X = 3) + P (X = 4) + P (X = 4) + P (X = 4) + P (X = 4) + .. . + .. . + .. . + .. . Portanto, redefindo a soma em (3.1), temos E(X) = P (X ≥ 1) + P (X ≥ 2) + P (X ≥ 3) + P (X ≥ 4) + · · · E(X) = ∞ X P (X ≥ x). i=1 Exemplo 3.3. Seja uma v.a. X , com distribuição de probabilidade: 80 (3.1) Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta x p(x) F (x) 0 1 2 3 0.15 0.20 0.40 0.25 0.15 0.35 0.75 1.00 Então, pelo teorema (3.1), o valor esperado de X é calculado pela soma das áreas destacadas na figura 3.1 Figura 3.1: Valor Esperado de uma v.a. como soma das áreas sobre F (x) Verificando: E(X) = (0)0.15 + (1)0.20 + (2)0.40 + (3)0.25 = 1.75. Exemplo 3.4. Valor esperado do modelo geométrico: Seja X ∼ geométrica(p) com função de probabilidade p(x) = p(1 − p)x , então, seu valor esperado é dado por: E(X) = ∞ X xp(1 − p)x x=0 = p(1 − p) ∞ X x(1 − p)x−1 x=1 = p(1 − p) ∞ X x=1 81 − d [(1 − p)x ] dp x = 0, 1, 2, . . ., Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta " ∞ # X d E(X) = p(1 − p) − (1 − p)x dp x=1 d 1−p = − p(1 − p) dp p −1 = − p(1 − p) 2 p Portanto: E(X) = 1−p . p A partir de (3.1), com P (X ≥ x) = (1 − p)x , temos ∞ X ∞ X P (X ≥ x) = (1 − p)x x=1 x=1 1−p 1 − (1 − p) 1−p = E(X). = p = Exemplo 3.5. Calcular o valor esperado dos principais modelos discretos: Bernoulli, binomial, binomial negativo, Poisson, hipergeométrico. (resolução, ver slides) 3.3 Variância de uma v.a. discreta Definição 3.2. Seja uma v.a. discreta X , assumindo valores num subconjunto I ⊆ R e tendo esperança finita E(X), então, a variância de X é definida por σx2 = V ar(X) = E{ [X − E(X)]2 }, ou seja, V ar(X) = X [x − E(X)]2 p(x). x∈I Notas 3.1. A variância de uma v.a. pode, ainda, ser escrita nas seguintes formas: i) V ar(X) = E(X 2 ) − [E(X)]2 ; ii) V ar(X) = E[X(X − 1)] + E(X) − [E(X)]2 . 82 Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta Exemplo 3.6. Variância do modelo de Poisson Seja uma v.a. discreta X ∼ P oisson(λ), então: λx e−λ , x! E(X) = λ. p(x) = x = 0, 1, 2, . . . ; Para o cálculo da variância de X , temos que calcular E(X 2 ): 2 E(X ) = ∞ X x2 x=0 ∞ X =λ λx e−λ x! x x=1 λx−1 e−λ (x − 1)! Fazendo y = x − 1 ⇒ x = y + 1 e, segue-se que, E(X 2 ) = λ ∞ X λy e−λ (y + 1) y! y=0 ∞ ∞ X λy e−λ X λy e−λ =λ y + y! y! y=0 y=0 | {z } | {z } =E(Y )=λ ! =1 = λ λ + 1 = λ2 + λ Portanto, a variância do modelo de Poisson é dada por: V ar(x) = E(X 2 ) − [E(X)]2 = λ2 + λ − [λ]2 = λ Ou seja, se X ∼ P oisson(λ), então, V ar(X) = E(X) = λ. 3.3.1 Propriedades de Variância Seja uma v.a. discreta X , com variância finita i ) Se a é uma constante, então, V ar(a) = 0; ii ) Sejam a 6= 0 e b constantes, então, V ar(aX + b) = a2 V ar(X); 83 Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta iii ) Se Y é uma v.a. discreta com variância finita, então, V ar(X + − Y ) = V ar(X) + V ar(Y ) + − 2Cov(X, Y ); em que: Cov(X, Y ) = E{[X − E(X)][Y − E(Y )]} = E(XY ) − E(X)E(Y ). iv) De (i ) e (ii ), para a 6= 0 e b 6= 0 constantes V ar(aX + − bY ) = a2 V ar(X) + b2 V ar(Y ) v) Se X e Y forem independentes: V ar(X + − + − 2abCov(X, Y ); Y ) = V ar(X) + V ar(Y ). Prova: As provas das propriedades de variância ficam como exercícios. Resultado 3.1. Variância da soma de v.a.’s: Sejam X1 , X2 , . . . , Xn , v.a.’s definidas em (Ω, A , P ), tais que E(Xi ) e V ar(Xi ) existem ∀i = 1, 2, . . . , n, então " V ar n X # Xi = i=1 n X V ar(Xi ) + 2 i=1 n−1 X n X Cov(Xi , Yj ). i=1 j=i+1 Como resultado direto, se X1 , X2 , . . . , Xn , forem independentes, segue-se que " V ar n X # Xi = i=1 n X V ar(Xi ). i=1 Prova: O resultado acima é extensão das propriedades (iii ) e (iv) e a prova é feita por indução (Magalhães, pag. 252). 84 Teoria da Probabilidade 3.3.2 Valor esperado e momentos de uma v.a. discreta Covariância e coeficiente de corelação Definição 3.3. Covariância entre duas v.a.’s Sejam X e Y , v.a.’s definidas em (Ω, A , P ), com variâncias finitas, então, a covariância entre X e Y é definida por: σx,y n o = Cov(X, Y ) = E X − E(X) Y − E(Y ) . (3.2) Mostra-se facilmente que (3.2) pode ser escrita como: Cov(X, Y ) = E(XY ) − E(X)E(Y ). Definição 3.4. Coeficiente de corelação entre duas v.a.’s O coeficiente de correlação entre duas v.a.’s X e Y , por sua vez, é definido por: σx,y Cov(X, Y ) = ρx,y = Corr(X, Y ) = p σx σy V ar(X) V ar(Y ) em que: σx e σy são os desvios padrões de X e Y , respectivamente. Resultado 3.2. Sejam X e Y v.a.’s com coeficiente de correlação ρx,y , então, valem as seguintes relações i ) | ρx,y | ≤ 1; (3.3a) ii ) se | ρx,y | = 1, então a relação entre X e Y é linear; (3.3b) A prova dos resultados acima utiliza da desigulda de Cauchy-Schwarz, apresentada a seguir como teorema. Teorema 3.2. Desigualdade de Cauchy-Schwarz Sejam X e Y , com variâncias finitas e não nulas, então 2 E(XY ) ≤ E(X 2 )E(Y 2 ). (3.4) Além disso, 2 E(XY ) = E(X 2 )E(Y 2 ) ⇐⇒ Y = aX. (3.5) A prova da desiguldade de Cauchy-Schwarz é dada em Hoel,Port & Stone, pag 100 ou Magalhães, pag 258. 85 Teoria da Probabilidade Valor esperado e momentos de uma v.a. discreta Prova: De (3.3a): Sejam µx = E(X) e µy = E(Y ). Aplicando a desigualdade de Cauchy-Schwarz à (X−µx ) e (Y − µy ), tem-se n o2 E (X − µx )(Y − µy ) ≤ E (X − µx )2 E (Y − µy )2 . Do lado esquerdo da igualdade temos o quadrado da covariância e, do lado direito as variâncias de X e Y , ou seja, Cov(X, Y ) 2 ≤ V ar(X)V ar(Y ). Dividindo ambos os lados por V ar(X)V ar(Y ), tem-se 2 Cov(X, Y ) = ρ2x,y ≤ 1, V ar(X)V ar(Y ) o que implica que ρx,y ≤ 1. Prova: De (3.3b): Se ocorre a igualdade, ou seja, se ρ2x,y = 1, então vale a igualdade em Cauchy-Schwarz e, segundo (3.5) (Y − µy ) = a(X − µx ) (ver prova em Dantas, pag. 121). 86