CURSO DE EXTENSÃO EM MATEMÁTICA INTRODUÇÃO À ESTATÍSTICA LUIS PAULO VIEIRA BRAGA 2008 Fundação CECIERJ / Consórcio CEDERJ SUMÁRIO Aula 1- Incerteza, dados, informação e modelos Aula 2- População, censo e amostras Aula 3- Estatísticas de tendência central Aula 4- Estatísticas de ordem Aula 5- Estatísticas de dispersão e de associação Aula 6- Números-índice Aula 7- Breve revisão de teoria das probabilidades Aula 8- Estimadores Aula 9- Teorema central do limite e aplicações Aula 10- Testes de hipóteses int_estatistica_aula7 2 Aula 7 7.1 Objetivo Breve revisão da teoria das probabilidades Apresentar o conceito de probabilidade e suas principais propriedades. Introduzir o conceito de variável aleatória e vetor aleatório. 7.2 Introdução Vimos anteriormente que a incerteza sobre muitos aspectos da realidade motivou o desenvolvimento da estatística como um método para orientar decisões e resolver problemas. A estatística se baseia no conceito de acaso, ou aleatoriedade, que é um conceito abstrato, uma opção metodológica. Um modelo estatístico não está, necessariamente, imputando a aleatoriedade como uma propriedade do fenômeno em estudo. A objetividade ou não do acaso é uma discussão de natureza filosófico-científica. Aristóteles, 385-322 a.C., o célebre autor do Organom, classificava os eventos em três tipos : 1) eventos certos que acontecem necessariamente 2) eventos prováveis que acontecem na maioria dos casos 3) eventos imprevisíveis, que acontecem por acaso Em Tomás de Aquino, 1225-1274, a onisciência de Deus não se resume ao conhecimento dos fatos reais (passados, presentes e futuros), mas de todos os fatos possíveis. Ou seja, conhece tudo o que teria se passado se determinada condição fosse diferente. Para Hume, 1711-1776, o acaso não existe de fato, mas a ignorância sobre a causa de qualquer evento teria efeito semelhante sobre a compreensão do mundo real, gerando uma espécie de crença ou opinião sobre os eventos. Para a tradição clássica elaborada por Fermat, 1601-1665 , Pascal, 1623 -1662, Huygens, 1629-1695, e James Bernoulli, 1654-1705, o conceito de evento aleatório está associado à imprevisibilidade de ocorrência do evento, mesmo que as condições nas quais ele ocorre pareçam as mesmas. Para estes eventos, supõe-se a existência de um experimento que ao ser executado sob condições experimentalmente indistinguíveis, produz resultados imprevisivelmente diferentes. Evento aleatório é um conjunto definido no contexto de um experimento aleatório, cuja ocorrência pode ser verdadeira ou não. Von Mises, 1883-1953, estabeleceu a hipótese de que o experimento poderia ser executado infinitamente, base para o enfoque frequencista. Eventos singulares não estão incluídos nesta categoria. Na primeira metade do século XX, Albert Einstein, 1879 - 1955 , discordou do caráter aleatório da Teoria Quântica proposta por Werner Heisenberg, Paul Dirac, e Erwin Schrödinger. É de Einstein a famosa frase – Deus não joga dados !, retomando-se assim a controvérsia sobre o caráter objetivo ou não dos eventos aleatórios. Para ele, embora a teoria quântica representasse a melhor formulação dos fenômenos atômicos, não acreditava que se pudesse evoluir muito a partir dela, almejando restaurar o determinismo e a causalidade na física. Crendo, assim, que existe uma teoria que represente realisticamente os eventos e não apenas a probabilidade de seu aparecimento. Ernest Mach, 1838-1916, físico e integrante do Círculo de Viena – núcleo de filósofos, matemáticos e lógicos - que foi relevante para a renovação do pensamento científico do século XX – realçou o caráter relativo do conhecimento científico, abandonando a busca da essência ou causas finais dos fenômenos. Para ele, o objetivo da ciência é descobrir as relações entre os fenômenos. Um de seus discípulos, Bruno de Finetti, 1906 -1985, apoiando-se nas idéias de Thomas Bayes, 1701-1761, as quais tornaram-se conhecidas graças a Richard Price, 1723-1791, elaborou uma teoria probabilística e um método de inferência – a inferência bayesiana. Para De Finetti, um evento é um caso único que ocorreu ou vai ocorrer, ou ainda não ocorreu, nem vai ocorrer. Para ele, é somente isto que pode ser observado, não havendo espaço para nenhuma outra noção. A um nível de informação (para um indivíduo, ou coletividade) um evento pode ser certo, possível ou impossível. int_estatistica_aula7 3 George Matheron, 1930-2000, engenheiro, da Escola de Minas de Paris, que desenvolveu importantes aplicações da teoria das funções aleatórias a problemas no espaço n-dimensional, ao se referir à aleatoriedade dos fenômenos, prefere dizer que tudo se passa como se o fenômeno fosse devido ao acaso. Mas se recusa a admitir que o acaso tenha uma ação decisiva sobre o curso dos eventos. Rejeitando, assim, que a evolução genética, por exemplo, pudesse ser explicada pela força do acaso. Identificar a incerteza sobre determinado evento com a aleatoriedade é um equívoco comum, mesmo em exemplos típicos de livros introdutórios sobre probabilidade, como os jogos de dados ou roleta. Pois se dispuséssemos de todos as condições iniciais, assim como os modelos dinâmicos, poderíamos prever o resultado do jogo. Os jogos de azar que motivaram, no século XVI, as primeiras fórmulas do cálculo de probabilidades, são abstrações da realidade. Matheron prefere falar de modelo probabilístico e de sua correspondência objetiva. Por outro lado, ainda que a repetição de um experimento, rigorosamente, não consiga gerar exatamente os mesmos eventos, a diferença entre estes eventos é mínima, de medida nula se utilizarmos a linguagem da teoria da medida. Portanto, a idéia de repetibilidade pode se aplicar, contrariando assim a exclusividade de cada evento observado, que municia a argumentação do enfoque Bayesiano. Karl Popper, 1902-1994, tem uma importante contribuição para a definição de objetividade de um enunciado científico. Desdobrando-os em singulares e universais. Os enunciados singulares referem-se a eventos particulares cuja ocorrência pode ser comprovada ou não. Os enunciados universais, por outro lado, referem-se a eventos cuja comprovação exigiria infinitas experiências ou observações – leis da física, por exemplo, mas, ao contrário de um evento metafísico, pode, a qualquer momento, ser desmentido por uma experiência, ou corroborado por ela. A linha de demarcação entre os enunciados metafísicos e os objetivos ou empíricos é o critério de falseabilidade, segundo o qual os enunciados científicos são aqueles que podem ser submetidos à verificação. Neste sentido a objetividade é um conceito operatório – regular, reproduzível e mensurável segundo uma escala. No leste europeu e na União Soviética, o materialismo dialético inspirou o pensamento científico até a dissolução do regime. Andrei Nikolaevich Kolmogorov, 1903-1987, de origem humilde, chegou à Universidade de Moscou em 1920 aonde passou boa parte de sua carreira, sendo considerado um dos maiores matemáticos e probabilistas do século XX. Concebeu uma formulação matemática para a noção de evento e de probabilidade baseada na teoria da medida . Esta formulação é consensual tanto para estatísticos objetivistas como subjetivistas. A formulação matemática para a teoria das probabilidades é considerada também como a única teoria adequada para tratar a incerteza, em oposição a outros métodos matemáticos e computacionais, como é o caso da matemática nebulosa (fuzzy). Os princípios sobre os quais a teoria das probabilidades foi edificada remontam a Galileu (1564-1642), que, embora, não se dedicando a esta teoria, formulou sua essência. São eles a fórmula clássica para a probabilidade, os princípios da soma e do produto, e a idéia de convergência. 7.3 Espaço de Probabilidade Kolmogorov concebeu o conceito de espaço de probabilidade que é constituído do espaço amostral (não confundir com amostra), de uma sigma álgebra de eventos e da função probabilidade. Definição 7.1 Evento é um membro de uma coleção de subconjuntos de um conjunto denominado espaço amostral Ω, que tem a estrutura de uma σ-álgebra F. Definição 7.2 Espaço amostral é a coleção dos resultados possíveis, numéricos ou não, da realização de um experimento ou observação. Definição 7.3 σ-álgebra é uma coleção de subconjuntos de Ω que satisfazem às propriedades seguintes: int_estatistica_aula7 4 i) A, B ∈ X ⇒ A ∩ B ∈ X ii ) A ∈ X ⇒ Ac ∈ X ∞ iii ) Ai ∈ X , i = 1, ∞ ⇒ U Ai ∈ X i =1 Esta conceituação permitiu tratar espaços amostrais finitos ou infinitos, enumeráveis ou não. Por exemplo, se o experimento consiste em registrar o instante em que determinado componente falha, o espaço amostral consiste no intervalo real [0, a) aonde a representa um valor razoável para a vida útil máxima do componente. A construção da σ-álgebra é feita em duas etapas, na primeira supõe-se uma lista de resultados possíveis associados à execução do experimento (espaço amostral). Em seguida, através de operações de complementaridade, de interseção e de união destes conjuntos são obtidos os demais eventos, cuja ocorrência pode ser verificada em função da ocorrência ou não dos eventos da lista inicial, a qual é denominada espaço amostral. A generalidade da definição abarca tanto o conceito bayesiano, como o clássico e o frequencista de evento, passando a ser condição necessária para a construção de uma teoria das probabilidades coerente. Um caso particular de sigma-álgebra de extrema importância para a teoria das probabilidades é a sigma-álgebra de Borel, que é a menor sigma-álgebra que contem todos os abertos e fechados na reta real. Falta definir matematicamente a função probabilidade, o que vai depender do experimento que está sendo analisado. No entanto, Kolmogorov precisou qual o conjunto de propriedades que uma função deve satisfazer para ser considerada uma probabilidade. O marco histórico da abordagem clássica é um pequeno ensaio escrito por Galileu Galilei em 1620 sobre quais somas são mais comuns em um jogo com três dados. Os jogadores profissionais acreditavam que eram 10 e 11, mas não tinham provas disto. Embora o problema fosse trivial que Galileu resolveu em quatro páginas, deste ensaio depreendem-se os princípios fundamentais que sempre nortearam o desenvolvimento da teoria das probabilidades : Na abordagem clássica, ou Laplaceana, a probabilidade (numérica) de um evento é o quociente entre os casos favoráveis e os casos possíveis. Utilizando a notação para eventos introduzida no capítulo anterior, neste caso o espaço amostral Ω, ver definição 7.2 , é finito e discreto, e os resultados do experimento têm a mesma propensão a ocorrer, sendo a σ- álgebra de eventos, definição 7.3, o conjunto das partes de Ω. Então a probabilidade de um evento é definida por uma função que a cada evento associa um número: Definição 7.4 Definição clássica de probabilidade P( A) = #A ; #Ω A⊆Ω Aonde # é a cardinalidade do conjunto. A motivação para esta definição é óbvia e pode ser facilmente verificada nos experimentos relacionados a jogos de azar tais como dados, roleta, baralho, etc...A coerência da definição é ainda assegurada pelo fato de que a imagem inversa de quaisquer subconjuntos de números inteiros corresponde a um subconjunto do espaço amostral. Exemplo 7.1 Combinatória e contagem A definição clássica de probabilidade supõe que os resultados do experimento tenham igual chance e que o número de resultados possíveis seja finito. Daí é óbvia a conclusão de que a probabilidade de sortear uma determinada face no lançamento de um dado seja igual a 1/6, porém para calcular a probabilidade de um evento A mais complexo a contagem dos elementos de A requer, em muitos casos, a ajuda da combinatória. Vimos na aula 2 a importância da amostragem para levantar informações sobre uma dada população, suponha uma população finita com N 5 elementos, da qual vai se sortear um número finito de k elementos para constituir uma amostra. Quantas amostras diferentes podem ser construídas em cada caso ? Em cada caso a resposta é dada respectivamente pelas fórmulas de arranjos com repetição de N elementos k a k , combinações com repetição de N elementos k a k, arranjos de N elementos k a k e combinações de N elementos k a k. ordem importa : N k % N + k − 1 com reposiçao % importa : ordem nao k amostragem N! ordem importa : ( N − k )! sem reposiçao % N! % importa : ordem nao N k k ( − )! ! São óbvias as limitações da definição, algumas tentativas foram feitas para aumentar sua abrangência através do conceito de definição geométrica de probabilidade, na qual se identificam os eventos e o espaço amostral a figuras geométricas, de dimensão qualquer, e, ao invés de contar elementos, o que seria impossível de toda forma, calcula-se a área ou o volume, definindose a probabilidade de um evento como a razão entre sua área (volume) e a área (volume) do espaço amostral. A primeira dificuldade da abordagem é a identificação entre o experimento e sua formulação geométrica, o que pode ser não trivial para experimentos mais complexos, podendo levar a diferentes valores de probabilidades para o mesmo evento. Ver no anexo ao final deste capítulo o paradoxo de Bertrand (A7.1) e o problema da agulha de Buffon (A7.2) . Algumas propriedades se destacam desta definição P( A) ≥ 0 P ( Ω) = 1 A ∩ B = ∅ ⇒ P( A ∪ B) = P( A) + P( B) O conjunto de propriedades acima foi concebido como um conjunto axiomático de propriedades que uma função deveria satisfazer para poder ser uma probabilidade. A ferramenta principal para a construção de probabilidades nos casos em que o paradigma clássico não se aplica é a variável aleatória, que será vista mais adiante. Definição 7.5 Axiomas da função Probabilidade a1) P ( A) ≥ 0, A ∈ F a 2) P(Ω) = 1 ∞ ∞ i =1 i =1 a3) Ai ∩ Aj = ∅ ⇒ P(U Ai ) = ∑ P( Ai ), Ai eAj ∈ F Como conseqüência destes axiomas, deduzimos as seguintes propriedades adicionais da função probabilidade: i) c P(A )=1 – P(A) 6 c A sua verificação resulta da aplicação do segundo e do terceiro axioma para A e A . Como c A∪A = Ω e P(Ω) = 1, temos o resultado. ii) P(A∪ B)=P(A) + P(B) – P(A∩B) Se A∩B=∅ o resultado resulta do axioma 3, senão é necessário subtrair P(A∩B) para que a interseção não seja contada duas vezes. iii) A⊆B ⇒ P(A) ≤ P(B) 7.4 Exercícios 1. Um experimento consiste em lançar 2 vezes um dado, obtendo-se um par de valores. a)Determine o espaço amostral deste experimento b)Determine o evento : soma dos elementos do par <= 8. c)Determine o evento: complemento de a) 2. Considere uma urna com bolas numeradas de 1 a 100 (números inteiros). Determine a probabilidade de sortear um número que seja ou ímpar ou começado por cinco ou terminado por três. O número cinco satisfaz e o número três também. 3. Sejam A, B e C três eventos relativos a um espaço amostral. Exprima os eventos abaixo, usando operações de união, interseção e complementação. a)A e C ocorrem e B não ocorre b)Nenhum dos eventos citados acima ocorre c)Nenhum evento ocorre d)A ou C ocorrem e B ocorre 4. Em uma comunidade as probabilidades de um indivíduo ter determinado tipo sangüíneo são : c c P(A)= 0,2 P(B )=0,9 P((AB) )=0,95 a)Qual a probabilidade de um indivíduo ter sangue do tipo O ? b)Qual a probabilidade de um indivíduo não ter o tipo B ou o tipo AB ? 5. Em um baralho com 52 cartas, 3 cartas são sorteadas ao acaso. Ache a probabilidade de que exatamente um ás é sorteado. 6. Para o mesmo experimento do exercício 5, calcule agora a probabilidade de que pelo menos um ás seja sorteado. 7. Em um jogo de poker determine a probabilidade para cada uma das situações seguintes, aonde cinco cartas estão com um jogador: a) exatamente um par (duas cartas de igual valor + três cartas de valores distintos) b) exatamente dois pares c) exatamente um trio (três cartas de igual valor + duas cartas de valores distintos) d) full house (um par e um trio) e) four of a kind (exatamente quatro cartas de igual valor) f) straight (cinco cartas em seqüência, o ás pode ser utilizado tanto como maior ou menor carta, inclui-se o straight flush neste caso) g) flush (todas as cartas do mesmo naipe, inclui-se o straight flush) h) straight flush (cinco cartas em seqüência e do mesmo naipe) i) royal flush ( straight flush com a seqüência de 10, valete,rainha,rei e ás) j) nenhuma das seqüências acima int_estatistica_aula7 7 7.5 Respostas 2. 0,55 5. 4 48 1 2 = 0, 2042 52 3 6. À probabilidade calculada anteriormente vamos somar (regra da soma) as probabilidades de 4 48 4 48 2 1 = 0,0130 3 0 = 0, 0002 52 52 3 3 sortear pelo menos dois ases e três ases, obtendo-se 0,2174. 7. Considerando que um baralho tem 52 cartas existem 2.598.960 combinações diferentes de 52 cartas cinco a cinco. Há ainda 13 valores de face de 1 a 10 mais valete, rainha, rei e ás. Os naipes são quatro: espadas, copas, ouro e ... a) O valor de um par pode ser sorteado de 13 maneiras diferentes, como existem 4 naipes as seqüências podem ser compostas por combinações de 4 naipes dois a dois. Os três valores distintos podem ser sorteados por combinações de 12 valores 3 a 3. Os naipes para estes 3 valores distintos podem ser sorteados de 4 maneiras distintas. Aplicando-se o princípio do produto e a fórmula clássica da probabilidade, obtem-se o valor desejado 4 12 13 × × × 43 2 3 ≅ 0, 42 52 5 b) 2 13 4 × × 11× 4 2 2 ≅ 0, 048 52 5 c) 12 13 × 4 × × 4 2 2 ≅ 0, 021 52 5 8 d) 4 13 × 4 × 12 × 2 ≅ 0, 0014 52 5 e) 13 × 12 × 4 ≅ 0, 0024 52 5 f) 10 × 45 ≅ 0, 0039 52 5 g) 13 4× 5 ≅ 0, 0020 52 5 h) 10 × 4 ≅ 0, 000015 52 5 i) 4 ≅ 0, 000002 52 5 j) Devem ser considerados 5 valores distintos, excluindo-se o straight. Em seguida deve-se levar em conta os diferentes naipes, excluindo-se o flush. 13 5 − 10 × (4 − 4) 5 ≅ 0,501177 52 5 9 7.6 Probabilidade Condicional e Independência O conceito de probabilidade condicional é tão importante quanto o de probabilidade e, de certa forma, mais próximo do que o senso comum identifica como sendo probabilidade. Por exemplo, quando estamos em dúvida se devemos levar o guarda-chuva antes de sair de casa, procuramos ao olhar pela janela se as nuvens estão carregadas, se o vento está mais intenso, se a umidade aumentou etc...Ou seja, a partir da confirmação de alguns eventos que julgamos associados à ocorrência de chuva, avaliamos a chance dela ocorrer. Na maioria dos casos vamos proceder desta maneira, exceto em experimentos sintéticos como os de jogos de azar, por exemplo. A probabilidade condicional pode ser definida a partir do conceito de probabilidade, constituindo ela própria uma probabilidade, isto é, satisfaz os três axiomas que definem uma função probabilidade. Definição 7.6 Probabilidade Condicional de um evento H dado que o evento D ocorreu P( H ∩ D) ; se P( D) ≠ 0 P( D) P( H | D) = P( H ); se P( D) = 0 P( H | D) = Observe que foi colocada uma alternativa de definição para o caso de P(D) =0. Contrariamente ao caso clássico, no qual P(D)=0 é equivalente a D=∅, para espaços amostrais infinitos podemos ter P(D)=0 e D diferente de ∅. Duas fórmulas úteis para o cálculo de probabilidades se deduzem da definição 7.6, a fórmula do produto: P( A ∩ D) = P( A | D) P( D) (7.1) E a fórmula da soma, que para ser aplicada supõe uma partição do espaço amostral, isto é, uma coleção finita de conjuntos Ai ,disjuntos dois a dois, e cuja união é o espaço amostral. Para esta partição e um evento A qualquer tem-se que: n n i =1 i =1 P( A) = ∑ P( A ∩ Ai ) = ∑ P( A | Ai ) P( Ai ) (7.2) Exemplo 7.2 Um restaurante popular apresenta apenas dois tipos de refeições : salada completa ou um prato à base de carne; 20% dos fregueses do sexo masculino preferem salada ; 30% das mulheres escolhem carne ; 75% dos fregueses são homens . Considere os seguintes eventos : H: freguês é homem A: freguês prefere salada M: freguês é mulher B: freguês prefere carne Calcular : a) P(H) , P(A|H) , P(B|M) ; b) P(A ∩H) , P(A) O item a) visa verificar a compreensão dos dados do enunciado. É muito comum o iniciante confundir a probabilidade condicional com a probabilidade da interseção. Obviamente P(H)=0,75, já P(A|H)= 0,2 e P(B|M)=0,3 porque os porcentuais ou proporções em ambos os casos não se aplicam sobre a totalidade dos clientes mas sobre os homens e as mulheres, respectivamente. O item b) visa verificar a compreensão das fórmulas 7.1 e 7.2 . Pela 7.1, P(A ∩H)=P(A|H) P(H) = 0,2 x 0,75 = 0,15 . Dado que os eventos H e M são uma partição do espaço amostral constituído pelos clientes do restaurante, podemos aplicar a fórmula 7.2 para calcular P(A)= P(A ∩H) + P(A ∩M)= 0,15 + 0,175= 0,325 . int_estatistica_aula7 10 Definição 7.7 Independência entre eventos Dois eventos A e B são independentes se e somente se (s.s.s) P(A|B)=P(A) Equivalentemente podemos dizer que dois eventos A e B são independentes s.s.s P(A∩B)=P(A)P(B) É comum o estudante identificar eventos disjuntos como sendo independentes. Entretanto é exatamente o contrário ! Pois se A e B forem disjuntos, P(A∩ B)=0 e no entanto P(A)P(B) ≠ 0 em geral. Exemplo 7.3 Na tabela os números que aparecem são probabilidades relacionadas com a ocorrência de A , A ∩ B e assim por diante. Por exemplo, P(A)=0,10 , enquanto que P(A∩B) =0,04. Verifique se A e B são independentes . A c A c B 0,04 0,08 0,12 B 0,06 0,82 0,88 0,1 0,9 1,0 Basta verificar se P(A∩B)=P(A)P(B), como P(A∩B)= 0,04 ≠ P(A)P(B)= 0,1 X 0,12 = 0,012, então concluímos que não são independentes. 7.7 Fórmula de Bayes A contribuição central de Bayes foi a concepção de um processo de aprendizado com a experiência. Assim a probabilidade P(H) de um evento (ou hipótese) não é absoluta em si, mas a medida que novos eventos (ou dados) são conhecidos, ela pode ser atualizada. Fórmula de Bayes (forma com uma hipótese): P( H | D) = P( D | H ) × P( H ) (7.3) A dedução é imediata. Os termos desta fórmula recebem denominações particulares que explicam a sua utilidade: P(H) é a probabilidade a priori de H, representando o valor inicial desta probabilidade antes de se obterem dados ou outras evidências. P(D|H) é a verossimilhança, ou o impacto dos dados sobre H. Um baixo valor desta probabilidade reflete o fato de que as chances de H são baixas, e vice-versa. P(H|D) é a probabilidade a posteriori de H , ou a probabilidade atualizada de H após a utilização de nova informação na verossimilhança. Fórmula de Bayes (forma com n hipóteses) int_estatistica_aula7 11 P( H j | D) = P( D | H j ) × P( H j ) n ∑ P( D | H ) × P( H ) i n ; aonde H i ∩ H j = ∅; U H i = Ω (7.4) i =1 i i =1 Neste caso há várias hipóteses concorrentes sendo consideradas. A dedução é muito fácil, bastando observar que o denominador é igual a P(D) e o numerador a P(D ∩ Hj). Exemplo 7.4 Retomando o enunciado do exemplo 7.2 determine P(M|A) Pela fórmula 7.4 , P(M|A) = P(A|M)xP(M) / (P(A|M)xP(M)+P(A|H)xP(H)) = 0,80x0,25 / (0,80x0,25 + 0,20x0,75) = 0,57 Observe que P(A|M)=1 – P(A|H)=1 – 0,20 = 0,80 e P(M) = 1 – P(H) = 0,25 Uma forma usual de expressar uma probabilidade é através da razão de chances, muito utilizada em apostas de torneios, por exemplo, o time A tem o dobro das chances do time B. Esta forma não implica na determinação das probabilidades respectivas de A ou B ganharem mas apenas da chance relativa entre elas. A razão de chances também pode ser enunciada para a c ocorrência de um evento A e o seu complemento A : c o(A)=P(A)/P(A ) (7.4) A razão de chances pode servir para se definir uma probabilidade: o(A) =P(A)/(1-P(A)) ⇒ P(A)=o(A) / [1 + o(A)] (7.5) 7.8 Variáveis Aleatórias O conceito de variável aleatória é um dos conceitos fundamentais da teoria das probabilidades e entre outras aplicações permite a construção de probabilidades para eventos associados a um experimento. Uma variável aleatória é uma função que associa cada evento de um espaço amostral a um número. Quando esta associação é possível com os números racionais dizemos que a variável aleatória é discreta, quando ela só for possível com os números reais então ela é uma variável aleatória contínua. Como os racionais são enumeráveis, usualmente se define uma variável aleatória discreta como assumindo valores inteiros. Exige-se também que para uma função ser uma variável aleatória que sua imagem inversa sempre corresponda a um evento. Definição 7.8 Variável Aleatória Discreta X : Ω → {x1 , x2 ,...} ⊆ Z A a X ( A) = xi Embora seja uma função, não é uma função real o que dificulta a sua manipulação. Esta limitação é contornada com as definições de função densidade discreta f(x) e função de distribuição (acumulada) F(x). 12 Exemplo 7.5 a) Em um jogo de dados com um só dado associar a cada face o número de marcas. X : Ω → {1, 2, 3, 4,5, 6} b) Em um jogo de lançamento de uma moeda associar a cada face os números 1 ou 0. X : Ω → {0,1} c) Em um sistema de controle de freqüência associar a cada aula o número de alunos presentes. X : Ω → {0,1, 2,..., 60} d) Em um call center associar a cada período de tempo pré-fixado (por hora, por dia, etc...) o número de chamadas X : Ω → {0,1, 2,3,...} Observe que neste último caso, teoricamente, podemos ter tantas chamadas quanto números inteiros, ou seja, trata-se de um experimento com espaço amostral infinito e consequentemente a variável aleatória (neste caso) tem a imagem infinita, porém discreta. Um mesmo experimento pode servir para a definição de mais de uma variável aleatória. Por exemplo, para o jogo com uma moeda, poderíamos definir uma variável aleatória que associasse ao evento sair cara o número de lançamentos necessários até que isto ocorresse. Definição 7.9 Função densidade discreta A dificuldade operacional da definição de variável aleatória é contornada com a definição de densidade discreta, também conhecida como função de massa, ou ainda, função distribuição de probabilidades. Esta função associa ao valor que pode ser assumido pela variável a uma probabilidade. Uma função é uma densidade se for não negativa e a soma de todos os valores assumidos for igual a 1. f ( x) = P{ A ⊆ Ω | X ( A) = x} = P( X = x) (7.6) Exemplo 7.6 a) Distribuição uniforme: utilizada para modelar experimentos aleatórios puros X : Ω → {1, 2,..., n} 1 f (k ) = P( X = k ) = ; k = 1,..., n n b) Distribuição de Bernoulli: utilizada para modelar experimentos aleatórios dicotômicos X : Ω → {0,1} f (1) = P( X = 1) = p f (0) = P( X = 0) = q = 1 − p int_estatistica_aula7 13 c) Distribuição Binomial: utilizada para modelar experimentos compostos de Bernoulli X : Ω → {1, 2,..., n} n f (k ) = P( X = k ) = p k q n − k ; k = 1,..., n k d) Distribuição Geométrica: utilizada para modelar experimentos com condição de parada a a simples ( 1 ocorrência, 1 falha, etc...) X : Ω → {1, 2,3,...} f (k ) = pq k −1 e) Distribuição de Poisson: utilizada para modelar experimentos durante um intervalo de tempo contínuo, porém com um número discreto de resultados ( acidentes por mês, terremotos por ano, etc...) X : Ω → {0,1, 2,...} f (k ) = µk k! e− µ f) Distribuição Hipergeométrica: utilizar para modelar experimentos com espaços amostrais finitos e discretos para os quais a chance de ocorrência de evento varia à medida que os sorteios são feitos (amostragem sem reposição, por exemplo) X : Ω → {0,1,..., n} r N − r k n − k f (k ) = N n Exemplo 7.7(associado aos itens do exemplo anterior) a) Considere uma urna com bolas numeradas de 1 a 100. Determine a probabilidade de sortear um número que seja ímpar ou iniciado por 5 e terminado por 3. O número 5 satisfaz e o número 3 também. O experimento pode ser modelado pela distribuição uniforme discreta: U(1,2,...,100). Os números ímpares são no total de 50 para o intervalo considerado e incluem o 3, o 5 e os números terminados por 3. Da condição restante, números que começam por 5, temos cinco valores que não estão incluídos nos ímpares: 50, 52, 54, 56, 58. Portanto o total de números que satisfaz a condição é de 55. Pela densidade discreta a probabilidade de sortear cada um destes números é igual a 1/100, como são 55 a probabilidade pedida é igual a 0,55. int_estatistica_aula7 14 b) Faça o gráfico da função densidade para uma distribuição de Bernoulli com parâmetro p = 0,1. Usualmente associa-se o termo sucesso quando a variável assume o valor 1, mas isto é apenas uma convenção, não necesseriamente o evento que é associado ao valor 1 representa um fato positivo ou benéfico, mas apenas o evento de interesse. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 c) Considere um estudante que vai prestar um exame , como ele estudou pouco , tem 30% de chance de acertar cada questão . A prova tem 12 questões .Qual a probabilidade de acertar entre 0 e 4 questões ? Esta pergunta pode ser respondida modelando-se o experimento por uma distribuição binomial com parâmetros p = 0,3 e n = 12. Pela fórmula dada no item c) do exemplo 7.6, podemos calcular (aproximadamente) as probabilidades sucessivamente para k=0, 1, 2, 3, e 4: 0,014; 0,071; 0,17; 0,24 e 0,23. Somando estes valores obtemos 0,73. d) Um estudante saiu para comemorar sua aprovação no curso de Estatística, como bebeu muito ao voltar para casa tenta aleatoriamente encontrar a chave que abre a porta do seu apartamento. Se a chave não serve, tenta novamente, podendo, devido ao seu estado de embriaguez, escolher de novo as chaves tentadas anteriormente (sorteio com reposição). Qual a chance de abrir a porta na terceira tentativa, se o seu chaveiro tem 10 chaves e somente uma abre a porta ? Este experimento pode ser modelado pela distribuição geométrica com parâmetro p = 0,1 e k=3. Pela função densidade discreta o valor da probabilidade procurada é : 2 0,1(0,9) =0,081. f) Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de qualidade examina cada caixa, antes da posterior remessa, testando 5 motores. Se nenhum motor for defeituoso, a caixa é aceita. Se, pelo menos um for defeituoso, todos os motores são testados. O fornecedor sabe que há 6 motores defeituosos em cada caixa. Qual a probabilidade de que seja necessário examinar todos os motores da caixa ? Este experimento pode ser modelado pela distribuição hipergeométrica com os seguintes parâmetros N=50; r=6; n=5. Vamos calcular a probabilidade de não se encontrar nenhum motor defeituoso e então a probabilidade desejada é o seu complemento. 44 6 5 0 1 − = 1 − 0,53 = 0, 47 50 5 15 7.9 Exercícios 1. Um estudo estatístico sobre o comportamento eleitoral em um estado produziu os seguintes resultados , expressos em probabilidades , sobre os votos exclusivos em partidos, assim como votos em branco e nulos : Partido da Aliança , Partido do Brasil , Partido Democrata , Partido Nacional , Brancos e Nulos . P(Aliança)= 0,05 ; P(Brasil)= 0,30 ; P(Democrata)=0,40 ; P(Nacional)=0,04 ; P(Brancos)= 0,20 P(Nulos)= 0,01 Tomando por base estes resultados, calcule as seguintes prrobabilidades : c c c a) P(D ∩A ∩Na ) = c c b) P(D ∪Bras ) = c c) P(D | Bras ) = c d) P(Bras∩D ) = e) P(A∪Na∪Nu) = c f) P(A-Nu | Bran ) = g) P(A∩Bras∩D) = c h) P(A ∪Bran∪D) = c c i) P(Nu | Bran ) = c c j) P [ (D∪A) | Na ] = No item f) , A-Nu denota a interseção de A com o complementar de Nu 2. Dois sinais de duração T < ½ cada, são transmitidos por um canal de rádio durante um intervalo de tempo (0,1) ; cada um deles começa a ser transmitido com a mesma probabilidade em qualquer instante do intervalo (0, 1-T). Se os sinais não se interceptarem eles são transmitidos com sucesso, senão eles se interferem totalmente. Calcule a probabilidade de que eles sejam transmitidos com sucesso. 3. Uma indústria tem três máquinas , A1 , A2 e A3 que produzem , respectivamente , 50% , 30% e 20% do número total de eixos que fabrica . A porcentagem de produtos defeituosos oriundos destas máquinas é 3% , 4% e 5% respectivamente . Tomando base estas informações, calcule as seguintes probabilidades : a) Se um eixo é escolhido ao acaso , qual é a probabilidade do mesmo não ser defeituoso ? b) Seja um eixo escolhido ao acaso e que é defeituoso . Qual a probabilidade de ter sido produzido pela máquina A1 ou A3 ? c) Se o eixo escolhido ao acaso não for defeituoso , qual a probabilidade de ter sido produzido pela máquina A1 ? d) Um cliente da indústria compra o lote de eixos se menos de 4% forem defeituosos. O negócio será fechado ? Por que ? int_estatistica_aula7 16 e) Seja um eixo escolhido ao acaso e que é defeituoso . Qual a probabilidade de ter sido produzido pela máquina A1 ou A2 ? f) Se o eixo escolhido ao acaso não for defeituoso , qual a probabilidade de não ter sido produzido pela máquina A1 ? g) Seja um eixo escolhido ao acaso e que é defeituoso . Qual a probabilidade de ter sido produzido pela máquina A2 ou A3 ? h) Caso se deseje melhorar a qualidade do lote de peças e se disponha de recursos para consertar apenas uma máquina , qual delas você escolheria ? Por que ? i) Se o eixo escolhido ao acaso não for defeituoso , qual a probabilidade de ter sido produzido pela máquina A2 ? j) Se o eixo escolhido ao acaso for defeituoso , qual a probabilidade de ter sido produzido pela máquina A1 ? 4. Pedro quer enviar uma carta a Marina. A probabilidade de que Pedro escreva a carta é de 0,8. A probabilidade de que os Correios não a percam é de 0,9. A probabilidade de que o carteiro a entregue é de 0,9. Dado que Marina não recebeu a carta, qual é a probabilidade condicional de que Pedro não a tenha escrito ? 7.10 Respostas selecionadas c c c 1. a) P(D ∩A ∩Na ) = 1-P(Nu ∪ Bran ∪ Bras) =1 - P(Nu) - P(Bran) - P(Bras) = 0,51 c c c c b)P(D | Bras ) = P(D ∩ Bras ) / P(Bras ) = P(D) / P(Bras ) = 0,40 / 0,70 ≅ 0,57 2.a) P(defeituoso)=P(L1)x P(defeituoso| L1) + P(L2)x P(defeituoso| L2) + P(L3)x P(defeituoso| L3)= 0,5x0,03 + 0,3x0,04 + 0,2x0,05 = 0,037. Logo a P(não defeituoso)=0,963 . 7.11 Média e Variância de Variáveis Aleatórias Discretas Vimos nas aulas 3 e 5 os conceitos de média e variância amostrais, vamos agora reintroduzir estes conceitos para variáveis aleatórias. Na estatística clássica paramétrica, a média e a variância (populacionais) são parâmetros. Diferentemente das estatísticas não variam, são os mesmos valores para toda a população. A forma de calculá-los vai mudar em conseqüência disso, pois ao invés de freqüências, temos probabilidades. As definições são dadas a seguir: n µ = E ( X ) = ∑ xi P( X = xi ) (7.7) i =1 n σ 2 = VAR( X ) = ∑ ( xi − µ ) 2 P( X = xi ) (7.8) i =1 ou n n i =1 i =1 σ 2 = E ( X 2 ) − ( E ( X )) 2 = ∑ xi2 P( X = xi ) − (∑ xi P( X = xi )) 2 (7.9) A fórmula (7.9) é o equivalente da fórmula prática para a variância experimental e é particularmente útil em deduções e aplicações como veremos mais adiante. Para cada uma das variáveis aleatórias apresentadas no exemplo 7.6 damos respectivamente os valores de suas 17 média e variância. Há ferramentas mais avançadas para o cálculo destes parâmetros, como a função geradora de momentos, por exemplo, mas não serão vistos aqui. Exemplo 7.8 Média e variância (associado aos itens do exemplo 7.6) n +1 2 b) bernoulli : µ = p σ 2 = pq a) uniforme : µ = σ 2 = npq c) binomial : µ = np d ) geometrica : µ = e) poisson : µ = µ 1 p σ2 = (1 − p) p2 σ2 = µ f ) hipergeometrica : µ = n × r N −r Exemplo 7.9 O jogo de roleta Considere o jogo de roleta tradicional. Neste jogo há várias modalidades de aposta, a mais simples consiste em apostar em um número de 1 a 36, sendo que há mais duas casas na roleta que não entram nas apostas e são da casa. Esta modalidade de aposta é a que dá o maior prêmio, porém é a que tem menor chance para o jogador: 1/38. Supondo-se que a casa paga 35 unidades monetárias para cada unidade apostada em um número premiado, calcule a esperança de ganho de um jogador nesta modalidade. É necessário construir a distribuição de probabilidade neste caso, já que não corresponde a nenhum dos modelos tradicionais apresentados, embora tenha a mesma estrutura da distribuição de Bernoulli. A densidade discreta associada a variável aleatória ganho é dada pela tabela: xi f(xi) 35 1/38 -1 37/38 De acordo com a fórmula (7.7) a média ou esperança de ganho do jogador é: E ( X ) = µ = 35. 1 37 2 + (−1). = − ≅ −0, 05 38 38 38 Ou seja, como era de se esperar o jogo favorece a banca. Exemplo 7.10 Entropia é um conceito usualmente associado à física, maior entropia significa maior desordem em um sistema, menor entropia, o contrário. Podemos definir entropia para uma 18 variável aleatória tomando como referência a teoria da informação de Shannon(1916-2001) que define o nível de informação a partir do logaritmo do recíproco da probabilidade, e a entropia como sendo a média destes valores. X v.a. discreta {xk | k = 0, ±1,..., ± K } K P( X = xk ) = pk ; 0 ≤ pk ≤ 1 ; ∑ pk = 1 k =− K O nível de informação de xk é dado por I ( xk ) = log ( 1 ) = −log pk pk Definindo-se assim uma nova v.a discreta cuja média é denominada de entropia K ∑ pk I ( xk ) = − ∑ pk log ( pk ) k =− K k =− K H ( X ) = E[ I ( X )] = K 0 ≤ H ( x) ≤ log (2 K + 1) H ( X ) = 0 ⇔ pk = 1; i ≠ k pi = 0 nenhuma incerteza H ( X ) = log (2k + 1) ⇔ pk = 1 ∀k incerteza maxima 2k + 1 Nos dois casos apresentados, verificamos que a menor entropia (incerteza) corresponde a uma variável quase determinística, e a incerteza máxima à distribuição uniforme. Neste exemplo implicitamente usamos o conceito de função de variável aleatória, que é aplicado quando deduzimos I(X) a partir de X. Um resultado da teoria das probabilidades assegura que a média da função de uma variável aleatória é calculada de acordo com a fórmula K E[ I ( X )] = ∑ pk I ( xk ) (7.10) k =− K 7.12 Variáveis aleatórias contínuas Experimentos com espaços amostrais não enumeráveis representaram uma dificuldade para a construção de modelos de probabilidade, no anexo os paradoxos de Buffon e Bertrand são exemplos disto. A extensão da definição de variável aleatória para o caso contínuo vai permitir a construção de modelos de variáveis aleatórias que permitirão o cálculo operacional de probabilidades. Definição 7.10 Variáveis aleatórias contínuas X :Ω → R A a X ( A) ∈ℜ int_estatistica_aula7 19 X deve ser definido de forma que a imagem inversa de qualquer intervalo real corresponda a um evento. Definição 7.11 Função densidade contínua No caso contínuo a probabilidade de um evento que leva a um número particular é 0. Portanto a função densidade no caso contínuo precisa ser definida para intervalos conforme a expressão abaixo. Uma função é uma densidade se for não negativa e sua integral de -∞ a +∞ for igual a 1. b P(a ≤ X ≤ b) = ∫ f (t )dt (7.11) a Exemplo 7.11 Exemplos de distribuições contínuas e suas funções densidade a) Uniforme (a,b) X : Ω → ( a, b) f( x) 0 se − ∞ < x ≤ a 1 f ( x) = se a < x < b b − a 0 se b ≤ x < ∞ 1/ (b-a) a b x b) Exponencial (λ) X : Ω → (0, ∞) 0 se x < 0 f ( x) = − λ x λ e se x ≥ 0 Densidade Exponencial (lambda=1) 1 0,8 0,6 0,4 0,2 0 int_estatistica_aula7 20 2 c) Normal (µ, σ ) 0,45 X :Ω → R 2 2 1 f ( x) = e − ( x − µ ) / 2σ σ 2π 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 A distribuição normal tem um papel central na estatística clássica, embora tivesse sido identificada desde o século XVI a partir dos trabalhos de Abraham de Moivre (1667 – 1754), é com Carl Friedrich Gauss (1777 – 1855) que sua formalização matemática é consolidada a partir da teoria sobre a distribuição de erros. Definição 7.12 Função de distribuição (acumulada) A definição geral é válida tanto para variáveis discretas como contínuas. F(x) = P( X x ) No caso contínuo o cálculo da Função de distribuição acumulada pode ser feito através da integração da função densidade. Em casos mais simples esta integral tem forma fechada, podendo-se explicitar a função que dá a probabilidade acumulada até o limiar. Mas, na maioria dos casos a integral tem que ser calculada aproximadamente, como na distribuição Normal. Uma função é uma função de distribuição acumulada se for não negativa, assumindo valores entre 0 e 1, não decrescente e contínua à direita. Exemplo 7.12 Funcões de distribuição acumulada a)Uniforme (a,b) 0 se − ∞ < x ≤ a x−a F ( x) = se a < x < b b − a 1 se b ≤ x < ∞ b)Exponencial() 0 se x < 0 F ( x) = −λ x 1 − e se x ≥ 0 No caso normal não é possível obter a forma fechada para F(x). Entretanto uma propriedade que relaciona normais com média e variância distintas vai facilitar o cálculo aproximado de probabilidades para qualquer normal a partir do cálculo feito para a Normal padrão, que é a normal 21 com média 0 e variância 1. Antes de apresentarmos esta propriedade, vejamos as definições de média (ou esperança) e variância para variáveis aleatórias contínuas. 7.13 Média e variância de variáveis aleatórias contínuas A extensão do conceito de média e variância ao caso contínuo é feito via integração da função densidade. As fórmulas 7.13, 7.14 e 7.15 são análogas, respectivamente, às fórmulas 7.7, 7.8 e 7.9 . ∞ µ= ∫ tf (t )dt (7.13) −∞ ∞ σ2 = ∫ (t − µ ) 2 f (t )dt (7.14) −∞ ∞ 2 σ = ∫t ∞ 2 f (t )dt − ( ∫ tf (t )dt ) 2 −∞ (7.15) −∞ Exemplo 7.13 a) Uniforme(a,b) µ= a+b 2 σ2 = (b − a)2 12 b) Exponencial(λ) µ= 1 λ σ2 = 1 λ2 Exemplo 7.14 Uniforme a) Se X é uma uniforme contínua definida no intervalo [-2 , 2] , faça o gráfico da distribuição acumulada de X. 1 -2 2 b) A dureza de rochas em uma jazida segue uma distribuição uniforme contínua no intervalo [50 , 70] . Calcule a probabilidade de que uma rocha tenha dureza entre 55 e 60. P( 55<X<60) = F(60) – F(50) para o caso contínuo. Do exemplo 7.12 a) tem-se que: F(60) = 0,5 e F(55) = 0,25, logo a probabilidade desejada é 0,25. int_estatistica_aula7 22 Exemplo 7.15 Exponencial A distribuição exponencial modela experimentos relativos à vida útil de equipamentos. O parâmetro média dá o valor do tempo esperado de funcionamento. A distribuição exponencial é a única distribuição contínua que tem a propridedade de ausência de memória, motivo pela qual ela é adequada para descrever o funcionamento de equipamentos. Formalmente tem-se: P ( X ≥ a + b | X ≥ b) = P ( X ≥ a ) Ou seja o comportamento é dado pelo intervalo decorrido e não pela origem no tempo. É razoável esta propriedade para descrever o funcionamento durante o tempo útil porque espera-se que um equipamento funcione de modo regular toda vez que for acionado, já a duração da utilização é outra situação. Sabendo-se que o uso contínuo por um período mais prolongado do que outro período no dia anterior, por exemplo, pode ser mais suscetível a falhas. No caso discreto a distribuição geométrica é a única distribuição que também tem a mesma propriedade. Exemplo 7.16 Normal padrão e as funções Z, φ e Φ Uma normal que tenha média 0 e desvio-padrão 1 é denominada de normal padrão e denotada pela letra Z. A função densidade de Z é a função φ, e sua função de distribuição acumulada é a função Φ que só pode ser calculada aproximadamente, ver tabela no anexo II. φ ( x) = 1 − x2 / 2 e 2π 1,00 0,80 0,60 0,40 0,20 0,00 A distribuição normal tem a seguinte propriedade: P( X ≤ x) = P( Z ≤ x−µ σ ) (7.16) É devido a (7.16) que podemos calcular probabilidades para qualquer normal a partir de Φ. Basta achar o limiar equivalente para Z, calculando-se a padronização do limiar x original. 7.14 Exercícios 1. Tomando como referência a tabela da distribuição acumulada da Normal Padrão , escolha cinco dentre as dez questões a seguir : a) Para a Normal N(10 ,1) determine P { X≥11} b) Para a Normal N(10, 4) determine P { X< 2} 23 c) Para a Normal padrão determine L de forma que P{ X>L } = 0,1 d) Para a Normal padrão determine L de forma que P{ 1<X<L} = 0,2 e) Para a Normal padrão determine a P{ X ∉ [ µ ,µ +σ] } f) Para a Normal N(10,4) determine c tal que P{ X ∈ [µ , µ + c σ] }= 0,4 g) Para a Normal padrão determine c tal que P{ X ∈ [1 , 2c] }= 0,3 h) Para a Normal N(10,4) determine P{ x>15} i) Para a Normal padrão determine um intervalo simétrico em torno da média tal que P{ -L < X < L} = 0,80 j) Para a Normal N(-5 , 9) determine P{ X < 0} 2. As vendas de um determinado produto têm distribuição aproximadamente normal , com média 500 e desvio padrão 50 . Se a empresa decide fabricar 600 unidades no mês em estudo , qual é a probabilidade de que não possa atender todos os pedidos desse mês , por estar com a produção esgotada ? 3. As rendas dos membros de uma grande comunidade podem ser representadas por uma distribuição Normal com média igual a 4.000 e desvio padrão igual a 3.000 unidades monetárias . Qual porcentagem da população tem renda superior a 7.600 unidades monetárias ? Determine um intervalo em torno da média que contenha 90% das rendas. 7.15 Respostas selecionadas 1. a) P(X ≥ 11) = P{Z ≥ (11 – 10)/1}=P(Z ≥ 1) = 1 - P(Z 1) = 1 - Φ(1) = 1 – 0,84 = 0,16 Observe que para variáveis aleatórias contínuas a igualdade não importa, pois a probabilidade de um valor ocorrer é sempre 0. O valor de Φ(1) foi obtido na tabela do Anexo II deste capítulo. 7.16 Vetores Aleatórios Vetores aleatórios ou variáveis aleatórias multidimensionais são funções do espaço produto n amostral em R . Neste curso vamos nos limitar ao caso n=2. Os vetores aleatórios podem ser discretos, contínuos ou mistos. Modelam experimentos aonde se observam mais de um atributo. Definição 7.13 Vetor aleatório (bi-dimensional) ( X ,Y ) : Ω × Ω → R2 ( A, B) a ( X ( A), Y ( B)) Analogamente ao caso unidimensional definem-se as funções densidade conjunta e distribuição acumulada conjunta: 24 Definição 7.14 Densidade Conjunta discreta continua d b ∫ ∫ f ( x, y)dxdy = P(a < X < b, c < Y < d ) f ( xi , y j ) = P( X = xi , Y = y j ) c a Definição 7.15 Distribuição Acumulada Conjunta discreta F (m, n) = continua ∑ n m P( X = xi , Y = y j ) F (m, n) = i, j tal que xi ≤ m y j ≤n ∫∫ f ( x, y )dxdy −∞ −∞ Exemplo 7.17 Exemplo de uma densidade de vetor aleatório discreto. Nas margens temos os valores das variáveis, nas células internas as probabilidades conjuntas (densidades conjuntas) para os pares de valores correspondentes. A analogia com a tabela de contingência vista na Aula 1 é evidente. X 1 2 3 Y 1 1/15 0 1/15 2 0 4/15 2/15 3 2/15 0 1/15 4 0 1/15 1/15 5 0 1/15 1/15 Uma função é uma densidade conjunta se for não negativa e somar 1, o que se verifica na tabela acima. Definição 7.16 Densidades Marginais n f x ( a ) = P ( X = a ) = ∑ P ( X = a, Y = y j ) m f y (b) = P (Y = b) = ∑ P ( X = xi , Y = b) j =1 i =1 Exemplo 7.18 Retomando o exemplo 7.17 e aplicando a definição 7.16 obtemos nas margens da tabela as densidades marginais em relação a X e Y. X 1 2 3 Y fy 1 1/15 0 1/15 2/15 2 0 4/15 2/15 6/15 3 2/15 0 1/15 3/15 4 0 1/15 1/15 2/15 5 0 1/15 1/15 2/15 fx 3/15 6/15 6/15 1 25 Definição 7.17 Densidades Condicionais f X |Y =b ( x | b) = f ( x, b) fY (b) fY | X = a ( y | a ) = f ( a, y ) f X (a) Exemplo 7.19 Usando os resultados dos exemplos 7.17 e 7.18 podemos obter as duas densidades condicionais: fY|X=2 Y 0 1 4/6 2 0 3 fX|Y=2 X 0 1 4/6 2 2/6 3 1/6 4 1/6 5 A esperança condicional de Y|X=x é a esperança da distribuição condicional. Por exemplo, E(Y|X=2) = 1x0+2x4/6+3x0+4x1/6+5x1/6=17/6 . 7.17 Independência e Covariância O conceito de independência entre eventos pode ser enunciado para variáveis aleatórias. Não há graus de independência, duas variáveis são ou não são independentes. Mas quando são dependentes, o grau de dependência (linear) pode ser medido pela covariância ou pelo coeficiente de correlação. Definição 7.18 Independência e dependência entre variáveis aleatórias X eY % independentes s.s.s. sao f ( x, y ) = f X ( x ) f Y ( y ) Definição 7.19 Covariância e correlação COV ( X , Y ) = E{[ X − µ X ][Y − µY ]} = E{ XY } − EX EY ρ ( X ,Y ) = COV ( X , Y ) σ XσY Exemplo 7.20 As variáveis X e Y do exemplo 7.18 não são independentes porque f(1,1) = 1/15 mas fX(1)fY(1)=3/15 x 2/15 = 6/15 . Basta que a igualdade não se verifique apenas uma vez para que a independência deixe de valer. 26 Exemplo 7.21 A covariância entre X e Y do exemplo 7.18 pode ser calculada usando a versão prática E(XY) – E(X)E(Y) E(X)= 1x 3/15 + 2x 6/15 +3x 6/15 ≅ 2,2 E(Y)= 1 x 2/15 + 2x 6/15 + 3 x 3/15 + 4 x 2/15 + 5 x 2/15 ≅ 2,73 E(XY) = 1 x 1 x 1/15 + 1 x 3 x 2/15 + 2 x 2 x 4/15 + 2 x 4 x 1/15 + 2 x 5 x 1/15 + 3 x 1 x 1/15 + 3 x 2 x 2/15 + 3 x 3 x 1/15 + 3 x 4 x 1/15 + 3 x 5 x 1/15 ≅ 6,13 COV(X,Y) ≅ 6,13 – 2,2 x 2,73 = 0,12 int_estatistica_aula7 A covariância é dependente da escala em que X e Y estão representados. O coeficiente de correlação elimina este efeito. Exemplo 7.22 Densidade normal bivariada f ( x, y ) = 1 2πσ xσ y 1 exp − 2 2 1− ρ 2(1 − ρ x − µ 2 x − µx x − 2ρ σ x σx y − µy σ y y − µy + σy 2 A expressão da densidade bi-variada envolve 5 parâmetros: as médias de X e Y; os desvios padrão de X e Y, e o coeficiente de correlação ρ entre X e Y . Observe que se este coeficiente for zero então f(x,y)= fX(x) fY(Y) o que caracteriza a independência entre X e Y. X e Y independentes ⇒ COV ( X , Y ) = 0 e ρ ( X , Y ) = 0 % dependentes COV ( X , Y ) ≠ 0 ou ρ ( X , Y ) ≠ 0 ⇒ X e Y sao Portanto trata-se de uma condição necessária para a independência mas não suficiente. 7.18 Operações entre variáveis aleatórias Produto por constante cX ⇒ E (cX ) = cE ( X ) e VAR(cX ) = c 2VAR( X ) Soma de uma constante X + c ⇒ E ( X + c) = E ( X ) + c e VAR( X + c) = VAR( X ) Soma de duas variaveis aleatorias X + Y ⇒ E ( X + Y ) = E ( X ) + E (Y ) X e Y independentes ⇒ VAR( X + Y ) = VAR( X ) + VAR(Y ) X e Y dependentes ⇒ VAR( X + Y ) = VAR( X ) + VAR(Y ) + 2COV ( X , Y ) 7.19 Funções de Variáveis Aleatórias Definição 7.21 Função de Variável Aleatória Discreta 27 Se X é uma variável aleatória discreta e h uma função bijetora definida nos números inteiros, assumindo valores inteiros, então Y = h (X) é uma variável aleatória discreta. Exemplo 7.22 X ~ Uniforme {1,2,3} h(x) = 2x + 1 Y ~ Uniforme {3,5,7} Definição 7.22 Função de Variável Aleatória Contínua Se X é uma variável aleatória contínua e h uma função real inversível, então Y = h(X) é uma variável aleatória contínua. Exemplo 7.23 2 X ~ Normal(µ, σ ) h(x) = (x - µ) / σ Y ~ Normal(0,1) Definição 7.23 Esperança de Função de Variável Aleatória Discreta Sejam X, Y e h como na Definição 7.21, então: E (Y ) = ∑ h( xi )P( X = xi ) i Definição 7.24 Esperança de Função de Variável Aleatória Contínua Sejam X, Y e h como na Definição 7.22, então ∞ E (Y ) = ∫ h(t ) f (t )dt −∞ 7.20 Exercícios 1. Lançam-se dois dados, X indica o número obtido no primeiro dado e Y o maior ou número comum nos dois dados. Responda aos itens seguintes: a) b) c) d) e) f) g) h) Represente a densidade conjunta f(x,y) Determine as densidades marginais As duas variáveis são independentes ? Calcule E(XY) Calcule COV(X,Y) Calcule E(X+Y) Calcule VAR(X+Y) Determine fX|Y=2 2. Seja X uma variável aleatória com distribuição normal N(10,10). a) P(X < -5) b) Determine r tal que P(X > 10 + r ou X < 10 – r) = 0,1 28 3. Uma certa liga é formada , combinando a mistura fundida de dois metais. A liga resultante contem uma certa porcentagem de chumbo X, que pode ser considerada uma variável aleatória -5 com densidade f(x) = 0,6 . 10 x(100 – x) para 0≤x≤100 e 0 em caso contrário. Suponha que o L, o lucro líquido obtido na venda desta liga (por unidade de peso) é a seguinte função de X : L = 0,01 +0,02x. Calcule o lucro esperado , isto é, E(L). 4. Para a tabela abaixo que dá a distribuição conjunta de X e Y , determine: a) COV(X,Y) b) E(X | Y=5) Y \ X 3 5 7 10 0 0,1 0,15 15 0,1 0,1 0,25 20 0,1 0,1 0,1 5. Um estudante chega ao ponto de ônibus às 10:00 h , sabe-se que o próximo ônibus vai chegar a qualquer momento entre 10:00 e 10:30h. a) Qual a probabilidade que o estudante tenha de esperar menos do que 10 minutos. b) Se até às 10:15 h o ônibus não tiver chegado, qual a probabilidade de chegar nos próximos dez minutos ? 7.21 Respostas selecionadas 1. a) Y 1 2 3 4 5 6 X 1 1/36 1/36 1/36 1/36 1/36 1/36 2 0 2/36 1/36 1/36 1/36 1/36 3 0 0 3/36 1/36 1/36 1/36 4 0 0 0 4/36 1/36 1/36 5 0 0 0 0 5/36 1/36 6 0 0 0 0 0 6/36 2. a) 0,055 29 ANEXO I A7.1 O Paradoxo de Bertrand Uma corda é escolhida ao acaso em um círculo. Qual a probabilidade de que o seu comprimento exceda o lado do triângulo equilátero inscrito no círculo ? Solução 1 – Devido à simetria podemos escolher qualquer direção para a corda. Determinando um diâmetro perpendicular a esta corda, é óbvio que somente as cordas que interceptarem este diâmetro entre um quarto e três quartos do seu comprimento excedem o lado do triângulo equilátero. Portanto, a probabilidade seria igual a 1/2. Solução 2 – Novamente recorrendo à simetria podemos fixar uma das extremidades da corda. A tangente ao círculo neste ponto, juntamente com os lados do triângulo equilátero inscrito no o círculo, tendo por um dos vértices, justamente, o ponto de tangência, formam três ângulos de 60 cada. Ora, somente as cordas que estão contidas no ângulo do meio excederão em comprimento ao lado do triângulo. Donde, a probabilidade igual a 1/3 ! int_estatistica_aula7 Solução 3 - A corda está especificada, desde que o seu ponto médio esteja. Considerando um novo círculo concêntrico com o primeiro, com a metade do raio, sabe-se que toda corda, cujo ponto médio pertença a este círculo, terá comprimento maior que o lado do triângulo equilátero. Levando a um novo resultado: ½ ! A dificuldade em compreender os diferentes resultados reside na percep;’ao de que se tratam de experimentos diferentes. Na primeira e segunda soluções identificou-se a casualidade da posição da corda com a casualidade de seu comprimento, embora sejam aspectos totalmente diferentes. Já na terceira solução trata-se de um problema completamente diferente – determinar a probabilidade de um ponto, escolhido arbitrariamente em um círculo, pertencer a um círculo menor. A7.2 O Problema da agulha de Buffon Um plano é particionado por retas paralelas, a intervalos regulares iguais a 2a. Uma agulha de comprimento 2l (l<a) é jogada casualmente sobre o plano. Qual é a probabilidade de que a agulha intercepte uma das retas ? Solução – Sejam x a distância do centro da agulha à reta mais próxima e ϕ o ângulo formado pela agulha com a reta. Estas duas medidas determinam a posição da agulha. Os intervalos de variação são respectivamente [0,a] e [0,π]. A condição necessária e suficiente para a agulha interceptar a reta é que x l senϕ. A probabilidade (geométrica) é então dada pela razão entre as áreas do evento sobre a área do espaço amostral π ∫ l sin ϕ dϕ P= 0 aπ = 2l aπ Apesar do enunciado ingênuo, o problema envolve a determinação do comprimento de bombas em problemas de bombardeio. 30 A7.3 Distribuição acumulada da Normal padrão ( função phi) z -5,0000 -4,9000 -4,8000 -4,7000 -4,6000 -4,5000 -4,4000 -4,3000 -4,2000 -4,1000 -4,0000 -3,9000 -3,8000 -3,7000 -3,6000 -3,5000 -3,4000 -3,3000 -3,2000 -3,1000 -3,0000 -2,9000 -2,8000 -2,7000 -2,6000 -2,5000 -2,4000 -2,3000 -2,2000 -2,1000 -2,0000 -1,9000 -1,8000 -1,7000 -1,6000 -1,5000 -1,4000 -1,3000 -1,2000 -1,1000 -1,0000 -0,9000 -0,8000 -0,7000 -0,6000 -0,5000 -0,4000 -0,3000 -0,2000 -0,1000 0,0000 F(z) 2,87E-07 4,8E-07 7,94E-07 1,3E-06 2,11E-06 3,4E-06 5,42E-06 8,55E-06 1,34E-05 2,07E-05 3,17E-05 4,81E-05 7,24E-05 0,000108 0,000159 0,000233 0,000337 0,000483 0,000687 0,000968 0,00135 0,001866 0,002555 0,003467 0,004661 0,00621 0,008198 0,010724 0,013903 0,017864 0,02275 0,028716 0,03593 0,044565 0,054799 0,066807 0,080757 0,096801 0,11507 0,135666 0,158655 0,18406 0,211855 0,241964 0,274253 0,308538 0,344578 0,382089 0,42074 0,460172 0,5 z 0,0000 0,1000 0,2000 0,3000 0,4000 0,5000 0,6000 0,7000 0,8000 0,9000 1,0000 1,1000 1,2000 1,3000 1,4000 1,5000 1,6000 1,7000 1,8000 1,9000 2,0000 2,1000 2,2000 2,3000 2,4000 2,5000 2,6000 2,7000 2,8000 2,9000 3,0000 3,1000 3,2000 3,3000 3,4000 3,5000 3,6000 3,7000 3,8000 3,9000 4,0000 4,1000 4,2000 4,3000 4,4000 4,5000 4,6000 4,7000 4,8000 4,9000 5,0000 F(z) 0,5 0,539828 0,57926 0,617911 0,655422 0,691462 0,725747 0,758036 0,788145 0,81594 0,841345 0,864334 0,88493 0,903199 0,919243 0,933193 0,945201 0,955435 0,96407 0,971284 0,97725 0,982136 0,986097 0,989276 0,991802 0,99379 0,995339 0,996533 0,997445 0,998134 0,99865 0,999032 0,999313 0,999517 0,999663 0,999767 0,999841 0,999892 0,999928 0,999952 0,999968 0,999979 0,999987 0,999991 0,999995 0,999997 0,999998 0,999999 0,999999 1 1 int_estatistica_aula7 31