1 ESTATÍSTICA APLICADA MATERIAL DE APOIO (SUPORTE ADICIONAL AOS CAP. 3 e 4 do PLT) DISTRIBUIÇÃO DE PROBABILIDADE Teorema do Limite Central A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuição amostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações. Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística. Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original. Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja m e o desvio-padrão seja s. Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média m e desvio-padrão. Em teoria das probabilidades e estatística, a distribuição binomial é a distribuição de probabilidade discreta do número de sucessos numa sequência de n tentativas tais que as tentativas são independentes; cada tentativa resulta apenas em duas possibilidades, sucesso ou fracasso (a que se chama de tentativa de Bernoulli); a probabilidade de cada tentativa, p, permanece constante. 1 2 Função de probabilidade Se a variável aleatória X que contém o número de tentativas que resultam em sucesso tem uma distribuição binomial com parâmetros n e pescrevemos X ~ B(n, p). A probabilidade de ter exatamente k sucessos é dado pela função de probabilidade: para e onde é uma combinação. Exemplo: Três dados comuns e honestos serão lançados. A probabilidade de que o número 6 seja obtido mais de uma vez é: A probabilidade de que seja obtido 2 vezes mais a probabilidade de que seja obtido 3 vezes. Usando a distribuição binomial de probabilidade: Acha-se a probabilidade de que seja obtido 2 vezes: Agora a probabilidade de que seja obtido 3 vezes: 2 3 Assim, a resposta é: Valor esperado e variância Se a X ~ B(n, p) (isto é, X é uma variável aleatória binomialmente distribuida), então o valor esperado de X é e a variância é Exemplo Seja X uma variável aleatória que contém o número de caras saídas em 12 lançamentos de uma moeda honesta. A probabilidade de sair 5 caras em 12 lançamentos, P(X=5), é dada por: Para a solução de um problema de binomial, devemos identificar no problema as seguintes variáveis: p = é o valor da probabilidade do que se quer que aconteça, ou seja, é a probabilidade associada a pergunta do problema. q = 1 −p n = é o número de experimentos, feitos efetivamente para se calcular a probabilidade pedida. x = é o número que representa quantas vezes desejamos que ocorra o sucesso desejado, ou seja, é o que o problema quer que aconteça. 3 4 Exemplo 1: Um levantamento da Associação Americana de Investidores Pessoa Física concluiu que 20% dos seus membros tinham comprado ações diretamente através de uma oferta pública inicial (AAII jornal, julho de 1994). Em uma amostra de 10 membros destes associados verifique: a) Qual a probabilidade de que exatamente três membros tenham comprado tais ações? R.: 0,2013 b) Qual a probabilidade de que exatamente 2 membros tenham comprado tais ações? R.: 0,3020 c) Qual a probabilidade de que pelo menos um membro tenha comprado tais ações? R.: 0,8926 d) Qual o número esperado de membros que compraram tais ações? RESOLUÇÃO NA HP 12 C (ITEM A) . , . , 10 7 3 0,2 3 0,8 7 3 3 3 = 0,2013 4 5 OBS.: A FUNÇÃO BINOMIAL NO EXCEL É: DISTRBINOM (núm_s;tentativas;probabilidade_s;cumulativo) Ou seja, para o exercício “a” em questão: Num_s = 3 Tentativas = 10 Probabilidade_s = 0,2 Cumulativo = falso Supondo a probabilidade seja de 20% de um membro, selecionado ao acaso, comprar a ação, temos: P Q 0,2 0,8 10 TABELA AUXILIAR X 0 1 2 3 4 5 6 7 8 9 10 TOTAL P(X) 0,1074 0,2684 0,3020 0,2013 0,0881 0,0264 0,0055 0,0008 0,0001 0,0000 0,0000 1,0000 5 6 0,2684 0,3500 0,2013 0,3000 0,3020 PROBABILIDADE DE COMPRA DA AÇÃO (p = 0,2) 0,2500 0,0001 0,0000 0,0000 0,0500 0,0008 0,0264 0,1000 0,0055 0,0881 0,1500 0,1074 0,2000 Probabilidade 7 8 9 10 11 0,0000 1 2 3 4 5 6 Quantidade de Compradores 6 7 Supondo a probabilidade seja de 50% de um membro, selecionado ao acaso, comprar a ação, temos: P Q TABELA AUXILIAR 0,5 X 0,5 0 10 1 2 3 4 5 6 7 8 9 10 TOTAL P(X) 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010 1,0000 É possível elaborar um gráfico para esse exercício: 0,2500 0,2051 0,2051 0,3000 0,2461 PROBABILIDADE DE COMPRA DA AÇÃO (p = 0,5) 0,0010 0,0098 0,1172 0,0439 0,0500 0,0098 0,1000 0,0439 0,1500 0,0010 Probabilidade 0,1172 0,2000 0,0000 1 2 3 4 5 6 7 8 9 10 11 Quantidade de Compradores 7 8 EXERCÍCIOS 1. Uma empresa precisa fazer a inspeção de qualidade nos parafusos produzidos. Seis parafusos são escolhidos ao acaso da produção de certa máquina, que apresenta 10% de peças defeituosas. Qual a probabilidade de que: a) exatamente dois parafusos sejam defeituosos? b) pelo menos 1 parafuso seja defeituoso? 2. Uma empresa precisa fazer a inspeção de qualidade nas embalagens de leite. De um lote são selecionadas ao acaso 10 embalagens. O Controle de qualidade possui relatórios que indicam que 15% das embalagens são rejeitadas. Qual a probabilidade de que: a) exatamente dois parafusos sejam defeituosos? b) pelo menos 1 parafuso seja defeituoso? 3. Um agricultor cultiva laranjas e também produz mudas para vender. Após alguns meses a muda pode ser atacada por fungos com probabilidade 0,02 e, nesse caso, ela tem probabilidade 0,5 de ser recuperável. O custo de cada muda produzida é R$ 1,20, que será acrescido de mais R$ 0,50 se precisar ser recuperada. As irrecuperáveis são descartadas. Sabendo que cada muda é vendida a R$ 3,50, encontre a distribuição da variável aleatória “lucro por muda produzida”. 4. Numa fábrica, examinam-se, a cada hora, 10 peças. Se for encontrada, pelo menos, uma defeituosa, o processo de fabricação é interrompido e a causa pesquisada. A porcentagem de peças defeituosas produzidas pela máquina é conhecida e tem sido sempre 3%. Qual a probabilidade de que o processo seja interrompido? 5. Uma remessa de 20 tubos de televisão contém 12 bons e 8 defeituosos. Desta remessa 3 tubos são escolhidos aleatoriamente e testados sucessivamente com reposição. Qual a probabilidade de sair, ao menos, um bom? 6. O departamento de compra de certa empresa está considerando uma amostra de produtos manufaturados a serem recebidos que podem ser classificados como bons e ruins. O plano de amostragem consiste em selecionar uma amostra aleatória de 12 artigos de cada lote. Se não houver peças defeituosas na amostra, o lote é aceito; do contrário, é rejeitado. Qual a probabilidade de rejeição de um lote com 10% de defeituosas? 8 9 7. Numa oficina, funcionam 6 máquinas idênticas. Para qualquer uma delas, a probabilidade de entrar em pane durante o dia de trabalho é igual a 0,2. Supondo-se que as falhas ocorram independentemente entre si, pede-se calcular a probabilidade de que: a) pelo menos uma entrar em pane; b) não ocorra falha em dois dias consecutivos. 8. Um fabricante de certas peças de automóvel garante que uma caixa de suas peças conterá no máximo, 2 itens defeituosos. Se a caixa contém 8 peças e a experiência tem demonstrado que esse processo de fabricação produz 6% de itens defeituosos, qual a probabilidade de que uma caixa de suas peças vá satisfazer a garantia? Distribuições Contínuas A maioria das variáveis atmosféricas podem assumir valores contínuos. A temperatura, a precipitação, a altura geopotencial, a velocidade do vento, e outras quantidades não estão restritas a valores inteiros de unidades físicas em que são medidas. Embora a natureza da medição e os sistemas de relatos é tal que as medidas atmosféricas são arredondadas para valores discretos, mas o conjunto de valores observados normalmente é grande o suficiente para que a maioria das variáveis possam ainda ser tratadas como quantidades contínuas. Existem duas funções associadas a cada variável contínua X: a função densidade de probabilidade, simbolizada por f(X), e a função cumulativa de probabilidade, ou função de distribuição de probabilidade representada por F(X). Há muitas distribuições teóricas contínuas. Algumas das mais usadas em ciências atmosféricas são: distribuição normal, distribuição gamma, distribuição de valores extremos e distribuição exponencial. Neste material vamos tratar dos modelos probabilísticos citados, que têm importância prática na investigação científica, abordando as formas das funções densidade de probabilidade, bem como a esperança e a variância. Distribuição Normal A distribuição de probabilidade contínua mais importante e mais utilizada é a distribuição normal, geralmente citada como curva normal ou curva de Gauss. Sua importância em análise matemática resulta do fato de que muitas técnicas estatísticas, como análise de variância, de regressão e alguns testes de hipótese, assumem e exigem a normalidade dos dados. Além disso, a ampla aplicação dessa distribuição vem em parte devido ao teorema do limite central. Este teorema declara que na medida em que o tamanho da amostra aumenta, a distribuição amostral das médias amostrais tende para uma distribuição normal (Triola, 1998). Esta explicação parece um pouco complicada, portanto segue uma abordagem mais detalhada sobre a mesma. A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana. Foi desenvolvida pelo matemático francês Abraham de Moivre. 9 10 Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes consegue-se determinar qualquer probabilidade em uma distribuição Normal. Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provem do Teorema Central do Limite que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande" (ver o teorema para um enunciado mais preciso). 10 11 Exercícios 01. Através de levantamentos anteriores, verificou-se que o tempo médio gasto por um candidato a supervisor de vendas, em determinado teste, é aproximadamente normal com média de 60 minutos e desvio padrão de 20 minutos. a) Que porcentagem de candidatos levará menos de 60 minutos para concluir o teste? b) Que porcentagem não terminará o teste se o tempo máximo concedido é de 90 minutos? c) Se 50 candidatos fazem o teste, quantos podem esperar que o terminem nos primeiros 40 minutos? 02. A vida útil de lavadoras de pratos automáticas é de 1,5 anos, com desvio padrão de 0,3 anos. Se os defeitos distribuem-se normalmente, que percentagem das lavadoras vendidas necessitará de conserto antes de expirar o período de garantia de um ano? 03. O peso médio das esferas metálicas produzidas pela Indústria Zepelin Ltda é de 39 kg, com desvio padrão de 11 kg. Supondo-se que os pesos seguem uma distribuição aproximadamente Normal, estimar a proporção de esferas com peso: a) entre 33 e 45 kg. b) superior a 50 kg. 04. Latas de conservas são fabricadas por uma indústria com média de 990 g e desvio padrão de 10g. Uma lata é rejeitada pelo controle de qualidade dessa indústria se possuir peso menor que 975g. Qual a probabilidade de uma lata ser rejeitada. 05. No engarrafamento de refrigerante Ki Kola, a quantidade de líquido colocado na garrafa é uma variável de média 292 cm³ e desvio padrão 1,1 cm³. Garrafas com menos de 290 cm³ são devolvidas para completar o enchimento. Calcular qual a porcentagem de garrafas devolvidas. 06. Numa distribuição normal, 30% dos elementos são menores que 45 e 10% são maiores que 64. Calcular os parâmetros de definem a distribuição (média e desvio padrão). 11 12 07. O consumo de gasolina por km rodado, para certo tipo de carro, em determinadas condições de teste, tem uma distribuição normal de média 100 ml e desvio padrão 5 ml. Pede-se calcular a probabilidade de: a) um carro gastar de 95 a 110 ml; b) em um grupo de seis carros, tomados ao acaso, encontramos três carros que gastarem menos que 95 ml; c) idem, todos terem gasto menos que 110ml. 08. Para uma família de certo status econômico, a despesa mensal com saúde segue uma distribuição normal com média US$ 50 e desvio padrão de US$ 12. Numa cidade de 100.000 habitantes, das quais 20% pertencem a esse status, calcular o número absoluto de famílias desse status em que o gasto mensal com saúde: a) seja maior que 420 dólares; b) esteja entre 300 e 360 dólares. 12