Distribuição Normal É a distribuição das mais empregada na Estatística, incide em uma distribuição contínua de probabilidades, onde sua apresentação gráfica é representada na forma de sino e simétrica em relação a média. A curva possui as seguintes características: a) b) c) d) e) f) g) h) Forma de sino ou curva de Gauss ou de De Moivre; Distribuição é simétrica em relação a média; Não chega a tocar no eixo das abcissas, variando – a +; A distribuição normal e demarcada pelo desvio padrão e sua média; A área sob a curva corresponde a proporção de 1 ou 100%; A área sob a curva entre dois pontos corresponde à probabilidade do valor de uma variável aleatória entre aqueles pontos; Admite somente um único pico (ordenada máxima), situada na média (média, mediana e moda são iguais); Alta concentração de freqüências na média e reduzida concentração nos extremos (menor freqüência e probabilidades) Frequência -∞ Média ∞+ Variável Exemplo: Distribuição de um grupo de indivíduos do sexo masculino, adultos que tenham uma média de altura de 1,70m. Em torno desta média teríamos uma concentração de freqüência alta, a probabilidade de encontrarmos indivíduos entre as alturas de 1,65m e 1,72m é alta comparada com indivíduos de 1,40m ou 2,20m. A distribuição normal depende dos parâmetros média (µ ou x ) e desvio padrão (S ou ơ ), são eles que irão configurar o formato da curva. 1,65 1,70 1,72 Como cada distribuição normal seria caracterizada por uma média e um desvio padrão diferentes, suas combinações resultariam em cálculos de integrais, demandando maior dificuldade na obtenção de probabilidades. Para facilitar o cálculo das áreas e probabilidades utilizaremos tabelas padronizadas. Desta forma não necessitamos trabalhar com médias e desvios padrões distintos, simplesmente necessitamos identificar a variável padronizada denominada como Z. Esta variável apresenta o afastamento em desvio padrões de um valor variável original em relação a média. Para calcular Z temos: Z=x-µ Ơ Onde: Ơ = desvio padrão µ = média x = variável normal de média µ e de desvio padrão ơ Tomemos como exemplo, a distribuição aproximadamente normal de pontos obtidos por diferentes candidatos em um concurso público seguem, média a 140 e desvio padrão 20 pontos. Caso um pesquisador quisesse saber a probabilidade de um candidato escolhido ao acaso apresentar pontuação entre 140 e 165,60 pontos, poderíamos usar a distribuição normal.. Vamos primeiro representar a curva da distribuição normal 140 165,6 x (pontos) ______________________________ Z 0 1,28 Agora, precisamos obter os valores da variável padronizada Z, que representa o número de desvios de afastamento de x em relação a média, dividindo a diferença pelo valor do desvio. Z=x-µ Ơ Calculando os valores da variável padronizada Z, tem-se que: Para x = 140 Z = x - µ = 140 – 140 = 0 Ơ 20 Para x = 165,60 Z = x - µ = 165,6 – 140 = 1,28 Ơ 20 Para obter o valor de a probabilidade de x situar-se entre 140 e 165,6, bastaria buscar o valor da área correspondente a 1,28 na tabela padronizada. Identificando a área na tabela teríamos uma probabilidade de 0,3997 ou 39,97%. Caso desejasse saber a probabilidade de um candidato escolhido ao acaso ter uma pontuação entre 127,4 e 140. O procedimento seria igual ao anterior, ou seja: 127,4 140 Para x = 127,4 Z = x - µ = 127,4 – 140 = - 0,63 Ơ 20 Na tabela, teremos 0,2357 ou 23,57 a probabilidade de um candidato escolhido ao acaso apresentar a pontuação de 127,4 a 140 pontos. Caso desejasse obter a probabilidade de um candidato escolhido ao acaso apresentar a pontuação entre 127,4 e 165,6, bastaria calcular as probabilidades associadas a duas áreas distintas: entre 127,4 e 140 pontos e, depois, entre 140 a 165,6 pontos. Depois disto, basta somar as probabilidades: 0,2357 + 0,3997 = 0,64 ou 64%. Em alguns casos, operações com áreas sob a curva podem envolver as partes complementares, divididas pela média. Como a curva é simétrica cada parte possui uma área igual a 50% ou 0,50. Caso desejasse obter a probabilidade de um candidato ter uma nota inferior a 127,4 pontos, a área entre -∞ e 127 poderia ser obtida em duas etapas. Teríamos: 127,4 140 Como já sabemos qual a probabilidade de entre 127,4 e 140, basta calcular a diferença: 0,50 – 0,2357 = 0,26 ou 26%. As operações com tabelas padronizadas de Z podem ser igualmente efetuadas com probabilidades fornecidas. Por exemplo, caso um pesquisador precisasse definir uma nota de corte xc de forma que entre a média e xc estivesse 27,04% dos candidatos. Nesta situação, a probabilidade é dada e a partir dela precisamos saber o valor para a variável original. Olhando na tabela, temos como probabilidade de 0,2704 valor de Z é igual 0,70 mais 0,04, que resulta em 0,74. e o Então, Z=x-µ Ơ 0,74 = xc – 140 20 xc = (0,74 x 20) + 140 = 154,80 Então, a nota de corte é igual 158,4 pontos Aproximação da distribuição binominal pela distribuição normal Em uma distribuição binominal, a média pode ser calculada pela µ = np (número de eventos analisados x o sucesso de cada evento. O desvio padrão é ơ = √npq. Com os valores obtidos para a média e para o desvio padrão, pode-se empregá-los no modelo de distribuição normal como aproximação da distribuição binominal. Exemplo: Uma moeda honesta seja lançada 300 vezes. Pede-se calcular a probabilidade de ocorrerem mais de 140 caras. A solução seria a distribuição binominal, porém estimar a probabilidade para 141 até 300 caras seria complicado. A solução alternativa é a aproximação da distribuição binominal pela normal. Para isso, a média e o desvio padrão deveriam ser calculados. A probabilidade de sair cara é igual 50% (p = 0,50; q = 1-p = 1 – 0,50 = 0,50) e o número de eventos igual aos 300 lançamentos da moeda, aplicando na fórmula: µ = np = 300 x 0,50 = 150 ơ = √300 x 0,50 x 0,50 = 8,66 Como queremos saber a probabilidade de ocorrer mais de 140 caras, poderemos considerar um valor para analisar a área de 140,5. Utilizando os procedimentos anteriores, teremos: 140,5 150 Z = x - µ = 140,5 – 150 = - 1 Ơ 8,66 Na tabela padronizada para Z = 1,10 teremos 0,3643 para 140,5 e 150 caras, como queremos o valor superior teremos que somar a probabilidade encontrada 0,3643 + 0,50 = 0,8643 ou 86,43%. Aproximação da distribuição de Poisson pela distribuição normal Para usar a distribuição normal será preciso obter os valores da média (λt) e do desvio padrão √λt. Como exemplo temos, uma área industrial de uma fábrica de cabos de aço verificou que sua produção costuma apresentar defeitos que seguissem aproximadamente a distribuição de Poisson, com lambda igual a três defeitos para cada 100 metros fabricados. Em uma amostra formada com 200 rolos de cado de aço com 500 metros cada um deseja-se calcular quantos rolos deveriam ter mais de 10 defeitos. Temos, µ = 3/100 x 500 = 15 defeitos ơ = √15 = 3,87 defeitos Como desejamos saber a probabilidade de um rolo apresentam mais de 10 defeitos, então consideraremos 10,5 como x. Aplicando na fórmula: Z = x - µ = 10,5 – 15 = - 1,16 Ơ 3,87 A área de Z = 1,16 é 0,3770, como queremos saber a probabilidade de mais de 10 defeitos, teremos de acrescentar a esta probabilidade 0,50, resultando em 0,8770 ou 87,70%. O número de rolos será: E (x) = n.p = 0,8770 x 200 = 175 rolos. Exercícios 1) Imagina-se a probabilidade de encontrar um livro com defeitos de impressão em uma determinada livraria seja igual a 18%. Em um lote com 580 livros, pede-se obter a probabilidade de encontar: a) Mais que 120 livros com defeitos b) Entre 100 e 150 livros defeituosos c) Menos que 110 livros com defeitos 2) Uma fábrica de chocolates comercializa barras que pesam em média 200 g. Os pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g. Calcule a probabilidade de uma barra de chocolate escolhida ao acaso: a) b) c) d) Pesar Pesar Pesar Pesar entre 200 e 250 g entre 170 e 200 g mais que 230g menos que 150g 3) O tempo de vida útil de um motor elétrico tem distribuição aproximadamente normal, com média 4,6 anos e desvio padrão de 1,3 ano. (a) qual deve ser o valor do tempo de garantia desse motor para que, no máximo, 18% das vendas originais exija substituição? (b) se esse tipo de motor tiver garantia de 2 anos, que porcentagem das vendas originais exigirá substituição? 4) As vendas mensais do mercadinho Pague bem seguem, aproximadamente, uma distribuição normal, com média igual a $ 5.000 e desvio padrão de $ 2.000. Calcule a probabilidade de que, em um determinado mês, as vendas: (a) sejam superiores a $ 3.500; (b) sejam inferiores a $ 3.000; (c) estejam entre $ 3.800 e $ 5.300; (d) estejam entre $ 2.100 e $ 7.800. 5) A última prova seletiva do concurso vestibular da Universidade do Sul possuía 240 perguntas, com três alternativas cada uma. Sabendo que 18.000 candidatos fizeram as provas, quantos destes, respondendo às questões ao acaso, acertaram pelo menos 35% das perguntas? (distribuição binominal pela distribuição normal) 6) Uma famosa rede de lanchonetes verificou que os clientes chegam em uma determinada loja a razão de seis pessoas a cada 15 min. Em um dia inteiro de trabalho, formado por doze horas, encontre a probabilidade de entrarem na loja: (a) mais de 300 clientes; (b) menos que 260 clientes; (c) entre 270 e 320 clientes. (distribuição de Poisson pela distribuição normal)