1
ESTATÍSTICA APLICADA
MATERIAL DE APOIO (SUPORTE ADICIONAL AOS CAP. 3 e 4 do PLT)
DISTRIBUIÇÃO DE PROBABILIDADE
Teorema do Limite Central
A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende
do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é
necessário repetir n vezes um experimento e após calcular a média das amostras. Este
procedimento fornece um novo conjunto de dados que é denominado de distribuição amostral.
Na verdade o que o teorema do limite central quer dizer é que se uma população tem
distribuição normal, a distribuição das médias amostrais extraídas da população também terá
distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma
distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal,
desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que
não é necessário conhecer a distribuição de uma população para podermos fazer inferência
sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja
grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais
observações.
Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o
conceito mais importante na inferência estatística.
Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais
quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras
palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas
médias e construímos um histograma destas médias, esse histograma tende para a forma de
um sino de uma distribuição normal. Isto é verdade independentemente da forma da
distribuição da população original.
Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e
que a média dos valores x seja m e o desvio-padrão seja s. Suponha que coletemos amostras
de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as
médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos
diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das
médias amostrais tente para uma distribuição normal com média m e desvio-padrão.
Em teoria das probabilidades e estatística, a distribuição binomial é a distribuição de
probabilidade discreta do número de sucessos numa sequência de n tentativas tais que as
tentativas são independentes; cada tentativa resulta apenas em duas possibilidades, sucesso ou
fracasso (a que se chama de tentativa de Bernoulli); a probabilidade de cada tentativa, p,
permanece constante.
1
2
Função de probabilidade
Se a variável aleatória X que contém o número de tentativas que resultam em sucesso tem uma
distribuição binomial com parâmetros n e pescrevemos X ~ B(n, p). A probabilidade de ter
exatamente k sucessos é dado pela função de probabilidade:
para
e onde
é uma combinação.
Exemplo:
Três dados comuns e honestos serão lançados. A probabilidade de que o número 6 seja
obtido mais de uma vez é: A probabilidade de que seja obtido 2 vezes mais a
probabilidade de que seja obtido 3 vezes. Usando a distribuição binomial de probabilidade:
Acha-se a probabilidade de que seja obtido 2 vezes:
Agora a probabilidade de que seja obtido 3 vezes:
2
3
Assim, a resposta é:
Valor esperado e variância
Se a X ~ B(n, p) (isto é, X é uma variável aleatória binomialmente distribuida), então o valor
esperado de X é
e a variância é
Exemplo
Seja X uma variável aleatória que contém o número de caras saídas em 12 lançamentos de
uma moeda honesta. A probabilidade de sair 5 caras em 12 lançamentos, P(X=5), é dada por:
Para a solução de um problema de binomial, devemos identificar no problema as seguintes
variáveis:
p = é o valor da probabilidade do que se quer que aconteça, ou seja, é a probabilidade
associada a pergunta do problema.
q = 1 −p
n = é o número de experimentos, feitos efetivamente para se calcular a probabilidade
pedida.
x = é o número que representa quantas vezes desejamos que ocorra o sucesso
desejado, ou seja, é o que o problema quer que aconteça.
3
4
Exemplo 1: Um levantamento da Associação Americana de Investidores Pessoa Física concluiu
que 20% dos seus membros tinham comprado ações diretamente através de uma oferta
pública inicial (AAII jornal, julho de 1994). Em uma amostra de 10 membros destes associados
verifique:
a) Qual a probabilidade de que exatamente três membros tenham comprado tais ações? R.:
0,2013
b) Qual a probabilidade de que exatamente 2 membros tenham comprado tais ações? R.:
0,3020
c) Qual a probabilidade de que pelo menos um membro tenha comprado tais ações? R.:
0,8926
d) Qual o número esperado de membros que compraram tais ações?
RESOLUÇÃO NA HP 12 C (ITEM A)
. , . , 10
7
3
0,2
3
0,8
7
3
3
3
= 0,2013
4
5
OBS.: A FUNÇÃO BINOMIAL NO EXCEL É:
DISTRBINOM (núm_s;tentativas;probabilidade_s;cumulativo)
Ou seja, para o exercício “a” em questão:
Num_s = 3
Tentativas = 10
Probabilidade_s = 0,2
Cumulativo = falso
Supondo a probabilidade seja de 20% de um membro, selecionado ao acaso,
comprar a ação, temos:
P
Q
0,2
0,8
10
TABELA AUXILIAR
X
0
1
2
3
4
5
6
7
8
9
10
TOTAL
P(X)
0,1074
0,2684
0,3020
0,2013
0,0881
0,0264
0,0055
0,0008
0,0001
0,0000
0,0000
1,0000
5
6
0,2684
0,3500
0,2013
0,3000
0,3020
PROBABILIDADE DE COMPRA DA AÇÃO
(p = 0,2)
0,2500
0,0001
0,0000
0,0000
0,0500
0,0008
0,0264
0,1000
0,0055
0,0881
0,1500
0,1074
0,2000
Probabilidade
7
8
9
10
11
0,0000
1
2
3
4
5
6
Quantidade de Compradores
6
7
Supondo a probabilidade seja de 50% de um membro, selecionado ao acaso,
comprar a ação, temos:
P
Q
TABELA AUXILIAR
0,5
X
0,5
0
10
1
2
3
4
5
6
7
8
9
10
TOTAL
P(X)
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010
1,0000
É possível elaborar um gráfico para esse exercício:
0,2500
0,2051
0,2051
0,3000
0,2461
PROBABILIDADE DE COMPRA DA AÇÃO
(p = 0,5)
0,0010
0,0098
0,1172
0,0439
0,0500
0,0098
0,1000
0,0439
0,1500
0,0010
Probabilidade
0,1172
0,2000
0,0000
1
2
3
4
5
6
7
8
9
10
11
Quantidade de Compradores
7
8
EXERCÍCIOS
1. Uma empresa precisa fazer a inspeção de qualidade nos parafusos produzidos.
Seis parafusos são escolhidos ao acaso da produção de certa máquina, que
apresenta 10% de peças defeituosas. Qual a probabilidade de que:
a) exatamente dois parafusos sejam defeituosos?
b) pelo menos 1 parafuso seja defeituoso?
2. Uma empresa precisa fazer a inspeção de qualidade nas embalagens de leite. De
um lote são selecionadas ao acaso 10 embalagens. O Controle de qualidade possui
relatórios que indicam que 15% das embalagens são rejeitadas. Qual a
probabilidade de que:
a) exatamente dois parafusos sejam defeituosos?
b) pelo menos 1 parafuso seja defeituoso?
3. Um agricultor cultiva laranjas e também produz mudas para vender. Após alguns
meses a muda pode ser atacada por fungos com probabilidade 0,02 e, nesse caso, ela
tem probabilidade 0,5 de ser recuperável. O custo de cada muda produzida é R$
1,20, que será acrescido de mais R$ 0,50 se precisar ser recuperada. As
irrecuperáveis são descartadas. Sabendo que cada muda é vendida a R$ 3,50,
encontre a distribuição da variável aleatória “lucro por muda produzida”.
4. Numa fábrica, examinam-se, a cada hora, 10 peças. Se for encontrada, pelo
menos, uma defeituosa, o processo de fabricação é interrompido e a causa
pesquisada. A porcentagem de peças defeituosas produzidas pela máquina é
conhecida e tem sido sempre 3%. Qual a probabilidade de que o processo seja
interrompido?
5. Uma remessa de 20 tubos de televisão contém 12 bons e 8 defeituosos. Desta
remessa 3 tubos são escolhidos aleatoriamente e testados sucessivamente com
reposição. Qual a probabilidade de sair, ao menos, um bom?
6. O departamento de compra de certa empresa está considerando uma amostra de
produtos manufaturados a serem recebidos que podem ser classificados como bons
e ruins. O plano de amostragem consiste em selecionar uma amostra aleatória de
12 artigos de cada lote. Se não houver peças defeituosas na amostra, o lote é
aceito; do contrário, é rejeitado. Qual a probabilidade de rejeição de um lote com
10% de defeituosas?
8
9
7. Numa oficina, funcionam 6 máquinas idênticas. Para qualquer uma delas, a
probabilidade de entrar em pane durante o dia de trabalho é igual a 0,2. Supondo-se
que as falhas ocorram independentemente entre si, pede-se calcular a probabilidade
de que: a) pelo menos uma entrar em pane; b) não ocorra falha em dois dias
consecutivos.
8. Um fabricante de certas peças de automóvel garante que uma caixa de suas
peças conterá no máximo, 2 itens defeituosos. Se a caixa contém 8 peças e a
experiência tem demonstrado que esse processo de fabricação produz 6% de itens
defeituosos, qual a probabilidade de que uma caixa de suas peças vá satisfazer a
garantia?
Distribuições Contínuas
A maioria das variáveis atmosféricas podem assumir valores contínuos. A temperatura, a
precipitação, a altura geopotencial, a velocidade do vento, e outras quantidades não estão
restritas a valores inteiros de unidades físicas em que são medidas. Embora a natureza da
medição e os sistemas de relatos é tal que as medidas atmosféricas são arredondadas para
valores discretos, mas o conjunto de valores observados normalmente é grande o suficiente
para que a maioria das variáveis possam ainda ser tratadas como quantidades contínuas.
Existem duas funções associadas a cada variável contínua X: a função densidade de
probabilidade, simbolizada por f(X), e a função cumulativa de probabilidade, ou função
de distribuição de probabilidade representada por F(X).
Há muitas distribuições teóricas contínuas. Algumas das mais usadas em ciências atmosféricas
são: distribuição normal, distribuição gamma, distribuição de valores extremos e distribuição
exponencial. Neste material vamos tratar dos modelos probabilísticos citados, que têm
importância prática na investigação científica, abordando as formas das funções densidade de
probabilidade, bem como a esperança e a variância.
Distribuição Normal
A distribuição de probabilidade contínua mais importante e mais utilizada é a distribuição
normal, geralmente citada como curva normal ou curva de Gauss. Sua importância em análise
matemática resulta do fato de que muitas técnicas estatísticas, como análise de variância, de
regressão e alguns testes de hipótese, assumem e exigem a normalidade dos dados. Além
disso, a ampla aplicação dessa distribuição vem em parte devido ao teorema do limite central.
Este teorema declara que na medida em que o tamanho da amostra aumenta, a distribuição
amostral das médias amostrais tende para uma distribuição normal (Triola, 1998). Esta
explicação parece um pouco complicada, portanto segue uma abordagem mais detalhada sobre
a mesma.
A distribuição normal é uma das mais importantes distribuições da estatística, conhecida
também como Distribuição de Gauss ou Gaussiana. Foi desenvolvida pelo matemático
francês Abraham de Moivre.
9
10
Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na
estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão,
ou seja, conhecendo-se estes consegue-se determinar qualquer probabilidade em uma
distribuição Normal.
Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de
outras distribuições quando o número de observações fica grande. Essa importante propriedade
provem do Teorema Central do Limite que diz que "toda soma de variáveis aleatórias
independentes de média finita e variância limitada é aproximadamente Normal, desde que o
número de termos da soma seja suficientemente grande" (ver o teorema para um enunciado
mais preciso).
10
11
Exercícios
01. Através de levantamentos anteriores, verificou-se que o tempo médio gasto por
um candidato a supervisor de vendas, em determinado teste, é aproximadamente
normal com média de 60 minutos e desvio padrão de 20 minutos.
a) Que porcentagem de candidatos levará menos de 60 minutos para concluir o
teste?
b) Que porcentagem não terminará o teste se o tempo máximo concedido é de 90
minutos?
c) Se 50 candidatos fazem o teste, quantos podem esperar que o terminem nos
primeiros 40 minutos?
02. A vida útil de lavadoras de pratos automáticas é de 1,5 anos, com desvio padrão
de 0,3 anos. Se os defeitos distribuem-se normalmente, que percentagem das
lavadoras vendidas necessitará de conserto antes de expirar o período de garantia
de um ano?
03. O peso médio das esferas metálicas produzidas pela Indústria Zepelin Ltda é de
39 kg, com desvio padrão de 11 kg. Supondo-se que os pesos seguem uma
distribuição aproximadamente Normal, estimar a proporção de esferas com peso:
a) entre 33 e 45 kg.
b) superior a 50 kg.
04. Latas de conservas são fabricadas por uma indústria com média de 990 g e
desvio padrão de 10g. Uma lata é rejeitada pelo controle de qualidade dessa
indústria se possuir peso menor que 975g. Qual a probabilidade de uma lata ser
rejeitada.
05. No engarrafamento de refrigerante Ki Kola, a quantidade de líquido colocado na
garrafa é uma variável de média 292 cm³ e desvio padrão 1,1 cm³. Garrafas com
menos de 290 cm³ são devolvidas para completar o enchimento. Calcular qual a
porcentagem de garrafas devolvidas.
06. Numa distribuição normal, 30% dos elementos são menores que 45 e 10% são
maiores que 64. Calcular os parâmetros de definem a distribuição (média e desvio
padrão).
11
12
07. O consumo de gasolina por km rodado, para certo tipo de carro, em
determinadas condições de teste, tem uma distribuição normal de média 100 ml e
desvio padrão 5 ml. Pede-se calcular a probabilidade de:
a) um carro gastar de 95 a 110 ml;
b) em um grupo de seis carros, tomados ao acaso, encontramos três carros que
gastarem menos que 95 ml;
c) idem, todos terem gasto menos que 110ml.
08. Para uma família de certo status econômico, a despesa mensal com saúde segue
uma distribuição normal com média US$ 50 e desvio padrão de US$ 12. Numa
cidade de 100.000 habitantes, das quais 20% pertencem a esse status, calcular o
número absoluto de famílias desse status em que o gasto mensal com saúde:
a) seja maior que 420 dólares;
b) esteja entre 300 e 360 dólares.
12
Download

ESTATÍSTICA APLICADA MATERIAL DE APOIO (SUPORTE