Probabilidade e Estatística
Exemplo da Moeda Balanceada
Paulo Adeodato
pjl[email protected]
Exemplo

Será que uma moeda que dá 450 caras em 1000
lançamentos balanceada ?

Como elaborar a questão em termos estatísticos ?

Como modelar o problema ?
Modelagem Estatística
Fenômeno
do Mundo
Real
Modelo
Probabilístico
Hipóteses
Amostra
Dados
Situação
Específica
(instância)
(X1,X2,...X1000)
Modelo
Estatístico
(x1,x2,...x1000)
Modelagem-1





Hipótese de independência estatística entre os
lançamentos.
– Sem desgaste
Ensaios de Bernoulli
Processo Binomial
– argumentos p e n
E daí ?
Como resolver o problema ?
Modelagem-2






Estimação do parâmetro p da distribuição ?
Supor que a moeda seja balanceada: p = 0,5
Supor um grau de confiança de 95% e calcular o
intervalo de confiança
Verificar se 450 caras está dentro desse intervalo
Mas, como calcular o intervalo de confiança de uma
binomial para n=1000 ?
Aproximar a binomial pela normal (Teorema Central
do Limite)
Distribuição Normal: X~N(,2)
Definição

Função densidade de probabilidade
f ( x) 

1
e
2 
1  x 
 

2  
2
  x  
Função de distribuição acumulada:
– Não integrável
– Utiliza-se a tabela da Normal Reduzida: N(0,1)
Distribuição Normal: X~N(,2)
Parâmetros
Valor esperado
Variância
E (X )  
V (X )  
2
Importância da
Distribuição Normal



Modela uma série de fenômenos estocásticos
Aproxima a distribuição Binomial
Aproxima a soma de variáveis aleatórias
independentes (Teorema Central do Limite)
– Somas de variáveis aleatórias independentes
(em grande número) obedecem a uma Normal
Gráfico da Distribuição Normal


Simétrico em relação ao valor esperado
Pontos de inflexão nos pontos a 1 desviopadrão da média.
f(x)
x
    
Transformação da
Distribuição Normal

Para resolvermos de fenômenos modelados
por uma distribuição normal de parâmetros
genéricos, precisamos reduzi-la a uma N(0,1),
por meio da transformação linear abaixo
Z
X 

Tabela da Distribuição Normal
Reduzida: N(0,1)



A tabela apresenta os valores: z e (z)
onde (z) = P(Z<z)
A tabela se encontra no apêndice de todo livro
de probabilidade e estatística
Os valores podem estar nos domínios:
– 0  x <  usar a propriedade de simetria
–-  < x < 
Teorema Central do Limite-1




Sejam X1, X2,.. Xn, variáveis aleatórias
independentes.
Consideremos, ainda, que:
E(Xi ) = i
e
V(Xi ) = i2
Definamos a variável aleatória Sn, como a
soma de todas as Xi.
O teorema diz que, quando n tende a infinito,
a distribuição de Sn tende a uma Normal.
E mais...
Teorema Central do Limite-2

A variável Zn tende a uma distribuição
Normal Reduzida:
n
Zn 
Sn   i
i 1
n

i 1
2
i
n
 N (0,1)

Teorema Central do Limite
Aplicações


Esse poderoso teorema faz com que a Normal
seja a distrinuição mais importante da
Estatística.
Exemplos:
- A decomposição de um grande projeto em
subprojetos para uma melhor estimação de
custos e tempo de execução
- A implementação de uma resistência elétrica
por uma série de resistores em vez de apenas
1, todos de mesma precisão
Teorema Central do Limite
Aplicações


Consideremos um o caso onde X1, X2,.. Xn,
além de variáveis aleatórias independentes,
sejam identicamente distribuídas (como na
estimação de parâmetros) e que tenham
E(Xi ) = 
e
V(Xi ) = 2
Assim o teorema se reduz a:
S n  n
Zn 
n
 N (0,1)

n
Teorema Central do Limite


Sejam X1, X2,.. Xn, variáveis aleatórias
independentes e identicamente distribuídas.
Temos:
X 1  X 2  ...  Xn
n
 E ( X )

n

Ou, a média aritmética das observações
tendem ao valor esperado da variável
aleatória X.
Aproximação da Binomial
pela Normal



A convergência é probabilística.
Ela se fundamenta na existência da chamada
regularidade estatística.
Essa lei é a base para a estimação de
parâmetros pelo método dos momentos (a
ser vista).
Aproximação da Binomial
pela Normal-1



Imaginemos o problema de dizer qual é a
probabilidade de uma moeda equilibrada,
em 1000 lançamentos produzir entre 400 e
600 caras.
O processo segue uma distribuição Binomial
mas o cálculo envolvido é laborioso demais.
O teorema central do limite é a chave para a
solução.
Aproximação da Binomial
pela Normal-2

Definição da Binomial com parâmetros n e p:
 n k
nk
P X  k     p 1  p  ,0  k  n
k 
 Utilizando a aproximação de Stirling:
2




1
1
k  np


P X  k  
exp - 
 

2  np(1  p ) 
2np(1  p )


Aproximação da Binomial
pela Normal-3

Fazendo a transformação linear já conhecida:
X  np
Zn 
np(1  p)

chegamos à equivalência, quando n  


 k  np 
k

np
  

P  X  k   P Z n 


 np(1  p) 
np
(
1

p
)




Intervalo de Confiança (I.C.)



Em estatística, inferências (a partir de dados) não
são definitivas inquestionáveis: devem ser sempre
apresentadas com os intervalos de confiança
associados
Nós apenas medimos os fenômenos do mundo real
em observações discretas e generalizamos as
conclusões para todo o domínio
Há sempre um erro ao processo de generalização
Exemplos de
Afirmações / Perguntas




O parâmetro  se encontra no intervalo (a,b) com
nível de confiança de 90%.
Os processos A e B são iguais com o nível de
confiança de 95%.
Será o processo A melhor que o B com o nível de
significância de 1% ?
Será que a condição K interfere no processo A com
um nível de confiança de 95% ?
Intervalo de Confiança (I.C.)

P(a    b) = 1 - 
onde:
– :
valor esperado do parâmetro
(desconhecido)
– (a,b): intervalo de confiança (variável
aleatória)
– :
nível
de significância
– 100(1 - )
“
de confiança
– (1 - )
coeficiente de
“
Métodos para Determinar o
Intervalo de Confiança


Quantis de k médias
Teorema Central do Limite (a partir de 1 média)
– Aproximação pela distribuição normal
(n30)
– Aproximação pela distribuição t de Student (n<30)
Método dos Quantis de k
Médias-1


Tomam-se k amostras {{1x1, 2x1,..., nx1},..., {1xk,
2xk,..., nxk}} de n exemplos
n
Calculam as k médias
1
{x1 , x2 ,, xk }

xi 

n
j 1
j
xi
Colocam-se as k médias em ordem crescente
{ y1, y2 ,, yk }
Método dos Quantis de k
Médias-2

Tomam-se as [1+/2(k-1)] e [1+(1-  /2)(k-1)]ésimas médias como limites inferior e superior do
I.C. de nível de significância , respectivamente
Exemplo: Quantis de 100 Médias
a 90% de Nível de Confiança-1



Tomam-se 100 amostras {x1 , x2,.., xn} de n exemplos
n
1
Calculam-se as 100 médias
xi   j xi
n j 1
Colocam-se as 100 médias em ordem crescente
{ y1, y2 ,, y100 }

Toma as [1+0,05(100-1)] e [1+(1-0,05)(100-1)]ésimas médias como limites inferior e superior
{ y1,, y5 , y6 ,, y95 , y96 , y100}
a
b
Métodos do
Teorema Central do Limite-1


Toma-se 1 amostra {x1 , x2,.., xn} de n exemplos
Calcula-se a média da amostra [segue uma V.A. de
distribuição N(,2/n)]
1 n
x   xi
n i 1
n
1
ˆ
 ( )  X   X i
n i 1

Calcula-se a variância da amostra
2
n
1
2
2
1
2
2
ˆ
s

(
x

x
)


 ( )  S 
X

X
i

i
n  1 i1
n 1 i 1
n

Métodos do
Teorema Central do Limite-2

Faz-se a transformação para a normal reduzida
N(0,1)
X x
Zn  


 n
s 
Consulta-se na tabela o quantil z[1-/2] da normal

reduzida
Encontra o intervalo de confiança (a,b)
n






s
s
(a, b)   x  z(1 2 ) 
, x  z(1 2 ) 

n
n 



Métodos do
Teorema Central do Limite-3


Toma-se 1 amostra {x1 , x2,.., xn} de n exemplos
Calcula-se a média da amostra [segue uma V.A. de
distribuição normal]
n
1
x   xi
n i 1
n
1
ˆ
 ( )  X   X i
n i 1

Calcula-se a variância da amostra [uma V.A. de
distribuição 2()]
2
n
1
2
2
1
2
2
ˆ
s

(
x

x
)


 ( )  S 
X

X
i

i
n  1 i1
n 1 i 1
n

Métodos do
Teorema Central do Limite-4

Faz-se a transformação para a t de Student com 
graus de liberdade


t ( ) ~
N (0,1)
 ( ) 
2
Consulta-se na tabela o quantil t[1-/2;] da t de
Student
Encontra o intervalo de confiança (a,b)






s
s
(a, b)   x  t(1 2;n1) 
, x  t(1 2;n1) 

n
n 



Comparação entre os Métodos

Quantis de k médias
– bom para interpretar Intervalo de Confiança mas
trabalhoso e caro

Teorema Central do Limite (a partir de 1 média)
– Baixo custo  mais utilizado
– Aproximação pela distribuição normal
(n  30)
– Aproximação pela distribuição t de Student
(n < 30 e  desconhecido)
Intervalo de Confiança de um
Lado Apenas


Se dois métodos são utilizados para produzir algum
resultado, como poderemos afirmar que o método A
seja melhor que o B?
Nesses casos, tomamos o intervalo de confiança do
limite inferior a  ou de - ao limite superior.
Download

prob-20-moeda