Estatística
Amostragem
Amostragem
Pontos mais importantes:
-amostra: parâmetros e estatísticas
-medidas de tendência central: média, mediana e moda
-medidas de dispersão: variância
-distribuição empírica e histograma
-escolha de amostras aleatórias
-amostragem de distribuição normal, teorema de limite
central
-distribuições t e c2
-amostragem de distribuição binomial
1
Estatística
Amostragem
Num estudo confronta-se com uma grande colecção (quantidade) de
elementos de interesse ou população. Geralmente as conclusões
sobre a população está baseada de analise de um número (pouco)
de observações ou amostra.
amostragem
população
amostra
analise
conclusões
Definição: Um conjunto de v.a-s independentes X1, X2,...,Xn com a
mesma distribuição Fx constitui uma amostra da distribuição Fx.
2
Estatística
Amostragem
Para tirar conclusões válidas (correctas) sobre qualquer população,
a amostra tem de ser representativa
Amostra
Como tirar uma amostra
representativa?
Tamanho?
Amostra mais representativa é uma amostra aleatória
Amostra aleatória: qualquer membro de população têm a mesma
probabilidade de ser escolhido como uma mostra
3
Estatística
Amostragem
Parâmetros
• Uma medida directamente
associada a população:
- valor de esperança (m)
- variância
- etc.
Estatísticas
• Quantidades
calculadas
(completamente determinadas
pela) de uma amostra:
-média amostral
-variância amostral
-etc.
As estatísticas são estimativas dos parâmetros da população. Cada
amostra duma população resulta noutra estimativa
estatísticas
são v.a.-s.
4
Estatística
Amostragem
Medidas de tendência central:

 x i P(X  x i )
Valor média (pesada) de v.a. X: E[X]=m  
xf ( x )dx

 
Definição de média amostral:
X1  X 2  ...  X n
X
n
5
Amostragem
Estatística
X é uma v.a., por isso:
 X  X 2  ...  X n  1
EX   E  1
 EX1   EX 2   ...  EX n  

n

 n
1
 m  m  ...  m   m
EaX  aEX !
n
 X  X 2  ...  X n  1
Var X   Var  1
 2 Var X1   Var X 2   ...  Var X n  

n

 n
n 2  2
 2 
 Var(aX)  a 2Var(X)  !
n
n

 n
 n
 Var   X i    Var (X i )
 i 1  i 1


 !

No caso que m não ser conhecido, a média amostral representa uma
estimativa natural.
6
Estatística
Amostragem
A mediana (m), é o valor central de distribuição (Fx(m)) no sentido em
que é igualmente provável obter x superior ou inferior a m.
P(Xm)=P(Xm)= 1/2
ou
F(m)=1/2
Suponha que nos queremos escolher c numa forma que o erro
absoluto |X-c| (ou E[|X-c|]) de previsão de X seja mínimo:
E X  c  

c



c
 x  c f (x )dx   x  c f (x )dx   x  c f (x)dx 
c

c


c

c
  (c  x )f ( x )dx   ( x  c)f ( x )dx  cF(c)   xf ( x )dx   xf ( x )dx  c(1  F(c))
diferenciação por c :
d E X  c 
dc
F(c) 
 F(c)  cf (c)  cf (c)  cf (c)  1  F(c)  cf (c)  2F(c)  1  0
1

 c  m
2
7
Estatística
Amostragem
Nota: De igual modo, podemos definir outros Percentisx), e.g 25%,
50% (m), 75%
Exemplo: calcule a mediana de distribuição Weibull,
F(x)  1  e x
2
x>0
1 / 2  F ( m)  1  e  m 
 e  m  1 / 2 

2
2
 m 2  ln(0.5) 
 m 2  ln(2) 
 m  ln 2  0.833
Definição da mediana amostral (xk): seja X1 X2 ...  Xn uma amostra
ordenada, a mediana amostral é:
xk=0.5(x(0.5n)+x0.5n+1)
se n é par
xk= x(0.5(n+1))
se n é ímpar
A mediana amostral representa uma estimativa natural de m
8
Estatística
Amostragem
Exemplo:
n=7, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41 e 0.42
-> mediana (i=4): 0.35
n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42
-> mediana ((x4+x5)/2): 0.375
9
Estatística
Amostragem
O valor mais frequente numa população chama-se moda (a):
P(a )  maxP(x)
x
P(X  x i )
P(x) 
 f ( x )h
A moda de uma amostra aleatória é o valor que ocorre com a maior
frequência.
Exemplo:
n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42
-> moda : 0.35
10
Estatística
Amostragem
Medidas de dispersão:
Var[X]=2= E[(X-m)2]
Variância da v.a. X:
A estatística, variância e desvio padrão amostral, é definida pela:
(x i  X) 2
S 
n 1
i 1
2
(
x

X
)
S  S2   i
n 1
i 1
n
n
2
e
ou
n
S2  
i 1
n

x
i 1
n 1
x
2
n
n
x X
2
(x i  X)
( x  2x i X  X ) i 1
 i

 2X i 1  i 1

n 1
n 1
n 1
n 1 n 1
i 1
2
2
n
2
n
2
i
n
 2X
2
nX nX


n 1 n 1
x
i 1
2
i
i
i
 nX 2
n 1
11
Estatística
Amostragem
Grau de liberdade: a expressão anterior também se escreve,
2
(
x

X
)
S2   i

i 1
n
onde  é o grau de liberdade. Porque =n-1?
(y1  m)  (y2  m)  ... (yn  m)  (y  m)  0
Isto implica que qualquer n-1 y determine o n-issimo elemento. Só n-1 elementos são
independentes.
12
Estatística
Amostragem
O que podemos dizer sobre o valor de esperança de S2?


 
 
 
 n 2
E (n  1)S  E  xi   nE X 2  nE X 2  nE X 2
 i 1 
2
EX   m
Agora sabendo:
;
Var(U)  E[U2 ] - E[U]2
ou
 
2
EX 
 m2
n
2
Temos:
e
2
Var X  
n
;
E[U2 ]  Var(U)  E[U]2
 
E X 2   2  m2
 2
2

E (n  1) S  n( m   )  n
 m   (n  1) 2
 n


2

2
2
 
E S2   2
A variância amostral representa uma estimativa natural de 2
13
Estatística
Amostragem
Distribuições empíricas:
Às vezes, podemos querer obter informação global sobre a
distribuição da população (não só sobre os parâmetros).
A função de distribuição empírica Fn(x), onde -<x< , é definida
pela
número de observasõe s k, tal que : X k  x k
Fn ( x ) 

n
n
V.a. discreta, a função de distr. de probabilidade empírica(pn):
pn ( j ) 
número de valores i : X i  j i

n
n
pn(j) também chama-se proporção.
14
Estatística
Amostragem
Exemplo:
Amostra:
322445551361163323461134245331
Amostra ordenada:
111111222233333333444445555666
Distribuição empírica:
1
2
3
4
5
6
p(xi)
6/30
4/30
8/30
5/30
4/30
3/30
F(xi)
6/30
10/30
18/30
23/30
27/30
30/30
Estatística
Amostragem
V.a. continua, a função de distr. de frequência (fn):
f n ( j) 
número de valores i na mostra : X i  j
n
O gráfico de distribuição de frequência chama-se histograma:
60
50
frequency
40
30
20
10
0
0
2
4
6
8
10
F-value, min
16
Estatística
Amostragem
Selecção de amostras aleatórias:
Descrição mais representativa das propriedades da população é
fornecida por uma amostra aleatória, onde qualquer membro da
população têm a mesma probabilidade de ser escolhido. Como?
Distribuição uniforme(Ua,b)):
f(x)
 1

f (x)  b  a

 0
a x b
para outros
1
ba
P (a  X  b ) 
dx

b  a a
ba
b
ba1
E[X]= ba/2
a
b
U(0,1) chama-se número aleatório
Var(X)= ba2 /12
17
Estatística
Amostragem
Seja k uma amostra aleatória de n elementos. Para j=1,2,...,n
vamos definir:
1
Ij  
0
j está na mostra
j não está mostra
Para o primeiro elemento I1:
P(I1=1)=k/n
Para o segundo elemento I2:
P(I2=1| I1=1)=(k-1)/(n-1) e,
P(I2=1| I1=0)=(k)/(n-1)
ou
P(I2=1| I1)=(k-I1)/(n-1)
j1
Em geral:
P(I j  1 | I1 ,...,I j1 ) 
k   Ii
i 1
n  j 1
j  2,...,n
18
Estatística
Amostragem
Seja U um número aleatório (U(0,1)), assim P(U<a)=a
1
I1  
0
1

I2  
0



1
Ij  
0


U1  k / n
para outros
k  I1
n 1
para outros
U2 
Uj 
k  I1  ...  I j1
n  j 1
para outros
19
Amostragem
Estatística
Escolha aleatoriamente k=2 de n=5
20
Estatística
Amostragem
U1(0.68587)>0.4
U2(0.25848)<0.5  (2,X)
U3(0.85227)>1/3
U4(0.78724)>0.5 (2,5)
21
Estatística
Amostragem
Amostragem de distribuição normal:
Distribuição normal (Nm,2)): A distribuição normal tem
importância elevada entre as distribuições especiais, porque muitos
fenómenos seguem, pelo menos aproximadamente, distribuição
normal:
-altura de pessoas
-movimento “Braun” das moléculas
-o erro na medição de uma quantidade física
1
f (x) 
e
 2
 ( x m ) 2
22
22
Estatística
Amostragem
E[X]=m
Var[X]=2
- inflexão
m
m
23
Estatística
Amostragem
Seja X Nm,2), a Y=aX+B é uma v.a. Nam+b,a22).
Por isso a variável Z=(x-m)/ tem uma N(0,1):
m
X  m
X
m  1


E[ Z]  E 

E

E

E
X

0






  

 
2
 X  m  2 
 X 2  2Xm  m 2 
 X m
X  m
Var ( Z)  Var 
 E
  E 
   E

2


  
  
   


 X2   m2  1
2
2
2
 E  2    2   2 E[X ]  E[X]  2  1

     


Z chama-se distr. normal padrão, e permite-nos facilmente calcular
as probabilidades de X em termos de probabilidade de Z.
24
Estatística
Amostragem
f(x)
P(X>m, X<m68%
P(X>m2, X<m2 96%
-tabelas de P(z<x)=f(x) para calcular probabilidades
-Exemplo: m3 e 2=16, calcule X<7
7 3
 X m 7m 

P(X  7)  P

  P z 
  1  f(1)  1  0.1587 0.8413


4




25
Estatística
Amostragem
f(z)
26
Estatística
Amostragem
Teorema de limite central: A soma de um grande número de
variáveis aleatórias independentes tem uma distribuição normal.
Fenómenos físicos (e não só) estão afectados por um grande
número de factores, consequentemente seguem uma distr. normal.
Seja X1, X2,..., Xn v.a.s independentes com a mesma distribuição
(mas não necessariamente normal) com m e 2. Então para n
grande:
X1  X 2  ...  X n  nm
~ Z(0,1)
 n
Muitas técnicas de estatística estão baseadas de pre-suposição de
normalidade
-exemplo: distr. da média do lançamento de n dados
27
Amostragem
Estatística
28
Estatística
Amostragem
Recordar:
Assim:
1
X  x1  x 2    x n ,
n
n
EX   m
e
2
Var X  
n
X m
~ N(0,1)

Variância da população é estimada pela s2. O que podemos dizer
X m
sobre a distribuição de t=(x-m)/s ou t  n
?
s
t tem uma distribuição conhecida que chama-se distribuição
Student “t” com  grau de liberdade.
29
Estatística
Amostragem
Distribuição Student tn: Seja Z [N(0,1)] e X (c2) duas v.a.
independentes. Distribuição t está definida pela,
t
Z
X

-  t  



f(t)- complicado (tabelas)
E[t]=0
Var[t]=/(-2)
para n grande t~Z
0
30
Amostragem
Estatística
31
Estatística
Amostragem
Outra característica importante da amostra de uma distribuição
normal, é que X e s2 são independentes, e a v.a. (n-1)s2/2 tem uma
distribuição c2 com n-1 grau de liberdade
Distribuição “Chi-quadrado”, c2(): Se foram Z,1, Z2,... Zn v.a.
normais padrão. A v.a. X:
X= Z21+ Z22,...+ Z2n
X>0
tem uma distribuição chi-quadrado com  graus de liberdade.

f(x)- complicado (tabelas)

E[X]=

Var[X]=2
32
Amostragem
Estatística
33
Estatística
Amostragem
Porquê é importante saber a distribuição de t  n
1)s2/2 ?
X m
s
e X=(n-
Porque podemos dar respostas sobre questões como:
-qual é a probabilidade da média da população ser
m , se a média de amostra é x
-qual é a probabilidade da variância da população
ser 2 , se a variância de amostra é s2
34
Estatística
Amostragem
Amostragem de distribuição binomial:
Distribuição Bernoulli e binomial (Bin,p)):
Seja X é uma v.a. Bernoulli tal que, X=1 quando um acontecimento
ocorre (sucesso) e X=0 no caso que não ocorre (falha). E.g. resposta
“sim” num inquérito tipo sim/não
P(X=0)= 1-p
P(X=1)= p
E[X]=1P(X=1) + 0P(X=0)= p
Var(X)=E[X2]- E2[X]=p-p2=p(1-p)
35
Estatística
Amostragem
Suponha que faça-se n experiências independentes de uma variável
aleatória Bernoulli com probabilidade P de sucesso. Neste caso o
número de sucesso X, chama-se uma variável binomial (Bi(n,p)) com
a função distr. de probabilidade:

n i
n i
n i
pX  i    P 1  P  n Ci Pi 1  P
i

O valor de esperança matemática e a variância é dada por:
n
EX    EX i   nP
i 1
n
Var( X )  Var( X i )  nP(1  P)
i 1
36
Amostragem
Estatística
37
Estatística
Amostragem
Aplicando o teorema de limite central, temos que a v.a. X= X1+ X2,...,
+Xn tem uma distribuição aproximadamente normal. Se for np
suficientemente grande,
X  nP
~ N (0,1)
nP(1  P)
Assim,
X  nP
~ N (0,1)
P(1  P)
38
Download

Amostragem