Inferência Estatı́stica – Estimação
Cláudio Tadeu Cristino1
1 Universidade
Federal Rural de Pernambuco, Recife, Brasil
Segundo Semestre, 2011
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
1 / 30
Estimação
Inferência Estatı́stica
A Inferência Estatı́stica é um conjunto de técnicas que objetiva estudar a
população através de evidências fornecidas por uma amostra. É a amostra
que contém os elementos que podem ser observados e, a partir daı́,
quantidades de interesse podem ser medidas. Alguns exemplos:
Suponha que a quantidade de empresas que são abertas em um mês
seja modelada como sendo uma variável de Poisson, mas
desconhecemos a sua média (que é essencial para podermos calcular
as probabilidades relacionadas).
A variância no consumo de etanol no paı́s é um importante indicador
para tal consumo (que pode ser utilizado para programar de maneira
ótima a produção e as exportações).
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
2 / 30
Parâmetros, Estimadores e Estimativas
Parâmetros, Estimadores e Estimativas
Para formalizar as ideias que serão apresentados nesta parte do curso,
precisamos definir alguns conceitos:
Definição
As quantidades da população, em geral desconhecidas, sobre as quais
temos interesse, são denominadas parâmetros e, usualmente, representadas
por letras gregas, tais como θ, µ, σ.
Por exemplo:
Se a altura de uma população é modelada pela Normal, este modelo
dependerá de dois parâmetros: a média, µ, e a variância, σ 2 .
Se as pontuações de um pessoa em dois tipos diferentes de provas são
dadas por variáveis aleatórias com correlação desconhecidas, deve-se
estimar esta grandeza.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
3 / 30
Parâmetros, Estimadores e Estimativas
Parâmetros, Estimadores e Estimativas
Definição
Toda função de elementos de uma amostra é chamada estatı́stica. Estas
funções são utilizadas para produzir aproximações para os parâmetros da
população (que são inacessı́veis). Esta combinação dos elementos a
amostra é denominada estimador do parâmetro de interesse. Como uma
notação comum, escreve-se θb para um estimador do parâmetro θ. Aos
valores numéricos assumidos pelos estimadores denominamos estimativas
pontuais ou, simplesmente, estimativas. Matematicamente, escrevemos:
para um parâmetro (ou grandeza de interesse) da população θ:
θb = f (X1 , X2 , . . . , Xn ),
em que (X1 , X2 , . . . , Xn ) é uma amostra de elementos da população e f é
uma função adequada. Nesta caso, θb é um estimador de θ.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
4 / 30
Parâmetros, Estimadores e Estimativas
Estimação - Exemplo
Estimação - Exemplo
Estimando a média
Suponha que desejemos obter o salário médio, µ de pessoas entre 18 e 25
anos, residentes na Região Metropolitana de Recife. Qual seria o
procedimento? A ideia é retirar (adequadamente) uma amostra da
população com o perfil desejado e fazer uma estimação. Suponha que
tenhamos uma amostra de tamanho 10, (X1 , X2 , . . . , X10 ), e vamos
observar algumas estatı́sticas que podem no ajudar:
mı́nimo + máximo
;
2
µ
b2 = f2 (X1 , . . . , X10 ) = X1 ;
X1 + X2 + · · · + X10
µ
b3 = f3 (X1 , . . . , X10 ) =
= X.
10
µ
b1 = f1 (X1 , . . . , X10 ) =
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
5 / 30
Parâmetros, Estimadores e Estimativas
Estimação - Exemplo
Estimação - Exemplo
Estimando a média
Se a amostra é dada por:
830,00
620,00
714,00
530,00
530,00
280,00
1200,00
475,00
400,00
320,00
Tabela: Salário (em reais) de trabalhadores entre 18 e 25 anos, RMR (fictı́cio).
Temos:
µ
b1 = (280, 00 + 1200, 00)/2 = 740, 00.
µ
b2 = 830, 00.
µ
b3 = (830, 00 + 710 + · · · + 320, 00)/10 = 589, 90.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
6 / 30
Parâmetros, Estimadores e Estimativas
Estimação - Exemplo
Estimadores usuais
Temos alguns estimadores naturais para certos parâmetros:
X1 + X2 + · · · + Xn
a média amostral.
Xn =
n
1 Pn
σ
b2 =
(Xi − X n )2 , a variância amostral;
n − 1 i =1
número de ı́tens com a caracterı́sticas na amostra
b
p=
.
n
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
7 / 30
Parâmetros, Estimadores e Estimativas
Como escolher um estimador?
Como escolher um estimador?
Definição
Um estimador θb é dito não viciado ou não viesado para um parâmetro θ se
b = θ.
E(θ)
Se θb = f (X1 , . . . , Xn ) é um estimador de θ, então o vı́cio ou viés desse
estimador é dado pelo valor
Definição
b − θ.
bθ (n) = E(θ)
Um estimador θb é dito consistente se as seguintes propriedades são
satisfeitas:
b = θ (ou seja, é assintoticamente não viciado);
1
lim E(θ)
n→∞
2
b = 0 (tende a uma constante).
lim Var(θ)
n→∞
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
8 / 30
Parâmetros, Estimadores e Estimativas
Como escolher um estimador?
Precisão ou Exatidão?
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
9 / 30
Parâmetros, Estimadores e Estimativas
Como escolher um estimador?
Escolha de estimadores
Definição
Dados dois estimadores θb1 e θb2 , ambos não viciados para um parâmetro θ,
dizemos que θb1 é mais eficiente do que θb2 se Var(θb1 ) < Var(θb2 ).
Tabela: Estimadores para a média (µ), proporção (p) e variância (σ 2 ).
Parâmetro
µ
Estimador
X = (X1 + · · · + Xn )/n
Propriedades
não viciado e consistente
p
b
p = (freq.na amostra)/n
Pn
2
2
S2 =
i =1 Xi − nX /(n − 1)
Pn
2
2
σ
b2 =
i =1 Xi − nX /n
não viciado e consistente
σ2
σ2
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
não viciado e consistente
viciado e consistente
2011
10 / 30
Distribuições Amostrais
Distribuição de X e S 2
Nosso objetivo é determinar uma possı́vel distribuição para a média
amostral. Lembre-se: como X e S 2 são duas estatı́sticas (funções) de
elementos de uma amostra, tal média e tal variância amostrais podem ser
vistas como variáveis aleatórias, possuindo, portanto, função de
distribuição, esperança e variância, etc.... Estas medidas qualificam a
média e a variância amostral.
Exemplo
Suponha que estejamos interessados em estudar o número de
contaminações pela dengue em nossa cidade. A ANVISA - Agência
Nacional de Vigilância Sanitária, informa que em Recife as probabilidades
de número de infecções de uma pessoa pelo vı́rus da dengue é:
X
P(X = x)
0
0,10
1
0,25
2
0,35
3
0,30
Tabela: Número de infecções de uma mesma pessoa pelo vı́rus da dengue em Recife
(dados fictı́cios).
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
11 / 30
Distribuições Amostrais
As distribuições da média e da variância amostral foram obtidas e
apresentadas como:
Tabela: Distribuição da média amostral X = (X1 + X2 + X3 )/3.
X
P(X = x)
0
0,001
1/3
0,0075
2/3
0,02925
1
0,077125
4/3
0,147375
X
P(X = x)
5/3
0,211125
2
0,227375
7/3
0,17775
8/3
0,0945
3
0,027
2
Tabela: Distribuição da variância amostral S 2 = (X12 + X22 + X32 − 3 × X )/2.
S2
0,0865
C.T.Cristino (DEINFO-UFRPE)
0
0,3885
1/3
0,21
1
0,171
4/3
0,108
Inferência Estatı́stica – Estimação
7/3
0,036
3
2011
12 / 30
Distribuições Amostrais
Consideremos primeiramente o caso de uma população Normal, isto é, a
variável de interesse X ∼ N(µ, σ 2 ). Portanto, temos que (X1 , X2 , . . . , Xn )
representa uma amostra distribuı́dos com densidade Normal de média µ e
variância σ 2 , ou seja,
Xi ∼ N(µ, σ 2 ),
i = 1, . . . , n;
Xi é independente de Xj , para todo i 6= j.
P
É fácil ver que qualquer combinação linear ni=1 ai Xi de variáveis
aleatórias Normais e constantes (nem todas nulas) ai ’s, também segue o
modelo Normal. Assim X ∼ N(µX , σX2 ) com
n
1X
Xi
n
!
1
nµ = µ;
n
i =1
!
n
1X
1
σ2
2
σX = Var(X ) = Var
Xi = 2 nσ 2 =
.
n
n
n
µX = E(X ) = E
=
i =1
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
13 / 30
Distribuições Amostrais
Exemplo
Considere uma amostra independente de tamanho n de uma variável
aleatória N(10, 16). Isto é, X1 , . . . , Xn são independentes e todas com
distribuição Normal com média 10 e variância 16. Assim X tem
distribuição Normal como média 10 e variância 16/n.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
14 / 30
Distribuições Amostrais
Teorema do Limite Central
Um grande resultado
Teorema (Teorema do Limite Central)
Suponha que uma amostra aleatória simples de tamanho n seja retirada de
um população com média µ e variância σ 2 (nenhum modelo de distribuição
está sendo especificado). Então para a média amostral, X temos:
X − µ n→∞
√ −→ Z ,
σ/ n
(3.1)
em que Z ∼ N(0, 1).
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
15 / 30
Distribuições Amostrais
Teorema do Limite Central
Uma aplicação
Uma aplicação do Teorema do Limite Central relaciona-se com a
distribuição da proporção amostral. Esta grandeza é dada por
b
p=
número de indiv. da amostra com a caracterı́stica de interesse
.
n
Se construirmos para o i -ésimo indivı́duo uma variável aleatória Yi tal que:
(
1, se o indivı́duo apresenta a caracterı́stica,
Yi =
0, caso contrário.
Podemos escrever a proporção como
n
b
p=
C.T.Cristino (DEINFO-UFRPE)
1X
Y1 + · · · + Yn
=
Yi = Y .
n
n
i =1
Inferência Estatı́stica – Estimação
2011
16 / 30
Distribuições Amostrais
Teorema do Limite Central
Uma aplicação – Cont.
Logo, a proporção amostral nada mais é do que a média das variáveis
aleatórias convenientemente definidas. Considerando a proporção de
indivı́duos com a caracterı́stica de interesse seja p e que os indivı́duos são
selecionados aleatoriamente, temos que Y1 , . . . , Yn formam uma sequência
de variáveis aleatórias independentes com distribuição de Bernoulli. Assim
E (Yi ) = p e Var(Yi ) = p(1 − p). Logo,
!
!
n
n
1X
1X
p(1 − p)
E(b
p) = E
Yi = p e Var(b
p ) = Var
Yi =
,
n
n
n
i =1
i =1
b é um estimador não viciado e consistente para p.
ou seja p
Tendo em vista o Teorema do Limite Central, temos que para n
suficientemente grande:
b
Y − E(Y )
p−p
n→∞
q
=p
−→ N(0, 1).
p(1 − p)/n
Var(Y )
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
17 / 30
Estimação por Intervalos
Estimação por Intervalos
Os estimadores até agora discutidos foram estimadores pontuais, pois
fornecem como estimativa um único valor numérico para o parâmetro de
interesse. Seria mais prudente que pudéssemos estabelecer uma “faixa”
para nossas estimativas, levando em consideração que os estimadores são
variáveis aleatórias e, assim, podem ocorrer com uma certa probabilidade
para valores longe da estimativa encontrada. Está faixa será denominada
intervalo de confiança da estimativa calculada.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
18 / 30
Estimação por Intervalos
Intervalo de confiança
Intervalos de confiança
Consideremos, inicialmente, o intervalo de confiança para a média µ de
uma certa população Normal com a variância σ 2 conhecida. Supondo uma
amostra aleatória de tamanho n dada por (X1 , . . . , Xn ), temos que a
média amostral tem distribuição Normal com a mesma média µ e variância
σ 2 /n. Assim,
X −µ
√ ∼ N(0, 1).
Z =
σ/ n
Fixando um valor γ tal que 0 < γ < 1, podemos encontrar um valor zγ/2
tal que:
P |Z | ≤ zγ/2 = P − zγ/2 ≤ Z ≤ zγ/2 = γ.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
19 / 30
Estimação por Intervalos
Intervalo de confiança
O ı́ndice de zγ/2 apresenta o valor
de γ dividido por 2, uma vez que
a “massa” γ deve ser dividida igualmente em torno do 0 (Figura).
O valor zγ/2 pode ser obtido da tabela
da Normal padrão, localizando o valor
γ/2 no “miolo” da tabela e tomandose os valores nas margens correspondentes.
Assim,
X −µ
√ < zγ/2
σ/ n
σ
σ
⇒
X − zγ/2 √ < µ < X + zγ/2 √
n
n
E o intervalo de confiança para µ, com coeficiente de confiança γ é:
h
σ
σ i
IC (µ, γ) = X − zγ/2 √ , X + zγ/2 √
n
n
−zγ/2 < Z < zγ/2
C.T.Cristino (DEINFO-UFRPE)
⇒
−zγ/2 <
Inferência Estatı́stica – Estimação
2011
20 / 30
Estimação por Intervalos
Intervalo de confiança
O que representa o intervalo de confiança
A interpretação do intervalo de confiança deve ser feita com cuidado:
... se obtivermos várias amostras de mesmo tamanho e, para cada uma
delas, calcularmos os correspondentes intervalos de confiança com
coeficiente de confiança γ, esperamos que a proporção de intervalos que
contenham o valor verdadeiro de µ seja igual a γ.
Esta interpretação do IC é chamada uma visão clássica para o estimador
por intervalos.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
21 / 30
Estimação por Intervalos
Exemplo - intervalo de confiança
Uma Aplicação
Exemplo
Suponha que desejemos estudar a variação de preços gerais de uma
maneira mais “rápida” e de modo a saber se em média houve deflação ou
inflação. Na Tabela 6, são apresentadas as variações percentuais de 30
produtos escolhidos ao acaso.
2,49%
3,92%
2,72%
5,56%
-5,65%
0,85%
2,69%
-3,37%
0,90%
3,20%
2,80%
8,17%
7,56%
-0,40%
-3,98%
2,80%
1,69%
4,27%
5,26%
2,44%
3,07%
-0,58%
0,21%
-2,67%
1,12%
3,78%
0,37%
5,07%
-0,33%
1,85%
Tabela: Variação de preços (dados fictı́cios).
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
22 / 30
Estimação por Intervalos
Exemplo - intervalo de confiança
Uma Aplicação - continuação
Para os dados apresentados, temos:
Média (amostral): X = 1, 86%.
Mediana (amostral): MedX = 2, 47%.
Variância (amostral): S 2 = 0, 001001671, desvio padrão (amostral):
S = 0, 031649192
Baseado nas medidas de resumo, podemos afirmar que (em média) os
preços aumentaram. Será?
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
23 / 30
Estimação por Intervalos
Exemplo - intervalo de confiança
Uma Aplicação - continuação
Como X é uma estatı́stica (função de variáveis aleatórias), numa outra
amostra com outros produtos, poderı́amos chegar uma conclusão
divergente: ou que os preços sofreram deflação ou que estiveram estáveis.
Qual seria o intervalo de confiança para a média da variação de preços
para uma confiança de γ = 80%, sabendo que a variância da população é
de 0,0009?
h
i
Sabemos que IC (µ, γ) = X − zγ/2 √σn , X + zγ/2 √σn , em que X = 1, 86%,
σ = 0, 03, n = 30. Resta-nos determinar o valor de zγ/2 , tal que:
X − µ
P √ ≤ zγ/2 = γ ⇔ P −zγ/2 ≤ Z ≤ zγ/2 = γ
σ/ n
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
Z ∼ N(0, 1)
2011
24 / 30
Estimação por Intervalos
Exemplo - intervalo de confiança
Uma Aplicação - continuação
Figura: Determinando zγ/2 para uma tabela da normal padrão P(Z ≤ z) = p.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
25 / 30
Estimação por Intervalos
Exemplo - intervalo de confiança
Uma Aplicação - continuação
Logo, da tabela da Normal padrão que apresenta valores de
P(Z ≤ z) = p, temos que zγ/2 = 1, 28 (este é o valor mais próximo para a
probabilidade de 0,9, o valor real para P(Z ≤ 1, 28) é 0,899727).
Assim,
h
0, 03
0, 03 i
IC (µ, 80%) = 1, 86 − 1, 28 × √ ; 1, 86 + 1, 28 × √
30
30
⇒ IC (µ, 80%) = [1, 853; 1, 867].
Este intervalo nos garante que 80% de outras amostras de variação de
preços terão a média contida neste intervalo. A conclusão: houve uma
inflação de preços.
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
26 / 30
Estimação por Intervalos
Amplitude do intervalo de confiança
Amplitude do IC e o tamanho a amostra
A amplitude do intervalo de confiança é dada pela diferença entre os
extremos de tal intervalo, isto é, 2 × zγ/2 √σn , o que claramente indica que
ela depende da confiança γ, do desvio padrão σ e do tamanho da amostra
n. É usual se referir à metade da amplitude como o erro envolvido na
estimação.
Note que podemos estabelecer a seguinte condição a priori: Qual é o
tamanho da amostra para que a amplitude do intervalo de confiança (erro
envolvido) seja de ε?
σ
σ 2
2 × zγ/2 √ = ε ⇒ n = 2 × zγ/2
.
ε
n
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
27 / 30
Estimação por Intervalos
Amplitude do intervalo de confiança
Intervalo de confiança para a proporção populacional
b,
Um estimador pontual para a proporção populacional p é foi dado com p
a proporção amostral. Pelo Teorema do Limite Central, para uma amostra
suficientemente grande:
p(1 − p)
b
p ∼ N p,
.
n
Assim o intervalo de confiança com coeficiente de confiança γ é dado por:
"
#
r
r
p(1 − p)
p(1 − p)
IC (p, γ) = b
p − zγ/2
;b
p + zγ/2
.
n
n
Note que na expressão acima o IC depende de p, que é desconhecido. O
que fazer?
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
28 / 30
Estimação por Intervalos
Amplitude do intervalo de confiança
IC da proporção: otimismo ou conservadorismo?
Uma solução para obtermos o IC (p, γ), já que ele originalmente depende
de p (desconhecido), é substituir p(1 − p) por b
p (1 − b
p ). Desta forma,
temos:
"
#
r
r
b
b
p (1 − b
p)
p (1 − b
p)
b + zγ/2
IC1 (p, γ) = b
p − zγ/2
;p
,
n
n
b está
que é uma estimativa (intervalar) otimista, pois acredita que p
suficientemente perto de p.
Outra visão seria utilizara o maior valor possı́vel para p(1 − p), que seria
uma visão conservadora para o caso. Neste caso o máximo da função
f (x) = x(1 − x) pode ser encontrado fazendo f ′ (x) = 0 (pontos crı́ticos
de f ), o que implica que x = 1/4 é o máximo para f em [0, 1]. Logo,
"
r
r #
1
1
b + zγ/2
IC2 (p, γ) = b
p − zγ/2
;p
4n
4n
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
29 / 30
Estimação por Intervalos
Resumo
A aplicação do Teorema do Limite Central permite a obtenção de
intervalos de confiança para µ, mesmo quando a distribuição das variáveis
aleatórias que constituem a amostra não seja Normal. Neste caso, o
intervalo construı́do terá um coeficiente de confiança aproximadamente
igual a γ, sendo que esta aproximação melhora à medida que aumenta o
tamanho da amostra.
Tabela: Intervalos de confiança para a média µ e a proporção populacional p.
Parâmetro
µ
p
p
h Intervalo de Confiança i
X − zγ/2 √σn , X + zγ/2 √σn
q
q
h
i
b
b
p)
p (1−b
p)
b
b
p − zγ/2 p(1−b
;
p
+
z
(otimista)
γ/2
n
n
q
q i
h
1
1
b
p − zγ/2 4n
;b
p + zγ/2 4n
(conservador)
C.T.Cristino (DEINFO-UFRPE)
Inferência Estatı́stica – Estimação
2011
30 / 30
Download

Inferência Estatística – Estimação