Inferência estatística – Tem como objectivo, nâo apenas o estudo da amostra, mas
sim tentar a partir dela caracterizar toda a população. Pretende-se inferir resultados
extensivos a toda a população, partindo da amostra.
Inferência no modelo de regressão
Na Inferência num modelo de regressão logistica simples ou num modelo de regressão
logistica multípla, podemos testar a significância dos parâmetros pelo teste de Wald,
score e Razão de Verossimilhança (TRV).
 Teste de Wald
Vamos considerar a seguinte hipótese:
H0 : βi = 0
H1 : βi ≠ 0
Para testar esta hipótese, a estatística de Wald é realizada da seguinte forma:
Wi =
βi
DP(βi)
Se não rejeitarmos H0 temos que a variável Xi não explica a variável resposta.
Da mesma forma, o teste Wald também pode ser realizado pela multiplicação dos
seguintes vetores:
W = β´[(β)]-1β =β´(X´VX)β
Em que I(β) é a matriz da informação de Fisher estimada.

Teste da Razão de Verossimilhança
O teste da razão de verossimilhança é realizado da mesma maneira no modelo de
regressão logistica simples ou num modelo de regressão logistica multípla, visando a
significância dos p coeficientes das variáveis independentes.
ou ainda:
= verossimilhança do modelo sem a covariável
= verossimilhança do modelo com a covariável.
Na regressão múltipla, interessa-nos saber se há pelo menos uma variável significativa
para o modelo. Sob a hipótese nula, os p coeficientes = zero , e a estatística G tem
distribuição Qui-Quadrado com p graus de liberdade. Nesse caso
= verossimilhança
do modelo com as p variáveis explicativas e
= verossimilhança do modelo apenas
com o intercepto.
Intervalos de Confiança na Regressão Logística
A estimação intervalar consiste na determinação de um intervalo onde, com uma certa
confiança (probabilidade), esteja o parâmetro θ desconhecido, tendo-se em conta um
seu estimador. Assim,
P (L1 < θ < L2) = λ
significa que a probabilidade do intervalo aleatório (L1, L2) conter o valor exacto θ é λ.
O intervalo (L1, L2) é designado por intervalo de confiança para o parâmetro θ, com
um nível de confiança λ.
1. Intervalo de Confiança para os parâmetros
O intervalo de confiança para um parâmetro βj é baseado no seu teste de Wald. O
intervalo de confiança de100 (1-α) % para o parâmetro βj é:
Vantagem
É possível determinar o erro máximo cometido na estimação, com uma certa confiança
Atenção
 Ter em conta as variações das estatísticas amostrais de amostra para amostra.

Nunca podemos ter intervalos com 100% de confiança.
Distribuição Qui-quadrado
A distribuição do qui-quadrado, simbolizada como χ2, compara a relação entre a
variância de uma população e a de uma amostra. Se uma amostra aleatória com n
observações x1, x2, ..., xn, for extraída de uma população com distribuição normal,
com média μ e variância σ2, então, por definição a distribuição χ2 da amostra é:
χ2 = υ S 2
υ = graus de liberdade na amostra
σ2
Distribuição t (Student)
A distribuição t, compara a média de uma população com a média de uma amostra
baseada no número de redundâncias (υ)
Se z for uma variável aleatória com distribuição normal standard e χ2 uma variável
aleatória com distribuição qui-quadrado com υ graus de liberdade, então, por
definição:
T=
z
2/υ
As propriedades da distribuição t são:
• Distribuição de médias de amostras
• Constrói intervalos de confiança para a média duma população (n<30)
• Varia em [ -∞ ; +∞ ].
• Distribuição simétrica
• Baseada em graus de liberdade, υ, por amostra
Distribuição F
A distribuição F, é utilizada para comparar as variâncias de duas amostras. Se χ21 e χ22
são duas variáveis aleatórias com distribuição de . qui-quadrado com υ1 e υ2 graus de
liberdade e ambas as variáveis aleatórias são independentes, então, por definição:
F =
χ 2/ υ1
χ 2/ υ2
1
2
As propriedades da distribuição f são:




Distribuição da razão de duas variâncias de amostras
Constrói intervalos de confiança para a razão de duas variâncias duma
população
Varia em [ 0 ; +∞ ].
Baseada em graus de liberdade, υ1 e υ2, das amostras.
Download

Inferência no modelo de regressão • Teste de Wald