Inferência estatística – Tem como objectivo, nâo apenas o estudo da amostra, mas sim tentar a partir dela caracterizar toda a população. Pretende-se inferir resultados extensivos a toda a população, partindo da amostra. Inferência no modelo de regressão Na Inferência num modelo de regressão logistica simples ou num modelo de regressão logistica multípla, podemos testar a significância dos parâmetros pelo teste de Wald, score e Razão de Verossimilhança (TRV). Teste de Wald Vamos considerar a seguinte hipótese: H0 : βi = 0 H1 : βi ≠ 0 Para testar esta hipótese, a estatística de Wald é realizada da seguinte forma: Wi = βi DP(βi) Se não rejeitarmos H0 temos que a variável Xi não explica a variável resposta. Da mesma forma, o teste Wald também pode ser realizado pela multiplicação dos seguintes vetores: W = β´[(β)]-1β =β´(X´VX)β Em que I(β) é a matriz da informação de Fisher estimada. Teste da Razão de Verossimilhança O teste da razão de verossimilhança é realizado da mesma maneira no modelo de regressão logistica simples ou num modelo de regressão logistica multípla, visando a significância dos p coeficientes das variáveis independentes. ou ainda: = verossimilhança do modelo sem a covariável = verossimilhança do modelo com a covariável. Na regressão múltipla, interessa-nos saber se há pelo menos uma variável significativa para o modelo. Sob a hipótese nula, os p coeficientes = zero , e a estatística G tem distribuição Qui-Quadrado com p graus de liberdade. Nesse caso = verossimilhança do modelo com as p variáveis explicativas e = verossimilhança do modelo apenas com o intercepto. Intervalos de Confiança na Regressão Logística A estimação intervalar consiste na determinação de um intervalo onde, com uma certa confiança (probabilidade), esteja o parâmetro θ desconhecido, tendo-se em conta um seu estimador. Assim, P (L1 < θ < L2) = λ significa que a probabilidade do intervalo aleatório (L1, L2) conter o valor exacto θ é λ. O intervalo (L1, L2) é designado por intervalo de confiança para o parâmetro θ, com um nível de confiança λ. 1. Intervalo de Confiança para os parâmetros O intervalo de confiança para um parâmetro βj é baseado no seu teste de Wald. O intervalo de confiança de100 (1-α) % para o parâmetro βj é: Vantagem É possível determinar o erro máximo cometido na estimação, com uma certa confiança Atenção Ter em conta as variações das estatísticas amostrais de amostra para amostra. Nunca podemos ter intervalos com 100% de confiança. Distribuição Qui-quadrado A distribuição do qui-quadrado, simbolizada como χ2, compara a relação entre a variância de uma população e a de uma amostra. Se uma amostra aleatória com n observações x1, x2, ..., xn, for extraída de uma população com distribuição normal, com média μ e variância σ2, então, por definição a distribuição χ2 da amostra é: χ2 = υ S 2 υ = graus de liberdade na amostra σ2 Distribuição t (Student) A distribuição t, compara a média de uma população com a média de uma amostra baseada no número de redundâncias (υ) Se z for uma variável aleatória com distribuição normal standard e χ2 uma variável aleatória com distribuição qui-quadrado com υ graus de liberdade, então, por definição: T= z 2/υ As propriedades da distribuição t são: • Distribuição de médias de amostras • Constrói intervalos de confiança para a média duma população (n<30) • Varia em [ -∞ ; +∞ ]. • Distribuição simétrica • Baseada em graus de liberdade, υ, por amostra Distribuição F A distribuição F, é utilizada para comparar as variâncias de duas amostras. Se χ21 e χ22 são duas variáveis aleatórias com distribuição de . qui-quadrado com υ1 e υ2 graus de liberdade e ambas as variáveis aleatórias são independentes, então, por definição: F = χ 2/ υ1 χ 2/ υ2 1 2 As propriedades da distribuição f são: Distribuição da razão de duas variâncias de amostras Constrói intervalos de confiança para a razão de duas variâncias duma população Varia em [ 0 ; +∞ ]. Baseada em graus de liberdade, υ1 e υ2, das amostras.