26/04/2013
Mario de Andrade Lira Junior
lira.pro.br\wordpress
lira.pro.br\wordpress - Reservados todos os
direitos autorais.
TÉCNICAS EXPERIMENTAIS
APLICADAS EM CIÊNCIA DO
SOLO
REGRESSÃO LINEAR MÚLTIPLA (RLM)
Y  a  b1 x1  b2 x2   bi xi

É uma extensão da linear simples, com mais variáveis
independentes
Permite inclusão de classes transformadas para variáveis
binárias
 Presente/ausente, então equivale a somar uma constante
quando x for presente



Neste modelo o a é o valor de y quando todos os xi são 0,
enquanto cada bi tem o significado de b para o seu xi
A hipótese nula mais comum é considerar todos os b não
diferentes de zero


ou seja, nenhuma das variáveis prevê y
Coeficiente de correlação corrigido corrige o efeito direto do
número de parâmetros.

Quanto maior o número de parâmetros, maior o coeficiente,
independentemente da relação real das variáveis
TESTES DE HIPÓTESES PARA RLM





Testes gerais – medir a contribuição de todos as variáveis
independentes (preditores)
Adição de uma variável – medir a contribuição de um único
preditor imediatamente após a sua inclusão no modelo
Interceptos – indicar se “a” explica o que acontece
Adição de grupos de variáveis - medir a contribuição de
dois ou mais preditores dentro de todos os possíveis
Hipótese linear generalizada – outros testes para fins
específicos
lira.pro.br\wordpress - Reservados todos os
direitos autorais.

Como alguns testes parecem avaliar o mesmo ponto e
apresentam resultados diferentes é muito importante
checar as diferenças nas premissas e modelos por trás
dos testes
Quatro tipos básicos de testes
26/04/2013

TESTES DE HIPÓTESES (CONT.)

H0 y = a; Ha = algum componente da regressão é
significativo
Teste para adição de uma variável

para última variável adicionada
comparar dois modelos em que a única diferença é a adição
de uma variável
 H0 é que o efeito desta última variável é não diferente de 0,
ou seja não significativo


Para variável adicionada na ordem

Semelhante ao tipo anterior, mas em que os modelos são
testados sequencialmente
lira.pro.br\wordpress - Reservados todos os
direitos autorais.

26/04/2013
Para cada teste se comparam os modelos geral
(hipótese alternativa) e reduzido (hipótese nula)
 Teste geral corrigido

TESTES DE HIPÓTESES (CONT.)
Teste do intercepto

Adicionado por fim

Adicionado na ordem


Após o modelo definido, verifica se a adição do intercepto
apresenta efeito significativo
Intercepto entra no início do modelo
Adição de grupo de variáveis

Grupo adicionado por fim


Generalização do teste da hipótese adicionado por fim
Grupo adicionado em ordem

Semelhante aos demais
lira.pro.br\wordpress - Reservados todos os
direitos autorais.

26/04/2013

SELEÇÃO DE MODELOS

Especificar o modelo máximo (com todas as variáveis)


Ou seja, que variáveis poderão entrar no modelo
Considerar a co-linearidade entre variáveis
 Co-linearidade é essencialmente quando duas ou mais
variáveis são medidas diferentes do mesmo fenômeno real
 Por exemplo, MSPA e MFPA
 Também não devem incluir variáveis complementares, como
areia, argila e silte ao mesmo tempo, já que dois valores
definem exatamente o terceiro
Especificar o critério de escolha que vai adotar
 Especificar a estratégia de escolha que vai adotar
 Conduzir a análise
 Avaliar confiabilidade do modelo escolhido

lira.pro.br\wordpress - Reservados todos os
direitos autorais.

Técnicas de seleção de modelos podem implicar em
grande aumento na chance de erro tipo I.
Recomendam-se os seguintes passos:
26/04/2013

ESPECIFICAR O CRITÉRIO
Modelo único
Aumento do tamanho aumenta SQR
 Uso do quadrado médio reduz este problema
 Depende da escala de y



Usar F ou Pr<F diminui estes problemas
Modelos aninhados (diferem apenas pela adição
ou subtração de variáveis)

Comparar o valor de F dos modelos
lira.pro.br\wordpress - Reservados todos os
direitos autorais.
redução da Soma de Quadrados do Resíduo
 Uma desvantagem é a dependência do tamanho da
amostra

26/04/2013

ESPECIFICAR A ESTRATÉGIA
Testar todas as regressões possíveis

Eliminação para trás






Começa com todas as variáveis
Testa todos os modelos tirando uma única variável
Avalia cada nova regressão
Elimina só a variável com menor efeito de retirada
Reinicia com o segundo passo
Seleção para frente

Igual à para trás, ao contrário
lira.pro.br\wordpress - Reservados todos os
direitos autorais.
Grande número de combinações
 Maior número de variáveis possíveis
 Como exemplo, para 10 variáveis, 1023 possíveis modelos
 É a única estratégia que sempre garante a melhor
regressão possível

26/04/2013

ESPECIFICAR A ESTRATÉGIA (2)
Stepwise (forward)

Mistura de técnicas



Começa com um passo de seleção para frente
Após cada passo para frente, pode-se retirar uma das variáveis
já presentes
As probabilidades de F raramente são adequadas
Como os programas permitem selecionar valores de
probabilidade para uma variável entrar ou sair.
recomendação de probabilidades
Para entrar 1 (ou 0,99999 se não puder 1)
 Para sair 0 (ou 0,0000001 se 0 não for possível)
Aproxima de todos os modelos




Melhor mais variáveis do que menos, em termos de
confiabilidade
Stepwise (backward)

Igual ao contrário
lira.pro.br\wordpress - Reservados todos os
direitos autorais.

26/04/2013

PROCEDIMENTO MENOS TRADICIONAL
(NCSU)

Montar todos os modelos
 Este
critério combina quanto o modelo explica com o número de
variáveis usado para isto
 Quanto
menor, mais o modelo explica com o menor custo em
número de variáveis

Selecionar o modelo com menor AIC
lira.pro.br\wordpress - Reservados todos os
direitos autorais.
Calcular o AIC (Akaike Information Criteria) para todos
os modelos
26/04/2013

INDEPENDENTE DA FORMA DE CÁLCULO
Antes da análise
Lembrar de checar colinearidade e premissas da
Análise de Variância
 Desenhar bem a coleta de dados


Depois da análise, para verificar confiabilidade
Estudo confirmatório – desvantagem principal custo
 Análise em amostra dividida

Parte dos dados usada para construir o modelo, a outra
para confirmar
 Os dados devem ser separados aleatoriamente antes da
análise

26/04/2013

SUPERFÍCIE DE RESPOSTA
Essencialmente RLM com um corte

Exemplo

Calcula RLM para N, P e K.
Fixa P em w
 Fixa K em z
 Substitui Y=a+bN+cP+dK= a+bN+cw+dz.
 Isto dá a resposta de Y a N, dados determinados valores
para P e K.
 Repetir processo com outros valores

lira.pro.br\wordpress - Reservados todos os
direitos autorais.
Faz RLM normal
 Fixa pontos definidos para uma ou mais variáveis
independente(s)
 Estima valores de y para a variável restante com
base neste valor para a(s) variável(is) fixada(s)

26/04/2013

Download

Material de Regressão Linear Múltipla