26/04/2013 Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress - Reservados todos os direitos autorais. TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO REGRESSÃO LINEAR MÚLTIPLA (RLM) Y a b1 x1 b2 x2 bi xi É uma extensão da linear simples, com mais variáveis independentes Permite inclusão de classes transformadas para variáveis binárias Presente/ausente, então equivale a somar uma constante quando x for presente Neste modelo o a é o valor de y quando todos os xi são 0, enquanto cada bi tem o significado de b para o seu xi A hipótese nula mais comum é considerar todos os b não diferentes de zero ou seja, nenhuma das variáveis prevê y Coeficiente de correlação corrigido corrige o efeito direto do número de parâmetros. Quanto maior o número de parâmetros, maior o coeficiente, independentemente da relação real das variáveis TESTES DE HIPÓTESES PARA RLM Testes gerais – medir a contribuição de todos as variáveis independentes (preditores) Adição de uma variável – medir a contribuição de um único preditor imediatamente após a sua inclusão no modelo Interceptos – indicar se “a” explica o que acontece Adição de grupos de variáveis - medir a contribuição de dois ou mais preditores dentro de todos os possíveis Hipótese linear generalizada – outros testes para fins específicos lira.pro.br\wordpress - Reservados todos os direitos autorais. Como alguns testes parecem avaliar o mesmo ponto e apresentam resultados diferentes é muito importante checar as diferenças nas premissas e modelos por trás dos testes Quatro tipos básicos de testes 26/04/2013 TESTES DE HIPÓTESES (CONT.) H0 y = a; Ha = algum componente da regressão é significativo Teste para adição de uma variável para última variável adicionada comparar dois modelos em que a única diferença é a adição de uma variável H0 é que o efeito desta última variável é não diferente de 0, ou seja não significativo Para variável adicionada na ordem Semelhante ao tipo anterior, mas em que os modelos são testados sequencialmente lira.pro.br\wordpress - Reservados todos os direitos autorais. 26/04/2013 Para cada teste se comparam os modelos geral (hipótese alternativa) e reduzido (hipótese nula) Teste geral corrigido TESTES DE HIPÓTESES (CONT.) Teste do intercepto Adicionado por fim Adicionado na ordem Após o modelo definido, verifica se a adição do intercepto apresenta efeito significativo Intercepto entra no início do modelo Adição de grupo de variáveis Grupo adicionado por fim Generalização do teste da hipótese adicionado por fim Grupo adicionado em ordem Semelhante aos demais lira.pro.br\wordpress - Reservados todos os direitos autorais. 26/04/2013 SELEÇÃO DE MODELOS Especificar o modelo máximo (com todas as variáveis) Ou seja, que variáveis poderão entrar no modelo Considerar a co-linearidade entre variáveis Co-linearidade é essencialmente quando duas ou mais variáveis são medidas diferentes do mesmo fenômeno real Por exemplo, MSPA e MFPA Também não devem incluir variáveis complementares, como areia, argila e silte ao mesmo tempo, já que dois valores definem exatamente o terceiro Especificar o critério de escolha que vai adotar Especificar a estratégia de escolha que vai adotar Conduzir a análise Avaliar confiabilidade do modelo escolhido lira.pro.br\wordpress - Reservados todos os direitos autorais. Técnicas de seleção de modelos podem implicar em grande aumento na chance de erro tipo I. Recomendam-se os seguintes passos: 26/04/2013 ESPECIFICAR O CRITÉRIO Modelo único Aumento do tamanho aumenta SQR Uso do quadrado médio reduz este problema Depende da escala de y Usar F ou Pr<F diminui estes problemas Modelos aninhados (diferem apenas pela adição ou subtração de variáveis) Comparar o valor de F dos modelos lira.pro.br\wordpress - Reservados todos os direitos autorais. redução da Soma de Quadrados do Resíduo Uma desvantagem é a dependência do tamanho da amostra 26/04/2013 ESPECIFICAR A ESTRATÉGIA Testar todas as regressões possíveis Eliminação para trás Começa com todas as variáveis Testa todos os modelos tirando uma única variável Avalia cada nova regressão Elimina só a variável com menor efeito de retirada Reinicia com o segundo passo Seleção para frente Igual à para trás, ao contrário lira.pro.br\wordpress - Reservados todos os direitos autorais. Grande número de combinações Maior número de variáveis possíveis Como exemplo, para 10 variáveis, 1023 possíveis modelos É a única estratégia que sempre garante a melhor regressão possível 26/04/2013 ESPECIFICAR A ESTRATÉGIA (2) Stepwise (forward) Mistura de técnicas Começa com um passo de seleção para frente Após cada passo para frente, pode-se retirar uma das variáveis já presentes As probabilidades de F raramente são adequadas Como os programas permitem selecionar valores de probabilidade para uma variável entrar ou sair. recomendação de probabilidades Para entrar 1 (ou 0,99999 se não puder 1) Para sair 0 (ou 0,0000001 se 0 não for possível) Aproxima de todos os modelos Melhor mais variáveis do que menos, em termos de confiabilidade Stepwise (backward) Igual ao contrário lira.pro.br\wordpress - Reservados todos os direitos autorais. 26/04/2013 PROCEDIMENTO MENOS TRADICIONAL (NCSU) Montar todos os modelos Este critério combina quanto o modelo explica com o número de variáveis usado para isto Quanto menor, mais o modelo explica com o menor custo em número de variáveis Selecionar o modelo com menor AIC lira.pro.br\wordpress - Reservados todos os direitos autorais. Calcular o AIC (Akaike Information Criteria) para todos os modelos 26/04/2013 INDEPENDENTE DA FORMA DE CÁLCULO Antes da análise Lembrar de checar colinearidade e premissas da Análise de Variância Desenhar bem a coleta de dados Depois da análise, para verificar confiabilidade Estudo confirmatório – desvantagem principal custo Análise em amostra dividida Parte dos dados usada para construir o modelo, a outra para confirmar Os dados devem ser separados aleatoriamente antes da análise 26/04/2013 SUPERFÍCIE DE RESPOSTA Essencialmente RLM com um corte Exemplo Calcula RLM para N, P e K. Fixa P em w Fixa K em z Substitui Y=a+bN+cP+dK= a+bN+cw+dz. Isto dá a resposta de Y a N, dados determinados valores para P e K. Repetir processo com outros valores lira.pro.br\wordpress - Reservados todos os direitos autorais. Faz RLM normal Fixa pontos definidos para uma ou mais variáveis independente(s) Estima valores de y para a variável restante com base neste valor para a(s) variável(is) fixada(s) 26/04/2013