[1,0] 1) Discuta diferentes estratégias para a seleção do melhor modelo de regressão linear múltipla. Dentre as estratégias para a seleção de modelos é recomendado seguir os seguintes passos: especificar o modelo máximo com todas as variáveis, ou seja, que variáveis poderão entrar no modelo, evitando a colinearidade entre as variáveis que geralmente é um erro muito comum (por exemplo se entrar areia e argila, não deve entrar o silte). Especificar o critério de escolha, utilizando um modelo único que análise todas as variáveis juntas, possuindo esta estratégia uma desvantagem que é a dependência do tamanho da amostra, favorecendo assim o modelo que tem mais variável. Outra estratégia é o modelo aninhado que se diferencia do modelo único pela adição ou subtração de variáveis. É importante destacar que dependendo da técnica e do caminho que irá ser adotado para a seleção do modelo isso pode implicar no grande aumento da chance de erro tipo I. Por exemplo se você fizer 10 teste a chance de cometer o erro tipo I existir, mas se forem realizado 80 testes a chance de se cometer o erro tipo é muito maior , então sempre que se aumenta os testes realizados, ocorre um aumento concomitante de se cometer o erro tipo I. A estratégia não inclui o critério. Podemos usar a mesma estratégia com diferentes critérios, e possivelmente encontrar resultados diferentes. Além disto, sua resposta só fala em modelo completo e aninhado, esquecendo vários dos pontos importantes quanto a isto. [4] 2) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo se refere a pesquisas ecológicas e evolução, em que nesses estudos os pesquisadores tem uma lista de fatores que são suspeitos de influenciar a variável dependente e os modelos estatísticos utilizados nesta área de pesquisa são muitas vezes caracterizados por vários parâmetros. Como consequências os pesquisadores necessitam estimar os parâmetros uteis e muitas vezes precisam remover ou classificar os parâmetros com base em algum critério e tirar conclusões a partir de modelos mais parcimoniosos do que de modelos complexos. Neste caso um dos métodos mais propagados para preditores múltiplos é o método de stepwise, sendo que sua aptidão para análise em ecologia tem sido vigorosamente debatida por alguns autores. Diante disso outro método tem sido cada vez mais propagado para preditores múltiplos que é o método da teoria da informação (TI). Este artigo faz uma discussão comparativa entre os métodos da teoria da informação (TI) e o método de stepwise. Enfatizando as três principais falhas da regressão que são elas valores subjetivos e críticos e efeitos zero, incerteza do modelo e viés de seleção do modelo. Para a falha de valores críticos a regressão geralmente utiliza o teste de hipótese nula e valores críticos de P, neste caso a utilização desses valores críticos podem gerar problemas como: parâmetros que apenas marginalmente excedem este valor critico P, não são considerados embora essas diferenças muitas pequenas em P , podem surgir devido a vários motivos imprevisíveis . Outro problema é que normalmente não há verdadeiro efeito zero em um conjunto de dados naturais. A teoria da informação (TI), Não faz o uso direto de valores de significância críticos, no entanto depois de encontrar o melhor modelo e ao decidir se o modelo encontrado é realmente o melhor, este método tende a fazer o uso de valores subjetivo críticos. Neste caso os pesquisadores que usam estas duas abordagens tanto a teoria da informação como stepwise devem estar cientes dos problemas que esses limitem que são usados nos métodos podem gerar. A falha da incerteza na seleção do modelo surge quando aplicamos um conjunto modelo altamente restrito de candidatos ou quando se tentar delinear um conjunto modelo de confiança. A viés de seleção de modelo é uma das deficiências mais graves de regressão, na regressão é possível simplificar o nosso modelo com base nas estimativas que recebemos do conjunto de dados , isto implica que estamos ajustando o modelo aos nossos dados, e esta prática aumentar a probabilidade de que tamanhos de efeitos superestimados apareçam no modelo final. No entanto a teoria da informação não é completamente livre de qualquer viés na seleção de modelo, em primeiro lugar muitos estudos usam o método da teoria da informação em conjunto com regressão, então a viés de estimação de parâmetros aparece quando os critérios de informação desproporcionalmente favorecem modelos complexos. Diante disso estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com indicadores múltiplos. Isso exigirá uma compreensão das deficiências atualmente prevalentes em stepwise e TI protocolos. O que quer dizer para a falha de valores críticos, pelamordedeus? De resto ok. [2.2] 3) Considere e discuta a seguinte afirmativa ¨nem sempre o modelo com o melhor R2 não ajustado é o mais adequado¨. A afirmativa é coerente, pois o R2 não-ajustado é afetado pela adição de número de variáveis no modelo, ou seja, quanto maior o número de variáveis utilizadas, maior é o R2 não-ajustado, ou seja, as variáveis adicionadas podem não estar explicando nada, que mesmo assim estariam aumentando automaticamente o R2. Neste caso a melhor opção é optar pelo R2 ajustado que retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas. Se o R2 corrigido aumentar mesmo após o ajuste é porque não é em função do aumento do número de variáveis e sim por que estas variáveis adicionadas estão explicando melhor o modelo. excelente [1.5] 4) Discuta as vantagens e desvantagens do procedimento de stepwise para a seleção de modelo de regressão linear múltipla. A grande desvantagem do procedimento de stepwise é devido ao aumento significativo de ocorrer o erro tipo I, já que este modelo aplicar um elevado número de teste e cada vez que é realizado um teste, aumenta-se a probabilidade de ocorrer o erro tipo I. A vantagem é que como o modelo de stepwise é uma técnica que apresenta como característica a adição e retirada de variável esta vai ser uma estratégia mais atraente para selecionar um modelo e também essa mistura de técnica vai permitir a seleção de variáveis que determinam valores de importância relevantes para amostra, podendo eliminar aquelas variáveis que não são representativas. Porque será que ninguém que respondeu esta questão usou o artigo que resumiu para ajudar na resposta? Veja que os pontos negativos do stepwise são exaustivamente batidos no artigo, e ninguém usou as informações para fundamentar a resposta… [1.000] (IP:281473822979236 | 16:12:34 | 23:34:04 | 21:30 | 901.658) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. As técnicas de seleção de modelos podem implicar no aumento de se cometera o erro tipo I. Os critérios de avaliação dos modelos tem o objetivo de verificar o grau de confiança das estimativas obtidas. Os critérios têm como objetivo escolher o melhor modelo de regressão através do coeficiente de correlação (R), o qual indica a proximidade dos pontos na reta de regressão. E através do valor de F e coeficiente de determinação (R2), que tem como objetivo refletir o quanto os valores de Y estão relacionados com os valores de X. Com base nesses dados é que se pode encontra quais são as variáveis que entraram no modelo de regressão, para que seja feito a avaliação do conjunto de dados. então a correção para o número de variáveis (r² corrigido) não tem a mínima importância, nem existem outras possibilidades, como AIC? [4.000] (IP:281473822979236 | 16:13:04 | 23:34:26 | 21:22 | 3.094) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo fala que na pesquisa ecológica e comportamental, é difícil de obter conclusões confiáveis a parti dos modelos estatísticos com muitos preditores. A maneira que os pesquisadores acharam para lidar com os preditores múltiplos, tem sido a introdução e remoção de algoritmos, e com ele obter modelos mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos e interações fracas é a simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer termo interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Durante regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo possam ser adicionados ou removidos a partir do modelo. Este processo geralmente envolve testes de hipótese nula (NHT) e faz uso de limiares de importância. Uma solução relativamente recentemente proposta é a abordagem alternativa de informação teórica (IT) este modelo vem sendo difundido e utilizado recentemente. Ao aplicar este modelo podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância. Ambos os métodos baseados em metodologias IT e NHT stepwise foram usados quando se lida com muitos potenciais preditores, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida por alguns autores. O artigo examinou falhas de regressão, em primeiro lugar foram examinadas as críticas subjetivas de valores, o qual apresenta uma tendência para assumir que os termos não incluídos no modelo final tenha efeito, os parâmetros que excedem marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis, e que problema com testes de hipóteses de nulidade (NHT) que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por experimentos aleatorizados e observações e contabilização de dados e probalizados. Na teoria da informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se for o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio, e calculamos as estimativas médias para todos os modelos dentro do conjunto de modelos, mas pesando a estimativa de acordo com as informações do rank de critérios do modelo dado. Existem dois modelos para decidir se o melhor é de fato o melhor, o primeiro especifica valores limites de critérios de informações acima dos quais dois modelos são considerados para diferenciar na adequação. Se a diferença entre o melhor modelo e o secundo melhor modelo excedem este valor limite, consideramos o melhor modelo como verdadeiramente dos modelos candidatos dados. Segundo, nós comparamos o melhor modelo para outros modelos agrupados nos candidatos obtidos por meio de teste razão de probabilidade, o qual envolve NHT clássico e valores críticos de P. No entanto, se quisermos fazer decisões com relação unicamente do melhor modelo em um exercício de IT, nós precisamos ainda usar valores críticos. Em contraste ao valor do P crítico. Se quisermos evitar limites arbitrados na informação da teoria, nós usaríamos modelo médio independente do rank relativo do modelo mais bem colocado no rank, e basear nossas estimativas de parâmetros em todos os modelos embora pesando a contribuição de cada modelo de acordo com sua colocação no ranking. Usando IT para simplificação de modelo, como um substituto para regressão stepwise é forçado a usar valores limites e, portanto, introduzindo incertezas. A segunda falha refere-se à incerteza do modelo, onde a crítica maior contra regressão stepwise é a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o resultado não pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser selecionados por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. A informação teórica avalia a probabilidade do modelo estatístico especifico do dado. Assim, a questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula. Tanto em regressão stepwise e método IT, isto é de fundamentalmente importante para decidir quais variáveis independentes usamos. Independente do caminho o qual iremos analisar nossos dados, nós temos primeiro que fazer esta decisão baseada na teoria, informações prévias, ou análises exploratórias usando diferentes dados. O próximo passo é, entretanto, fundamentalmente diferente nos dois métodos. Regressão stepwise avalia automaticamente as variáveis independentes e as interações em diferentes combinações. Quando confrontados com múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na análise, independentemente da sua importância. As estimativas dos parâmetros deste modelo completo apresentam abordagem muitas vezes imprecisa ou tendenciosa, por esta abordagem não poder ser geralmente aplicado na ecologia e comportamento. Duas alternativas para a montagem do modelo completo são a simplificação do modelo e seleção de modelos. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros, ou os desempenho do modelo. Por outro lado, a seleção do modelo, tal como um método de IT, estabelece um conjunto de combinações de parâmetros e classifica estes com base na informação, os critérios ajustam ao modelo equilíbrio e complexidade. Regressão/Stepwise e métodos de IT têm sido frequentemente discutidos como métodos alternativos de parâmetros de modelagem múltipla. Estudos adicionais são urgentemente necessários para desenvolver o método de IT para a análise de dados com preditores múltiplos. Isto irá requerer uma compreensão das deficiências atualmente prevalentes em stepwise e nos protocolos IT. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante diferentes daqueles de dados simulados. Quanto à teoria da informação, existem, pelo menos, quatro tarefas. Primeiro e mais importante, o número de combinações de parâmetros possíveis rapidamente aumenta com o número de preditores, especialmente se interações são consideradas, modelo de candidato tão restrito aos conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca generalidade. Portanto, precisamos testar se os resultados de exercícios IT são tendenciosos, se usarmos todos os subconjuntos do modelo completo, que é a abordagem atualmente mais frequentemente empregada. Em segundo lugar, além do AIC, o desempenho de outros critérios de informação na seleção de modelo também deve ser testado, que até agora tem sido largamente evitado. Em terceiro lugar, quando se utiliza o método de IT para tomada de decisão entre modelos concorrentes, ele é necessário para quantificar a sensibilidade de conclusões a corte de valores de informação de critério que usamos para encontrar o melhor modelo ou o conjunto de modelos Além disso, é importante para estabelecer pontos de corte recomendados ou popularizar métodos para determinar o ponto ótimo de corte. Finalmente, para a validade do nivelamento do modelo, é necessário mais atenção, quando há interação de termos. ok [1.750] (IP:281473822979236 | 16:13:52 | 23:03:34 | 49:42 | 27.088) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Para a validação de modelos primeiramente deve-se verificar a colinearidade e se o modelo atende as premissas do MLG. Pode-se fazer a validação utilizando parte dos dados de um experimento para calcular um modelo de regressão o qual será comprovado verificando o comportamento dos outros blocos. Também pode ser utilizado, o estudo confirmatório, para verificar a confiabilidade do modelo, porém, é um método muito oneroso, pois consiste na repetição do experimento. Além da coleta dos dados ser criteriosa, para não fomentar erros de amostragem gerando dados incorretos não irá condizer com a realidade, implicando assim em um modelo de regressão incorreto. avaliação de colinearidade e de premissas vem antes da determinação do modelo, portanto de sua validação. de resto, ok. [1.000] (IP:281473822979236 | 16:14:10 | 23:34:36 | 20:26 | 5.583) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. A grande vantagem do procedimento stepwise é que quando se adiciona uma variável (no caso do stepwise forward) ou retira-se uma variável (no caso do stepwise backward), logo depois todas as outras variáveis que já faziam parte do modelo são testadas novamente, caso tenha uma variável que possa ser retirada sem que ocorra perdas relevantes de informação, ela é excluída automaticamente do modelo, já em relação ao backward, se uma variável retirada ocasionar perdas de informação ela pode retornar para o modelo, diferentemente dos outros modelos que uma vez adicionada ou retirada uma variável do modelo, ela não poderia mais deixar de fazer parte dele ou não poderia retornar para o mesmo. Outra vantagem é que desta forma temos mais confiança de que as variáveis que estão dentro do modelo, realmente têm importância e deve fazer parte dele. nem menciona as desvantagens explicadas no artigo... aliás, não menciona qualquer desvantagem [4.400] (IP:281473657768924 | 20:07:14 | 18:55:00 | 47:46 | 2.43) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Em um estudo, os pesquisadores contam com um número muito grande de variáveis que não tem certeza se de fato influenciam a variável dependente. Ao tratar igualmente todas as variáveis, surgem dois problemas principais: criar um modelo com muitas variáveis, sendo boa parte com pouca influência sobre a variável resposta; ou modelos contendo interações (dificultando a interpretação), ou interações fracas (que aumentam o erro padrão, exceto em condições muito restritas). O artigo se fundamenta na comparação entre os dois procedimentos utilizados para reverter esse cenário: stepwise e teoria da informação (TI). O modelo stepwise usa testes de hipótese nula e valores críticos de p. O procedimento é feito até que todos os termos convergem com um tamanho do efeito mais preciso. Depois o modelo encontrado é testado através de testes de razão de verossimilhança para atestar sua qualidade. Porém o modelo final apresenta problemas de instabilidade, pois o stepwise não testa todos os sub-modelos possíveis e o resultado pode não ser representativo. Como na ecologia o conjunto de dados geralmente é reduzido e inter-relacionado, esse problema é ainda mais grave. Para contornar isso, os autores sugerem que o modelo final seja testado através de comparações com um conjunto de dados independente ou reamostragens. No caso do TI, todo o conjunto de sub-modelos é avaliado, gerando resultados representativos, porém valores críticos de p são utilizados na escolha do melhor modelo, e esses valores limites introduzem incertezas que precisam ser adequados ao teste e ao tratamento em cada método. Resumindo, o método TI resolve três importantes problemas inerentes ao stepwise. O primeiro deles seriam os valores críticos subjetivos usados nas comparações entre modelos. Outro problema seriam os modelos incertos que surgem em virtude de um conjunto de candidatos muito restrito. E por último, os problemas de estimativa do parâmetro em casos de critérios que favorecem desproporcionalmente modelos complexos. Porém, existem outras questões que podem ocorrer devido à utilização do TI na ecologia. Independente do modelo, é fundamental que a escolha das variáveis independentes seja baseada em informações prévias ou análises exploratórias. Os autores lembram ainda que nenhuma abordagem estatística é livre de incertezas, e que são necessários estudos adicionais usando dados ecológicos e comportamentais para preencher as lacunas das teorias dos dois métodos, por exemplo, a falta de generalidade do stepwise. Além disso, são necessários testes adicionais de critérios de seleção de modelos, e mais estudos que estabeleçam e popularizem limites ótimos de p utilizados no TI. excelente resumo do resumo. Pegou todos os pontos principais de forma bastante direta. [1.500] (IP:281473657768924 | 20:12:14 | 18:55:36 | 43:22 | 36.054) Discuta o significado e possíveis implicações do AIC O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos. Esse índice avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos dados. Para isso, são calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo número de parâmetros. Assim, o AIC avalia a qualidade da ligação entre as variáveis e o número de variáveis utilizadas. O modelo com menor AIC será o melhor, pois é capaz de explicar mais o fenômeno em estudo com um número menor de parâmetros. implicações? [2.200] (IP:281473657768924 | 20:12:43 | 18:56:13 | 43:30 | 26.302) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla É importante obter um modelo minimizando o número de variáveis incluídas, descartando aquelas não significantes (ou com pouca contribuição para o ajuste). Para isso é preciso escolher uma estratégia para essa seleção. Dentre as mais utilizadas, tem-se a “seleção para frente”, nesse método, as variáveis candidatas vão sendo introduzidas progressivamente no modelo e são feitos testes para medir seu efeito no conjunto. Outra estratégia é a “eliminação para trás”, que parte da regressão completa (com todas variáveis) e a cada rodada é eliminada a variável cuja saída produz menor efeito no modelo geral. Esses dois processos são bem semelhantes e promovem bons resultados, principalmente se o número de variáveis não for tão grande. Outra opção é o “stepwise”, que é uma combinação dos outros dois métodos, onde a cada variável adicionada ao modelo, todas as variáveis já adicionadas são testadas novamente. Esse procedimento aumenta a confiabilidade da escolha das variáveis fixadas no modelo. Por outro lado, o grande número de testes realizados para verificação de cada um dos modelos acaba por aumentar a chance de ocorrência do erro tipo I (rejeição da H0 quando esta é verdadeira). só faltou o modelo completo... [2.200] (IP:281473657768924 | 20:13:33 | 18:57:32 | 43:59 | 20.677) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Na avaliação de modelos únicos ou aninhados (derivado de um modelo mais geral), é preciso estabelecer critérios para seleção dentre os modelos candidatos, o melhor, ou seja, o que envolva o mínimo de parâmetros que expliquem satisfatoriamente a variável resposta. Para isso, são utilizados critérios estatísticos de avaliação, como o coeficiente de determinação (R²), que indica a capacidade explicativa da equação, logo, quanto mais próximo de 1 (ou 100% de explicação), maior a validade da regressão. Porém, quanto mais variáveis são adicionadas a regressão, maior será seu R². Para reverter isso, uma opção é o R² corrigido, que leva em consideração o número de variáveis da regressão, suavizando o efeito da adição. Mas o princípio se mantém, quanto maior o R²c, melhor a regressão. Outro teste bastante utilizado é o F, que testa simultaneamente a significância do conjunto de parâmetros através do teste da hipótese nula (a equação não explica a variação da variável resposta). Grandes valores de F permitem a rejeição da H0 (a regressão é de fato explicativa). Também é possível montar todos os modelos e estabelecer os respectivos AIC (índice que leva em conta a qualidade e a quantidade de parâmetros utilizados em uma regressão), quanto menor o AIC, melhor o modelo. ok [2.200] (IP:281473654131136 | 20:34:00 | 21:30:03 | 56:03 | 2.268) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Com o objetivo de selecionar a melhor regressão linear múltipla, partindo do pressuposto de que a regressão escolhida descreverá satisfatoriamente a relação existente entre variáveis independentes e a variável resposta, faz-se necessário lançar mão de critérios para garantir a escolha por um modelo adequado. Em outras palavras, é preciso adotar requisitos para avaliar o melhor modelo que ajuste um determinado conjunto de dados. Baseando-se nesta realidade, existem alguns critérios que são comumente adotados/ utilizados para avaliar os modelos, dentre os existentes, é fundamental citarmos alguns deles: - Coeficiente de determinação (R²): O R² configura-se como um coeficiente que mede o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão. Ou seja, através do R², pode-se inferir se determinado modelo é adequado ou não para explicar a variação de uma determinada variável em estudo. O coeficiente de determinação pode assumir valores de 0 a 1, salientando que valores próximos de 1 atestam que a relação entre variáveis independentes e variável dependente (ou variável resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já a observação de R² baixos, próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a relação existente entre as variáveis. Desta forma, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o ajuste do modelo. Para exemplificar, podemos considerar a comparação de modelos concorrentes (modelos que explicam uma mesma relação), caso determinasse o coeficiente de determinação como critério de escolha para o melhor modelo, escolheria o modelo que apresentasse maior R². Entretanto, vale salientar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo, observando-se também um aumento do mesmo, contudo, este aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo. - Coeficiente de determinação ajustado: Baseada na limitação anteriormente apresentada e discutida pelo coeficiente de determinação (R²), o coeficiente de determinação ajustado não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo (o efeito significativo dos preditores é obtido através da análise de variância). Desta forma, pode-se pensar que o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo. - Soma dos quadrados do resíduo (SSR): critério que baseia-se na observação da soma dos quadrados do resíduo, sabendo-se que quanto menor o SSR, melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR apresenta uma limitação: seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, consequentemente, afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha. - Teste F: Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais). - Cp: Critério preconizado Mallows e que está baseado no erro quadrático médio dos valores ajustados. Para calcular este critério, utiliza-se a seguinte fórmula: Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)] Onde: SSR – Soma dos quadrados do resíduo MSR – Quadrado médio do resíduo N – número de parcelas experimentais p – número de parâmetros Vale salientar que o modelo mais adequado será escolhido em função do número de Cp calculado que mais se aproxime do valor dos parâmetros (p +1). Por exemplo, se considerarmos 4 parâmetros (variáveis independentes) para observar o comportamento de y (variável dependente), e calcularmos o Cp de dois modelos concorrentes, onde o Cp1 = 3,444 e o Cp2 = 7,6700, optaríamos pelo modelo que apresentasse o Cp1, já que este aproxima-se mais do número de parâmetros (4). - AIC (Critério de informação de Akaike): Configura-se como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo. excelente [2.200] (IP:281473654131136 | 20:35:53 | 21:30:10 | 54:17 | 2.117) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. Visando obter o modelo que melhor explique um determinado comportamento a partir de um conjunto de dados coletados, faz-se necessário avaliar e adotar alguma técnica que facilite a escolha adequada (acertada) por um determinado modelo, através de algum critério de escolha previamente determinado. Baseando-se nisto, existem algumas técnicas que podem ser utilizadas com este objetivo, a saber: - Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p – 1 de modelos possíveis. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I. - Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto, considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração das variáveis menos importantes, todavia, o início do teste é inverso, considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste. - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados. -Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combina variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I. excelente [2.000] (IP:281473654131136 | 20:36:43 | 21:30:15 | 53:32 | 1.423) Discuta o significado e possíveis implicações do AIC O AIC (critério de informação de Akaike) constitui-se como um critério para a seleção do melhor modelo de regressão. O mesmo é baseado na teoria da informação, partindo do pressuposto de que existe um modelo verdadeiro, ou seja, real que satisfatoriamente descreveria o comportamento das variáveis, contudo, este modelo é desconhecido. Portanto, através do AIC, tenta-se escolher dentre um grupo de modelos, aquele que mais se aproxima da realidade. Esta medida leva em consideração concomitantemente a qualidade da ligação entre as variáveis e o número das mesmas que são utilizadas no modelo. Desta forma, os valores de AIC poderão indicar se os modelos são ou não indicados, salientando que quanto menor é o índice AIC, melhor a regressão explica o comportamento considerando o menor número de variáveis. ok, mas este não é o único uso do AIC [4.400] (IP:281473654131136 | 20:37:16 | 21:30:33 | 53:17 | 14.806) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo desta semana intitulado “Using information theory as a substitute for stepwise regression in ecology and behavior” discute, em essência, duas ferramentas estatísticas que são utilizadas para descrever o comportamento de variáveis envolvidas em processos ecológicos e comportamentais: regressão baseada em stepwise e o critério de informação de Akaike (um dos descritores da teoria da informação). A discussão baseia-se nas limitações apresentadas pela regressão stepwise e na sua possível substituição pela teoria da informação, uma vez que esta, aparentemente, preenche as lacunas e deficiências apresentadas pela regressão stepwise. De acordo com os autores do artigo, a necessidade de conhecer e discutir abordagens estatísticas origina-se da necessidade de explicar os fenômenos biológicos que geralmente são permeados por inúmeros parâmetros que atuam de maneiras distintas na determinação de uma variável dependente. Visando identificar e classificar por ordem de importância, os parâmetros que influenciam na variável resposta, além das interações que podem existir entre as variáveis, surgiu a regressão stepwise, que permitiu realizar inferências estatísticas mais consistentes baseando-se em modelos mais parcimoniosos quando comparada ao modelo completo. Contudo, é notável em estudos de cunho científico que a regressão stepwise apresenta algumas limitações quanto à sua utilização na área de ecologia e comportamento, sendo rejeitada por muitos pesquisadores sob a justificativa de que a estratégia stepwise não é adequada para encontrar modelos que melhor descrevam comportamentos na área de ecologia. As limitações, as quais o artigo trata são a presença de valores críticos subjetivos, incertezas quanto aos modelos e estimativa de parâmetros enviesados, ou seja, tendenciosos. Além disso, vale salientar que mesmo sendo alvo do artigo discutir comparativamente estas duas ferramentas estatísticas, é fundamental considerar que a filosofia do teste de hipótese nula (no qual a stepwise é baseada) é radicalmente diferente da teoria da informação. Isto implica dizer que a teoria da informação não é a verdadeira alternativa para a regressão stepwise. Ressalta-se ainda a possibilidade de usar o critério da teoria da informação na regressão stepwise, contudo, este modelo stepwise-teoria da informação apresenta as mesmas limitações da ferramenta anterior. De maneira mais esmiuçada, o artigo trata de alguns problemas visualizados na utilização da regressão stepwise. O primeiro a ser discutido refere-se aos valores críticos subjetivos e dos efeitos “zero”, em seguida, discute-se sobre questões relacionadas às incertezas, instabilidades e falta de generalidade observados no processo de aplicação do modelo stepwise e por fim, entretanto, não menos importante, viés na seleção do modelo . Para os três problemas elencados no artigo, os autores trouxeram a abordagem da teoria da informação como possível solução. Todavia, vale salientar que mesmo apresentando-se como alternativa, a teoria da informação igualmente mostra limitações quanto ao seu uso e, portanto, são necessários mais estudos, utilizando dados de ecologia e comportamento, para testar novas alternativas para melhorar a aplicabilidade da teoria da informação nestes estudos. ok [2.200] (IP:281473654131136 | 20:37:28 | 21:52:40 | 15:12 | 5.694) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. As técnicas mais utilizadas são as seguintes: 1ª – Testar todas as regressões possíveis: como o titulo já propõe, esta técnica aplica-se a todas as regressões possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo, logo, este número de combinações fica sendo determinado pela expressão 2^(p_máx )-1, onde p corresponde ao número de variáveis independentes, ou seja, se em determinado estudo tivermos um número de 8 variáveis, isso implica dizer que teremos 255 modelos de regressão possíveis para avaliarmos na respectiva técnica. Problemas quanto a esta técnica relacionava-se à elevada carga computacional a qual era exercida sobre os antigos computadores no momento da análise, mas, isso se modificou com o advento de processadores com alta velocidade de processamento tornando aplicável o método. A desvantagem do método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor, modelo de regressão múltipla; 2ª – Eliminação para trás (backward elimition): neste teste, inicia-se com a regressão múltipla contendo todas as variáveis, posteriormente, eliminamos a cada rodada de seleção (R2, R_a^2, Cp e etc) a variável de menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na composição do modelo e consequentemente no processo de seleção, isso nos faz pensar ou refletir que, ora aquela variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém, em outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno; 3ª – Seleção para frente (forward selection): esta técnica assemelha-se a de eliminação para trás, contudo em direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas condições (combinações); 4ª – Stepwise (forward e backward): esta se configura como uma junção dos métodos anteriormente descritos acrescido da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de seleção (R2, R_a^2, Cp e etc) na circunstância em que se julgar viável (combinação de maior efeito), ou seja, este método supre a deficiência ocorrida nos descritos acima (backward elimition e forward selection) quanto a descrever a melhor combinação entre as variáveis. Essa ação apresenta seus benefícios isso é fato, todavia esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos gerados. ótimo [2.200] (IP:281473654131136 | 20:39:17 | 21:53:14 | 13:57 | 32.323) Discuta o significado e possíveis implicações do AIC Entende-se por AIC (Critério de Informação Akaike) como sendo um critério de seleção na escolha da melhor regressão múltipla, em que regressões com menor índice AIC são consideradas as que melhor retratam determinado fenômeno. Este critério baseia-se no que chamamos de teoria da informação que na sua aplicabilidade quanto à seleção do modelo de regressão mais adequado esta considera simultaneamente as seguintes características: a qualidade da informação, a ligação entre as variáveis, ou seja, como estas se correlacionam assim como também o número de variáveis aplicadas ao modelo. Este critério tende a penalizar modelos em que são constituídos por muitas variáveis, isso quer dizer que quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade, nos rematando a ideia de que sempre que possível e lógico devemos adotar modelos simples que melhor retrate do que modelos complexos de difícil entendimento. escrita confusa e o AIC não é usado somente para a escolha da melhor regressão múltipla. excelente ponto no final [4.400] (IP:281473654131136 | 20:39:57 | 21:55:27 | 15:30 | 9.797) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. No artigo “Using information theory as a substitute for stepwise regression in ecology and behavior” os autores G. Hegyi & L.Z. Garamszegi abrem certa discussão crítica sobre o uso do Stepwise como técnica proposta para determinar a melhor regressão múltipla diante de fenômenos ecológicos. Os autores retratam as principais deficiências deste método e como solução para estes problemas propõem uma substituição por um método denominado de teoria da informação (TI) na qual se espera que em determinadas circunstâncias, esta seja mais sensível quanto à análise. No método da TI, leva-se em consideração a informação extraída pelo modelo, ou seja, a qualidade da informação e o número de parâmetros presentes no modelo. Dentre as técnicas de TI mais comuns temos a de Akaike, proposta inicialmente em 1973. No presente trabalho, os autores sugerem que na discussão sobre os reais problemas do stepwise inicialmente tentaremos procurar as possíveis soluções e, posteriormente, a proposta dada pelo método da teoria da informação. Contudo, os mesmos ressaltam que é necessário ter os seguintes entendimentos: primeiro – as filosofias dos métodos que serão comparados (stepwise e TI) são totalmente distintas; e segundo – é possível criar modelos de regressão utilizando critérios de informação. As principais deficiências encontradas na regressão stepwise são: - valores críticos subjetivos e efeitos zero: este problema se explica pelos seguintes aspectos - assumir que os termos não incluídos no modelo final possuem efeitos zero; problemas provenientes na escolha de valores críticos de P em que valores que apresentam pequenas diferenças não são considerados; e por fim atribuir um tamanho de efeito igual a zero para os termos removidos na regressão cria viés; - incerteza, instabilidade e falta de generalidade: consiste no fato de que o método stepwise testa apenas uma fração de todos os submodelos presentes no modelo completo, isto traz sérias implicações tendo em vista que o resultado nesta situação não é representativo de todo o espaço de combinações possíveis; - viés na seleção do modelo: esta é uma dos mais graves problemas inerentes à regressão stepwise. Nela é possível simplificarmos o nosso modelo baseando-se na estimativa do conjunto dos dados e isto implica ajustar o modelo aos nossos dados que, consequentemente, resultará em tamanhos de efeitos superestimados no modelo final. E por fim os autores concluem propondo discussões quanto à utilização da TI como solução para os problemas presentes no método de stepwise, contudo, os mesmos relatam que certas características são inerentes a ambos os métodos, necessitando assim de mais estudos sobre a TI para podermos aplicá-la em substituição ao método comumente empregado, stepwise. bom resumo das principais desvantagens do stepwise, mas muito de leve nas possíveis vantagens do AIC e similares [2.200] (IP:281473654131136 | 21:54:07 | 21:55:42 | 01:35 | 13.822) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Os diferentes critérios de seleção para assim determinarmos o melhor modelo de regressão múltipla consiste basicamente na avaliação dos seguintes parâmetros: R2 (coeficiente de determinação do modelo), R_a^2 (coeficiente de determinação do modelo ajustado), Valor de F (analise de variância de cada modelo), QMR (quadrado médio dos resíduos), SQR (soma dos quadrados dos resíduos), Cp (Cp de Mallows) entre outros como o AIC, BIC e critério PRESS. - Coeficiente de determinação (R2): este método baseia-se na observação dos valores determinados para o R2 (varia de 0 a 1) de acordo com o ajuste do modelo de regressão múltipla, logo, se adicionarmos uma variável insignificante ao modelo teremos um aumento mínimo de R2. Daí deve-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no fenômeno. Contudo, sua empregabilidade tem sido mais voltada em determinarmos o quando de cessarmos de adicionar variáveis ao modelo, ao invés de encontrar o melhor, tendo em vista que os valores de R2 não reduzem quando adicionamos mais variáveis; - Coeficiente de determinação ajustado (R_a^2): No intuito de minimizarmos erros decorrentes da análise incorreta do R2 para alguns é preferível usar o R_a^2, não necessariamente este aumenta com a adição de variáveis ao modelo (p + s(conj. variáveis)), contudo apresentará valores superiores quando na analise de F entre os modelos (p e p + s) apresentar aumento do efeito das variáveis incluídas. Consequentemente, o critério de escolha baseado no R_a^2 consiste em escolher o que apresentar valor máximo; - F (resultado da análise de variância): entende-se neste critério que na avaliação dos modelos aquele que apresentar um maior efeito devido ao tratamento sobre o acaso (valores de Faltos ou melhores significâncias Pr < F) deverá ser escolhido como o que melhor representa o comportamento em estudo; - QMR (quadrado médio dos resíduos): neste método inferimos que quanto menor for o QMR de um modelo consequentemente maior será o R_a^2, portanto, modelos nos quais apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste; - SQR (soma dos quadrados dos resíduos): tem o mesmo principio do critério anterior, tendo em vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a dependência do tamanho da amostra; - Cp (Cp de Mallows): este critério baseia-se no conceito de erro quadrático médio dos valores ajustados e pode determinado pela seguinte equação: C_p=〖SQR〗_((p))/QMR-n+2(p+1) em que SQRp é a soma dos quadrados dos resíduos do submodelo, QMR o quadrado médio do modelo máximo, n número de amostras e p o número de variáveis. Logo, a estratégia de seleção de modelos baseada no Cp consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p +1). Por exemplo, considere dois modelos de regressão: Modelo 1 – com apenas 1 variável e com valores de SQR = 34.419 e QMR = 1.220, calculando o Cp temos o seguinte resultado; C_p= 34.419/1.220-14+2×2=18,21 Modelo 2 – com duas variáveis e valores de SQR = 13.421 e QMR = 1.220, calculando o Cp temos o seguinte resultado; C_p=13.421/1.220-14+2×3=3 Portanto, pode-se afirmar que o modelo 2 é aquele cujo valor de Cp melhor se aproximou do número de parâmetros (p + 1) e por isso no critério de escolha adotado ele deve ser escolhido. excelente [1.500] (IP:281473657748883 | 16:03:06 | 23:15:31 | 12:25 | 1.815) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. {[ Resposta da Questão 1: As técnicas de seleção de modelos podem implicar em grande aumento na chance cometer o erro tipo I. A avaliação de um modelo procura verificar se os parâmetros estimados são ou não estatisticamente significativos e satisfatórios. Os critérios estatísticos de avaliação dos modelos têm como objetivo verificar o grau de confiabilidade das estimativas obtidas. O critério para seleção da regressão linear múltipla (RLM), refere-se ao fator escolhido para comparação dos modelos de regressão e desta forma escolher o melhor modelo, como exemplo o coeficiente de correlação (R), o valor de F e coeficiente de determinação (R2). O critério para seleção possibilita encontrar quais as variáveis entram no modelo de regressão, para avaliar um conjunto de dados a ser feito as regressões. O coeficiente de correlação é uma medida da relação linear entre duas ou mais variáveis, este indica a proximidade dos pontos á reta de regressão e quanto mais próximo o de 1,0 for o valor de R, mais os pontos se encontram na reta de regressão. Quanto mais próximo de zero, mais pobre será o ajustamento da reta de regressão aos pontos. Já o coeficiente de determinação da regressão tem por objetivo revelar o quanto as variáveis independentes explicam a variação da variável dependente, ou seja, é uma medida que procura refletir o quanto os valores de Y estão relacionados com os valores de X, no coeficiente de determinação os valores também vão varia de 0 a 1, sendo que quanto mais próximo de 1 é melhor. O teste F dá uma ideia da relação entre a variação devida ao resíduo e ao acaso.]} R2 corrigido? AIC e similares? [1.500] (IP:281473657748883 | 16:03:47 | 23:15:35 | 11:48 | 1.781) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. {[Resposta questão 2: O método stepwise para a seleção de variáveis é muito usado em regressão linear. Qualquer procedimento para seleção ou exclusão de variáveis de um modelo é baseado em um algoritmo que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de decisão. De modo geral quanto maior a quantidade de variáveis melhor, em termo de confiabilidade. O método stepwise é uma mistura de técnicas, que permite avaliar a contribuição de cada variável independente para o modelo. As vantagens são que o Stepwise permite a seleção das variáveis que o teste demonstra não representar importância ou significância entre o máximo ou o mínimo de variáveis. O stepwise apresenta uma maior confiança na análise de números maiores de variáveis em relação à análise de menos variáveis isto ocorre por que o stepwise testa todas as variáveis. Mais vantagens são que devido uma combinação de técnicas possibilita a seleção de variáveis que determinam valores de importância e significância para a amostra, o que nos permite fazer a eliminação daquelas variáveis que não são bem representativas do modelo. Outra vantagem do stepwise é que ele permite que as variáveis saiam e entram no modelo, o que permite que uma variável independente que tenha sido retirada por não apresentado um bom efeito, possa novamente ser testada, agora com outras variáveis, e esta variável pode volta para o sistema ser ela tiver uma boa combinação com as demais variáveis. Embora o stepwise apresente várias vantagens, este método como qualquer outro apresentar as suas desvantagens. Uma das principais desvantagem deste método é que ele é um método complexo de difícil interpretação dos vários valores obtidos, ou seja, é difícil avaliar e interpretar o modelo pois temos um grande número de variáveis neste modelo, o que tornar muito complexo o mesmo. O resultado final depende dos testes anteriores de inclusão e exclusão de variáveis, ou seja, este teste é influenciado pelos passos iniciais realizados no teste. Mais desvantagens também devem ser consideradas tais como: o teste apresenta uma maior possibilidade de erros, de cometer o erro tipo I, não que a probabilidade de cometer um erro seja maior, e sim que ocorre uma acumulação deste erro acontecer é o que chamamos de erro acumulativo já que toda variável testada tem uma erro incorporado. Uma outra desvantagem importante do stepwise é que o modelo final pode apresentar diferenças para o mesmo conjunto de dados, ou seja, o modelo pode ser diferente de acordo com as escolhas dos teste anteriores, são dependentes do caminho seguido.]}. peraí. Como ter um grande número de variáveis pode ser culpa do processo de seleção? Entender o resultado do stepwise não tem nada a ver com o número de variáveis que entra no modelo. [2.000] (IP:281473657748883 | 16:04:01 | 23:15:39 | 11:38 | 1.955) Discuta o significado e possíveis implicações do AIC {[ Resposta da questão 3: Primeiramente vamos discutir o significado do AIC. O critério informativo de Akaike (AIC) é uma ferramenta para seleção de modelos, pois oferece uma medida relativa da qualidade do ajuste de um modelo estatístico, ou seja, o AIC é um índice que nos permiti escolhe o melhor modelo para a regressão. Este índice avalia ao mesmo tempo a qualidade de informação, qualidade da ligação entre as variáveis com o número de variáveis que é utilizada, assim como a quantidade de variáveis que entra, com a quantidade de dados explicados. O AIC não fornece um teste de um modelo no sentido usual de testar uma hipótese nula. O AIC é um teste de máxima verossimilhança para verificar se o modelo escolhido é o adequado. As implicações do AIC são em relação à escolha dos modelos utilizamos os valores de AIC para decidir qual é o melhor modelo a ser utilizado, sendo assim quando temos um conjunto de modelos candidatos, o modelo a ser utilizado é aquele que apresentar o menor valor de AIC (quanto menor for o valor de AIC melhor será o ajuste do modelo aos dados recolhidos). O importante é que o modelo se ajuste bem aos dados junto ao ponto (ou transecto). Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis. Outra aplicação do AIC é em modelo misto para selecionar qual modelo de co-variância é mais útil.]} confuso, mas acho que entendeu [4.000] (IP:281473657748883 | 16:04:07 | 23:15:48 | 11:41 | 6.382) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. {[ Resposta da questão 4: O artigo “Usando a teoria da informação como um substituto para regressão em ecologia e comportamento” tem como objetivo fazer uma abordagem resumida oferecendo uma visão geral objetiva de alguns pontos, mantendo a filosofia do “pluralismo estatístico”. Na pesquisa ecológica e comportamental, tirar conclusões confiáveis a partir de modelos estatísticos com múltiplos preditores é geralmente difícil. O método hipotético-dedutivo (HD) postula uma hipótese nula com base na informação disponível, articula predições testáveis, e testa estas previsões. A abordagem HD está firmemente enraizada em informação recolhida, de modo que deve considerar a descrição de padrões nos dados de observações como um passo necessário antes que o método HD pode ser aplicado. Atualmente vem utilizando como método clássico para lidar com os efeitos e interações fracas a simplificação do modelo stepwise, onde obtém-se um modelo final que não contém qualquer termo de interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Durante a regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo possam ser adicionados ou removidos a partir do modelo. Este processo geralmente envolve testes de hipótese nula (THN), este modelo tradicional atualmente vinha recebendo crítica. Com base neste contexto uma solução relativamente recentemente proposta é a abordagem alternativa de teoria de informação (IT). A Regressão stepwise geralmente usa THN e valores críticos de P. Existe, entretanto, uma tendência para assumir que os termos não incluídos no modelo final tem efeito. Existe também um problema geral com o uso de valores críticos de P. Parâmetros que excederam marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis Um terceiro problema com testes de hipóteses de nulidade é que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente, exceto por experimentos aleatorizados. A TI não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância. No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se é o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio. Outra crítica contra a regressão stepwise é a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo. A teoria de informação avalia a probabilidade do modelo estatístico especifico dado os dados. Assim, a questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula. Tanto em regressão stepwise e método TI, isto é de fundamental importancia para decidir quais variáveis independentes usamos. Independente do caminho o qual iremos analisar nossos dados, nós temos primeiro que fazer esta decisão baseada na teoria, informações prévias, ou análises exploratórias usando diferentes dados. Em regressão, é possível simplificar o nosso modelo baseado na estimativas que começa a partir do conjunto de dados. Isto implica que temos o ajuste do modelo aos nossos dados, e esta prática aumenta a probabilidade de que os tamanhos de efeito superestimados aparecem no modelo. Simulações têm mostrado que esta sobrestimação é mais grave nos preditores fracos, e a maior parte da diversidade biológica preditores se enquadram nessa categoria. A teoria da informação, por outro lado, tem sido proposto para evitar o "viés de modelo de seleção" inerente a stepwise. No entanto, a teoria de informação não é completamente livre de qualquer viés na seleção do modelo. Os critérios mais populares são AIC e sua AICc versão corrigida, mas estes têm sido sugerido ser propenso ao superajuste. O melhor modelo de acordo com o AIC ou AICC é geralmente complexo, e muitas vezes incluem variáveis, e até mesmo interações, com efeitos muito pequenos. Quando confrontados com múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na análise, independentemente da sua importância. As estimativas dos parâmetros deste modelo completo apresentam abordagens muitas vezes imprecisas ou tendenciosas, por esta abordagem não poder ser geralmente aplicado na ecologia e comportamento. Duas alternativas para a montagem do modelo completo são, a simplificação do modelo e seleção de modelos. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros ou desempenho do modelo. Existem três carências bem conhecidas de regressão/stepwise que são considerados como automaticamente resolvidas simplesmente aplicando a teoria da informação sem o procedimentos passo a passo, estas carências são: valores críticos subjetivos, a incerteza do modelo, e viés de estimação de parâmetros. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com preditores múltiplos. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante diferentes daqueles de dados simulados. Quanto à teoria da informação, devemos considerar que o número de combinações de parâmetros possíveis rapidamente aumenta com o número de preditores, especialmente se interações são consideradas, modelo candidato tão restrito aos conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca generalidade. Além do AIC, o desempenho de outros critérios de informação na seleção de modelo também devem ser testados, pois ate o momento tem sido largamente evitado.]} muito estatiquês, mas em linhas gerais parece ter compreendido, em particular quanto às desvantagens do stepwise, que por sinal ficaram melhor descritas do que na resposta à questão sobre o stepwise:) [4.400] (IP:281473857230317 | 08:55:44 | 23:19:15 | 23:31 | 6.844) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Usando a informação teórica como um substituto para regressão em ecologia e comportamento. Para a pesquisa ecológica e comportamental acumular conhecimentos dois caminhos podem ser seguidos. O método hipotético-dedutivo (HD) postula uma hipótese nula com base na informação disponível, articula predições testáveis, e testa estas previsões. Indução e dedução têm papéis complementares no exercício do conhecimento. Padrões observados em um conjunto de dados, por um lado, não podem demonstrar relações causais, então eles devem ser considerados como uma tentativa, e o método indutivo é uma forma de gerar hipótese para testes, preferencialmente experimental. Os modelos estatísticos são, portanto, muitas vezes caracterizados por vários parâmetros. Observe que em estudos experimentais complexos com vários tratamentos e variáveis conhecidas. Em tais estudos, o tratamento de todos os parâmetros da mesma forma, independentemente da sua importância é problemático por duas razões principais. Em primeiro lugar, o tamanho da amostra é normalmente limitado, o que dá origem a um sério equilíbrio entre a complexidade do modelo e a exatidão na estimativa dos parâmetros. Em segundo lugar, muitos modelos em ecologia comportamental incluem termos de interação. Se uma interação está presente no modelo, os principais efeitos das variáveis correspondentes não podem ser prontamente interpretados porque o seu significado é diferente do que um sem interação. Existem, geralmente, muitos termos de interação, e a maioria deles terão efeitos muito pequenos. Na presença de termos de interação fraco, as estimativas de efeito principais terão grandes erros padrão, e eles vão também ser tendenciosos, a menos que condições muito restritivas sejam satisfeitas. Como consequência, os pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes, precisam remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de modelos mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos de interações fracas é a simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer termo de interação fraca e contém variáveis que são fortes preditores ou estão envolvidos em uma forte interação. Durante a regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum dos termos possa ser adicionado ou removido a partir do modelo. Este processo geralmente envolve testes de hipótese nula (NHT) e faz uso de limiares de importância. Uma solução relativamente recentemente proposta é a abordagem alternativa da informação teórica (IT). Neste método, os descritores contínuos que vão equilibrar o ajuste do modelo e do número de parâmetros para cada modelo são calculados para cada modelo em um conjunto fixo do modelo candidato. O mais popular desses descritores em ecologia é o Akaike de informação ou critério AIC (Akaike, 1973). Ao aplicar a teoria da informação, podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância (Burnham e Anderson, 2002). Ambos os métodos baseados em metodologias IT e NHT stepwise serão usados quando se lida com muitos potenciais preditores, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida. A regressão stepwise geralmente usa NHT (teste de hipótese de nulidade) e valores críticos de P. Existe, entretanto, uma tendência para assumir que os termos não incluídos no modelo final tem efeito. Existe também um problema geral com o uso de valores críticos de P. Parâmetros que excederam marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis. Um terceiro problema com testes de hipóteses de nulidade (NHT) é que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por experimentos aleatorizados e observações e contabilização de dados e probalizados. Em vez de assumir efeito zero, é possível gerar estimativas atuais pela reintegração dos termos removidos dentro do modelo final um a um. Neste processo, primeiramente conduzimos a regressão até que esta convirja, e então apresente o efeito do tamanho para todos os termos. O tamanho dos efeitos para os termos no modelo final origina-se deste modelo, enquanto os efeitos do tamanho dos termos fora do modelo final provem de sua introdução no modelo final. A teoria da informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância. No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se é o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio, que é, nós calculamos as estimativas médias para todos os modelos dentro do conjunto de modelos, mas pesando a estimativa de acordo com as informações do rank de critérios do modelo dado. O uso de métodos IT na ecologia e comportamento classicamente envolvem informações de critérios de valores e os melhores modelos, mas recentemente o foco mudou para a ala da avaliação da adequação modelo aparentados tal como os ranks e evidencia de razões. No entanto, se quisermos fazer decisões com relação unicamente do melhor modelo em um exercício de IT, nós precisamos ainda usar valores críticos. Um uso especial de valores limites na informação teórica é o que se diz seguro, ou, melhor conjunto de modelos, embora seja um subconjunto relativamente bem suportado do grupo de conjunto candidato no qual o modelo médio está pronto. Não existe um acordo entre os critérios para delimitar o melhor conjunto de modelos, e diferentes métodos. Introduzindo um preditor aleatório naõ correlacionado no modelo poderá ajudar a determiner os limites na aproximação IT. Embora seja difícil imaginar um preditor realmente aleatório não correlacionado no caso de um conjunto de dados finitos, então esta possível solução trabalha melhor com conjuntos de dados bem mais amplos. Uma segunda crítica maior contra regressão stepwise é a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o resultado não pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser selecionados por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros (por exemplo, coeficiente de regressão, significância) ou os desempenho do modelo, como por exemplo, variância. Por outro lado, a seleção do modelo, tal como um método de IT, estabelece um conjunto de combinações de parâmetros (isto é, os modelos) e classifica estes com base na informação, os critérios ajustam ao modelo equilíbrio e complexidade. Regressão/Stepwise e métodos de TI têm sido frequentemente discutido como métodos alternativos de parâmetros de modelagem múltipla. ok [0.000] (IP:0 | 08:56:04 | --:--:-- | --:-- | ------ ) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Em branco [2.200] (IP:281473857230317 | 08:56:42 | 23:43:13 | 46:31 | 853.359) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". Num modelo, quanto maior o número de variáveis adicionadas a equação, maior será seu R2 pelo simples fato de estar levando em consideração mais variáveis que um modelo com menos. A correção do R2 diz respeito a correção do número de elementos que é colocado no modelo, enquanto o R2 corrigido anula a influencia da quantidade de variáveis. Trabalhar baseando-se no R2 não corrigido implica na possibilidade de se estar trabalhando com um modelo bem mais complicado pelo número de variáveis que possui e que no fim das contas não está surtindo efeito algum pois seu R2 elevado poderá ser apenas em função do número de variáveis e não da sua relevância. Um modelo contendo menos variáveis e que seja bem mais significativo no que se propõe poderá ser substituído por outro com número maior de variáveis e consequentemente maior R2, porém com pouca ou quase nenhuma nenhuma se trabalharmos apenas com o R2 não corrigido. excelente [0.000] (IP:281473857230317 | 09:01:12 | 23:56:26 | 55:14 | 436.456) Avalie o efeito de diferentes estratégias de seleção do melhor modelo sobre a probabilidade de ocorrência de erro do tipo I. Quando se opta pela estatística univariada, serão feitas diversas análise, tendo cada uma delas a mesma chance de ocorrência do erro tipo I, contudo, oa final a chance será extremamente maior de ter acontecido este erro devido ao número de análises feitas, enquanto a estatística multivariada realiza um única análise, tendo bem menos chance de ocasionar o erro do tipo I. Esta tambem pode ser realizada com todas as variáveis que o pesquisador achar pertinentes e não colineares de uma só vez sendo possível depois a remoção de alguma que não condiga com oque se procura. de onde apareceu esta comparação entre estatística univariada e multivariada, em termos da pergunta que você deveria estar respondendo? [1.000] (IP:281473652568206 | 07:26:59 | 19:11:58 | 44:59 | 6.191) Discuta o significado e possíveis implicações do AIC A sigla AIC siguinifica ( Akaike Information Criterion) ou Critério de Informação Akaike, configura uma medida da relação da qualidade de ajuste de um modelo estatístico, de autoria de Hirotsugu Akaike em 1974, sob o nome de “um critério de informação”(AIC). As aplicações se baseiam em critérios de entropia da informação, oferecendo uma medida relativa da perda da informação quando um modelo é usado para descrever a realidade, como por exemplo, descrever o equilíbrio entre viés e variância na construção do modelo ou na precisão e complexidade do modelo. Em outras palavras os valores da AIC fornecem um meio para seleção do modelo apesar de não testar a hipótese nula. Considerando um conjunto de modelos candidatos para os dados, deve-se preferir aquele com o valor mínimo de AIC. Então o AIC não só trás benefícios de ajuste, mas também faz exclusões de preditores que é em função do crescente do número de parâmetros estimados. implicações? não tenho idéia se você entendeu o que quis dizer com entropia da informação...além disto o português está dose pra leão... [0.500] (IP:281473652568206 | 07:28:37 | 19:14:00 | 45:23 | 6.588) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Testar todas as regressões possíveis, grande número de combinações, em qualquer regressão múltipla, os coeficientes se correlacionam, ao diminuir ou ao aumentar o número de variáveis independentes, os coeficientes de regressão parcial de b também se alteram. Maior número de variáveis possíveis – o coeficiente de determinação não diminui pela adição de novas variáveis independentes. Uma correlação alta entre as variáveis independentes pode trazer problemas nos caçulos para estimação da equação. Eliminação para trás – Testa o efeito das variáveis começando com toda e retirasse uma a uma até perder a significância. Devendo permanecer o grupo de variáveis que melhor representa o efeito.Para cada modelo, testa o efeito da retirada da última variável Seleciona a variável com menor efeito de retirada Seleção para frente- testa-se todas e adiciona-se a que sobrepõe ao grupo contudo uma combinação de variáveis pode sobrepor uma singularmente forte. Stepewise(backard e forward) - Estabelece-se uma variável e estima-se a outra, seleção para frente, repetindo-se o processo ate que se estabilize. O valor arbitrado deve se colhido em bibliografia recentes para diminuir o tempo de estabilização ou ainda evitar uma coincidência de valores estabilizados. muito confuso. Suspeito que "maior número de variáveis" na realidade quer dizer o teste do efeito de incluir novas variáveis até as proximas não trazerem ganho de informação. No entanto, o modelo com o maior número de variáveis é necessariamente o completo, que inclui tudo. [0.000] (IP:281473652568206 | 07:31:08 | 19:14:48 | 43:40 | 7.918) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Usando a teoria da informação como um substituto do Stepwise para comportamento da regressão em ecologia. Na pesquisa do abstrato do comportamento ecológico, conclusões a partir desenhos de modelos estatísticos confiáveis com múltiplos preditores é geralmente difícil, se todos os preditores estão simultaneamente no modelo. A maneira tradicional de limiar a manipulação de preditores múltiplos tem sido a utilização baseado remoção ou introdução de algoritmos, isto é, regressão Stepwise, que atualmente recebe críticas. O método de modelagem mais recente, e cada vez mais propagado para os indicadores múltiplos é a teoria da informação (TI) na abordagem que quantifica a adequação relativa de múltipla potencialmente nãoaninhados ( no-nested)modelos baseados no equilíbrio do modelo forma e na precisão das estimativas. Aqui, vamos examinar três deficiências de regressão que têm sido sugeridos para ser evitada pela aplicação teoria da informação, crítica subjetiva valores, a incerteza do modelo e viés de estimação de parâmetros. Argumentamos que, em determinadas circunstâncias, a abordagem que pode ser sensível a estas questões também pode nós apontar as áreas em que outros testes e desenvolvimento poderão melhorar o desempenho e métodos de TI, finalmente, leva para inferências robustas em ecologia comportamental. Introdução: Acumular conhecimentos em ecologia e comportamento tem duas principais avenidas (Romesburg 1981). A abordagem indutiva envolve generalização de padrões em um conjunto de dados. O método hipotético dedutivo (HD) postula uma hipótese nula com base na informação disponível, se articula predições testáveis e testes a estas previsões. Indução e dedução têm papéis complementares em conhecimento e competência. Padrões observados em um conjunto de dados, por um lado, não pode demonstrar relações causais, então eles devem ser considerados como uma tentativa, e o método indutivo é uma forma de geração de mais de uma hipótese, de preferência testes experimental (Williams 1997; Steidl 2006). A abordagem H-D, por outro lado, está firmemente ancorada nas informações previamente recolhidas, por isso devemos considerar a descrição de padrões em dados de observação (isto é, a indução) como um passo necessário antes do método H-D pode ser aplicada (Guthery 2007). Em ecologia e evolução, onde muitas vezes é impossível alcançar até mesmo um controle parcial experimental de confusão fatores, a identificação padrão correlativo sempre desempenha um papel importante (Johnson 2002). Em tais estudos descritivos, o pesquisador geralmente tem uma lista de fatores, aqueles que são suspeitos de influenciar a variável dependente. Os modelos estatísticos estão de acordo muitas vezes caracterizados por vários parâmetros. Note-se que em muita situação semelhante pode surgir complexos estudos experimentais com vários tratamentos e variáveis de fundo. Em tais estudos, tratamento de todos os parâmetros da mesma forma, independentemente de sua importância, é problemático por duas razões principais. Em primeiro lugar, o tamanho da amostra é normalmente limitado, o que dá origem a um sério compromisso entre a complexidade do modelo e da precisão das estimativas de parâmetros (Miller 1992). No entanto, mesmo com uma grande amostra, deixando todos os preditores no modelo implica que a estimativa de qualquer um preditor será corrigido para os efeitos de vários preditores potencialmente, embora a maioria deles tenha na verdade pouco sobre o fato variável dependente. Isto implica um aumento de aleatório ruído nas estimativas de parâmetros modelo completo, o que pode criar viés grave, ou seja, a inflação, ou deflação das estimativas (Ginzburg e Jensen 2004). Em segundo lugar, muitos modelos em ecologia comportamental incluem termos de interação. Se um está presente no modelo, os principais efeitos das variáveis correspondentes não podem ser prontamente interpretados porque o seu significado é diferente do que sem uma interação. Existem geralmente muitos termos de interação, e a maioria deles terá efeitos muito pequenos. Na presença de termos de interação fraca, o principal efeito das estimativas terão grandes erros padrão, e eles também serão tendenciosos, a menos que condições muito restritivas são satisfeitas (Aikene Oeste 1991; Engqvist 2005). Como consequência, pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes necessidade de remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de modelos mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos fracos e interações é a simplificação do modelo stepwise (Miller 1992;Gelman e Hill 2008). Este processo obtém um modelo final que não contém qualquer termo interação fraca e contém variáveis que são preditores ou fortes ou envolvidos em uma forte interação. Durante a regressão de stepwise, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo pode ser adicionado ou removido do modelo. Este processo geralmente envolve testes de hipótese nula (NHT) e faz uso de limitadores de importância. A solução alternativa relativa recentemente proposta é o teoria da informação (TI) abordagem (Burnham e Anderson 2002). Neste método, o ajuste do modelo e do número de parâmetros e os descritores contínuos que dão o equilíbrio do modelo (Ward 2008) são calculados para cada modelo em um candidato à modelo fixo definido. Com base neste suporte relativo para modelos individuais ou parâmetros pode ser deduzido (Burnham e Anderson 2002). O mais popular desses descritores em ecologia é o critério Akaike de informação ou AIC (Akaike 1973). Ao aplicar a teoria da informação, podemos evitar completamente o teste hipótese nula e o uso de valores de significância (Burnham e Anderson 2002). Ambos os métodos de TI e NHT baseados em metodologias stepwise têm sido utilizados quando se lida com muitos preditores potenciais, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida, com alguns autores recomendando o abandono completo do Stepwise incluindo a compilação do conjunto de modelos a serem analisados (Dochtermann e Jenkins2010), a combinação de informações a partir de diferentes modelos (Richards et al. 2010), e lidar com colinearidade e falta de observações durante este processo (Freckleton 2010; Nakagawa e Freckleton 2010). Outros trabalhos para discutir questões filosóficas e práticas que criam uma gama de lacunas entre a TI e NHT, ou enfatizar um ponto fraco no método Stepwise (Burnham et al.2010; Mundry 2010). Nós encontramos três principais deficiências da abordagem gradual. Relativamente a essas deficiências, o método de TI tem sido sugerido para oferecer um desempenho superior (Whittingham et al.2006). Para cada ponto, vamos primeiro procurar maneiras potenciais de aliviar o problema dentro da regressão metodologia. Então, vamos olhar para a solução proposta que na teoria da informação oferece, com relação aos dados, e examinara robustez da solução. Realizamos esta comparação para facilitar a aprendizagem científica, no qual o entendimento de problemas metodológicos auxilia na interpretação dos dados e desenvolvimento de nossas ferramentas estatísticas. É necessário fazer duas notas antes deste comparativo de discussão. Em primeiro lugar, a filosofia subjacente à NHT e teoria da informação é radicalmente diferente (Johnson e Omland 2004; Stephens et ai. 2005). O anterior olha para a probabilidade de os dados fornecidos a hipótese nula focal, enquanto que o último avalia a probabilidade de um ou mais modelos (ou hipóteses) com base nos dados focais. Isto implica que a TI se aproxima (um modelo de seleção abordagem sensu Johnson e Omland 2004) não é de fato uma verdadeira alternativa de regressão (uma abordagem a simplificação do modelo) (Guthery et al. 2005; ver o "Conclusões e futuro direções " seção para uma discussão mais aprofundada) da NHT-Stepwise os métodos (Forstmeier e Schielzeth 2010)aqui, adotamos uma prática estritamente comparativa e de aproximação entre métodos de TI e NHT-stepwise. Segundo, é possível fazer regressão utilizando critérios informações, isto é, uma simplificação da abordagem do modelo TI-stepwise. À medida que, o método de IT-stepwise compartilha a maioria das deficiências da NHT-stepwise de regressão de Sion, e também é inconsistente com a filosofia de teoria da informação (Burnham e Anderson 2002). Este método não é parte do sentido estrito TI abordagem que estamos discutindo aqui, mas podemos citar a dirigir comum mal entendidos. O presente trabalho é um breve resumo e não se destina a fornecer uma revisão em profundidade. Em vez disso, oferecemos uma visão geral objetiva de alguns pontos, enquanto mantendo a filosofia de "Estatística pluralismo. "Mais discussões detalhadas de cada ponto pode ser encontrado na respectivas referências. Regressão geralmente utiliza NHT e crítica de valores (Miller 1992). Existe, portanto, uma tentação para assumir que os termos não incluídos no modelo final tem efeito zero (Whittingham et al. 2006). Há também um problema geral com a utilização de crítica Por valores. Os parâmetros que apenas marginalmente superior a esta crítica não será considerado, Embora estas diferenças muito pequenas podem surgir devido avarias razões imprevisíveis (Grafen e elogia 2002). O terceiro problema com a NHT é que normalmente não há efeito zero real em conjuntos de dados naturais, exceto para experimentos e observações de dados de contagem e probabilidades(Martínez-abrain 2007). Assim, comparando um efeito para zero pode muitas vezes ser sem sentido (Rosenthal et ai. 2000). Atribuindo um tamanho de efeito de zero para os termos removidos n a regressão cria viés (Whittingham et al.2006). Em vez de assumir efeitos zero, é possível gerar estimativas reais de reintegração dos termos removidos para o modelo final, um por um. Neste processo, nós primeiro realizamos a regressão até que converge, e em seguida, apresentam tamanhos de efeito (Nakagawa 2004) por todos os termos. Os tamanhos de efeito para termos no modelo final vem a partir deste modelo, enquanto que tamanhos de efeito para termos fora do modelo inicial vêm sua reintrodução no modelo final. A diferença importante entre esse processo e a montagem é que tamanhos de efeito em modelos completos são geralmente imprecisos e incertas, porque há ruído de muitos termos do modelo (Sauerbrei 1999; Engqvist 2005). O pós-gradual, tamanhos de efeito reintroduzidos, nós recomendamos são livre deste ruído, porque somente um termo retirado é reintroduzido em um momento assim como os demais termos removidos não complicar o modelo e não enviesar a estimativa do respectivo termo reintroduzida. Deve-se notar, no entanto, que os tamanhos de efeito são reintroduzidos condicionais no final do modelo, que é, em si, instável e pode conter variáveis incômodas. Isto cria outro tipo de ruído, que discutiremos na próxima seção. A teoria da informação não significa necessariamente fazer uso de limites, tais como valores de significância críticos (Burnham e Anderson 2002). No entanto, depois de encontrar o melhor modelo, que normalmente querem ver se é de fato o melhor ou apenas um de muitos modelos de forma semelhante adequados (Draper 1995) ele é o melhor, podemos calcular as estimativas dos parâmetros a partir deste modelo. Se não for o melhor, nossas estimativas de parâmetros servirão de nivelamento para outro modelo, isto é, que calcula a média estimativa para todos os modelos da série modelo inteiro, mas o peso as estimativas de acordo com a classificação critério de informação (Por exemplo, peso Akaike) do modelo de dados (Buckland et al.1997). Existem dois métodos para decidir se o melhor modelo é de fato o melhor. Primeiro, podemos especificar limite. Os valores de critérios de informação acima do qual dois modelos são Considerados diferem em adequação, por exemplo, um AIC diferença (AIC) de 2 (Burnham e Anderson 2002), 6(Richards et ai. 2010), 10 (Symonds e Moussalli 2010) ou mesmo 20 (Burnham et al. 2010). Se a diferença entre o melhor modelo, é o segundo, exceder este limite, nós consideramos o melhor modelo como verdadeiramente o melhor do dado candidato definido. Em segundo lugar, podemos comparar o melhor modelo para outros modelos aninhados no candidato definido por meio de Testes de razão de verossimilhança, que envolvem NHT clássica e crítico Pvalores (Posada e Crandall 2001; mas veja Burnham e Anderson 2002). A utilização de métodos em TI ecologia e comportamento de limite classicamente envolvidas informação valores de critério e melhores modelos (Burnham e Anderson 2002), mas o foco foi recentemente deslocado para a avaliação da adequação do modelo relativo, como AIC fileiras e provas (Whittingham et al. 2006; Lukács et ai. 2007). No entanto, se quisermos tomar decisões sobre a singularidade do melhor modelo de TI, ainda temos que usar valores críticos. Em contraste para valore críticos, é pouco conhecido se arbitrária diferenças de limites em TI, critérios que atualmente são aplicadas demasiadamente permissiva ou restritiva demais, porque não é simplesmente experiência suficiente para dizer isso (Richards 2005, 2008; Enfermaria 2008). Conclusões e direções futuras Quando confrontados com múltiplas variáveis preditoras, o mais simples solução é considerar todos eles na análise, independentemente da sua importância. Estimativas dos parâmetros deste modelo completo abordagem será muitas vezes imprecisas ou tendenciosas, pelo que esta abordagem não pode ser geralmente aplicado na ecologia e comportamento (Ginzburg e Jensen 2004). Duas alternativas para modelo completo montagem são a simplificação do modelo e seleção de modelos (por exemplo, Johnson e Omland 2004). Simplificação do odelo algoritmos, tais como regressão, adicionar ou remover parâmetros individuais com base no desempenho desses parâmetros (por exemplo, coeficiente de regressão, significância) ou os desempenho do modelo (por exemplo, variância explicada, Mallows 'Cp). Por outro lado, a selecção do modelo, tal como um método de TI, estabelece um conjunto de parâmetro Combinações (isto é, os modelos) e classifica estes com base na informação critérios que ajuste do modelo equilíbrio e complexidade do modelo. Métodos de regressão Stepwise e TI têm sido frequentemente discutido como métodos alternativos de parâmetro múltiplamodelação (Stephens et ai. 2007b). Aqui, discutimos três carências bem conhecidas de regressão que são amplamente considerados como automaticamente resolvidas simplesmente aplicando a teoria da informação sem procedimentos Spepwise (por exemplo, Whittingham et al. 2006): subjetivos valores críticos, a incerteza do modelo, e viés de estimação de parâmetros. Notamos que estes ou em problemas similares aparecem também em métodos TI. Em primeiro lugar, valores críticos subjetivos são empregados quando comparamos o melhor modelo para outros altos modelos (Guthery et al. 2005). Em segundo lugar, a incerteza de seleção do modelo surge quando aplicamos um conjunto de modelos altamente restrito candidato (Eberhardt 2003) ou tentar delinear um conjunto modelo de confiança (Whittingham et al. 2005). Em terceiro lugar, o viés de estimação de parâmetros aparece quando critérios de informação desproporcionalmente favorecer modelos complexos (Forster 2000). Além disso, existem outras questões que possam causar problemas ao usá-los, métodos em ecologia e evolução. Por exemplo, o modelo de média sobre todos os modelos podem dar resultados incertos se considerarmos interações, porque: (1) aumento erros padrão de efeito principal estimativas de parâmetros em modelos com interações podem levar de ajuste pobre e viés, pode o modelo de média parâmetro de estimativas dos efeitos principais em relação aos seus valores em modelos sem interações. (2) parâmetro principal efeito individual estima-se muitas vezes podem ser parcial na presença de interações (Aiken e West 1991; ver Richards et al. 2010 para preocupações adicionais referentes média modelo). Além disso, há advertências na literatura que AIC ou mesmo critérios de máxima verossimilhança como um todo não pode ser segura utilizado no caso de modelos aninhados, modelos mistos, e correlacionado parâmetros (Vaida e Blanchard 2005; Nakagawa et ai. 2007; Enfermaria 2008), todas as quais são comuns em nosso campo. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com múltiplas preditores. Isto irá requerer uma compreensão das deficiências atualmente prevalentes em protocolos stepwise e TI. Estas lacunas têm de ser testadas usando dados ecológicos e comportamentais, que são caracterizadas por relativamente fracos tamanhos de efeito (Möller e Jennions 2002) e complexas estruturas de covariância bastante diferentes daqueles de simulado de dados (Graham 2003). Para uma tentativa pioneira, ver Murtaugh (2009), que, no entanto, usou um Stepwise em não algoritmo (algoritmo de Efroymson) amplamente utilizado em ecologia comportamental. Quanto à teoria da informação, há , pelo menos, quatro tarefas: Primeiro e mais importante, o número de combinações de parâmetros possíveis, rapidamente aumenta com o número de preditores e especialmente se interações são consideradas, o modelo conjunto de candidato tão restrito, muitas vezes, ser bastante arbitrário, e as conclusões deles terão generalidade pouco (Eberhardt 2003). Portanto, precisamos testar se os resultados de exercícios de TI são tendenciosa, se usarmos todos os subconjuntos do modelo completo, que é a abordagem atualmente mais frequentemente empregada. Em segundo lugar, para além de AIC, o empenho do outros critérios de informação na escolha do modelo também deve ser testado (Ward 2008), que até agora tem sido largamente evitando (Guthery et al. 2005). Em terceiro lugar, quando se utiliza o método de TI para tomada de decisão entre modelos concorrentes, são necessárias para quantificar a sensibilidade de conclusões a corte informação valores de critério que usamos para encontrar o melhor modelo ou conjunto modelo (Guthery et al. 2005). Além disso, é importante para estabelecer pontos de corte recomendados ou popularizar métodos para determinar o ponto de corte óptimo. Finalmente, a validade do nivelamento modelo, na presença de necessidades termos de interação mais atenção (Aiken e West 1991). continuam a aparecer os problemas de língua... "pesquisa do abstrato do comportamento ecológico, conclusões a partir desenhos" é levar o google a sério demais. E o pior é não parar para pensar no que está colocando na sabatina... chega a ficar difícil de acreditar que realmente tenho lido o material, mesmo na versão google, já que não tem como ler, entender alguma coisa e falar em desenhos como algo válido em português de estatística. Estou pegando neste caso, mas é um problema muito repetido, em diversos alunos. Apenas está um pouco mais extremo neste caso em particular. Na realidade, neste caso aparentemente foi feita cópia e cola de boa parte da tradução, começando com o primeiro parágrafo da introdução como exemplo. No mínimo, se não foi este o caso está com todos os indicadores neste sentido. [0.000] (IP:281473652568206 | 07:31:29 | 19:15:40 | 44:11 | 11.381) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Determinar a importância de uma variável independente, ou seja correlacionar com outro fator explicativo (medir a contribuição de todos os preditores). Observa se existem multicolinearidade entre as variáveis. Dicidir quais variáveis devem entrar no modelo. O uso das variáveis para estabelecer o modelo compromete o tamanho do grau de liberdade do resíduo. Nesse caso aumentando o tamanho aumenta-se o SQR então o uso do quadrado médio pode reduzir este problema. ver pergunta. Não tenho idéia de qual relação você acha que esta resposta tem com a pergunta. [4.400] (IP:281473657748551 | 21:51:33 | 23:22:08 | 30:35 | 1.601) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Na pesquisa ecológica e comportamental dois métodos são utilizados. A abordagem indutiva, envolvendo generalizações de modelos no conjunto de dados e o método hipotético-dedutivo (H-D), criando uma hipótese nula com base em informações disponíveis. Esses dois métodos são complementares. O método indutivo de um conjunto de dados, através da observação de dados é necessário antes da aplicação do método H-D. Na ecologia a dificuldade de atingir um controle experimental parcial dar uma importância à identificação de modelos correlativos. Na pesquisa biológica, diante do grande número de variáveis que influencia a variável dependente, tratar todos os parâmetros na mesma forma sem distinção de suas importâncias é um problema. Primeiro, o tamanho da amostra é restrito, influencia na complexidade do modelo e na precisão da estimativa dos parâmetros. Porém a utilização de amostra grande modifica os resultados, aumentando a estimativa do parâmetro, através da uma maior ou menor estimativa. Segundo, muitos modelos na ecologia incluem condições de interação, os efeitos principais das variáveis não podem ser analisados separadamente, porque tem que analisar das interações presentes no modelo. Podem existir interações com efeito fraco no modelo. O método utilizado para interações e efeitos fracos é o modelo stepwise. Esse modelo obtém um modelo final sem interações fracas, não significativas, e com interações fortes. Na regressão stepwise, pares de modelos aninhados são comparados até nenhum termo poder ser adicionado ou removido. Nessa regressão utiliza o teste de hipótese nula e teste de significância. Um método alternativo é a abordagem da teoria da informação (IT), neste método o ajuste do modelo e o número de parâmetros são calculados para cada modelo. O mais popular desde método na ecologia é o critério de informação de Akaike (AIC), nesse critério evita o uso do teste da hipótese nula e valores de significância. Vários autores têm discutido o uso da metodologia de stepwise e teoria da informação, porém na ecologia ainda tem o predomínio da regressão. O artigo faz uma revisão das três principais deficiências na abordagem stepwise, mostrando também que o método da teoria da informação tem vantagem superior ao stepwise. Os autores ressaltam inicialmente as diferenças existentes entre o teste da hipótese nula e teoria de informação. O teste da hipótese nula avalia a probabilidade dos dados fornecidos, enquanto a teoria da informação a probabilidade de um ou mais modelos com bases nos dados. Complementam citanda a possibilidade de fazer uma regressão stepwise usando critério de informação, uma abordagem simplificando o modelo stepwise e teoria da informação. A regressão stepwise usa o teste de hipótese nula e valores críticos P, alguns problemas podem ser identificados nesse método, os termos não estão incluídos no modelo final assumem como efeito zero, na utilização de valores críticos, os parâmetros que excedem esses valores não são considerados e geralmente não existe efeito zero em conjunto de dados naturais. A teoria da informação não utiliza valores de significância críticos, porém após a escolha do melhor modelo é verificado se realmente esse modelo explica as variáveis. Se for o melhor será calculado a estimativa de parâmetros do modelo. Os autores descrevem os dois métodos utilizados para avaliar a escolha do modelo. Na abordagem da teoria de informação costumam utilizar os limites dos valores de critérios, porém esse limite necessita utilizar testes e tratamentos para cada método, para serem usados no processo de decisão. Umas das principais críticas à regressão stepwise é a instabilidade do modelo final e a falta de generalização dos resultados. Isso ocorre devido ao resultado não poder ser representativo e diferentes modelos finais podem ser selecionados, por causa das pequenas diferenças nos dados. Isto ocorre também com pequeno conjunto de dados e variáveis inter- relacionados. Mesmo com uma grande amostra dos dados a regressão stepwise pode perder variáveis verdadeiras e identificar significância nas variáveis, sem ter significância. Uma alternativa para solucionar o problema da regressão stepwise seria calcular as condições dentro e fora do modelo final, para reduzir as consequências de um modelo incerto e sem generalização. A teoria da informação avalia todo o modelo em um determinado conjunto de dados, os dados são representativos para todo o conjunto do modelo. Esse método é possível identificar o modelo e avaliar o quanto esse modelo difere dos outros. No método de regressão stepwise e na teoria de informação é importante decidir as variáveis independentes usadas. Independente da maneira como os dados serão analisados, primeiro toma decisões baseadas na teoria, em informações prévias, depois diferencia qual o método será utilizado. A regressão stepwise avalia as variáveis independetes e interações em diferentes combinações. Na teoria da informação, no entanto, compara combinações de dados de variáveis independentes e interações, nesse método o pesquisador seleciona o conjunto de modelos de dados de todas as possíveis combinações de parâmetros. Nos modelos ecológicos os efeitos principais e suas interações possibilitam milhares de combinações de parâmetros. As condições de interação levam a um número grande de combinações. Como a utilização de um número pequeno de combinações pode levar a escolhas e interpretação errôneas, o correto é considerar todas as possíveis combinações. Na regressõa stepwise, a possibilidade de simplificar o nosso modelo baseado na estimativa de um conjunto de dados, aumenta a probabilidade do tamanho do efeito ser superestimado no modelo final, isso ocorre em muitos estudos biológicos. Testar o modelo final sobre um conjunto de dados independentes ou realizar uma nova amostragem dos dados seria um solução para diminuir a escolha errada de um modelo final. A teoria da informação também não está isenta da seleção de modelo tendenciosa, por comparar conjunto de modelos com base em um único critério de informação. Qualquer inferência correlativa a partir de um único conjunto de dados é limitada a esse conjunto de dados. As estimativas de parâmetros a partir de abordagem de modelo podem ser imprecisas ou tendenciosas, então esta abordagem não pode ser generalizada na ecologia e comportamento. Alternativas podem ser utilizadas para ajustar o modelo, simplificação do modelo e seleção de modelo. A simplificação do modelo (regressão stepwise) e a seleção de modelo (método da teoria de informação) vêm sido discutidos como métodos alternativos de modelo de parâmetro múltiplos. No artigo foram discutidas as três falhas da regressão stepwise, valores críticos subjetivos, incerteza do modelo e estimativa de parâmetro. Os autores sugerem a realização de estudos adicionais para desenvolver o método da teoria da informação para análise de dados com múltiplas variáveis. As falhas nos métodos identificadas no artigo precisam ser testadas usando dados ecológicos e comportamentais. ok [2.200] (IP:281473657748551 | 21:52:02 | 23:22:21 | 30:19 | 1.26) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. As vantagens do procedimento stepwise são: a possibilidade de testar e retestar as variáveis em diferentes combinações, possibilitando também avaliar se a variáveis que entrou ou saiu apresentou maior ou menor efeito em relação às outras variáveis e outras combinações, podendo garantir uma melhor confiabilidade e após o critério de avaliação escolhido permite retirar as variáveis que não tiveram efeito significativo. As desvantagens são as limitações teóricas, testa e retesta as variáveis dependendo da recomendação dos níveis de F, em teste com um número grande de variáveis dificulta a interpretação do modelo. Aumenta a chance de erro no conjunto de teste (erro acumulativo), devido ao aumento do número de teste sequencial, tendo cada teste sua chance de erro. Possibilidade de ter regressões diferentes para um mesmo conjunto de dados, escolha de uma variável pode modificar a interprestação dos resultados. ok [2.200] (IP:281473657748551 | 21:52:18 | 23:22:34 | 30:16 | 10.716) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Para validação de modelos podem ser usados dois caminhos: o primeiro seria fazer um novo experimento, para avaliar a confiabilidade do modelo, testar se as estimativas do modelo selecionado explica realmente o que acontecerá nesse novo experimento, esse método garante uma nova situação experimental (uma nova variação do acaso), porém tem um alto custo; outro caminho seria na implantação do experimento, separar um bloco para que os dados desse bloco sejam analisados separadamente (os dados desse bloco não participam da determinação do coeficiente e no modelo), com o modelo selecionado será realizado um teste para correlacionar se as estimativas do modelo correspondem ao que acontecerá com o novo conjunto de dados, deve ser verificado o modelo com os dados separados e com os resultados dos novos dados, a desvantagem desse método são as mesmas condições experimentais do conjunto de dados separados ao restante do tratamento que gerou o modelo. Se existir correlação entre o modelo e os novos dados, o modelo explica o que acontece com o novo conjunto de dados, o modelo pode ser generalizado para a população. Porém se não existir correlação com o novo conjunto de dados, o modelo é especifico para as amostras, então esse modelo não pode ser generalizado para explicar o que acontece na população. ok [1.000] (IP:281473657748551 | 21:52:32 | 23:38:23 | 45:51 | 10.019) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Os critérios para seleção da regressão linear podem ser o coeficiente de determinação R² e R² corrigido, F e nível de significância. O R² varia entre zero (0) e um (1), valor próximo de 1, a regressão terá maior validade, tendo um perfeito ajustamento. O R² corrigido corrige o efeito direto do número de parâmetros. deixou vários de fora, como os de teoria de informação.. [3.500] (IP:281473654487006 | 14:29:32 | 23:55:13 | 25:41 | 34.405) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo de Hegyi e Garamszegi, aponta que na pesquisa ecológica e comportamental, tirar conclusões confiáveis a partir de modelos estatísticos com indicadores múltiplos é geralmente difícil se todos os indicadores estão simultaneamente no modelo. Assim, como um método de modelagem mais recente mostram o uso de informação teórica como um substituto para regressão stepwise em ecologia e comportamento. Os autores fazem críticas contra regressão stepwise onde a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o resultado não pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser selecionados por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. Estudos de simulação têm mostrado que, embora com grande tamanho de experimento e sem levar em conta os protocolos específicos, regressão stepwise pode enganar indicadores verdadeiros e identificar significância para indicadores sem importância. Se detectarmos instabilidade com referência aos indicadores no modelo final, isto também poderá implicar que existem combinações de outros parâmetros múltiplos que possuem um ajuste similar aos dados (isto é, modelo incerto), nesse caso, a elaboração de todas as conclusões de um único modelo final é enganosa. Assim, os autores argumentam ainda, que em determinadas circunstâncias, a abordagem de informação teórica pode ser sensível às questões subjetivas de valores, a incerteza do modelo, e a influência de estimativa do parâmetro também. Apontam áreas em que outros testes poderiam se desenvolver e melhorar o desempenho dos métodos de informação teórica e levar a inferências em ecologia comportamental. "may not be representative" é melhor traduzido como "pode não ser representativo" do que como "não pode ser representativo". O resumo ficou bastante resumido, mas deu uma idéia bem geral do artigo. Só não acho que dê para considerar um bom entendimento, em particular das limitações do stepwise [0.000] (IP:0 | 14:32:11 | --:--:-- | --:-- | ------ ) Discuta o significado e possíveis implicações do AIC Em branco [0.000] (IP:0 | 14:32:58 | --:--:-- | --:-- | ------ ) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. Em branco [0.000] (IP:281473654487006 | 14:34:49 | 23:55:59 | 21:10 | 24.232) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. As técnicas adotadas para a seleção podem ocasionar uma maior chance do erro tipo I, assim, a seleção do modelo mais adequado deve ser escolhida de forma a demonstrar o que realmente é importante. Para tanto, temos que encontrar a regressão que explique o máximo, a maior parte de variação, com o mínimo de dados. O que podemos fazer através dos seguintes passos: especificar o modelo máximo, com todas as variáveis que entram no modelo, considerando as co-linearidades existentes e eliminando-as; especificar o critério de escolha, como escolher, qual será o critério em que será escolhido o melhor modelo; especificar a estratégia de escolha, como testar o modelo; conduzir a análise e avaliar a confiabilidade do modelo escolhido. você tem certeza de que esta era a pergunta que estava tentando responder? Porque sua resposta está em termos muito mais gerais e vagos do que seria possivelmente adequado [0.500] (IP:281473826427103 | 16:59:00 | 23:50:23 | 51:23 | 4.731) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. OBS: PARA A DETERMINAÇÃO DO MODELO (COEFICIENTE DETERMINAÇÃO), PORÉM O COEFICIENTE DE DETERMINAÇÃO É SENSÍVEL AO NÚMERO DE PARÂMETROS DO MODELO, E É IMPORTANTE FAZER SUA CORREÇÃO. A RLM é derivada do modelo linear generalizado, com mais variáveis. Assim, é preciso avaliar a normalidade do acaso, e se os resíduos são independentes, obedecendo as premissas básicas do MLG. Para a obtenção do modelo mais adequado ou de grande confiabilidade, é obrigação tomar cuidado para não cometer o erro tipo I, tomando o resíduo mais próximo de zero. Sendo necessário adotar algumas técnicas para evitar que isto ocorra, baseados no modelo único e no modelo alinhado. OBS: O R2 ajustado auxilia na escolha de modelo sem variáveis independentes redundantes (entre modelos não-aninhados). Critérios: relacionado com as escolhas das variáveis, tendo como base R2, Fs e nível de significância entre outros parâmetros. Há diferentes técnicas para seleção das variáveis que irão entrar no modelo. 1º- Modelo único: neste caso todas as variáveis avaliadas onde se obtém a que tem a soma de quadrados menor do resíduo . 2º Modelos aninhados (modelo está dentro do outro e comparação do valor de F): onde o a partir do modelo completo as variáveis começam a ser observadas. Obs: R2ajustado auxilia na escolha de modelo sem variáveis independentes redundantes (entre modelos não aninhados). Estratégias: é para descobrir qual o processo utilizado na escolha do modelo em questão. 1º Estratégia de testar todas as regressões possíveis: é o caminho que ver todas as possibilidades, onde a chance de errar em 100 testes são de 5 testes errados, tornando mais seguro, porém é inviável, pois depende do número de combinações, geralmente é grande. 2º Estratégia de eliminação para trás: começa com todas as variáveis e vai retirando aquelas menos importantes por vez, até que se o tenha o mínimo possível de alteração. 3º Estratégia de seleção para a frente: começa com nada e vai selecionando os que serão adicionados, até que não haja, ou o mínimo possível de alteração. 4º Stepwise: começa com um passo para frente, e para cada passo para frente pode-se retirar uma variáveis, checando o numero de combinações, assim chegará a um modelo mais próximo da realidade. Pois Os programas selecionam valores de probabilidade(recomenda-se usar para entrar 0,99999 ou 1 dependendo da situação e para sair 0,0000001 ou de preferência 0.) Escolheu o modelo, se faz a análise tomando cuidado para não cometer o erro tipo I e avaliando a sua confiança. a pergunta foi sobre os critérios, não estratégias. No entanto, apenas na primeira frase fala neles, muito de passagem, e sem explicar quase nada sobre a sua afirmativa [2.000] (IP:281473826427103 | 16:59:28 | 23:50:45 | 51:17 | 2.552) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Um método cientifico se baseia em observações e previsões baseadas nas hipóteses. Mas quando há um teste de hipótese baseado em hipótese nula e alternativa, é o tradicional “hipotético-dedutivo”, e quando estimamos parâmetros de um modelo a partir dos dados, estamos fazendo indução. As hipóteses têm efeitos distintos. Não é possível testar hipóteses como efeitos redundantes em algum grau. Com a indução é possível incorporar efeitos múltiplos numa hipótese complexa. De forma geral, a hipótese nula é uma hipótese estatística, que tentamos refutar, ou melhor, falsificar. Idealmente, deve haver apenas uma hipótese alternativa, que seria então aceita. Se houver mais de uma hipótese, estas devem fazer previsões distintas sobre os resultados, permitindo falsificar todas menos a verdadeira. Em geral, são necessários novos experimentos, com delineamentos distintos, para distinguir cada uma (cada experimento com uma hipótese nula). Em ecologia e evolução, onde muitas vezes é impossível de alcançar até mesmo um controle parcial experimental de fatores, e uma identificação padrão. Em tais estudos, independentemente da sua importância é problemática por duas razões principais: Em primeiro lugar, o tamanho da amostra é normalmente limitada, o que dá origem a um sério compromisso entre a complexidade do modelo e a exatidão na estimativa dos parâmetros para tais estudos de ecologia. Hipóteses são explicações possíveis para fenômenos específicos. Podem ser geradas a partir de teorias ou conhecimento empírico, mas para serem científicas precisam ser testáveis com um método científico. Em primeiro lugar, o tamanho da amostra é normalmente limitada, o que dá origem a um sério compromisso entre a complexidade do modelo e a exatidão na estimativa dos parâmetros para tais estudos de ecologia. Em segundo lugar, muitos modelos em ecologia comportamental incluem termos de interação. Na ecologia os seres vivos mantêm entre si vários tipos de interações ecológicas que podem ser consideradas como sendo harmônicas ou positivas ou desarmônicas ou negativas.As interações harmônicas ou positivas (+) são aquelas onde não há prejuízo para as espécies participantes e vantagem para pelo menos uma delas. As interações desarmônicas ou negativas (-) são aquelas onde pelo menos uma das espécies participantes é prejudicada, podendo existir benefício para uma delas. Dentro de cada um dos tipos de interações mencionados, ainda podemos classificá-las em interações intra-específicas e interespecíficas, conforme ocorram entre indivíduos da mesma espécie ou entre espécies diferentes respectivamente. Como conseqüência, os pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes, precisa remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de modelos parciais do que o modelo completo. O método clássico de lidar com os efeitos e interações fracas é a simplificação do modelo stepwise, onde o mesmo não é muito bom para tirar efeitos pouco importantes do modelo, o que não ajuda a entender o que acontece ou melhor não é muito bom em descartar/não incluir variáveis. Uma solução relativamente recentemente proposta alternativa é a teoria da informação, onde se tenta equilibrar e o ajustar com o modelo e do número de variáveis. O mais popular desses descritores em ecologia é o AIC, onde podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância. Algumas discussões devido a estatística para os para os ecologistas sobre os problemas da ecologia, e onde os dados ainda analisados por REGRESSÃO, onde o TI pode evitar tais problemas. Como atenuar o problema dentro da metodologia de regressão: NHT olha para a probabilidade de os dados fornecidos a hipótese nula focal. TI avalia a probabilidade de um ou mais modelos (ou hipóteses) com base nos dados focais. Onde na verdade não é uma verdadeira alternativa à regressão (uma abordagem de simplificação do modelo). Na regressão geralmente utiliza NHT e o valor crítico de significância. TI não significa necessariamente fazer uso, tais como valores críticos de significância. Depois de encontrar o melhor modelo, que normalmente querem ver se é realmente o melhor. Primeiro, pode-se especificar valores de limiar de critérios de informação acima do qual dois modelos são considerados, Se a diferença entre o melhor e o segundo melhor modelo exceder este limite, consideramos o melhor modelo de como realmente o melhor. Segundo, podemos comparar o melhor modelo para outros modelos aninhados no conjunto por meio de testes de razão de verossimilhança, que envolvem NHT clássica e valores críticos de significância. Uma segunda crítica importante contra regressão é a instabilidade do modelo final. Procede regressão stepwise através de modelos aninhados e, por conseguinte, testa apenas uma pequena fracção de todos os submodelos possíveis do modelo completo. Isto implica que o resultado pode não ser representativa do espaço do modelo todo e muito diferentes modelos finais, talvez até por diferenças pequenas. Estes problemas são mais graves em caso de pequenos conjuntos de dados. Estudos de simulação demonstraram que, mesmo com grandes conjuntos de dados , a regressão pode perder dados verdadeiros e identificar dados sem importância, podendo implicar em múltiplas combinações (isto é, a incerteza modelo). Não existe uma solução real para o problema da incerteza modelo, mas quando dividimos os dados dividindo ou fazemos ensaios repetidos em um conjunto de dados independente pode reforçar a generalidade ou autenticidade do modelo. A teoria da informação, por outro lado, avalia todos os modelos de um conjunto previamente determinado candidato modelo, de modo que seus resultados são necessariamente representativo do conjunto modelo inteiro. Em regressão, é possível simplificar o nosso modelo com base nas estimativas que recebemos do conjunto de dados. Isto implica que estamos ajustando o modelo aos nossos dados, e esta prática aumenta a probabilidade de que tamanhos de efeito superestimadas aparecem no modelo final. Quando confrontados muitas variáveis, a solução mais simples é considerar todos eles na análise, independentemente da sua importância. Duas alternativas para ajuste do modelo são a redução do modelo e seleção de modelos. N simplificação, adicionar ou remover os parâmetros individuais com base no desempenho dos parâmetros. Na seleção do modelo, como um método de IT, estabelece um conjunto de combinações de parâmetros. Pois métodos de regressão Stepwise e TI têm sido freqüentemente discutido como métodos alternativos de modelagem parâmetro com muitas variáveis. Três carências (valores críticos subjetivo, a incerteza do modelo e a estimação de parâmetros), bem conhecidas de regressão para ser automaticamente resolvidos simplesmente aplicando a teoria da informação. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com indicadores múltiplos. Isso exigirá uma compreensão das deficiências atualmente prevalentes em stepwise e TI protocolos. Estas lacunas têm de ser testados utilizando dados ecológicos e comportamentais, que são caracterizadas por tamanhos de efeito relativamente fraco. Para isso : É preciso testar se os resultados de exercícios de TI são tendenciosos, se usarmos todos os subconjuntos do modelo completo. Além de AIC, o desempenho de outros critérios de informação na seleção de modelo deve também ser testado. No método de TI para tomada de decisão entre modelos concorrentes, é necessário quantificar a sensibilidade de conclusões, ou melhor, observar o que interessa. a escrita está tão truncada, particularmente no início, que fica difícil verificar o entendimento do artigo. de quebra tem uns zig-zagues pesados, também mais no início. por exemplo, verifique o parágrafo que inicia com em primeiro lugar. embora a discussão da modelagem em ecologia seja importante, não era o foco essencial do trabalo, a meu ver, mas foi onde concentrou a maior parte da resposta. [2.200] (IP:281473826427103 | 16:59:51 | 22:28:32 | 28:41 | 3.216) Discuta o significado e possíveis implicações do AIC O Critério de informação de Akaike (AIC) foi desenvolvido por Hirotugu Akaike em 1974, onde a partir da distância ou informação, onde esta distância é uma medida de discrepância entre as linhas do modelo verdadeiro e o modelo aproximado, onde o mesmo, penaliza os modelos em função do número de parâmetros, e também usado como um procedimento para identificação de modelo estatístico ou modelo misto. Sendo também uma estatística freqüentemente utilizada para a escolha da especificação ótima de uma equação de regressão no caso de alternativas não aninhadas isso quando não existem variáveis independentes comuns aos dois. O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados (incluindo a constante). Quanto menor, mais o modelo explica com o menor custo em número de variáveis. Implicações: • Na escolha do modelo de regressão (quem tiver o menor AIC apresentasse como melhor modelo.) • Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor, mais o modelo explica com o menor custo (uso de poucas variáveis.) • Explica a ligação entre as variáveis e com o número variáveis que é utilizado ou melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente. ok. boa descrição do AIC. [2.000] (IP:281473826427103 | 17:00:13 | 22:28:52 | 28:39 | 19.285) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Os dois caminhos para validação são definidos antes da análise e depois da análise. 1- ANTES DA ANÁLISE: • Cuidados com coleta de dados, que seja bem feita e segura (real); • Lembrar de checar a colinearidade; • Atender as premissas da análise de variância; 2- DEPOIS DA ANÁLISE: a) ESTUDO COMFIRMATÓRIO: Quando existem recursos financeiros para execução do projeto, a validação pode ser feita com outro experimento ao mesmo tempo do experimento do que gerou a regressão, sendo também aplicada a regressão para estimar os resultados deste experimento. Uma alternativa mais econômica é a realização de um bloco extra, que também vai gerar uma regressão. Assim como no experimento extra o bloco extra não participa da geração da regressão, sendo que a regressão apenas para estimar os dados. b) ANÁLISE EM AMOSTRA DIVIDIDA: Utiliza-se parte dos dados obtidos aleatoriamente que ficaram fora da análise para calcular um modelo de regressão, para comprovar se o mesmo modelo pode ser usado para esses dados aleatórios, verificando o comportamento dos mesmos é similar. Mas quando não explica os dados aleatórios, outro o modelo não presta. A ANÁLISE É FEITA PARA VERIFICAR A CONFIABILIDADE. a parte de antes da análise não pode ser considerada validação propriamente dita, embora seja importante para que o modelo seja válido. [2.200] (IP:281474038335831 | 20:08:29 | 21:45:33 | 37:04 | 22.78) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". O coeficiente de determinação, conhecido por R2, representa a proporção da variação da variável dependente (Y) que é explicada pela variação da variável independente (x). O poder explicativo dos modelos de estimação do valor intrínseco é frequentemente mensurado pelo coeficiente de determinação de regressões. Como os valores de R2 se elevam com o aumento no número de variáveis no modelo de regressão, deve-se efetuar uma correção para minimizar as chances de cometer um equívoco. Neste caso, existe um R2 corrigido (R2c) que tem por finalidade corrigir o R2 não corrigido (R2nc), retirando o efeito decorrente do aumento do número de variáveis no modelo de regressão. Se o valor do R2c for superior ao R2nc, logo a variável adicionada fornece respaldos para uma explicação mais coerente. Caso contrário, a variável adicionada não contribui para a explicação do modelo. O R2c permite trabalhar com as variáveis que realmente contribuem para uma explicação adequada. excelente [2.000] (IP:281474038335831 | 20:09:14 | 21:45:58 | 36:44 | 19.68) Discuta o significado e possíveis implicações do AIC O AIC (Critério de Informação de Akaike) é baseado na teoria de informação, é uma forma alternativa para escolher o melhor modelo de regressão, onde, o melhor modelo é aquele que apresentar o menor índice de AIC. Teoricamente esse índice avalia ao mesmo tempo a qualidade da informação, qualidade da ligação entre as variáveis com o número de variáveis que é utilizada. Quanto menor ele é, mais explica com menos variáveis. Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis. ok [2.200] (IP:281474038335831 | 20:09:40 | 21:46:41 | 37:01 | 1.964) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Testar Todas as Regressões Possíveis – este é o único algoritmo que garante uma solução para qualquer conjunto de variáveis, porém, a depender do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maior será o número de combinações, e viceversa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo que a cada teste realizado acarretará um amento de chances de cometer o erro tipo1. Eliminação Para Trás – o processo inicia-se com a regressão completa (todas as p variáveis) e em cada estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de regressão é definida por sua suposta importância, iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada. Uma vez retirada a variável não poderá ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação completa. Seleção Para Frente – possui o mesmo principio do método de eliminação para trás, só que este é realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de cada vez, formando diferentes modelos e de regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado. Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo testa todas as variáveis eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas podem ser novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá persistir até o que não ocorra nenhuma modificação. Por conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam. Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário. ok [3.500] (IP:281474038335831 | 20:10:06 | 21:47:03 | 36:57 | 20.625) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Nas pesquisas ecológicas e comportamentais faz-se uso de modelos estatísticos com múltiplos preditores. Para atribuir maior confiabilidade as conclusões, a partir destes modelos, algumas estratégias são utilizadas como o uso da regressão stepwise, porém recentemente algumas críticas têm comprometido a utilização deste modelo. Neste caso tem sido proposto o uso da teoria da informação. A indução e a dedução são caminhos complementares para o conhecimento ecológico e comportamental, para que possam ser identificados os fatores que estão interferindo na variável independente. Quando os parâmetros que compõe os modelos estatísticos são tratados de forma igual, geram alguns problemas com relação à complexidade dos modelos e as estimativas dos parâmetros e, considerando os estudos ecológicos e comportamentais, alguns termos podem apresentar interações e outros não, o que dificulta a explicação do fenômeno. Essas interações poderão ter efeitos fracos ou fortes, geralmente são efeitos fracos, mas estes poderão promover erros nas estimativas. Neste caso, os pesquisadores não poderão utilizar o modelo completo. Para eliminação desses efeitos fracos é a simplificação do modelo stepwise. Porém o modelo stepwise é baseado nos testes de hipótese nula e em valores P críticos, que considera que os termos não incluídos no modelo final não possuam efeitos significativos. Através de uma comparação entre os modelos, a teoria da informação, obtém o melhor modelo, a comparação se dá por meio da de valores de critério de informação, um dos mais usados é o AIC (Critério de Informação de Akaike), e teste de razão de verossimilhança, mas deve-se considerar os limites que podem produzir incertezas. O modelo stepwise gera instabilidade por não avaliar adequadamente os preditores podendo atribuir significado ao que tem e ocasionar perda de significado ao que tem, com isso o modelo final pode apresentar significado falso. Por outro lado, a teoria da informação avalia o conjunto de modelos como um todo, de modo que seu resultado seja representativo. Como em pesquisas ecológicas e comportamentais vários termos possuem efeitos principais, neste caso a teoria da informação se adéqua. A tendência de erro na seleção é inerente ao modelo stepwise, neste caso a teoria da informação procura evitar esses vieses. Mas a tória da informação não esta livre do desses vieses, o que demonstra a necessidade de estudos para corrigir essa deficiência do modelo. De modo geral, a teoria da informação é mais precisa que o modelo stepwise, mas precisa ser estudada e aprimorada para atender as exigências das pesquisas ecológicas e comportamentais. ok, gostei de ter resumido bastante, mas alguns pontos não ficaram claros, em particular quanto à desvantagem do stepwise [4.400] (IP:281473654487006 | 16:06:25 | 23:51:22 | 44:57 | 4.024) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo intitulado por “Usando a teoria da informação como um substituto para regressão stepwise em ecologia e comportamento” faz uma discussão comparativa entre o método TI e o NHT-stepwise. Aborda sobre as três falhas de regressão; os valores críticos subjetivos, a incerteza do modelo e a influência da estimativa do parâmetro, e argumenta que em certas circunstancias a abordagem do método TI também pode ser sensível a essas questões. Aponta áreas em que outros testes poderiam se desenvolver e melhorar os métodos TI. A principio o autor fala que o acúmulo de conhecimento em ecologia e comportamento se dá através de uma abordagem intuitiva e/ou de um método hipotético-dedutivo, onde esses dois tem papéis complementares no conhecimento. Relata que nos estudos em ecologia e comportamento o tratamento de todos os parâmetros da mesma forma é problemático pelo tamanho da amostra que muitas vezes é limitado, dando origem a um equilíbrio entre a complexidade do modelo e a exatidão na estimativa dos parâmetros. O segundo problema apontado é que muitos modelos em ecologia comportamental incluem termos de interação, onde se uma interação estiver presente no modelo, os principais efeitos das variáveis correspondentes não podem ser prontamente interpretado porque o seu significado é diferente do que um sem interação. Na presença de interação fraca, as estimativas de efeito principais terão grandes erros padrão, e eles poderão ser tendenciosos, a menos que condições muito restritivas sejam satisfeitas. O método clássico de lidar com os efeitos e interações fracas é a simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer termo interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Em ecologia o critério descritor mais utitilizado é o AIC, onde ao aplicar a teoria da informação, pode-se evitar completamente o teste da hipótese nula e à utilização de valores de significância. Muitos autores em ecologia recomendam não usar regressão. No campo de ecologia comportamental, os maiores problemas são de multi-preditores ainda analisados por regressão. Em seguida o autor fala que a regressão stepwise geralmente usa NHT (teste de hipótese de nulidade) e valores críticos de P. Existe um problema geral com o uso de valores críticos de P. Parâmetros que excederam marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis. Um outro problema com o (NHT) é que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por experimentos aleatorizados e observações e contabilização de dados e probalizados. Em vez de assumir efeito zero, é possível gerar estimativas atuais pela reintegração dos termos removidos dentro do modelo final um a um. A diferença importante entre este processo e o modelo completo formado é que o efeito do tamanho no modelo completo é geralmente inexato e incerto por existirem muitos termos de “ruídos” no modelo. A teoria da informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância. Existem dois métodos para decidir se o melhor modelo é de fato o melhor. Primeiro, podemos especificar valores limites de critérios de informação acima do qual dois modelos são considerados para diferenciar na adequação. Segundo, há uma comparação do melhor modelo para outros modelos agrupados nos candidatos obtidos por meio de teste razão de probabilidade, o qual envolve NHT clássico e valores críticos de P. Usando o método TI para simplificação de modelo, como um substituto para regressão stepwise há uma forçação a usar valores limites e, portanto, a introdução de incertezas. Não existe um acordo entre os critérios para delimitar o melhor conjunto de modelos, e diferentes métodos. Em outro ponto o autor crítica a regressão stepwise devido a instabilidade no modelo final resultar na falta de generalidade. A Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo. Este problema é muito sério no caso de um conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. A informação teórica, por outro lado, avalia todos os modelos em um conjunto modelo candidato previamente determinado, assim estes resultados necessariamente representativos de todo conjunto modelo. Usando o critério de informação, é possível identificar um modelo mais adequado para os dados e para o conjunto de dados, e também é possível avaliar quanto este modelo difere em adequabilidade a partir de outros modelos. A informação teórica avalia a probabilidade do modelo estatístico especifico dado os dados. Assim, a questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula. Regressão stepwise avalia automaticamente as variáveis independentes e as interações em diferentes combinações. O número de combinações de parâmetros automaticamente encobertos pelo processo stepwise é limitado, mas mesmo estes são “escolhidos” pelo programa e o pesquisador não possui decisão para fazer este passo. No método IT, entretanto, o pesquisador seleciona conjunto do modelo candidato a partir de todas as combinações de parâmetros possíveis, o número do qual pode ser muito grande. Em regressão, é possível simplificar o nosso modelo baseado na estimativas que começa a partir do conjunto de dados. Isto implica que temos o ajuste do modelo aos nossos dados, e esta prática aumenta a probabilidade de que os tamanhos de efeito superestimados aparecem no modelo final. A teoria da informação, por outro lado, tem sido proposto para evitar o "viés de seleção modelo" inerente a stepwise protocolos por comparação de um conjunto fixo de modelos ao mesmo tempo, com base no critério de informação único. Portanto, o resultado da seleção do modelo reflete o candidato todo conjunto do modelo e do conjunto candidato não é ajustado para os dados. Porém, a informação teoria não é completamente livre de qualquer viés na seleção do modelo. Como conclusões o autor relata que quando confrontados com múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na análise, independentemente da sua importância. As estimativas dos parâmetros do modelo completo, apresentam abordagem muitas vezes imprecisas ou tendenciosas, por esta abordagem não poder ser geralmente aplicado na ecologia e comportamento. A seleção do modelo, tal como um método de IT, estabelece um conjunto de combinações de parâmetros e classifica estes com base na informação, os critérios ajustam ao modelo equilíbrio e complexidade. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com preditores múltiplos. Isto irá requerer uma compreensão das deficiências atualmente prevalentes em stepwise e nos protocolos TI. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante diferentes daqueles de dados simulados. Quanto à teoria da informação, existe, no minímo, quatro aspectos. A principio e sendo mais importante, é que o número de combinações de parâmetros possíveis rapidamente aumenta com o número de preditores, especialmente se interações são consideradas, modelo de candidato tão restrito aos conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca generalidade. Segundo, além do AIC, o desempenho de outros critérios de informação na seleção de modelo também devem ser testados, que até agora tem sido largamente evitado. Terceiro aspecto, quando se utiliza o método de TI para tomada de decisão entre modelos concorrentes, ele é necessário para quantificar a sensibilidade de conclusões a corte de valores de informação de critério que são usados para encontrar o melhor modelo ou o conjunto de modelos. Outro aspecto é estabelecer pontos de corte recomendados ou popularizar métodos para determinar o ponto ótimo de corte. E por fim, para a validade do nivelamento do modelo, é necessário mais atenção, quando há interação de termos. excelente, mas parece que estava com raiva do professor que tinha de corrigir. Uns parágrafos teriam caído muito bem, para simplificar a leitura [2.000] (IP:281473654487006 | 16:07:29 | 23:51:35 | 44:06 | 6.324) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. A vantagem do procedimento stepwise é que quando se adiciona uma variável (stepwise forward) ou se retira uma variável (stepwise backward), em seguida todas as outras variáveis que já faziam parte do modelo são retestadas, para ver se permanecem no modelo. Caso exista uma variável que possa ser retirada sem que ocorra perdas relevantes de informação, ela é excluída do modelo. Em relação ao stepwise backward, se uma variável retirada ocasionar perdas de informação ela pode retornar para o modelo, diferentemente de outros modelos que uma vez adicionada ou retirada uma variável, ela não poderia mais deixar de fazer parte dele ou não poderia retornar para o mesmo. Outra vantagem é que desta forma podemos ter uma maior confiança de que as variáveis que estão dentro do modelo, realmente têm importância e devem fazer parte dele. A desvantagem do procedimento stepwise é que se aplicado um elevado número de testes, onde, para cada teste é aplicado um teste F para cada um dos possíveis modelos que irá entrar. Cada vez que é realizado um teste, aumenta-se a chance de ocorrer o erro do tipo I, portanto a grande quantidade de testes que o stepwise realiza, aumenta significativamente a chance de acontecer este erro, pois a ocorrência do erro é acumulativo. ok, mas aparentemente não levou nada em consideração do que leu no artigo... [1.750] (IP:281473654487006 | 16:08:07 | 23:52:08 | 44:01 | 15.884) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. O primeiro critério é observar o R², só que mais importante que olhar o R² é olhar o R² corrigido, pois este leva o em consideração o número de variáveis do modelo. Se observar apenas o R², quanto mais variáveis colocar no modelo, maior o R², entretanto, isso não implica em maior ganho de informação, pois a pessoa pode estar colocando variáveis que pouco contribuem, reduzindo a utilidade do modelo. O importante é olhar o R² corrigido, pois este dá uma ideia da proporção de variação de Y (variável dependente) explicada pelo modelo de regressão, uma vez que leva em consideração o número de regressores. Este vai explicar bem, levando em consideração as variáveis que são colocadas no modelo, e dessa forma deve-se optar pelo maior R² corrigido, com o menor número de variáveis, onde, estas devem explicar melhor o máximo da variação. Quanto menos variáveis, e se, elas explicam tão bem quanto os que tem mais variáveis, economiza-se tempo e fica mais fácil de chegar as conclusões. Existe o critério do modelo único e o critério do modelo aninhado. Dentre os passos recomendados na seleção dos melhores modelos para evitar/minimizar a chance de erro tipo I, os critérios correspondem ao segundo passo. No critério do modelo único, trabalha-se com apenas este modelo, onde nele é colocado todas as variáveis. Neste modelo é possível avaliar quem tem a menor soma de quadrado do resíduo. A vantagem da soma de quadrado é que quando se divide pelo grau de liberdade, há uma redução do efeito do número de pontos. Entretanto, se for apenas verificado a soma de quadrado ocorrerá uma tendência ao favorecimento de modelos que possuem mais variáveis. O quadrado médio resolve isso, porque considera o número de variáveis que são adicionadas no modelo. Pode também ser utilizado o valor de E ou o da probabilidade de E, devido a escala, pois F não tem unidade, onde F = Quadrado médio do modelo/Quadrado médio do resíduo. No caso do modelo aninhado que é outra possibilidade, este é um modelo dentro de outro modelo. É como se fosse um modelo geral e dentro dele ocorresse um subcaso desse geral. Trabalhando com esse tipo de modelo (modelo aninhado) pode-se começar com um modelo completo e ir retirando-se uma a uma variável, até o ponto em que ao retirar mais uma variável se tenha uma perda significativa de informação. Ou pode-se sair de um modelo com uma variável e ir adicionando variáveis, e observando se há ganhos de informação, ou seja estava-se aninhando, colocando-se uma a uma variável, chegando a um ponto que ao adicionar mais uma variável não trouxe ganho de informação, então não é necessário continuar, mas de modo que ao ser adicionada ou retirada as variáveis todas são testadas. Como exemplo, poderia citar um modelo geral composto pelos nutrientes essenciais e como subcaso deste geral os macronutrientes, os macro estão aninhados, dentro do modelo geral (nutrientes essenciais). O objetivo é obter o menor modelo que melhor explique o máximo da variação. misturou critérios e procedimentos. O critério é o r² ou r² corrigido, ou AIC, etc. Modelo geral e modelo aninhado são procedimentos ou estratégias de seleção, que irão gerar os critérios usados para a seleção propriamente dita... [0.000] (IP:281473654487006 | 16:08:36 | 23:53:12 | 44:36 | 15.422) Avalie o efeito de diferentes estratégias de seleção do melhor modelo sobre a probabilidade de ocorrência de erro do tipo I. A primeira estratégia na seleção do melhor modelo é montar e testar todas as regressões possíveis para ver qual é a melhor, entretanto de acordo com o número de variáveis envolvidas há um aumento no numero de combinações possíveis, acarretando em uma maior quantidade de testes a serem testados. Por exemplo, para 12 variáveis há 4096 possíveis modelos, dessa forma se testados todos os modelos , não há como errar, porque a pessoa vai ver qual é a melhor das possibilidades, entretanto a quantidade de combinações é elevadíssima, o que complica na analise de todas as equações possíveis criadas. Outra estratégia é a eliminação para trás, essa estratégia começa com todas as variáveis, onde se retira uma por uma de trás para frente e testa todas as variáveis do modelo. Se a retirada de uma variável não prejudicar o modelo então ela pode ser descartada. E quando entra uma variável sendo significativa ela não sai mais do modelo. Por exemplo um modelo com 6 variáveis, o modelo começa com todas as 6, tira uma variável de trás para frente e testa, se afetou uma menos que as demais, essa sai. O modelo agora fica com 5, repito novamente esse processo, agora tem 4, repito novamente, agora tem 3. De modo que quando deixa de ser significativo no modelo com 3, paro. Seleção para frente, é o inverso da seleção de eliminação para trás, onde é adicionado uma variável de cada vez, e as variáveis mais importante, até colocar todas. A que trouxe mais ganho fica fixa, texto as demais e vejo se houve algum ganho, se houver fica fixa, até encontrar uma que não trouxe ganho. Todas as variáveis já estão no modelo, contudo, ocorre uma seleção em ordem das primeiras para as últimas. Stepwise é outra estratégia, existe o stepwise (forward e backward) o principio é o mesmo, o stepwise backward é igual ao forward só que o procedimento é feito ao contrário. O stepwise começa com todas as variáveis e testa as variáveis de uma em uma, até que a adição de qualquer outra não traga ganho para o modelo. Testa-se todas as variáveis para ver se elas permanecem no modelo. A diferença para as outras estratégias é que quando entra uma variável no modelo ocorre uma nova avaliação de todas as variáveis que já estavam no modelo, e pode-se retirar uma das variáveis já presentes, onde nas outras estratégias se entrou, não sai mais, e se saiu, não entra mais. Ao se retestar, devido ao elevado número de testes que são realizados, há um aumento na chance de ocorrer o erro tipo I, pois o erro é acumulativo para o F devido aos diversos possíveis modelos que entram, e depois para os vários possíveis F´s para sair alguma variável. Os programas permitem selecionar valores para uma variável entrar ou sair, a recomendação é que a entrada seja fácil – possua uma ampla faixa de valores (1, se não puder 0,99999). É certo porque o objetivo do teste é fazer todas as combinações possíveis. E que seja difícil de sair (0, se não puder 0,00000001), para que o a chance de ocorrer o erro tipo I seja minimizada, já que são realizados um grande número de testes. Outra estratégia menos tradicional é o AIC (Akaike Information Criteria), esse é um critério que mistura o R² com o número de variáveis. Neste montam-se e calculam-se todos os modelos, e quanto menor for o AIC melhor. veja sua resposta e a pergunta. Eu perguntei especificamente sobre o efeito das diferentes estratégias sobre o erro tipo I, que não é mencionado uma única vez em sua resposta.