[1,0] 1) Discuta diferentes estratégias para a seleção do melhor modelo de regressão linear múltipla.
Dentre as estratégias para a seleção de modelos é recomendado seguir os seguintes passos: especificar o
modelo máximo com todas as variáveis, ou seja, que variáveis poderão entrar no modelo, evitando a colinearidade entre as variáveis que geralmente é um erro muito comum (por exemplo se entrar areia e argila,
não deve entrar o silte). Especificar o critério de escolha, utilizando um modelo único que análise todas as
variáveis juntas, possuindo esta estratégia uma desvantagem que é a dependência do tamanho da amostra,
favorecendo assim o modelo que tem mais variável. Outra estratégia é o modelo aninhado que se diferencia
do modelo único pela adição ou subtração de variáveis. É importante destacar que dependendo da técnica e
do caminho que irá ser adotado para a seleção do modelo isso pode implicar no grande aumento da chance
de erro tipo I. Por exemplo se você fizer 10 teste a chance de cometer o erro tipo I existir, mas se forem
realizado 80 testes a chance de se cometer o erro tipo é muito maior , então sempre que se aumenta os testes
realizados, ocorre um aumento concomitante de se cometer o erro tipo I.
A estratégia não inclui o critério. Podemos usar a mesma estratégia com diferentes critérios, e possivelmente
encontrar resultados diferentes. Além disto, sua resposta só fala em modelo completo e aninhado,
esquecendo vários dos pontos importantes quanto a isto.
[4] 2) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo
tenha um bom entendimento do artigo.
O artigo se refere a pesquisas ecológicas e evolução, em que nesses estudos os pesquisadores tem uma lista
de fatores que são suspeitos de influenciar a variável dependente e os modelos estatísticos utilizados nesta
área de pesquisa são muitas vezes caracterizados por vários parâmetros. Como consequências os
pesquisadores necessitam estimar os parâmetros uteis e muitas vezes precisam remover ou classificar os
parâmetros com base em algum critério e tirar conclusões a partir de modelos mais parcimoniosos do que de
modelos complexos.
Neste caso um dos métodos mais propagados para preditores múltiplos é o método de stepwise, sendo que
sua aptidão para análise em ecologia tem
sido vigorosamente debatida por alguns autores. Diante disso outro método tem sido cada vez mais
propagado para preditores múltiplos que é o método da teoria da informação (TI). Este artigo faz uma
discussão comparativa entre os métodos da teoria da informação (TI) e o método de stepwise. Enfatizando
as três principais falhas da regressão que são elas valores subjetivos e críticos e efeitos zero, incerteza do
modelo e viés de seleção do modelo.
Para a falha de valores críticos a regressão geralmente utiliza o teste de hipótese nula e valores críticos de P,
neste caso a utilização desses valores críticos podem gerar problemas como: parâmetros que apenas
marginalmente excedem este valor critico P, não são considerados embora essas diferenças muitas pequenas
em P , podem surgir devido a vários motivos imprevisíveis . Outro problema é que normalmente não há
verdadeiro efeito zero em um conjunto de dados naturais. A teoria da informação (TI), Não faz o uso direto
de valores de significância críticos, no entanto depois de encontrar o melhor modelo e ao decidir se o
modelo encontrado é realmente o melhor, este método tende a fazer o uso de valores subjetivo críticos.
Neste caso os pesquisadores que usam estas duas abordagens tanto a teoria da informação como stepwise
devem estar cientes dos problemas que esses limitem que são usados nos métodos podem gerar.
A falha da incerteza na seleção do modelo surge quando aplicamos um conjunto modelo altamente restrito
de candidatos ou quando se tentar delinear um conjunto modelo de confiança. A viés de seleção de modelo é
uma das deficiências mais graves de regressão, na regressão é possível simplificar o nosso modelo com base
nas estimativas que recebemos do conjunto de dados , isto implica que estamos ajustando o modelo aos
nossos dados, e esta prática aumentar a probabilidade de que tamanhos de efeitos superestimados apareçam
no modelo final. No entanto a teoria da informação não é completamente livre de qualquer viés na seleção
de modelo, em primeiro lugar muitos estudos usam o método da teoria da informação em conjunto com
regressão, então a viés de estimação de parâmetros aparece quando os critérios de informação
desproporcionalmente favorecem modelos complexos.
Diante disso estudos adicionais são urgentemente necessários para desenvolver o método de TI para a
análise de dados com indicadores
múltiplos. Isso exigirá uma compreensão das deficiências atualmente prevalentes em stepwise e TI
protocolos.
O que quer dizer para a falha de valores críticos, pelamordedeus? De resto ok.
[2.2] 3) Considere e discuta a seguinte afirmativa ¨nem sempre o modelo com o melhor R2 não
ajustado é o mais adequado¨.
A afirmativa é coerente, pois o R2 não-ajustado é afetado pela adição de número de variáveis no modelo, ou
seja, quanto maior o número de variáveis utilizadas, maior é o R2 não-ajustado, ou seja, as variáveis
adicionadas podem não estar explicando nada, que mesmo assim estariam aumentando automaticamente o
R2. Neste caso a melhor opção é optar pelo R2 ajustado que retirar o efeito que veio somente do aumento do
número de variáveis que foram adicionadas. Se o R2 corrigido aumentar mesmo após o ajuste é porque não
é em função do aumento do número de variáveis e sim por que estas variáveis adicionadas estão explicando
melhor o modelo.
excelente
[1.5] 4) Discuta as vantagens e desvantagens do procedimento de stepwise para a seleção de modelo de
regressão linear múltipla.
A grande desvantagem do procedimento de stepwise é devido ao aumento significativo de ocorrer o erro tipo
I, já que este modelo aplicar um elevado número de teste e cada vez que é realizado um teste, aumenta-se a
probabilidade de ocorrer o erro tipo I.
A vantagem é que como o modelo de stepwise é uma técnica que apresenta como característica a adição e
retirada de variável esta vai ser uma estratégia mais atraente para selecionar um modelo e também essa
mistura de técnica vai permitir a seleção de variáveis que determinam valores de importância relevantes para
amostra, podendo eliminar aquelas variáveis que não são representativas.
Porque será que ninguém que respondeu esta questão usou o artigo que resumiu para ajudar na resposta?
Veja que os pontos negativos do stepwise são exaustivamente batidos no artigo, e ninguém usou as
informações para fundamentar a resposta…
[1.000] (IP:281473822979236 | 16:12:34 | 23:34:04 | 21:30 | 901.658)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
As técnicas de seleção de modelos podem implicar no aumento de se cometera o erro tipo I. Os critérios de
avaliação dos modelos tem o objetivo de verificar o grau de confiança das estimativas obtidas. Os critérios
têm como objetivo escolher o melhor modelo de regressão através do coeficiente de correlação (R), o qual
indica a proximidade dos pontos na reta de regressão. E através do valor de F e coeficiente de determinação
(R2), que tem como objetivo refletir o quanto os valores de Y estão relacionados com os valores de X. Com
base nesses dados é que se pode encontra quais são as variáveis que entraram no modelo de regressão, para
que seja feito a avaliação do conjunto de dados.
então a correção para o número de variáveis (r² corrigido) não tem a mínima importância, nem existem
outras possibilidades, como AIC?
[4.000] (IP:281473822979236 | 16:13:04 | 23:34:26 | 21:22 | 3.094)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
O artigo fala que na pesquisa ecológica e comportamental, é difícil de obter conclusões confiáveis a parti
dos modelos estatísticos com muitos preditores. A maneira que os pesquisadores acharam para lidar com os
preditores múltiplos, tem sido a introdução e remoção de algoritmos, e com ele obter modelos mais
parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos e interações fracas é a
simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer termo
interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Durante
regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo
possam ser adicionados ou removidos a partir do modelo. Este processo geralmente envolve testes de
hipótese nula (NHT) e faz uso de limiares de importância. Uma solução relativamente recentemente
proposta é a abordagem alternativa de informação teórica (IT) este modelo vem sendo difundido e utilizado
recentemente. Ao aplicar este modelo
podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância. Ambos os
métodos baseados em metodologias IT e NHT stepwise foram usados quando se lida com muitos potenciais
preditores, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida
por alguns autores. O artigo examinou falhas de regressão, em primeiro lugar foram examinadas as críticas
subjetivas de valores, o qual apresenta uma tendência para assumir que os termos não incluídos no modelo
final tenha efeito, os parâmetros que excedem marginalmente este valor crítico de P não serão considerados,
embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis, e que
problema com testes de hipóteses de nulidade (NHT) que geralmente não existe efeito zero verdadeiro em
dados obtidos naturalmente obtidos, exceto por experimentos aleatorizados e observações e contabilização
de dados e probalizados. Na teoria da informação não faz necessariamente uso de valores limites tanto
quanto os valores críticos de significância No entanto, depois de encontrar o melhor modelo,
frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se for
o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros
estimados virão do modelo médio, e calculamos as estimativas médias para todos os modelos dentro do
conjunto de modelos, mas pesando a estimativa de acordo com as informações do rank de critérios do
modelo dado. Existem dois modelos para decidir se o melhor é de fato o melhor, o primeiro especifica
valores limites de critérios de informações acima dos quais dois modelos são considerados para diferenciar
na adequação. Se a diferença entre o melhor modelo e o secundo melhor modelo excedem este valor limite,
consideramos o melhor modelo como verdadeiramente dos modelos candidatos dados. Segundo, nós
comparamos o melhor modelo para outros modelos agrupados nos candidatos obtidos por meio de teste
razão de probabilidade, o qual envolve NHT clássico e valores críticos de P. No entanto, se quisermos fazer
decisões com relação unicamente do melhor modelo em um exercício de IT, nós precisamos ainda usar
valores críticos. Em contraste ao valor do P crítico. Se quisermos evitar limites arbitrados na informação da
teoria, nós usaríamos modelo médio independente do rank relativo do modelo mais bem colocado no rank, e
basear nossas estimativas de parâmetros em todos os modelos embora pesando a contribuição de cada
modelo de acordo com sua colocação no ranking. Usando IT para simplificação de modelo, como um
substituto para regressão stepwise é forçado a usar valores limites e, portanto, introduzindo incertezas. A
segunda falha refere-se à incerteza do modelo, onde a crítica maior contra regressão stepwise é a
instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do
aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis
do modelo completo. Isto implica que o resultado não pode ser representativo do espaço do modelo inteiro e
muitos outros modelos finais podem ser selecionados por causa de pequenas diferenças nos dados. Estes
problemas são muito sérios no caso de um conjunto de dados pequeno e indicadores interligados, que são a
regra em vez da exceção em ecologia e comportamento. A informação teórica avalia a probabilidade do
modelo estatístico especifico do dado. Assim, a questão de qual modelo a considerar recebe muito mais foco
que no clássico teste de hipótese nula. Tanto em regressão stepwise e método IT, isto é de
fundamentalmente importante para decidir quais variáveis independentes usamos. Independente do caminho
o qual iremos analisar nossos dados, nós temos primeiro que fazer esta decisão baseada na teoria,
informações prévias, ou análises exploratórias usando diferentes dados. O próximo passo é, entretanto,
fundamentalmente diferente nos dois métodos. Regressão stepwise avalia automaticamente as variáveis
independentes e as interações em diferentes combinações.
Quando confrontados com múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na
análise, independentemente da sua importância. As estimativas dos parâmetros deste modelo completo
apresentam abordagem muitas vezes imprecisa ou tendenciosa, por esta abordagem não poder ser
geralmente aplicado na ecologia e comportamento. Duas alternativas para a montagem do modelo completo
são a simplificação do modelo e seleção de modelos. A Simplificação de modelos algoritmos, como
regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros,
ou os desempenho do modelo. Por outro lado, a seleção do modelo, tal como um método de IT, estabelece
um conjunto de combinações de parâmetros e classifica estes com base na informação, os critérios ajustam
ao modelo equilíbrio e complexidade. Regressão/Stepwise e métodos de IT têm sido frequentemente
discutidos como métodos alternativos de parâmetros de modelagem múltipla. Estudos adicionais são
urgentemente necessários para desenvolver o método de IT para a análise de dados com preditores
múltiplos. Isto irá requerer uma compreensão das deficiências atualmente prevalentes em stepwise e nos
protocolos IT. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são
caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante
diferentes daqueles de dados simulados. Quanto à teoria da informação, existem, pelo menos, quatro tarefas.
Primeiro e mais importante, o número de combinações de parâmetros possíveis rapidamente aumenta com o
número de preditores, especialmente se interações são consideradas, modelo de candidato tão restrito aos
conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca generalidade. Portanto,
precisamos testar se os resultados de exercícios IT são tendenciosos, se usarmos todos os subconjuntos do
modelo completo, que é a abordagem atualmente mais frequentemente empregada. Em segundo lugar, além
do AIC, o desempenho de outros critérios de informação na seleção de modelo também deve ser testado, que
até agora tem sido largamente evitado. Em terceiro lugar, quando se utiliza o método de IT para tomada de
decisão entre modelos concorrentes, ele é necessário para quantificar a sensibilidade de conclusões a corte
de valores de informação de critério que usamos para encontrar o melhor modelo ou o conjunto de modelos
Além disso, é importante para estabelecer pontos de corte recomendados ou popularizar métodos para
determinar o ponto ótimo de corte. Finalmente, para a validade do nivelamento do modelo, é necessário
mais atenção, quando há interação de termos.
ok
[1.750] (IP:281473822979236 | 16:13:52 | 23:03:34 | 49:42 | 27.088)
Discuta os principais caminhos para validação de modelos, e sua implicação na regressão.
Para a validação de modelos primeiramente deve-se verificar a colinearidade e se o modelo atende as
premissas do MLG. Pode-se fazer a validação utilizando parte dos dados de um experimento para calcular
um modelo de regressão o qual será comprovado verificando o comportamento dos outros blocos. Também
pode ser utilizado, o estudo confirmatório, para verificar a confiabilidade do modelo, porém, é um método
muito oneroso, pois consiste na repetição do experimento. Além da coleta dos dados ser criteriosa, para não
fomentar erros de amostragem gerando dados incorretos não irá condizer com a realidade, implicando assim
em um modelo de regressão incorreto.
avaliação de colinearidade e de premissas vem antes da determinação do modelo, portanto de sua validação.
de resto, ok.
[1.000] (IP:281473822979236 | 16:14:10 | 23:34:36 | 20:26 | 5.583)
Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão
linear múltipla.
A grande vantagem do procedimento stepwise é que quando se adiciona uma variável (no caso do stepwise
forward) ou retira-se uma variável (no caso do stepwise backward), logo depois todas as outras variáveis que
já faziam parte do modelo são testadas novamente, caso tenha uma variável que possa ser retirada sem que
ocorra perdas relevantes de informação, ela é excluída automaticamente do modelo, já em relação ao
backward, se uma variável retirada ocasionar perdas de informação ela pode retornar para o modelo,
diferentemente dos outros modelos que uma vez adicionada ou
retirada uma variável do modelo, ela não poderia mais deixar de fazer parte dele ou não poderia retornar
para o mesmo. Outra vantagem é que desta forma temos mais confiança de que as variáveis que estão dentro
do modelo, realmente têm importância e deve fazer parte dele.
nem menciona as desvantagens explicadas no artigo... aliás, não menciona qualquer desvantagem
[4.400] (IP:281473657768924 | 20:07:14 | 18:55:00 | 47:46 | 2.43)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
Em um estudo, os pesquisadores contam com um número muito grande de variáveis que não tem certeza se
de fato influenciam a variável dependente. Ao tratar igualmente todas as variáveis, surgem dois problemas
principais: criar um modelo com muitas variáveis, sendo boa parte com pouca influência sobre a variável
resposta; ou modelos contendo interações (dificultando a interpretação), ou interações fracas (que aumentam
o erro padrão, exceto em condições muito restritas). O artigo se fundamenta na comparação entre os dois
procedimentos utilizados para reverter esse cenário: stepwise e teoria da informação (TI).
O modelo stepwise usa testes de hipótese nula e valores críticos de p. O procedimento é feito até que todos
os termos convergem com um tamanho do efeito mais preciso. Depois o modelo encontrado é testado
através de testes de razão de verossimilhança para atestar sua qualidade. Porém o modelo final apresenta
problemas de instabilidade, pois o stepwise não testa todos os sub-modelos possíveis e o resultado pode não
ser representativo. Como na ecologia o conjunto de dados geralmente é reduzido e inter-relacionado, esse
problema é ainda mais grave. Para contornar isso, os autores sugerem que o modelo final seja testado através
de comparações com um conjunto de dados independente ou reamostragens. No caso do TI, todo o conjunto
de sub-modelos é avaliado, gerando resultados representativos, porém valores críticos de p são utilizados na
escolha do melhor modelo, e esses valores limites introduzem incertezas que precisam ser adequados ao
teste e ao tratamento em cada método.
Resumindo, o método TI resolve três importantes problemas inerentes ao stepwise. O primeiro deles seriam
os valores críticos subjetivos usados nas comparações entre modelos. Outro problema seriam os modelos
incertos que surgem em virtude de um conjunto de candidatos muito restrito. E por último, os problemas de
estimativa do parâmetro em casos de critérios que favorecem desproporcionalmente modelos complexos.
Porém, existem outras questões que podem ocorrer devido à utilização do TI na ecologia.
Independente do modelo, é fundamental que a escolha das variáveis independentes seja baseada em
informações prévias ou análises exploratórias. Os autores lembram ainda que nenhuma abordagem
estatística é livre de incertezas, e que são necessários estudos adicionais usando dados ecológicos e
comportamentais para preencher as lacunas das teorias dos dois métodos, por exemplo, a falta de
generalidade do stepwise. Além disso, são necessários testes adicionais de critérios de seleção de modelos, e
mais estudos que estabeleçam e popularizem limites ótimos de p utilizados no TI.
excelente resumo do resumo. Pegou todos os pontos principais de forma bastante direta.
[1.500] (IP:281473657768924 | 20:12:14 | 18:55:36 | 43:22 | 36.054)
Discuta o significado e possíveis implicações do AIC
O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos.
Esse índice avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o
modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos dados. Para isso, são
calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo
número de parâmetros. Assim, o AIC avalia a qualidade da ligação entre as variáveis e o número de
variáveis utilizadas. O modelo com menor AIC será o melhor, pois é capaz de explicar mais o fenômeno em
estudo com um número menor de parâmetros.
implicações?
[2.200] (IP:281473657768924 | 20:12:43 | 18:56:13 | 43:30 | 26.302)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla
É importante obter um modelo minimizando o número de variáveis incluídas, descartando aquelas não
significantes (ou com pouca contribuição para o ajuste). Para isso é preciso escolher uma estratégia para essa
seleção. Dentre as mais utilizadas, tem-se a “seleção para frente”, nesse método, as variáveis candidatas vão
sendo introduzidas progressivamente no modelo e são feitos testes para medir seu efeito no conjunto. Outra
estratégia é a “eliminação para trás”, que parte da regressão completa (com todas variáveis) e a cada rodada
é eliminada a variável cuja saída produz menor efeito no modelo geral. Esses dois processos são bem
semelhantes e promovem bons resultados, principalmente se o número de variáveis não for tão grande.
Outra opção é o “stepwise”, que é uma combinação dos outros dois métodos, onde a cada variável
adicionada ao modelo, todas as variáveis já adicionadas são testadas novamente. Esse procedimento
aumenta a confiabilidade da escolha das variáveis fixadas no modelo. Por outro lado, o grande número de
testes realizados para verificação de cada um dos modelos acaba por aumentar a chance de ocorrência do
erro tipo I (rejeição da H0 quando esta é verdadeira).
só faltou o modelo completo...
[2.200] (IP:281473657768924 | 20:13:33 | 18:57:32 | 43:59 | 20.677)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Na avaliação de modelos únicos ou aninhados (derivado de um modelo mais geral), é preciso estabelecer
critérios para seleção dentre os modelos candidatos, o melhor, ou seja, o que envolva o mínimo de
parâmetros que expliquem satisfatoriamente a variável resposta. Para isso, são utilizados critérios estatísticos
de avaliação, como o coeficiente de determinação (R²), que indica a capacidade explicativa da equação,
logo, quanto mais próximo de 1 (ou 100% de explicação), maior a validade da regressão. Porém, quanto
mais variáveis são adicionadas a regressão, maior será seu R². Para reverter isso, uma opção é o R²
corrigido, que leva em consideração o número de variáveis da regressão, suavizando o efeito da adição. Mas
o princípio se mantém, quanto maior o R²c, melhor a regressão. Outro teste bastante utilizado é o F, que
testa simultaneamente a significância do conjunto de parâmetros através do teste da hipótese nula (a equação
não explica a variação da variável resposta). Grandes valores de F permitem a rejeição da H0 (a regressão é
de fato explicativa). Também é possível montar todos os modelos e estabelecer os respectivos AIC (índice
que leva em conta a qualidade e a quantidade de parâmetros utilizados em uma regressão), quanto menor o
AIC, melhor o modelo.
ok
[2.200] (IP:281473654131136 | 20:34:00 | 21:30:03 | 56:03 | 2.268)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Com o objetivo de selecionar a melhor regressão linear múltipla, partindo do pressuposto de que a regressão
escolhida descreverá satisfatoriamente a relação existente entre variáveis independentes e a variável
resposta, faz-se necessário lançar mão de critérios para garantir a escolha por um modelo adequado. Em
outras palavras, é preciso adotar requisitos para avaliar o melhor modelo que ajuste um determinado
conjunto de dados.
Baseando-se nesta realidade, existem alguns critérios que são comumente adotados/ utilizados para avaliar
os modelos, dentre os existentes, é fundamental citarmos alguns deles:
- Coeficiente de determinação (R²): O R² configura-se como um coeficiente que mede o quanto da variação
de y (variável dependente) pode ser explicada pela equação de regressão. Ou seja, através do R², pode-se
inferir se determinado modelo é adequado ou não para explicar a variação de uma determinada variável em
estudo.
O coeficiente de determinação pode assumir valores de 0 a 1, salientando que valores próximos de 1 atestam
que a relação entre variáveis independentes e variável dependente (ou variável resposta) podem ser
satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já a observação de R²
baixos, próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a
relação existente entre as variáveis.
Desta forma, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o ajuste do
modelo. Para exemplificar, podemos considerar a comparação de modelos concorrentes (modelos que
explicam uma mesma relação), caso determinasse o coeficiente de determinação como critério de escolha
para o melhor modelo, escolheria o modelo que apresentasse maior R².
Entretanto, vale salientar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo,
observando-se também um aumento do mesmo, contudo, este aumento pode não corresponder à realidade, já
que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a
predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das
variáveis, mas também ao número das mesmas no modelo.
- Coeficiente de determinação ajustado: Baseada na limitação anteriormente apresentada e discutida pelo
coeficiente de determinação (R²), o coeficiente de determinação ajustado não aumenta obrigatoriamente com
o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que
apresentam efeito significativo (o efeito significativo dos preditores é obtido através da análise de variância).
Desta forma, pode-se pensar que o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao
modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de
determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também
que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo.
- Soma dos quadrados do resíduo (SSR): critério que baseia-se na observação da soma dos quadrados do
resíduo, sabendo-se que quanto menor o SSR, melhor o modelo descreve a relação entre preditores e
variável resposta. Contudo, o uso do SSR apresenta uma limitação: seu valor depende do tamanho da
amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de
liberdade do resíduo e, consequentemente, afetando a relação existente entre variação do acaso e efeito de
tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como
critério de escolha.
- Teste F: Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do
pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão explica o comportamento das
variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o
quadrado médio do resíduo, com isso, observa-se que o aumento do F(calculado) está diretamente
relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais).
- Cp: Critério preconizado Mallows e que está baseado no erro quadrático médio dos valores ajustados. Para
calcular este critério, utiliza-se a seguinte fórmula:
Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)]
Onde:
SSR – Soma dos quadrados do resíduo
MSR – Quadrado médio do resíduo
N – número de parcelas experimentais
p – número de parâmetros
Vale salientar que o modelo mais adequado será escolhido em função do número de Cp calculado que mais
se aproxime do valor dos parâmetros (p +1). Por exemplo, se considerarmos 4 parâmetros (variáveis
independentes) para observar o comportamento de y (variável dependente), e calcularmos o Cp de dois
modelos concorrentes, onde o Cp1 = 3,444 e o Cp2 = 7,6700, optaríamos pelo modelo que apresentasse o
Cp1, já que este aproxima-se mais do número de parâmetros (4).
- AIC (Critério de informação de Akaike): Configura-se como um critério de seleção do melhor modelo,
baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação
(modelo) explica a relação entre as variáveis.
Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as
variáveis e o número de preditores que estão no modelo.
excelente
[2.200] (IP:281473654131136 | 20:35:53 | 21:30:10 | 54:17 | 2.117)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão
linear múltipla.
Visando obter o modelo que melhor explique um determinado comportamento a partir de um conjunto de
dados coletados, faz-se necessário avaliar e adotar alguma técnica que facilite a escolha adequada (acertada)
por um determinado modelo, através de algum critério de escolha previamente determinado. Baseando-se
nisto, existem algumas técnicas que podem ser utilizadas com este objetivo, a saber:
- Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que
poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p
– 1 de modelos possíveis. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de
variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais
adequado. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo
selecionado somente atende para àquela condição específica, considerando um número p de parâmetros,
para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados
contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou
seja, os parâmetros são considerados independentemente de sua importância.
Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de
parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo
I.
- Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis,
contudo, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos
os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale
ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a
retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua
importância. Portanto, considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a
significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida.
- Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração
das variáveis menos importantes, todavia, o início do teste é inverso, considerando primeiramente uma
variável e a cada adição de uma nova variável, faz-se o teste.
- Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas
discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai
adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é
que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e,
consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada
uma variável, não é possível colocá-la novamente.
Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso,
principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por
exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes
realizados.
-Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combina variáveis,
podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação
para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste.
Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I.
excelente
[2.000] (IP:281473654131136 | 20:36:43 | 21:30:15 | 53:32 | 1.423)
Discuta o significado e possíveis implicações do AIC
O AIC (critério de informação de Akaike) constitui-se como um critério para a seleção do melhor modelo de
regressão. O mesmo é baseado na teoria da informação, partindo do pressuposto de que existe um modelo
verdadeiro, ou seja, real que satisfatoriamente descreveria o comportamento das variáveis, contudo, este
modelo é desconhecido. Portanto, através do AIC, tenta-se escolher dentre um grupo de modelos, aquele que
mais se aproxima da realidade.
Esta medida leva em consideração concomitantemente a qualidade da ligação entre as variáveis e o número
das mesmas que são utilizadas no modelo. Desta forma, os valores de AIC poderão indicar se os modelos
são ou não indicados, salientando que quanto menor é o índice AIC, melhor a regressão explica o
comportamento considerando o menor número de variáveis.
ok, mas este não é o único uso do AIC
[4.400] (IP:281473654131136 | 20:37:16 | 21:30:33 | 53:17 | 14.806)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
O artigo desta semana intitulado “Using information theory as a substitute for stepwise regression in ecology
and behavior” discute, em essência, duas ferramentas estatísticas que são utilizadas para descrever o
comportamento de variáveis envolvidas em processos ecológicos e comportamentais: regressão baseada em
stepwise e o critério de informação de Akaike (um dos descritores da teoria da informação). A discussão
baseia-se nas limitações apresentadas pela regressão stepwise e na sua possível substituição pela teoria da
informação, uma vez que esta, aparentemente, preenche as lacunas e deficiências apresentadas pela
regressão stepwise.
De acordo com os autores do artigo, a necessidade de conhecer e discutir abordagens estatísticas origina-se
da necessidade de explicar os fenômenos biológicos que geralmente são permeados por inúmeros
parâmetros que atuam de maneiras distintas na determinação de uma variável dependente. Visando
identificar e classificar por ordem de importância, os parâmetros que influenciam na variável resposta, além
das interações que podem existir entre as variáveis, surgiu a regressão stepwise, que permitiu realizar
inferências estatísticas mais consistentes baseando-se em modelos mais parcimoniosos quando comparada
ao modelo completo.
Contudo, é notável em estudos de cunho científico que a regressão stepwise apresenta algumas limitações
quanto à sua utilização na área de ecologia e comportamento, sendo rejeitada por muitos pesquisadores sob a
justificativa de que a estratégia stepwise não é adequada para encontrar modelos que melhor descrevam
comportamentos na área de ecologia. As limitações, as quais o artigo trata são a presença de valores críticos
subjetivos, incertezas quanto aos modelos e estimativa de parâmetros enviesados, ou seja, tendenciosos.
Além disso, vale salientar que mesmo sendo alvo do artigo discutir comparativamente estas duas
ferramentas estatísticas, é fundamental considerar que a filosofia do teste de hipótese nula (no qual a
stepwise é baseada) é radicalmente diferente da teoria da informação. Isto implica dizer que a teoria da
informação não é a verdadeira alternativa para a regressão stepwise. Ressalta-se ainda a possibilidade de
usar o critério da teoria da informação na regressão stepwise, contudo, este modelo stepwise-teoria da
informação apresenta as mesmas limitações da ferramenta anterior.
De maneira mais esmiuçada, o artigo trata de alguns problemas visualizados na utilização da regressão
stepwise. O primeiro a ser discutido refere-se aos valores críticos subjetivos e dos efeitos “zero”, em
seguida, discute-se sobre questões relacionadas às incertezas, instabilidades e falta de generalidade
observados no processo de aplicação do modelo stepwise e por fim, entretanto, não menos importante, viés
na seleção do modelo . Para os três problemas elencados no artigo, os autores trouxeram a abordagem da
teoria da informação como possível solução.
Todavia, vale salientar que mesmo apresentando-se como alternativa, a teoria da informação igualmente
mostra limitações quanto ao seu uso e, portanto, são necessários mais estudos, utilizando dados de ecologia
e comportamento, para testar novas alternativas para melhorar a aplicabilidade da teoria da informação
nestes estudos.
ok
[2.200] (IP:281473654131136 | 20:37:28 | 21:52:40 | 15:12 | 5.694)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão
linear múltipla.
As técnicas mais utilizadas são as seguintes:
1ª – Testar todas as regressões possíveis: como o titulo já propõe, esta técnica aplica-se a todas as regressões
possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no
estudo, logo, este número de combinações fica sendo determinado pela expressão 2^(p_máx )-1, onde p
corresponde ao número de variáveis independentes, ou seja, se em determinado estudo tivermos um número
de 8 variáveis, isso implica dizer que teremos 255 modelos de regressão possíveis para avaliarmos na
respectiva técnica. Problemas quanto a esta técnica relacionava-se à elevada carga computacional a qual era
exercida sobre os antigos computadores no momento da análise, mas, isso se modificou com o advento de
processadores com alta velocidade de processamento tornando aplicável o método. A desvantagem do
método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor, modelo de
regressão múltipla;
2ª – Eliminação para trás (backward elimition): neste teste, inicia-se com a regressão múltipla contendo
todas as variáveis, posteriormente, eliminamos a cada rodada de seleção (R2, R_a^2, Cp e etc) a variável de
menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A
desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na composição
do modelo e consequentemente no processo de seleção, isso nos faz pensar ou refletir que, ora aquela
variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém, em
outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno;
3ª – Seleção para frente (forward selection): esta técnica assemelha-se a de eliminação para trás, contudo em
direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis,
iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos
critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma,
processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar
em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá
mais ser retirada para se avaliar novas condições (combinações);
4ª – Stepwise (forward e backward): esta se configura como uma junção dos métodos anteriormente
descritos acrescido da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de
seleção (R2, R_a^2, Cp e etc) na circunstância em que se julgar viável (combinação de maior efeito), ou
seja, este método supre a deficiência ocorrida nos descritos acima (backward elimition e forward selection)
quanto a descrever a melhor combinação entre as variáveis. Essa ação apresenta seus benefícios isso é fato,
todavia esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande
número de modelos gerados.
ótimo
[2.200] (IP:281473654131136 | 20:39:17 | 21:53:14 | 13:57 | 32.323)
Discuta o significado e possíveis implicações do AIC
Entende-se por AIC (Critério de Informação Akaike) como sendo um critério de seleção na escolha da
melhor regressão múltipla, em que regressões com menor índice AIC são consideradas as que melhor
retratam determinado fenômeno. Este critério baseia-se no que chamamos de teoria da informação que na
sua aplicabilidade quanto à seleção do modelo de regressão mais adequado esta considera simultaneamente
as seguintes características: a qualidade da informação, a ligação entre as variáveis, ou seja, como estas se
correlacionam assim como também o número de variáveis aplicadas ao modelo. Este critério tende a
penalizar modelos em que são constituídos por muitas variáveis, isso quer dizer que quanto menor for o
número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade, nos
rematando a ideia de que sempre que possível e lógico devemos adotar modelos simples que melhor retrate
do que modelos complexos de difícil entendimento.
escrita confusa e o AIC não é usado somente para a escolha da melhor regressão múltipla. excelente ponto
no final
[4.400] (IP:281473654131136 | 20:39:57 | 21:55:27 | 15:30 | 9.797)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
No artigo “Using information theory as a substitute for stepwise regression in ecology and behavior” os
autores G. Hegyi & L.Z. Garamszegi abrem certa discussão crítica sobre o uso do Stepwise como técnica
proposta para determinar a melhor regressão múltipla diante de fenômenos ecológicos. Os autores retratam
as principais deficiências deste método e como solução para estes problemas propõem uma substituição por
um método denominado de teoria da informação (TI) na qual se espera que em determinadas circunstâncias,
esta seja mais sensível quanto à análise. No método da TI, leva-se em consideração a informação extraída
pelo modelo, ou seja, a qualidade da informação e o número de parâmetros presentes no modelo. Dentre as
técnicas de TI mais comuns temos a de Akaike, proposta inicialmente em 1973.
No presente trabalho, os autores sugerem que na discussão sobre os reais problemas do stepwise
inicialmente tentaremos procurar as possíveis soluções e, posteriormente, a proposta dada pelo método da
teoria da informação. Contudo, os mesmos ressaltam que é necessário ter os seguintes entendimentos:
primeiro – as filosofias dos métodos que serão comparados (stepwise e TI) são totalmente distintas; e
segundo – é possível criar modelos de regressão utilizando critérios de informação.
As principais deficiências encontradas na regressão stepwise são:
- valores críticos subjetivos e efeitos zero: este problema se explica pelos seguintes aspectos - assumir que
os termos não incluídos no modelo final possuem efeitos zero; problemas provenientes na escolha de valores
críticos de P em que valores que apresentam pequenas diferenças não são considerados; e por fim atribuir
um tamanho de efeito igual a zero para os termos removidos na regressão cria viés;
- incerteza, instabilidade e falta de generalidade: consiste no fato de que o método stepwise testa apenas uma
fração de todos os submodelos presentes no modelo completo, isto traz sérias implicações tendo em vista
que o resultado nesta situação não é representativo de todo o espaço de combinações possíveis;
- viés na seleção do modelo: esta é uma dos mais graves problemas inerentes à regressão stepwise. Nela é
possível simplificarmos o nosso modelo baseando-se na estimativa do conjunto dos dados e isto implica
ajustar o modelo aos nossos dados que, consequentemente, resultará em tamanhos de efeitos superestimados
no modelo final.
E por fim os autores concluem propondo discussões quanto à utilização da TI como solução para os
problemas presentes no método de stepwise, contudo, os mesmos relatam que certas características são
inerentes a ambos os métodos, necessitando assim de mais estudos sobre a TI para podermos aplicá-la em
substituição ao método comumente empregado, stepwise.
bom resumo das principais desvantagens do stepwise, mas muito de leve nas possíveis vantagens do AIC e
similares
[2.200] (IP:281473654131136 | 21:54:07 | 21:55:42 | 01:35 | 13.822)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Os diferentes critérios de seleção para assim determinarmos o melhor modelo de regressão múltipla consiste
basicamente na avaliação dos seguintes parâmetros: R2 (coeficiente de determinação do modelo), R_a^2
(coeficiente de determinação do modelo ajustado), Valor de F (analise de variância de cada modelo), QMR
(quadrado médio dos resíduos), SQR (soma dos quadrados dos resíduos), Cp (Cp de Mallows) entre outros
como o AIC, BIC e critério PRESS.
- Coeficiente de determinação (R2): este método baseia-se na observação dos valores determinados para o
R2 (varia de 0 a 1) de acordo com o ajuste do modelo de regressão múltipla, logo, se adicionarmos uma
variável insignificante ao modelo teremos um aumento mínimo de R2. Daí deve-se escolher o modelo com
maior R2 que substancialmente explique o que ocorre no fenômeno. Contudo, sua empregabilidade tem sido
mais voltada em determinarmos o quando de cessarmos de adicionar variáveis ao modelo, ao invés de
encontrar o melhor, tendo em vista que os valores de R2 não reduzem quando adicionamos mais variáveis;
- Coeficiente de determinação ajustado (R_a^2): No intuito de minimizarmos erros decorrentes da análise
incorreta do R2 para alguns é preferível usar o R_a^2, não necessariamente este aumenta com a adição de
variáveis ao modelo (p + s(conj. variáveis)), contudo apresentará valores superiores quando na analise de F
entre os modelos (p e p + s) apresentar aumento do efeito das variáveis incluídas. Consequentemente, o
critério de escolha baseado no R_a^2 consiste em escolher o que apresentar valor máximo;
- F (resultado da análise de variância): entende-se neste critério que na avaliação dos modelos aquele que
apresentar um maior efeito devido ao tratamento sobre o acaso (valores de Faltos ou melhores significâncias
Pr < F) deverá ser escolhido como o que melhor representa o comportamento em estudo;
- QMR (quadrado médio dos resíduos): neste método inferimos que quanto menor for o QMR de um modelo
consequentemente maior será o R_a^2, portanto, modelos nos quais apresentem reduzidos valores para o
QMR deverão ser escolhidos como os de melhor ajuste;
- SQR (soma dos quadrados dos resíduos): tem o mesmo principio do critério anterior, tendo em vista que
este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a
dependência do tamanho da amostra;
- Cp (Cp de Mallows): este critério baseia-se no conceito de erro quadrático médio dos valores ajustados e
pode determinado pela seguinte equação:
C_p=〖SQR〗_((p))/QMR-n+2(p+1)
em que SQRp é a soma dos quadrados dos resíduos do submodelo, QMR o quadrado médio do modelo
máximo, n número de amostras e p o número de variáveis. Logo, a estratégia de seleção de modelos baseada
no Cp consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p +1). Por
exemplo, considere dois modelos de regressão:
Modelo 1 – com apenas 1 variável e com valores de SQR = 34.419 e QMR = 1.220, calculando o Cp temos
o seguinte resultado;
C_p= 34.419/1.220-14+2×2=18,21
Modelo 2 – com duas variáveis e valores de SQR = 13.421 e QMR = 1.220, calculando o Cp temos o
seguinte resultado;
C_p=13.421/1.220-14+2×3=3
Portanto, pode-se afirmar que o modelo 2 é aquele cujo valor de Cp melhor se aproximou do número de
parâmetros (p + 1) e por isso no critério de escolha adotado ele deve ser escolhido.
excelente
[1.500] (IP:281473657748883 | 16:03:06 | 23:15:31 | 12:25 | 1.815)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
{[ Resposta da Questão 1: As técnicas de seleção de modelos podem implicar em grande aumento na chance
cometer o erro tipo I. A avaliação de um modelo procura verificar se os parâmetros estimados são ou não
estatisticamente significativos e satisfatórios. Os critérios estatísticos de avaliação dos modelos têm como
objetivo verificar o grau de confiabilidade das estimativas obtidas. O critério para seleção da regressão linear
múltipla (RLM), refere-se ao fator escolhido para comparação dos modelos de regressão e desta forma
escolher o melhor modelo, como exemplo o coeficiente de correlação (R), o valor de F e coeficiente de
determinação (R2). O critério para seleção possibilita encontrar quais as variáveis entram no modelo de
regressão, para avaliar um conjunto de dados a ser feito as regressões.
O coeficiente de correlação é uma medida da relação linear entre duas ou mais variáveis, este indica a
proximidade dos pontos á reta de regressão e quanto mais próximo o de 1,0 for o valor de R, mais os pontos
se encontram na reta de regressão. Quanto mais próximo de zero, mais pobre será o ajustamento da reta de
regressão aos pontos.
Já o coeficiente de determinação da regressão tem por objetivo revelar o quanto as variáveis independentes
explicam a variação da variável dependente, ou seja, é uma medida que procura refletir o quanto os valores
de Y estão relacionados com os valores de X, no coeficiente de determinação os valores também vão varia
de 0 a 1, sendo que quanto mais próximo de 1 é melhor. O teste F dá uma ideia da relação entre a variação
devida ao resíduo e ao acaso.]}
R2 corrigido? AIC e similares?
[1.500] (IP:281473657748883 | 16:03:47 | 23:15:35 | 11:48 | 1.781)
Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão
linear múltipla.
{[Resposta questão 2: O método stepwise para a seleção de variáveis é muito usado em regressão linear.
Qualquer procedimento para seleção ou exclusão de variáveis de um modelo é baseado em um algoritmo
que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de
decisão. De modo geral quanto maior a quantidade de variáveis melhor, em termo de confiabilidade. O
método stepwise é uma mistura de técnicas, que permite avaliar a contribuição de cada variável
independente para o modelo.
As vantagens são que o Stepwise permite a seleção das variáveis que o teste demonstra não representar
importância ou significância entre o máximo ou o mínimo de variáveis. O stepwise apresenta uma maior
confiança na análise de números maiores de variáveis em relação à análise de menos variáveis isto ocorre
por que o stepwise testa todas as variáveis. Mais vantagens são que devido uma combinação de técnicas
possibilita a seleção de variáveis que determinam valores de importância e significância para a amostra, o
que nos permite fazer a eliminação daquelas variáveis que não são bem representativas do modelo.
Outra vantagem do stepwise é que ele permite que as variáveis saiam e entram no modelo, o que permite que
uma variável independente que tenha sido retirada por não apresentado um bom efeito, possa novamente ser
testada, agora com outras variáveis, e esta variável pode volta para o sistema ser ela tiver uma boa
combinação com as demais variáveis.
Embora o stepwise apresente várias vantagens, este método como qualquer outro apresentar as suas
desvantagens. Uma das principais desvantagem deste método é que ele é um método complexo de difícil
interpretação dos vários valores obtidos, ou seja, é difícil avaliar e interpretar o modelo pois temos um
grande número de variáveis neste modelo, o que tornar muito complexo o mesmo. O resultado final depende
dos testes anteriores de inclusão e exclusão de variáveis, ou seja, este teste é influenciado pelos passos
iniciais realizados no teste. Mais desvantagens também devem ser consideradas tais como: o teste apresenta
uma maior possibilidade de erros, de cometer o erro tipo I, não que a probabilidade de cometer um erro seja
maior, e sim que ocorre uma acumulação deste erro acontecer é o que chamamos de erro acumulativo já que
toda variável testada tem uma erro incorporado.
Uma outra desvantagem importante do stepwise é que o modelo final pode apresentar diferenças para o
mesmo conjunto de dados, ou seja, o modelo pode ser diferente de acordo com as escolhas dos teste
anteriores, são dependentes do caminho seguido.]}.
peraí. Como ter um grande número de variáveis pode ser culpa do processo de seleção? Entender o resultado
do stepwise não tem nada a ver com o número de variáveis que entra no modelo.
[2.000] (IP:281473657748883 | 16:04:01 | 23:15:39 | 11:38 | 1.955)
Discuta o significado e possíveis implicações do AIC
{[ Resposta da questão 3: Primeiramente vamos discutir o significado do AIC. O critério informativo de
Akaike (AIC) é uma ferramenta para seleção de modelos, pois oferece uma medida relativa da qualidade do
ajuste de um modelo estatístico, ou seja, o AIC é um índice que nos permiti escolhe o melhor modelo para a
regressão. Este índice avalia ao mesmo tempo a qualidade de informação, qualidade da ligação entre as
variáveis com o número de variáveis que é utilizada, assim como a quantidade de variáveis que entra, com a
quantidade de dados explicados. O AIC não fornece um teste de um modelo no sentido usual de testar uma
hipótese nula. O AIC é um teste de máxima verossimilhança para verificar se o modelo escolhido é o
adequado.
As implicações do AIC são em relação à escolha dos modelos utilizamos os valores de AIC para decidir qual
é o melhor modelo a ser utilizado, sendo assim quando temos um conjunto de modelos candidatos, o modelo
a ser utilizado é aquele que apresentar o menor valor de AIC (quanto menor for o valor de AIC melhor será
o ajuste do modelo aos dados recolhidos). O importante é que o modelo se ajuste bem aos dados junto ao
ponto (ou transecto). Este critério combina quanto o modelo explica com o número de variáveis usado para
isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis. Outra aplicação do
AIC é em modelo misto para selecionar qual modelo de co-variância é mais útil.]}
confuso, mas acho que entendeu
[4.000] (IP:281473657748883 | 16:04:07 | 23:15:48 | 11:41 | 6.382)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
{[ Resposta da questão 4: O artigo “Usando a teoria da informação como um substituto para regressão em
ecologia e comportamento” tem como objetivo fazer uma abordagem resumida oferecendo uma visão geral
objetiva de alguns pontos, mantendo a filosofia do “pluralismo estatístico”.
Na pesquisa ecológica e comportamental, tirar conclusões confiáveis a partir de modelos estatísticos com
múltiplos preditores é geralmente difícil. O método hipotético-dedutivo (HD) postula uma hipótese nula com
base na informação disponível, articula predições testáveis, e testa estas previsões. A abordagem HD está
firmemente enraizada em informação recolhida, de modo que deve considerar a descrição de padrões nos
dados de observações como um passo necessário antes que o método HD pode ser aplicado.
Atualmente vem utilizando como método clássico para lidar com os efeitos e interações fracas a
simplificação do modelo stepwise, onde obtém-se um modelo final que não contém qualquer termo de
interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Durante a
regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo
possam ser adicionados ou removidos a partir do modelo. Este processo geralmente envolve testes de
hipótese nula (THN), este modelo tradicional atualmente vinha recebendo crítica. Com base neste contexto
uma solução relativamente recentemente proposta é a abordagem alternativa de teoria de informação (IT).
A Regressão stepwise geralmente usa THN e valores críticos de P. Existe, entretanto, uma tendência para
assumir que os termos não incluídos no modelo final tem efeito. Existe também um problema geral com o
uso de valores críticos de P. Parâmetros que excederam marginalmente este valor crítico de P não serão
considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões
imprevisíveis Um terceiro problema com testes de hipóteses de nulidade é que geralmente não existe efeito
zero verdadeiro em dados obtidos naturalmente, exceto por experimentos aleatorizados. A TI não faz
necessariamente uso de valores limites tanto quanto os valores críticos de significância. No entanto, depois
de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito
semelhante ao modelo apropriado. Se é o melhor, calculamos parâmetros estimados deste modelo. Se não
for o melhor, nossos parâmetros estimados virão do modelo médio.
Outra crítica contra a regressão stepwise é a instabilidade no modelo final e a resultante falta de
generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma
pequena fração de todos os submodelos possíveis do modelo completo.
A teoria de informação avalia a probabilidade do modelo estatístico especifico dado os dados. Assim, a
questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula. Tanto
em regressão stepwise e método TI, isto é de fundamental importancia para decidir quais variáveis
independentes usamos. Independente do caminho o qual iremos analisar nossos dados, nós temos primeiro
que fazer esta decisão baseada na teoria, informações prévias, ou análises exploratórias usando diferentes
dados.
Em regressão, é possível simplificar o nosso modelo baseado na estimativas que começa a partir do conjunto
de dados. Isto implica que temos o ajuste do modelo aos nossos dados, e esta prática aumenta a
probabilidade de que os tamanhos de efeito superestimados aparecem no modelo. Simulações têm mostrado
que esta sobrestimação é mais grave nos preditores fracos, e a maior parte da diversidade biológica
preditores se enquadram nessa categoria.
A teoria da informação, por outro lado, tem sido proposto para evitar o "viés de modelo de seleção" inerente
a stepwise. No entanto, a teoria de informação não é completamente livre de qualquer viés na seleção do
modelo.
Os critérios mais populares são AIC e sua AICc versão corrigida, mas estes têm sido sugerido ser propenso
ao superajuste. O melhor modelo de acordo com o AIC ou AICC é geralmente complexo, e muitas vezes
incluem variáveis, e até mesmo interações, com efeitos muito pequenos. Quando confrontados com
múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na análise, independentemente
da sua importância. As estimativas dos parâmetros deste modelo completo apresentam abordagens muitas
vezes imprecisas ou tendenciosas, por esta abordagem não poder ser geralmente aplicado na ecologia e
comportamento.
Duas alternativas para a montagem do modelo completo são, a simplificação do modelo e seleção de
modelos. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros
individuais com base no desempenho desses parâmetros ou desempenho do modelo.
Existem três carências bem conhecidas de regressão/stepwise que são considerados como automaticamente
resolvidas simplesmente aplicando a teoria da informação sem o procedimentos passo a passo, estas
carências são: valores críticos subjetivos, a incerteza do modelo, e viés de estimação de parâmetros.
Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados
com preditores múltiplos. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais,
que são caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância
bastante diferentes daqueles de dados simulados.
Quanto à teoria da informação, devemos considerar que o número de combinações de parâmetros possíveis
rapidamente aumenta com o número de preditores, especialmente se interações são consideradas, modelo
candidato tão restrito aos conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca
generalidade. Além do AIC, o desempenho de outros critérios de informação na seleção de modelo também
devem ser testados, pois ate o momento tem sido largamente evitado.]}
muito estatiquês, mas em linhas gerais parece ter compreendido, em particular quanto às desvantagens do
stepwise, que por sinal ficaram melhor descritas do que na resposta à questão sobre o stepwise:)
[4.400] (IP:281473857230317 | 08:55:44 | 23:19:15 | 23:31 | 6.844)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
Usando a informação teórica como um substituto para regressão em ecologia e comportamento.
Para a pesquisa ecológica e comportamental acumular conhecimentos dois caminhos podem ser seguidos. O
método hipotético-dedutivo (HD) postula uma hipótese nula com base na informação disponível, articula
predições testáveis, e testa estas previsões. Indução e dedução têm papéis complementares no exercício do
conhecimento. Padrões observados em um conjunto de dados, por um lado, não podem demonstrar relações
causais, então eles devem ser considerados como uma tentativa, e o método indutivo é uma forma de gerar
hipótese para testes, preferencialmente experimental. Os modelos estatísticos são, portanto, muitas vezes
caracterizados por vários parâmetros. Observe que em estudos experimentais complexos com vários
tratamentos e variáveis conhecidas. Em tais estudos, o tratamento de todos os parâmetros da mesma forma,
independentemente da sua importância é problemático por duas razões principais. Em primeiro lugar, o
tamanho da amostra é normalmente limitado, o que dá origem a um sério equilíbrio entre a complexidade do
modelo e a exatidão na estimativa dos parâmetros. Em segundo lugar, muitos modelos em ecologia
comportamental incluem termos de interação. Se uma interação está presente no modelo, os principais
efeitos das variáveis correspondentes não podem ser prontamente interpretados porque o seu significado é
diferente do que um sem interação.
Existem, geralmente, muitos termos de interação, e a maioria deles terão efeitos muito pequenos. Na
presença de termos de interação fraco, as estimativas de efeito principais terão grandes erros padrão, e eles
vão também ser tendenciosos, a menos que condições muito restritivas sejam satisfeitas. Como
consequência, os pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes, precisam
remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de modelos
mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos de interações
fracas é a simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer
termo de interação fraca e contém variáveis que são fortes preditores ou estão envolvidos em uma forte
interação.
Durante a regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que
nenhum dos termos possa ser adicionado ou removido a partir do modelo. Este processo geralmente envolve
testes de hipótese nula (NHT) e faz uso de limiares de importância. Uma solução relativamente
recentemente proposta é a abordagem alternativa da informação teórica (IT). Neste método, os descritores
contínuos que vão equilibrar o ajuste do modelo e do número de parâmetros para cada modelo são
calculados para cada modelo em um conjunto fixo do modelo candidato. O mais popular desses descritores
em ecologia é o Akaike de informação ou critério AIC (Akaike, 1973). Ao aplicar a teoria da informação,
podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância (Burnham e
Anderson, 2002). Ambos os métodos baseados em metodologias IT e NHT stepwise serão usados quando se
lida com muitos potenciais preditores, e sua aptidão para tais análises em ecologia e comportamento tem
sido vigorosamente debatida.
A regressão stepwise geralmente usa NHT (teste de hipótese de nulidade) e valores críticos de P. Existe,
entretanto, uma tendência para assumir que os termos não incluídos no modelo final tem efeito. Existe
também um problema geral com o uso de valores críticos de P. Parâmetros que excederam marginalmente
este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir
devido a múltiplas razões imprevisíveis. Um terceiro problema com testes de hipóteses de nulidade (NHT) é
que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por
experimentos aleatorizados e observações e contabilização de dados e probalizados. Em vez de assumir
efeito zero, é possível gerar estimativas atuais pela reintegração dos termos removidos dentro do modelo
final um a um. Neste processo, primeiramente conduzimos a regressão até que esta convirja, e então
apresente o efeito do tamanho para todos os termos. O tamanho dos efeitos para os termos no modelo final
origina-se deste modelo, enquanto os efeitos do tamanho dos termos fora do modelo final provem de sua
introdução no modelo final.
A teoria da informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de
significância. No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o
melhor ou somente um muito semelhante ao modelo apropriado. Se é o melhor, calculamos parâmetros
estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio, que é,
nós calculamos as estimativas médias para todos os modelos dentro do conjunto de modelos, mas pesando a
estimativa de acordo com as informações do rank de critérios do modelo dado. O uso de métodos IT na
ecologia e comportamento classicamente envolvem informações de critérios de valores e os melhores
modelos, mas recentemente o foco mudou para a ala da avaliação da adequação modelo aparentados tal
como os ranks e evidencia de razões. No entanto, se quisermos fazer decisões com relação unicamente do
melhor modelo em um exercício de IT, nós precisamos ainda usar valores críticos. Um uso especial de
valores limites na informação teórica é o que se diz seguro, ou, melhor conjunto de modelos, embora seja
um subconjunto relativamente bem suportado do grupo de conjunto candidato no qual o modelo médio está
pronto. Não existe um acordo entre os critérios para delimitar o melhor conjunto de modelos, e diferentes
métodos. Introduzindo um preditor aleatório naõ correlacionado no modelo poderá ajudar a determiner os
limites na aproximação IT. Embora seja difícil imaginar um preditor realmente aleatório não correlacionado
no caso de um conjunto de dados finitos, então esta possível solução trabalha melhor com conjuntos de
dados bem mais amplos.
Uma segunda crítica maior contra regressão stepwise é a instabilidade no modelo final e a resultante falta de
generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma
pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o resultado não
pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser selecionados
por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um conjunto de
dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento.
A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros
individuais com base no desempenho desses parâmetros (por exemplo, coeficiente de regressão,
significância) ou os desempenho do modelo, como por exemplo, variância. Por outro lado, a seleção do
modelo, tal como um método de IT, estabelece um conjunto de combinações de parâmetros (isto é, os
modelos) e classifica estes com base na informação, os critérios ajustam ao modelo equilíbrio e
complexidade. Regressão/Stepwise e métodos de TI têm sido frequentemente discutido como métodos
alternativos de parâmetros de modelagem múltipla.
ok
[0.000] (IP:0 | 08:56:04 | --:--:-- | --:-- | ------ )
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Em branco
[2.200] (IP:281473857230317 | 08:56:42 | 23:43:13 | 46:31 | 853.359)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o
mais adequado".
Num modelo, quanto maior o número de variáveis adicionadas a equação, maior será seu R2 pelo simples
fato de estar levando em consideração mais variáveis que um modelo com menos. A correção do R2 diz
respeito a correção do número de elementos que é colocado no modelo, enquanto o R2 corrigido anula a
influencia da quantidade de variáveis. Trabalhar baseando-se no R2 não corrigido implica na possibilidade
de se estar trabalhando com um modelo bem mais complicado pelo número de variáveis que possui e que no
fim das contas não está surtindo efeito algum pois seu R2 elevado poderá ser apenas em função do número
de variáveis e não da sua relevância. Um modelo contendo menos variáveis e que seja bem mais
significativo no que se propõe poderá ser substituído por outro com número maior de variáveis e
consequentemente maior R2, porém com pouca ou quase nenhuma nenhuma se trabalharmos apenas com o
R2 não corrigido.
excelente
[0.000] (IP:281473857230317 | 09:01:12 | 23:56:26 | 55:14 | 436.456)
Avalie o efeito de diferentes estratégias de seleção do melhor modelo sobre a probabilidade de
ocorrência de erro do tipo I.
Quando se opta pela estatística univariada, serão feitas diversas análise, tendo cada uma delas a mesma
chance de ocorrência do erro tipo I, contudo, oa final a chance será extremamente maior de ter acontecido
este erro devido ao número de análises feitas, enquanto a estatística multivariada realiza um única análise,
tendo bem menos chance de ocasionar o erro do tipo I. Esta tambem pode ser realizada com todas as
variáveis que o pesquisador achar pertinentes e não colineares de uma só vez sendo possível depois a
remoção de alguma que não condiga com oque se procura.
de onde apareceu esta comparação entre estatística univariada e multivariada, em termos da pergunta que
você deveria estar respondendo?
[1.000] (IP:281473652568206 | 07:26:59 | 19:11:58 | 44:59 | 6.191)
Discuta o significado e possíveis implicações do AIC
A sigla AIC siguinifica ( Akaike Information Criterion) ou Critério de Informação Akaike, configura uma
medida da relação da qualidade de ajuste de um modelo estatístico, de autoria de Hirotsugu Akaike em
1974, sob o nome de “um critério de informação”(AIC).
As aplicações se baseiam em critérios de entropia da informação, oferecendo uma medida relativa da perda
da informação quando um modelo é usado para descrever a realidade, como por exemplo, descrever o
equilíbrio entre viés e variância na construção do modelo ou na precisão e complexidade do modelo. Em
outras palavras os valores da AIC fornecem um meio para seleção do modelo apesar de não testar a hipótese
nula. Considerando um conjunto de modelos candidatos para os dados, deve-se preferir aquele com o valor
mínimo de AIC. Então o AIC não só trás benefícios de ajuste, mas também faz exclusões de preditores que é
em função do crescente do número de parâmetros estimados.
implicações? não tenho idéia se você entendeu o que quis dizer com entropia da informação...além disto o
português está dose pra leão...
[0.500] (IP:281473652568206 | 07:28:37 | 19:14:00 | 45:23 | 6.588)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla
Testar todas as regressões possíveis, grande número de combinações, em qualquer regressão múltipla, os
coeficientes se correlacionam, ao diminuir ou ao aumentar o número de variáveis independentes, os
coeficientes de regressão parcial de b também se alteram.
Maior número de variáveis possíveis – o coeficiente de determinação não diminui pela adição de novas
variáveis independentes. Uma correlação alta entre as variáveis independentes pode trazer problemas nos
caçulos para estimação da equação.
Eliminação para trás – Testa o efeito das variáveis começando com toda e retirasse uma a uma até perder a
significância. Devendo permanecer o grupo de variáveis que melhor representa o efeito.Para cada modelo,
testa o efeito da retirada da última variável
Seleciona a variável com menor efeito de retirada
Seleção para frente- testa-se todas e adiciona-se a que sobrepõe ao grupo contudo uma combinação de
variáveis pode sobrepor uma singularmente forte.
Stepewise(backard e forward) - Estabelece-se uma variável e estima-se a outra, seleção para frente,
repetindo-se o processo ate que se estabilize. O valor arbitrado deve se colhido em bibliografia recentes para
diminuir o tempo de estabilização ou ainda evitar uma coincidência de valores estabilizados.
muito confuso. Suspeito que "maior número de variáveis" na realidade quer dizer o teste do efeito de incluir
novas variáveis até as proximas não trazerem ganho de informação. No entanto, o modelo com o maior
número de variáveis é necessariamente o completo, que inclui tudo.
[0.000] (IP:281473652568206 | 07:31:08 | 19:14:48 | 43:40 | 7.918)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
Usando a teoria da informação como um substituto do Stepwise para comportamento da regressão em
ecologia.
Na pesquisa do abstrato do comportamento ecológico, conclusões a partir desenhos de modelos estatísticos
confiáveis com múltiplos preditores é geralmente difícil, se todos os preditores estão simultaneamente no
modelo. A maneira tradicional de limiar a manipulação de preditores múltiplos tem sido a utilização baseado
remoção ou introdução de algoritmos, isto é, regressão Stepwise, que atualmente recebe críticas. O método
de modelagem mais recente, e cada vez mais propagado para os indicadores múltiplos é a teoria da
informação (TI) na abordagem que quantifica a adequação relativa de múltipla potencialmente nãoaninhados ( no-nested)modelos baseados no equilíbrio do modelo forma e na precisão das estimativas.
Aqui, vamos examinar três deficiências de regressão que têm sido sugeridos para ser evitada pela aplicação
teoria da informação, crítica subjetiva valores, a incerteza do modelo e viés de estimação de parâmetros.
Argumentamos que, em determinadas circunstâncias, a abordagem que pode ser sensível a estas questões
também pode nós apontar as áreas em que outros testes e desenvolvimento poderão melhorar o desempenho
e métodos de TI, finalmente, leva para inferências robustas em ecologia comportamental.
Introdução:
Acumular conhecimentos em ecologia e comportamento tem duas principais avenidas (Romesburg 1981). A
abordagem indutiva envolve generalização de padrões em um conjunto de dados. O método hipotético
dedutivo (HD) postula uma hipótese nula com base na informação disponível, se articula predições testáveis
e testes a estas previsões. Indução e dedução têm papéis complementares em conhecimento e competência.
Padrões observados em um conjunto de dados, por um lado, não pode demonstrar relações causais, então
eles devem ser considerados como uma tentativa, e o método indutivo é uma forma de geração de mais de
uma hipótese, de preferência testes experimental (Williams 1997; Steidl 2006). A abordagem H-D, por outro
lado, está firmemente ancorada nas informações previamente recolhidas, por isso devemos considerar a
descrição de padrões em dados de observação (isto é, a indução) como um passo necessário antes do método
H-D pode ser aplicada (Guthery 2007). Em ecologia e evolução, onde muitas vezes é impossível alcançar até
mesmo um controle parcial experimental de confusão fatores, a identificação padrão correlativo sempre
desempenha um papel importante (Johnson 2002).
Em tais estudos descritivos, o pesquisador geralmente tem uma lista de fatores, aqueles que são suspeitos de
influenciar a variável dependente. Os modelos estatísticos estão de acordo muitas vezes caracterizados por
vários parâmetros. Note-se que em muita situação semelhante pode surgir complexos estudos experimentais
com vários tratamentos e variáveis de fundo. Em tais estudos, tratamento de todos os parâmetros da mesma
forma, independentemente de sua importância, é problemático por duas razões principais.
Em primeiro lugar, o tamanho da amostra é normalmente limitado, o que dá origem a um sério compromisso
entre a complexidade do modelo e da precisão das estimativas de parâmetros (Miller 1992). No entanto,
mesmo com uma grande amostra, deixando todos os preditores no modelo implica que a estimativa de
qualquer um preditor será corrigido para os efeitos de vários preditores potencialmente, embora a maioria
deles tenha na verdade pouco sobre o fato variável dependente. Isto implica um aumento de aleatório ruído
nas estimativas de parâmetros modelo completo, o que pode criar viés grave, ou seja, a inflação, ou deflação
das estimativas (Ginzburg e Jensen 2004).
Em segundo lugar, muitos modelos em ecologia comportamental incluem termos de interação. Se um está
presente no modelo, os principais efeitos das variáveis correspondentes não podem ser prontamente
interpretados porque o seu significado é diferente do que sem uma interação. Existem geralmente muitos
termos de interação, e a maioria deles terá efeitos muito pequenos.
Na presença de termos de interação fraca, o principal efeito das estimativas terão grandes erros padrão, e
eles também serão tendenciosos, a menos que condições muito restritivas são satisfeitas (Aikene Oeste
1991; Engqvist 2005). Como consequência, pesquisadores que necessitam de estimativas de parâmetros
úteis, muitas vezes necessidade de remover ou classificar os parâmetros com base em algum critério, e tirar
conclusões a partir de modelos mais parcimoniosos do que o modelo completo.
O método clássico de lidar com os efeitos fracos e interações é a simplificação do modelo stepwise (Miller
1992;Gelman e Hill 2008). Este processo obtém um modelo final que não contém qualquer termo interação
fraca e contém variáveis que são preditores ou fortes ou envolvidos em uma forte interação. Durante a
regressão de stepwise, pares de modelos aninhados são comparados de acordo com uma regra fixa até que
nenhum termo pode ser adicionado ou removido do modelo. Este processo geralmente envolve testes de
hipótese nula (NHT) e faz uso de limitadores de importância. A solução alternativa relativa recentemente
proposta é o teoria da informação (TI) abordagem (Burnham e Anderson 2002).
Neste método, o ajuste do modelo e do número de parâmetros e os descritores contínuos que dão o equilíbrio
do modelo (Ward 2008) são calculados para cada modelo em um candidato à modelo fixo definido. Com
base neste suporte relativo para modelos individuais ou parâmetros pode ser deduzido (Burnham e Anderson
2002). O mais popular desses descritores em ecologia é o critério Akaike de informação ou AIC (Akaike
1973). Ao aplicar a teoria da informação, podemos evitar completamente o teste hipótese nula e o uso de
valores de significância (Burnham e Anderson 2002). Ambos os métodos de TI e NHT baseados em
metodologias stepwise têm sido utilizados quando se lida com muitos preditores potenciais, e sua aptidão
para tais análises em ecologia e comportamento tem sido vigorosamente debatida, com alguns autores
recomendando o abandono completo do Stepwise incluindo a compilação do conjunto de modelos a serem
analisados (Dochtermann e Jenkins2010), a combinação de informações a partir de diferentes modelos
(Richards et al. 2010), e lidar com colinearidade e falta de observações durante este processo (Freckleton
2010; Nakagawa e Freckleton 2010). Outros trabalhos para discutir questões filosóficas e práticas que criam
uma gama de lacunas entre a TI e NHT, ou enfatizar um ponto fraco no método Stepwise (Burnham et
al.2010; Mundry 2010).
Nós encontramos três principais deficiências da abordagem gradual. Relativamente a essas deficiências, o
método de TI tem sido sugerido para oferecer um desempenho superior (Whittingham et al.2006). Para cada
ponto, vamos primeiro procurar maneiras potenciais de aliviar o problema dentro da regressão metodologia.
Então, vamos olhar para a solução proposta que na teoria da informação oferece, com relação aos dados, e
examinara robustez da solução. Realizamos esta comparação para facilitar a aprendizagem científica, no
qual o entendimento de problemas metodológicos auxilia na interpretação dos dados e desenvolvimento de
nossas ferramentas estatísticas. É necessário fazer duas notas antes deste comparativo de discussão. Em
primeiro lugar, a filosofia subjacente à NHT e teoria da informação é radicalmente diferente (Johnson e
Omland 2004; Stephens et ai. 2005). O anterior olha para a probabilidade de os dados fornecidos a hipótese
nula focal, enquanto que o último avalia a probabilidade de um ou mais modelos (ou hipóteses) com base
nos dados focais. Isto implica que a TI se aproxima (um modelo de seleção abordagem sensu Johnson e
Omland 2004) não é de fato uma verdadeira alternativa de regressão (uma abordagem a simplificação do
modelo) (Guthery et al. 2005; ver o "Conclusões e futuro direções " seção para uma discussão mais
aprofundada) da NHT-Stepwise os métodos (Forstmeier e Schielzeth 2010)aqui, adotamos uma prática
estritamente comparativa e de aproximação entre métodos de TI e NHT-stepwise.
Segundo, é possível fazer regressão utilizando critérios informações, isto é, uma simplificação da abordagem
do modelo TI-stepwise. À medida que, o método de IT-stepwise compartilha a maioria das deficiências da
NHT-stepwise de regressão de Sion, e também é inconsistente com a filosofia de teoria da informação
(Burnham e Anderson 2002). Este método não é parte do sentido estrito TI abordagem que estamos
discutindo aqui, mas podemos citar a dirigir comum mal entendidos. O presente trabalho é um breve resumo
e não se destina a fornecer uma revisão em profundidade. Em vez disso, oferecemos uma visão geral
objetiva de alguns pontos, enquanto mantendo a filosofia de "Estatística pluralismo. "Mais discussões
detalhadas de cada ponto pode ser encontrado na respectivas referências.
Regressão geralmente utiliza NHT e crítica de valores (Miller 1992). Existe, portanto, uma tentação para
assumir que os termos não incluídos no modelo final tem efeito zero (Whittingham et al. 2006). Há também
um problema geral com a utilização de crítica Por valores. Os parâmetros que apenas marginalmente
superior a esta crítica não será considerado, Embora estas diferenças muito pequenas podem surgir devido
avarias razões imprevisíveis (Grafen e elogia 2002).
O terceiro problema com a NHT é que normalmente não há efeito zero real em conjuntos de dados naturais,
exceto para experimentos e observações de dados de contagem e probabilidades(Martínez-abrain 2007).
Assim, comparando um efeito para zero pode muitas vezes ser sem sentido (Rosenthal et ai. 2000).
Atribuindo um tamanho de efeito de zero para os termos removidos n a regressão cria viés (Whittingham et
al.2006).
Em vez de assumir efeitos zero, é possível gerar estimativas reais de reintegração dos termos removidos para
o modelo final, um por um. Neste processo, nós primeiro realizamos a regressão até que converge, e em
seguida, apresentam tamanhos de efeito (Nakagawa 2004) por todos os termos. Os tamanhos de efeito para
termos no modelo final vem a partir deste modelo, enquanto que tamanhos de efeito para termos fora do
modelo inicial vêm sua reintrodução no modelo final. A diferença importante entre esse processo e a
montagem é que tamanhos de efeito em modelos completos são geralmente imprecisos e incertas, porque há
ruído de muitos termos do modelo (Sauerbrei 1999; Engqvist 2005). O pós-gradual, tamanhos de efeito
reintroduzidos, nós recomendamos são livre deste ruído, porque somente um termo retirado é reintroduzido
em um momento assim como os demais termos removidos não complicar o modelo e não enviesar a
estimativa do respectivo termo reintroduzida. Deve-se notar, no entanto, que os tamanhos de efeito são
reintroduzidos condicionais no final do modelo, que é, em si, instável e pode conter variáveis incômodas.
Isto cria outro tipo de ruído, que discutiremos na próxima seção. A teoria da informação não significa
necessariamente fazer uso de limites, tais como valores de significância críticos (Burnham e Anderson
2002). No entanto, depois de encontrar o melhor modelo, que normalmente querem ver se é de fato o melhor
ou apenas um de muitos modelos de forma semelhante adequados (Draper 1995) ele é o melhor, podemos
calcular as estimativas dos parâmetros a partir deste modelo. Se não for o melhor, nossas estimativas de
parâmetros servirão de nivelamento para outro modelo, isto é, que calcula a média estimativa para todos os
modelos da série modelo inteiro, mas o peso as estimativas de acordo com a classificação critério de
informação (Por exemplo, peso Akaike) do modelo de dados (Buckland et al.1997).
Existem dois métodos para decidir se o melhor modelo é de fato o melhor. Primeiro, podemos especificar
limite. Os valores de critérios de informação acima do qual dois modelos são Considerados diferem em
adequação, por exemplo, um AIC diferença (AIC) de 2 (Burnham e Anderson 2002), 6(Richards et ai.
2010), 10 (Symonds e Moussalli 2010) ou mesmo 20 (Burnham et al. 2010). Se a diferença entre o melhor
modelo, é o segundo, exceder este limite, nós consideramos o melhor modelo como verdadeiramente o
melhor do dado candidato definido. Em segundo lugar, podemos comparar o melhor modelo para outros
modelos aninhados no candidato definido por meio de Testes de razão de verossimilhança, que envolvem
NHT clássica e crítico Pvalores (Posada e Crandall 2001; mas veja Burnham e Anderson 2002). A utilização
de métodos em TI ecologia e comportamento de limite classicamente envolvidas informação valores de
critério e melhores modelos (Burnham e Anderson 2002), mas o foco foi recentemente deslocado para a
avaliação da adequação do modelo relativo, como AIC fileiras e provas (Whittingham et al. 2006; Lukács et
ai. 2007). No entanto, se quisermos tomar decisões sobre a singularidade do melhor modelo de TI, ainda
temos que usar valores críticos. Em contraste para valore críticos, é pouco conhecido se arbitrária diferenças
de limites em TI, critérios que atualmente são aplicadas demasiadamente permissiva ou restritiva demais,
porque não é simplesmente experiência suficiente para dizer isso (Richards 2005, 2008; Enfermaria 2008).
Conclusões e direções futuras
Quando confrontados com múltiplas variáveis preditoras, o mais simples solução é considerar todos eles na
análise, independentemente da sua importância. Estimativas dos parâmetros deste modelo completo
abordagem será muitas vezes imprecisas ou tendenciosas, pelo que esta abordagem não pode ser geralmente
aplicado na ecologia e comportamento (Ginzburg e Jensen 2004). Duas alternativas para modelo completo
montagem são a simplificação do modelo e seleção de modelos (por exemplo, Johnson e Omland 2004).
Simplificação do odelo algoritmos, tais como regressão, adicionar ou remover parâmetros individuais com
base no desempenho desses parâmetros (por exemplo, coeficiente de regressão, significância) ou os
desempenho do modelo (por exemplo, variância explicada, Mallows 'Cp). Por outro lado, a selecção do
modelo, tal como um método de TI, estabelece um conjunto de parâmetro Combinações (isto é, os modelos)
e classifica estes com base na informação critérios que ajuste do modelo equilíbrio e complexidade do
modelo. Métodos de regressão Stepwise e TI têm sido frequentemente discutido como métodos alternativos
de parâmetro múltiplamodelação (Stephens et ai. 2007b).
Aqui, discutimos três carências bem conhecidas de regressão que são amplamente considerados como
automaticamente resolvidas simplesmente aplicando a teoria da informação sem procedimentos Spepwise
(por exemplo, Whittingham et al. 2006): subjetivos valores críticos, a incerteza do modelo, e viés de
estimação de parâmetros. Notamos que estes ou em problemas similares aparecem também em métodos TI.
Em primeiro lugar, valores críticos subjetivos são empregados quando comparamos o melhor modelo para
outros altos modelos (Guthery et al. 2005). Em segundo lugar, a incerteza de seleção do modelo surge
quando aplicamos um conjunto de modelos altamente restrito candidato (Eberhardt 2003) ou tentar delinear
um conjunto modelo de confiança (Whittingham et al. 2005). Em terceiro lugar, o viés de estimação de
parâmetros aparece quando critérios de informação desproporcionalmente favorecer modelos complexos
(Forster 2000). Além disso, existem outras questões que possam causar problemas ao usá-los, métodos em
ecologia e evolução. Por exemplo, o modelo de média sobre todos os modelos podem dar resultados incertos
se considerarmos interações, porque:
(1) aumento erros padrão de efeito principal estimativas de parâmetros em modelos com interações podem
levar de ajuste pobre e viés, pode o modelo de média parâmetro de estimativas dos efeitos principais em
relação aos seus valores em modelos sem interações.
(2) parâmetro principal efeito individual estima-se muitas vezes podem ser parcial na presença de interações
(Aiken e West 1991; ver Richards et al. 2010 para preocupações adicionais referentes média modelo). Além
disso, há advertências na literatura que AIC ou mesmo critérios de máxima verossimilhança como um todo
não pode ser segura utilizado no caso de modelos aninhados, modelos mistos, e correlacionado parâmetros
(Vaida e Blanchard 2005; Nakagawa et ai. 2007; Enfermaria 2008), todas as quais são comuns em nosso
campo. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de
dados com múltiplas preditores. Isto irá requerer uma compreensão das deficiências atualmente prevalentes
em protocolos stepwise e TI. Estas lacunas têm de ser testadas usando dados ecológicos e comportamentais,
que são caracterizadas por relativamente fracos tamanhos de efeito (Möller e Jennions 2002) e complexas
estruturas de covariância bastante diferentes daqueles de simulado de dados (Graham 2003). Para uma
tentativa pioneira, ver Murtaugh (2009), que, no entanto, usou um Stepwise em não algoritmo (algoritmo de
Efroymson) amplamente utilizado em ecologia comportamental. Quanto à teoria da informação, há , pelo
menos, quatro tarefas:
Primeiro e mais importante, o número de combinações de parâmetros possíveis, rapidamente aumenta com o
número de preditores e especialmente se interações são consideradas, o modelo conjunto de candidato tão
restrito, muitas vezes, ser bastante arbitrário, e as conclusões deles terão generalidade pouco (Eberhardt
2003). Portanto, precisamos testar se os resultados de exercícios de TI são tendenciosa, se usarmos todos os
subconjuntos do modelo completo, que é a abordagem atualmente mais frequentemente empregada. Em
segundo lugar, para além de AIC, o empenho do outros critérios de informação na escolha do modelo
também deve ser testado (Ward 2008), que até agora tem sido largamente evitando (Guthery et al. 2005).
Em terceiro lugar, quando se utiliza o método de TI para tomada de decisão entre modelos concorrentes, são
necessárias para quantificar a sensibilidade de conclusões a corte informação valores de critério que usamos
para encontrar o melhor modelo ou conjunto modelo (Guthery et al. 2005). Além disso, é importante para
estabelecer pontos de corte recomendados ou popularizar métodos para determinar o ponto de corte óptimo.
Finalmente, a validade do nivelamento modelo, na presença de necessidades termos de interação mais
atenção (Aiken e West 1991).
continuam a aparecer os problemas de língua... "pesquisa do abstrato do comportamento ecológico,
conclusões a partir desenhos" é levar o google a sério demais. E o pior é não parar para pensar no que está
colocando na sabatina... chega a ficar difícil de acreditar que realmente tenho lido o material, mesmo na
versão google, já que não tem como ler, entender alguma coisa e falar em desenhos como algo válido em
português de estatística. Estou pegando neste caso, mas é um problema muito repetido, em diversos alunos.
Apenas está um pouco mais extremo neste caso em particular.
Na realidade, neste caso aparentemente foi feita cópia e cola de boa parte da tradução, começando com o
primeiro parágrafo da introdução como exemplo. No mínimo, se não foi este o caso está com todos os
indicadores neste sentido.
[0.000] (IP:281473652568206 | 07:31:29 | 19:15:40 | 44:11 | 11.381)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Determinar a importância de uma variável independente, ou seja correlacionar com outro fator explicativo
(medir a contribuição de todos os preditores).
Observa se existem multicolinearidade entre as variáveis. Dicidir quais variáveis devem entrar no modelo. O
uso das variáveis para estabelecer o modelo compromete o tamanho do grau de liberdade do resíduo. Nesse
caso aumentando o tamanho aumenta-se o SQR então o uso do quadrado médio pode reduzir este problema.
ver pergunta. Não tenho idéia de qual relação você acha que esta resposta tem com a pergunta.
[4.400] (IP:281473657748551 | 21:51:33 | 23:22:08 | 30:35 | 1.601)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
Na pesquisa ecológica e comportamental dois métodos são utilizados. A abordagem indutiva, envolvendo
generalizações de modelos no conjunto de dados e o método hipotético-dedutivo (H-D), criando uma
hipótese nula com base em informações disponíveis. Esses dois métodos são complementares. O método
indutivo de um conjunto de dados, através da observação de dados é necessário antes da aplicação do
método H-D. Na ecologia a dificuldade de atingir um controle experimental parcial dar uma importância à
identificação de modelos correlativos. Na pesquisa biológica, diante do grande número de variáveis que
influencia a variável dependente, tratar todos os parâmetros na mesma forma sem distinção de suas
importâncias é um problema. Primeiro, o tamanho da amostra é restrito, influencia na complexidade do
modelo e na precisão da estimativa dos parâmetros. Porém a utilização de amostra grande modifica os
resultados, aumentando a estimativa do parâmetro, através da uma maior ou menor estimativa. Segundo,
muitos modelos na ecologia incluem condições de interação, os efeitos principais das variáveis não podem
ser analisados separadamente, porque tem que analisar das interações presentes no modelo. Podem existir
interações com efeito fraco no modelo.
O método utilizado para interações e efeitos fracos é o modelo stepwise. Esse modelo obtém um modelo
final sem interações fracas, não significativas, e com interações fortes. Na regressão stepwise, pares de
modelos aninhados são comparados até nenhum termo poder ser adicionado ou removido. Nessa regressão
utiliza o teste de hipótese nula e teste de significância. Um método alternativo é a abordagem da teoria da
informação (IT), neste método o ajuste do modelo e o número de parâmetros são calculados para cada
modelo. O mais popular desde método na ecologia é o critério de informação de Akaike (AIC), nesse
critério evita o uso do teste da hipótese nula e valores de significância. Vários autores têm discutido o uso da
metodologia de stepwise e teoria da informação, porém na ecologia ainda tem o predomínio da regressão.
O artigo faz uma revisão das três principais deficiências na abordagem stepwise, mostrando também que o
método da teoria da informação tem vantagem superior ao stepwise. Os autores ressaltam inicialmente as
diferenças existentes entre o teste da hipótese nula e teoria de informação. O teste da hipótese nula avalia a
probabilidade dos dados fornecidos, enquanto a teoria da informação a probabilidade de um ou mais
modelos com bases nos dados. Complementam citanda a possibilidade de fazer uma regressão stepwise
usando critério de informação, uma abordagem simplificando o modelo stepwise e teoria da informação.
A regressão stepwise usa o teste de hipótese nula e valores críticos P, alguns problemas podem ser
identificados nesse método, os termos não estão incluídos no modelo final assumem como efeito zero, na
utilização de valores críticos, os parâmetros que excedem esses valores não são considerados e geralmente
não existe efeito zero em conjunto de dados naturais. A teoria da informação não utiliza valores de
significância críticos, porém após a escolha do melhor modelo é verificado se realmente esse modelo explica
as variáveis. Se for o melhor será calculado a estimativa de parâmetros do modelo. Os autores descrevem os
dois métodos utilizados para avaliar a escolha do modelo. Na abordagem da teoria de informação costumam
utilizar os limites dos valores de critérios, porém esse limite necessita utilizar testes e tratamentos para cada
método, para serem usados no processo de decisão.
Umas das principais críticas à regressão stepwise é a instabilidade do modelo final e a falta de generalização
dos resultados. Isso ocorre devido ao resultado não poder ser representativo e diferentes modelos finais
podem ser selecionados, por causa das pequenas diferenças nos dados. Isto ocorre também com pequeno
conjunto de dados e variáveis inter- relacionados. Mesmo com uma grande amostra dos dados a regressão
stepwise pode perder variáveis verdadeiras e identificar significância nas variáveis, sem ter significância.
Uma alternativa para solucionar o problema da regressão stepwise seria calcular as condições dentro e fora
do modelo final, para reduzir as consequências de um modelo incerto e sem generalização.
A teoria da informação avalia todo o modelo em um determinado conjunto de dados, os dados são
representativos para todo o conjunto do modelo. Esse método é possível identificar o modelo e avaliar o
quanto esse modelo difere dos outros. No método de regressão stepwise e na teoria de informação é
importante decidir as variáveis independentes usadas.
Independente da maneira como os dados serão analisados, primeiro toma decisões baseadas na teoria, em
informações prévias, depois diferencia qual o método será utilizado. A regressão stepwise avalia as variáveis
independetes e interações em diferentes combinações. Na teoria da informação, no entanto, compara
combinações de dados de variáveis independentes e interações, nesse método o pesquisador seleciona o
conjunto de modelos de dados de todas as possíveis combinações de parâmetros.
Nos modelos ecológicos os efeitos principais e suas interações possibilitam milhares de combinações de
parâmetros. As condições de interação levam a um número grande de combinações. Como a utilização de
um número pequeno de combinações pode levar a escolhas e interpretação errôneas, o correto é considerar
todas as possíveis combinações.
Na regressõa stepwise, a possibilidade de simplificar o nosso modelo baseado na estimativa de um conjunto
de dados, aumenta a probabilidade do tamanho do efeito ser superestimado no modelo final, isso ocorre em
muitos estudos biológicos. Testar o modelo final sobre um conjunto de dados independentes ou realizar uma
nova amostragem dos dados seria um solução para diminuir a escolha errada de um modelo final. A teoria
da informação também não está isenta da seleção de modelo tendenciosa, por comparar conjunto de modelos
com base em um único critério de informação. Qualquer inferência correlativa a partir de um único conjunto
de dados é limitada a esse conjunto de dados.
As estimativas de parâmetros a partir de abordagem de modelo podem ser imprecisas ou tendenciosas, então
esta abordagem não pode ser generalizada na ecologia e comportamento. Alternativas podem ser utilizadas
para ajustar o modelo, simplificação do modelo e seleção de modelo. A simplificação do modelo (regressão
stepwise) e a seleção de modelo (método da teoria de informação) vêm sido discutidos como métodos
alternativos de modelo de parâmetro múltiplos.
No artigo foram discutidas as três falhas da regressão stepwise, valores críticos subjetivos, incerteza do
modelo e estimativa de parâmetro. Os autores sugerem a realização de estudos adicionais para desenvolver o
método da teoria da informação para análise de dados com múltiplas variáveis. As falhas nos métodos
identificadas no artigo precisam ser testadas usando dados ecológicos e comportamentais.
ok
[2.200] (IP:281473657748551 | 21:52:02 | 23:22:21 | 30:19 | 1.26)
Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão
linear múltipla.
As vantagens do procedimento stepwise são: a possibilidade de testar e retestar as variáveis em diferentes
combinações, possibilitando também avaliar se a variáveis que entrou ou saiu apresentou maior ou menor
efeito em relação às outras variáveis e outras combinações, podendo garantir uma melhor confiabilidade e
após o critério de avaliação escolhido permite retirar as variáveis que não tiveram efeito significativo.
As desvantagens são as limitações teóricas, testa e retesta as variáveis dependendo da recomendação dos
níveis de F, em teste com um número grande de variáveis dificulta a interpretação do modelo. Aumenta a
chance de erro no conjunto de teste (erro acumulativo), devido ao aumento do número de teste sequencial,
tendo cada teste sua chance de erro. Possibilidade de ter regressões diferentes para um mesmo conjunto de
dados, escolha de uma variável pode modificar a interprestação dos resultados.
ok
[2.200] (IP:281473657748551 | 21:52:18 | 23:22:34 | 30:16 | 10.716)
Discuta os principais caminhos para validação de modelos, e sua implicação na regressão.
Para validação de modelos podem ser usados dois caminhos: o primeiro seria fazer um novo experimento,
para avaliar a confiabilidade do modelo, testar se as estimativas do modelo selecionado explica realmente o
que acontecerá nesse novo experimento, esse método garante uma nova situação experimental (uma nova
variação do acaso), porém tem um alto custo; outro caminho seria na implantação do experimento, separar
um bloco para que os dados desse bloco sejam analisados separadamente (os dados desse bloco não
participam da determinação do coeficiente e no modelo), com o modelo selecionado será realizado um teste
para correlacionar se as estimativas do modelo correspondem ao que acontecerá com o novo conjunto de
dados, deve ser verificado o modelo com os dados separados e com os resultados dos novos dados, a
desvantagem desse método são as mesmas condições experimentais do conjunto de dados separados ao
restante do tratamento que gerou o modelo. Se existir correlação entre o modelo e os novos dados, o modelo
explica o que acontece com o novo conjunto de dados, o modelo pode ser generalizado para a população.
Porém se não existir correlação com o novo conjunto de dados, o modelo é especifico para as amostras,
então esse modelo não pode ser generalizado para explicar o que acontece na população.
ok
[1.000] (IP:281473657748551 | 21:52:32 | 23:38:23 | 45:51 | 10.019)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Os critérios para seleção da regressão linear podem ser o coeficiente de determinação R² e R² corrigido, F e
nível de significância. O R² varia entre zero (0) e um (1), valor próximo de 1, a regressão terá maior
validade, tendo um perfeito ajustamento. O R² corrigido corrige o efeito direto do número de parâmetros.
deixou vários de fora, como os de teoria de informação..
[3.500] (IP:281473654487006 | 14:29:32 | 23:55:13 | 25:41 | 34.405)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
O artigo de Hegyi e Garamszegi, aponta que na pesquisa ecológica e comportamental, tirar conclusões
confiáveis a partir de modelos estatísticos com indicadores múltiplos é geralmente difícil se todos os
indicadores estão simultaneamente no modelo. Assim, como um método de modelagem mais recente
mostram o uso de informação teórica como um substituto para regressão stepwise em ecologia e
comportamento. Os autores fazem críticas contra regressão stepwise onde a instabilidade no modelo final e a
resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam
somente uma pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o
resultado não pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser
selecionados por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um
conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e
comportamento. Estudos de simulação têm mostrado que, embora com grande tamanho de experimento e
sem levar em conta os protocolos específicos, regressão stepwise pode enganar indicadores verdadeiros e
identificar significância para indicadores sem importância. Se detectarmos instabilidade com referência aos
indicadores no modelo final, isto também poderá implicar que existem combinações de outros parâmetros
múltiplos que possuem um ajuste similar aos dados (isto é, modelo incerto), nesse caso, a elaboração de
todas as conclusões de um único modelo final é enganosa. Assim, os autores argumentam ainda, que em
determinadas circunstâncias, a abordagem de informação teórica pode ser sensível às questões subjetivas de
valores, a incerteza do modelo, e a influência de estimativa do parâmetro também. Apontam áreas em que
outros testes poderiam se desenvolver e melhorar o desempenho dos métodos de informação teórica e levar a
inferências em ecologia comportamental.
"may not be representative" é melhor traduzido como "pode não ser representativo" do que como "não pode
ser representativo". O resumo ficou bastante resumido, mas deu uma idéia bem geral do artigo. Só não acho
que dê para considerar um bom entendimento, em particular das limitações do stepwise
[0.000] (IP:0 | 14:32:11 | --:--:-- | --:-- | ------ )
Discuta o significado e possíveis implicações do AIC
Em branco
[0.000] (IP:0 | 14:32:58 | --:--:-- | --:-- | ------ )
Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão
linear múltipla.
Em branco
[0.000] (IP:281473654487006 | 14:34:49 | 23:55:59 | 21:10 | 24.232)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão
linear múltipla.
As técnicas adotadas para a seleção podem ocasionar uma maior chance do erro tipo I, assim, a seleção do
modelo mais adequado deve ser escolhida de forma a demonstrar o que realmente é importante. Para tanto,
temos que encontrar a regressão que explique o máximo, a maior parte de variação, com o mínimo de dados.
O que podemos fazer através dos seguintes passos: especificar o modelo máximo, com todas as variáveis
que entram no modelo, considerando as co-linearidades existentes e eliminando-as; especificar o critério de
escolha, como escolher, qual será o critério em que será escolhido o melhor modelo; especificar a estratégia
de escolha, como testar o modelo; conduzir a análise e avaliar a confiabilidade do modelo escolhido.
você tem certeza de que esta era a pergunta que estava tentando responder? Porque sua resposta está em
termos muito mais gerais e vagos do que seria possivelmente adequado
[0.500] (IP:281473826427103 | 16:59:00 | 23:50:23 | 51:23 | 4.731)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
OBS: PARA A DETERMINAÇÃO DO MODELO (COEFICIENTE DETERMINAÇÃO), PORÉM O
COEFICIENTE DE DETERMINAÇÃO É SENSÍVEL AO NÚMERO DE PARÂMETROS DO MODELO,
E É IMPORTANTE FAZER SUA CORREÇÃO.
A RLM é derivada do modelo linear generalizado, com mais variáveis. Assim, é preciso avaliar a
normalidade do acaso, e se os resíduos são independentes, obedecendo as premissas básicas do MLG. Para a
obtenção do modelo mais adequado ou de grande confiabilidade, é obrigação tomar cuidado para não
cometer o erro tipo I, tomando o resíduo mais próximo de zero. Sendo necessário adotar algumas técnicas
para evitar que isto ocorra, baseados no modelo único e no modelo alinhado. OBS: O R2 ajustado auxilia na
escolha de modelo sem variáveis independentes redundantes (entre modelos não-aninhados).
Critérios: relacionado com as escolhas das variáveis, tendo como base R2, Fs e nível de significância entre
outros parâmetros.
Há diferentes técnicas para seleção das variáveis que irão entrar no modelo.
1º- Modelo único: neste caso todas as variáveis avaliadas onde se obtém a que tem a soma de quadrados
menor do resíduo .
2º Modelos aninhados (modelo está dentro do outro e comparação do valor de F): onde o a partir do modelo
completo as variáveis começam a ser observadas. Obs: R2ajustado auxilia na escolha de modelo sem
variáveis independentes redundantes (entre modelos não aninhados).
Estratégias: é para descobrir qual o processo utilizado na escolha do modelo em questão.
1º Estratégia de testar todas as regressões possíveis: é o caminho que ver todas as possibilidades, onde a
chance de errar em 100 testes são de 5 testes errados, tornando mais seguro, porém é inviável, pois depende
do número de combinações, geralmente é grande.
2º Estratégia de eliminação para trás: começa com todas as variáveis e vai retirando aquelas menos
importantes por vez, até que se o tenha o mínimo possível de alteração.
3º Estratégia de seleção para a frente: começa com nada e vai selecionando os que serão adicionados, até que
não haja, ou o mínimo possível de alteração.
4º Stepwise: começa com um passo para frente, e para cada passo para frente pode-se retirar uma variáveis,
checando o numero de combinações, assim chegará a um modelo mais próximo da realidade. Pois Os
programas selecionam valores de probabilidade(recomenda-se usar para entrar 0,99999 ou 1 dependendo da
situação e para sair 0,0000001 ou de preferência 0.)
Escolheu o modelo, se faz a análise tomando cuidado para não cometer o erro tipo I e avaliando a sua
confiança.
a pergunta foi sobre os critérios, não estratégias. No entanto, apenas na primeira frase fala neles, muito de
passagem, e sem explicar quase nada sobre a sua afirmativa
[2.000] (IP:281473826427103 | 16:59:28 | 23:50:45 | 51:17 | 2.552)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
Um método cientifico se baseia em observações e previsões baseadas nas hipóteses. Mas quando há um teste
de hipótese baseado em hipótese nula e alternativa, é o tradicional “hipotético-dedutivo”, e quando
estimamos parâmetros de um modelo a partir dos dados, estamos fazendo indução.
As hipóteses têm efeitos distintos. Não é possível testar hipóteses como efeitos redundantes em algum grau.
Com a indução é possível incorporar efeitos múltiplos numa hipótese complexa.
De forma geral, a hipótese nula é uma hipótese estatística, que tentamos refutar, ou melhor, falsificar.
Idealmente, deve haver apenas uma hipótese alternativa, que seria então aceita.
Se houver mais de uma hipótese, estas devem fazer previsões distintas sobre os resultados, permitindo
falsificar todas menos a verdadeira. Em geral, são necessários novos experimentos, com delineamentos
distintos, para distinguir cada uma (cada experimento com uma hipótese nula).
Em ecologia e evolução, onde muitas vezes é impossível de alcançar até mesmo um controle parcial
experimental de fatores, e uma identificação padrão.
Em tais estudos, independentemente da sua importância é problemática por duas razões principais:
Em primeiro lugar, o tamanho da amostra é normalmente limitada, o que dá origem a um sério compromisso
entre a complexidade do modelo e a exatidão na estimativa dos parâmetros para tais estudos de ecologia.
Hipóteses são explicações possíveis para fenômenos específicos. Podem ser geradas a partir de teorias ou
conhecimento empírico, mas para serem científicas precisam ser testáveis com um método científico. Em
primeiro lugar, o tamanho da amostra é normalmente limitada, o que dá origem a um sério compromisso
entre a complexidade do modelo e a exatidão na estimativa dos parâmetros para tais estudos de ecologia.
Em segundo lugar, muitos modelos em ecologia comportamental incluem termos de interação. Na ecologia
os seres vivos mantêm entre si vários tipos de interações ecológicas que podem ser consideradas como sendo
harmônicas ou positivas ou desarmônicas ou negativas.As interações harmônicas ou positivas (+) são
aquelas onde não há prejuízo para as espécies participantes e vantagem para pelo menos uma delas. As
interações desarmônicas ou negativas (-) são aquelas onde pelo menos uma das espécies participantes é
prejudicada, podendo existir benefício para uma delas. Dentro de cada um dos tipos de interações
mencionados, ainda podemos classificá-las em interações intra-específicas e interespecíficas, conforme
ocorram entre indivíduos da mesma espécie ou entre espécies diferentes respectivamente.
Como conseqüência, os pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes,
precisa remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de
modelos parciais do que o modelo completo.
O método clássico de lidar com os efeitos e interações fracas é a simplificação do modelo stepwise, onde o
mesmo não é muito bom para tirar efeitos pouco importantes do modelo, o que não ajuda a entender o que
acontece ou melhor não é muito bom em descartar/não incluir variáveis.
Uma solução relativamente recentemente proposta alternativa é a teoria da informação, onde se tenta
equilibrar e o ajustar com o modelo e do número de variáveis.
O mais popular desses descritores em ecologia é o AIC, onde podemos evitar completamente o teste da
hipótese nula e à utilização de valores de significância.
Algumas discussões devido a estatística para os para os ecologistas sobre os problemas da ecologia, e onde
os dados ainda analisados por REGRESSÃO, onde o TI pode evitar tais problemas.
Como atenuar o problema dentro da metodologia de regressão:
NHT olha para a probabilidade de os dados fornecidos a hipótese nula focal.
TI avalia a probabilidade de um ou mais modelos (ou hipóteses) com base nos dados focais. Onde na
verdade não é uma verdadeira alternativa à regressão (uma abordagem de simplificação do modelo). Na
regressão geralmente utiliza NHT e o valor crítico de significância. TI não significa necessariamente fazer
uso, tais como valores críticos de significância.
Depois de encontrar o melhor modelo, que normalmente querem ver se é realmente o melhor.
Primeiro, pode-se especificar valores de limiar de critérios de informação acima do qual dois modelos são
considerados, Se a diferença entre o melhor e o segundo melhor modelo exceder este limite, consideramos o
melhor modelo de como realmente o melhor.
Segundo, podemos comparar o melhor modelo para outros modelos aninhados no conjunto por meio de
testes de razão de verossimilhança, que envolvem NHT clássica e valores críticos de significância.
Uma segunda crítica importante contra regressão é a instabilidade do modelo final. Procede regressão
stepwise através de modelos aninhados e, por conseguinte, testa apenas uma pequena fracção de todos os
submodelos possíveis do modelo completo. Isto implica que o resultado pode não ser representativa do
espaço do modelo todo e muito diferentes modelos finais, talvez até por diferenças pequenas.
Estes problemas são mais graves em caso de pequenos conjuntos de dados. Estudos de simulação
demonstraram que, mesmo com grandes conjuntos de dados , a regressão pode perder dados verdadeiros e
identificar dados sem importância, podendo implicar em múltiplas combinações (isto é, a incerteza modelo).
Não existe uma solução real para o problema da incerteza modelo, mas quando dividimos os dados
dividindo ou fazemos ensaios repetidos em um conjunto de dados independente pode reforçar a generalidade
ou autenticidade do modelo.
A teoria da informação, por outro lado, avalia todos os modelos de um conjunto previamente determinado
candidato modelo, de modo que seus resultados são necessariamente representativo do conjunto modelo
inteiro.
Em regressão, é possível simplificar o nosso modelo com base nas estimativas que recebemos do conjunto
de dados. Isto implica que estamos ajustando o modelo aos nossos dados, e esta prática aumenta a
probabilidade de que tamanhos de efeito superestimadas aparecem no modelo final.
Quando confrontados muitas variáveis, a solução mais simples é considerar todos eles na análise,
independentemente da sua importância.
Duas alternativas para ajuste do modelo são a redução do modelo e seleção de modelos. N simplificação,
adicionar ou remover os parâmetros individuais com base no desempenho dos parâmetros.
Na seleção do modelo, como um método de IT, estabelece um conjunto de combinações de parâmetros. Pois
métodos de regressão Stepwise e TI têm sido freqüentemente discutido como métodos alternativos de
modelagem parâmetro com muitas variáveis.
Três carências (valores críticos subjetivo, a incerteza do modelo e a estimação de parâmetros), bem
conhecidas de regressão para ser automaticamente resolvidos simplesmente aplicando a teoria da
informação.
Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados
com indicadores múltiplos. Isso exigirá uma compreensão das deficiências atualmente prevalentes em
stepwise e TI protocolos. Estas lacunas têm de ser testados utilizando dados ecológicos e comportamentais,
que são caracterizadas por tamanhos de efeito relativamente fraco.
Para isso :
É preciso testar se os resultados de exercícios de TI são tendenciosos, se usarmos todos os subconjuntos do
modelo completo.
Além de AIC, o desempenho de outros critérios de informação na seleção de modelo deve também ser
testado.
No método de TI para tomada de decisão entre modelos concorrentes, é necessário quantificar a
sensibilidade de conclusões, ou melhor, observar o que interessa.
a escrita está tão truncada, particularmente no início, que fica difícil verificar o entendimento do artigo. de
quebra tem uns zig-zagues pesados, também mais no início. por exemplo, verifique o parágrafo que inicia
com em primeiro lugar. embora a discussão da modelagem em ecologia seja importante, não era o foco
essencial do trabalo, a meu ver, mas foi onde concentrou a maior parte da resposta.
[2.200] (IP:281473826427103 | 16:59:51 | 22:28:32 | 28:41 | 3.216)
Discuta o significado e possíveis implicações do AIC
O Critério de informação de Akaike (AIC) foi desenvolvido por Hirotugu Akaike em 1974, onde a partir da
distância ou informação, onde esta distância é uma medida de discrepância entre as linhas do modelo
verdadeiro e o modelo aproximado, onde o mesmo, penaliza os modelos em função do número de
parâmetros, e também usado como um procedimento para identificação de modelo estatístico ou modelo
misto. Sendo também uma estatística freqüentemente utilizada para a escolha da especificação ótima de uma
equação de regressão no caso de alternativas não aninhadas isso quando não existem variáveis
independentes comuns aos dois.
O critério de Akaike (AIC) é definido como:
AIC = 2 x (k-L) / N
L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados
(incluindo a constante).
Quanto menor, mais o modelo explica com o menor custo em número de variáveis.
Implicações:
• Na escolha do modelo de regressão (quem tiver o menor AIC apresentasse como melhor modelo.)
• Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor, mais o
modelo explica com o menor custo (uso de poucas variáveis.)
• Explica a ligação entre as variáveis e com o número variáveis que é utilizado ou melhor quantidade de
variáveis que entra com a quantidade de dados explicados simultaneamente.
ok. boa descrição do AIC.
[2.000] (IP:281473826427103 | 17:00:13 | 22:28:52 | 28:39 | 19.285)
Discuta os principais caminhos para validação de modelos, e sua implicação na regressão.
Os dois caminhos para validação são definidos antes da análise e depois da análise.
1- ANTES DA ANÁLISE:
• Cuidados com coleta de dados, que seja bem feita e segura (real);
• Lembrar de checar a colinearidade;
• Atender as premissas da análise de variância;
2- DEPOIS DA ANÁLISE:
a) ESTUDO COMFIRMATÓRIO:
Quando existem recursos financeiros para execução do projeto, a validação pode ser feita com outro
experimento ao mesmo tempo do experimento do que gerou a regressão, sendo também aplicada a regressão
para estimar os resultados deste experimento. Uma alternativa mais econômica é a realização de um bloco
extra, que também vai gerar uma regressão. Assim como no experimento extra o bloco extra não participa da
geração da regressão, sendo que a regressão apenas para estimar os dados.
b) ANÁLISE EM AMOSTRA DIVIDIDA:
Utiliza-se parte dos dados obtidos aleatoriamente que ficaram fora da análise para calcular um modelo de
regressão, para comprovar se o mesmo modelo pode ser usado para esses dados aleatórios, verificando o
comportamento dos mesmos é similar. Mas quando não explica os dados aleatórios, outro o modelo não
presta.
A ANÁLISE É FEITA PARA VERIFICAR A CONFIABILIDADE.
a parte de antes da análise não pode ser considerada validação propriamente dita, embora seja importante
para que o modelo seja válido.
[2.200] (IP:281474038335831 | 20:08:29 | 21:45:33 | 37:04 | 22.78)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o
mais adequado".
O coeficiente de determinação, conhecido por R2, representa a proporção da variação da variável
dependente (Y) que é explicada pela variação da variável independente (x). O poder explicativo dos modelos
de estimação do valor intrínseco é frequentemente mensurado pelo coeficiente de determinação de
regressões. Como os valores de R2 se elevam com o aumento no número de variáveis no modelo de
regressão, deve-se efetuar uma correção para minimizar as chances de cometer um equívoco. Neste caso,
existe um R2 corrigido (R2c) que tem por finalidade corrigir o R2 não corrigido (R2nc), retirando o efeito
decorrente do aumento do número de variáveis no modelo de regressão. Se o valor do R2c for superior ao
R2nc, logo a variável adicionada fornece respaldos para uma explicação mais coerente. Caso contrário, a
variável adicionada não contribui para a explicação do modelo. O R2c permite trabalhar com as variáveis
que realmente contribuem para uma explicação adequada.
excelente
[2.000] (IP:281474038335831 | 20:09:14 | 21:45:58 | 36:44 | 19.68)
Discuta o significado e possíveis implicações do AIC
O AIC (Critério de Informação de Akaike) é baseado na teoria de informação, é uma forma alternativa para
escolher o melhor modelo de regressão, onde, o melhor modelo é aquele que apresentar o menor índice de
AIC. Teoricamente esse índice avalia ao mesmo tempo a qualidade da informação, qualidade da ligação
entre as variáveis com o número de variáveis que é utilizada. Quanto menor ele é, mais explica com menos
variáveis. Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto
menor, mais o modelo explica com o menor custo em número de variáveis.
ok
[2.200] (IP:281474038335831 | 20:09:40 | 21:46:41 | 37:01 | 1.964)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla
Testar Todas as Regressões Possíveis – este é o único algoritmo que garante uma solução para qualquer
conjunto de variáveis, porém, a depender do número de variáveis que compõem o modelo haverá um
número de combinações diferentes, quanto mais variáveis maior será o número de combinações, e viceversa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo
que a cada teste realizado acarretará um amento de chances de cometer o erro tipo1.
Eliminação Para Trás – o processo inicia-se com a regressão completa (todas as p variáveis) e em cada
estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de regressão é definida
por sua suposta importância, iniciando a eliminação pela de menor importância. Todos os modelos são
testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida,
elimina-se a variável que apresentou menor efeito com sua retirada. Uma vez retirada a variável não poderá
ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que
explicará tão bem quanto a equação completa.
Seleção Para Frente – possui o mesmo principio do método de eliminação para trás, só que este é realizado
em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas progressivamente no modelo,
introduzindo as que supostamente são mais importantes, uma de cada vez, formando diferentes modelos e de
regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após a
verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado.
Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores resultados.
O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de
eliminação para trás, retirando uma das variáveis já presente. Neste modelo testa todas as variáveis
eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas podem ser
novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá persistir até o que
não ocorra nenhuma modificação. Por conter mais variáveis este modelo possui maior confiabilidade.
Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o
erro tipo 1 aumentam.
Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações do Stepwise
(forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário.
ok
[3.500] (IP:281474038335831 | 20:10:06 | 21:47:03 | 36:57 | 20.625)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
Nas pesquisas ecológicas e comportamentais faz-se uso de modelos estatísticos com múltiplos preditores.
Para atribuir maior confiabilidade as conclusões, a partir destes modelos, algumas estratégias são utilizadas
como o uso da regressão stepwise, porém recentemente algumas críticas têm comprometido a utilização
deste modelo. Neste caso tem sido proposto o uso da teoria da informação. A indução e a dedução são
caminhos complementares para o conhecimento ecológico e comportamental, para que possam ser
identificados os fatores que estão interferindo na variável independente. Quando os parâmetros que compõe
os modelos estatísticos são tratados de forma igual, geram alguns problemas com relação à complexidade
dos modelos e as estimativas dos parâmetros e, considerando os estudos ecológicos e comportamentais,
alguns termos podem apresentar interações e outros não, o que dificulta a explicação do fenômeno. Essas
interações poderão ter efeitos fracos ou fortes, geralmente são efeitos fracos, mas estes poderão promover
erros nas estimativas. Neste caso, os pesquisadores não poderão utilizar o modelo completo. Para eliminação
desses efeitos fracos é a simplificação do modelo stepwise. Porém o modelo stepwise é baseado nos testes
de hipótese nula e em valores P críticos, que considera que os termos não incluídos no modelo final não
possuam efeitos significativos. Através de uma comparação entre os modelos, a teoria da informação, obtém
o melhor modelo, a comparação se dá por meio da de valores de critério de informação, um dos mais usados
é o AIC (Critério de Informação de Akaike), e teste de razão de verossimilhança, mas deve-se considerar os
limites que podem produzir incertezas. O modelo stepwise gera instabilidade por não avaliar adequadamente
os preditores podendo atribuir significado ao que tem e ocasionar perda de significado ao que tem, com isso
o modelo final pode apresentar significado falso. Por outro lado, a teoria da informação avalia o conjunto de
modelos como um todo, de modo que seu resultado seja representativo. Como em pesquisas ecológicas e
comportamentais vários termos possuem efeitos principais, neste caso a teoria da informação se adéqua. A
tendência de erro na seleção é inerente ao modelo stepwise, neste caso a teoria da informação procura evitar
esses vieses. Mas a tória da informação não esta livre do desses vieses, o que demonstra a necessidade de
estudos para corrigir essa deficiência do modelo. De modo geral, a teoria da informação é mais precisa que o
modelo stepwise, mas precisa ser estudada e aprimorada para atender as exigências das pesquisas ecológicas
e comportamentais.
ok, gostei de ter resumido bastante, mas alguns pontos não ficaram claros, em particular quanto à
desvantagem do stepwise
[4.400] (IP:281473654487006 | 16:06:25 | 23:51:22 | 44:57 | 4.024)
Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha
um bom entendimento do artigo.
O artigo intitulado por “Usando a teoria da informação como um substituto para regressão stepwise em
ecologia e comportamento” faz uma discussão comparativa entre o método TI e o NHT-stepwise. Aborda
sobre as três falhas de regressão; os valores críticos subjetivos, a incerteza do modelo e a influência da
estimativa do parâmetro, e argumenta que em certas circunstancias a abordagem do método TI também pode
ser sensível a essas questões. Aponta áreas em que outros testes poderiam se desenvolver e melhorar os
métodos TI. A principio o autor fala que o acúmulo de conhecimento em ecologia e comportamento se dá
através de uma abordagem intuitiva e/ou de um método hipotético-dedutivo, onde esses dois tem papéis
complementares no conhecimento. Relata que nos estudos em ecologia e comportamento o tratamento de
todos os parâmetros da mesma forma é problemático pelo tamanho da amostra que muitas vezes é limitado,
dando origem a um equilíbrio entre a complexidade do modelo e a exatidão na estimativa dos parâmetros. O
segundo problema apontado é que muitos modelos em ecologia comportamental incluem termos de
interação, onde se uma interação estiver presente no modelo, os principais efeitos das variáveis
correspondentes não podem ser prontamente interpretado porque o seu significado é diferente do que um
sem interação. Na presença de interação fraca, as estimativas de efeito principais terão grandes erros padrão,
e eles poderão ser tendenciosos, a menos que condições muito restritivas sejam satisfeitas. O método
clássico de lidar com os efeitos e interações fracas é a simplificação do modelo stepwise. Este processo
obtém um modelo final que não contém qualquer termo interação fraca e contém variável que são fortes
preditores ou envolvido em uma forte interação. Em ecologia o critério descritor mais utitilizado é o AIC,
onde ao aplicar a teoria da informação, pode-se evitar completamente o teste da hipótese nula e à utilização
de valores de significância. Muitos autores em ecologia recomendam não usar regressão. No campo de
ecologia comportamental, os maiores problemas são de multi-preditores ainda analisados por regressão. Em
seguida o autor fala que a regressão stepwise geralmente usa NHT (teste de hipótese de nulidade) e valores
críticos de P. Existe um problema geral com o uso de valores críticos de P. Parâmetros que excederam
marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P
possam surgir devido a múltiplas razões imprevisíveis. Um outro problema com o (NHT) é que geralmente
não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por experimentos
aleatorizados e observações e contabilização de dados e probalizados. Em vez de assumir efeito zero, é
possível gerar estimativas atuais pela reintegração dos termos removidos dentro do modelo final um a um. A
diferença importante entre este processo e o modelo completo formado é que o efeito do tamanho no modelo
completo é geralmente inexato e incerto por existirem muitos termos de “ruídos” no modelo. A teoria da
informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância.
Existem dois métodos para decidir se o melhor modelo é de fato o melhor. Primeiro, podemos especificar
valores limites de critérios de informação acima do qual dois modelos são considerados para diferenciar na
adequação. Segundo, há uma comparação do melhor modelo para outros modelos agrupados nos candidatos
obtidos por meio de teste razão de probabilidade, o qual envolve NHT clássico e valores críticos de P.
Usando o método TI para simplificação de modelo, como um substituto para regressão stepwise há uma
forçação a usar valores limites e, portanto, a introdução de incertezas. Não existe um acordo entre os
critérios para delimitar o melhor conjunto de modelos, e diferentes métodos. Em outro ponto o autor crítica a
regressão stepwise devido a instabilidade no modelo final resultar na falta de generalidade. A Regressão
stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os
submodelos possíveis do modelo completo. Este problema é muito sério no caso de um conjunto de dados
pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. A
informação teórica, por outro lado, avalia todos os modelos em um conjunto modelo candidato previamente
determinado, assim estes resultados necessariamente representativos de todo conjunto modelo. Usando o
critério de informação, é possível identificar um modelo mais adequado para os dados e para o conjunto de
dados, e também é possível avaliar quanto este modelo difere em adequabilidade a partir de outros modelos.
A informação teórica avalia a probabilidade do modelo estatístico especifico dado os dados. Assim, a
questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula.
Regressão stepwise avalia automaticamente as variáveis independentes e as interações em diferentes
combinações. O número de combinações de parâmetros automaticamente encobertos pelo processo stepwise
é limitado, mas mesmo estes são “escolhidos” pelo programa e o pesquisador não possui decisão para fazer
este passo. No método IT, entretanto, o pesquisador seleciona conjunto do modelo candidato a partir de
todas as combinações de parâmetros possíveis, o número do qual pode ser muito grande. Em regressão, é
possível simplificar o nosso modelo baseado na estimativas que começa a partir do conjunto de dados. Isto
implica que temos o ajuste do modelo aos nossos dados, e esta prática aumenta a probabilidade de que os
tamanhos de efeito superestimados aparecem no modelo final. A teoria da informação, por outro lado, tem
sido proposto para evitar o "viés de seleção modelo" inerente a stepwise protocolos por comparação de um
conjunto fixo de modelos ao mesmo tempo, com base no critério de informação único. Portanto, o resultado
da seleção do modelo reflete o candidato todo conjunto do modelo e do conjunto candidato não é ajustado
para os dados. Porém, a informação teoria não é completamente livre de qualquer viés na seleção do modelo.
Como conclusões o autor relata que quando confrontados com múltiplas variáveis preditoras, a mais simples
solução é considerar todos eles na análise, independentemente da sua importância. As estimativas dos
parâmetros do modelo completo, apresentam abordagem muitas vezes imprecisas ou tendenciosas, por esta
abordagem não poder ser geralmente aplicado na ecologia e comportamento. A seleção do modelo, tal como
um método de IT, estabelece um conjunto de combinações de parâmetros e classifica estes com base na
informação, os critérios ajustam ao modelo equilíbrio e complexidade. Estudos adicionais são urgentemente
necessários para desenvolver o método de TI para a análise de dados com preditores múltiplos. Isto irá
requerer uma compreensão das deficiências atualmente prevalentes em stepwise e nos protocolos TI. Estas
lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são caracterizados
relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante diferentes
daqueles de dados simulados.
Quanto à teoria da informação, existe, no minímo, quatro aspectos. A principio e sendo mais importante, é
que o número de combinações de parâmetros possíveis rapidamente aumenta com o número de preditores,
especialmente se interações são consideradas, modelo de candidato tão restrito aos conjuntos, muitas vezes,
são bastante arbitrários, e as conclusões deles terão pouca generalidade. Segundo, além do AIC, o
desempenho de outros critérios de informação na seleção de modelo também devem ser testados, que até
agora tem sido largamente evitado. Terceiro aspecto, quando se utiliza o método de TI para tomada de
decisão entre modelos concorrentes, ele é necessário para quantificar a sensibilidade de conclusões a corte
de valores de informação de critério que são usados para encontrar o melhor modelo ou o conjunto de
modelos. Outro aspecto é estabelecer pontos de corte recomendados ou popularizar métodos para determinar
o ponto ótimo de corte. E por fim, para a validade do nivelamento do modelo, é necessário mais atenção,
quando há interação de termos.
excelente, mas parece que estava com raiva do professor que tinha de corrigir. Uns parágrafos teriam caído
muito bem, para simplificar a leitura
[2.000] (IP:281473654487006 | 16:07:29 | 23:51:35 | 44:06 | 6.324)
Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão
linear múltipla.
A vantagem do procedimento stepwise é que quando se adiciona uma variável (stepwise forward) ou se
retira uma variável (stepwise backward), em seguida todas as outras variáveis que já faziam parte do modelo
são retestadas, para ver se permanecem no modelo. Caso exista uma variável que possa ser retirada sem que
ocorra perdas relevantes de informação, ela é excluída do modelo. Em relação ao stepwise backward, se uma
variável retirada ocasionar perdas de informação ela pode retornar para o modelo, diferentemente de outros
modelos que uma vez adicionada ou retirada uma variável, ela não poderia mais deixar de fazer parte dele
ou não poderia retornar para o mesmo. Outra vantagem é que desta forma podemos ter uma maior confiança
de que as variáveis que estão dentro do modelo, realmente têm importância e devem fazer parte dele. A
desvantagem do procedimento stepwise é que se aplicado um elevado número de testes, onde, para cada
teste é aplicado um teste F para cada um dos possíveis modelos que irá entrar. Cada vez que é realizado um
teste, aumenta-se a chance de ocorrer o erro do tipo I, portanto a grande quantidade de testes que o stepwise
realiza, aumenta significativamente a chance de acontecer este erro, pois a ocorrência do erro é
acumulativo.
ok, mas aparentemente não levou nada em consideração do que leu no artigo...
[1.750] (IP:281473654487006 | 16:08:07 | 23:52:08 | 44:01 | 15.884)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
O primeiro critério é observar o R², só que mais importante que olhar o R² é olhar o R² corrigido, pois este
leva o em consideração o número de variáveis do modelo. Se observar apenas o R², quanto mais variáveis
colocar no modelo, maior o R², entretanto, isso não implica em maior ganho de informação, pois a pessoa
pode estar colocando variáveis que pouco contribuem, reduzindo a utilidade do modelo. O importante é
olhar o R² corrigido, pois este dá uma ideia da proporção de variação de Y (variável dependente) explicada
pelo modelo de regressão, uma vez que leva em consideração o número de regressores. Este vai explicar
bem, levando em consideração as variáveis que são colocadas no modelo, e dessa forma deve-se optar pelo
maior R² corrigido, com o menor número de variáveis, onde, estas devem explicar melhor o máximo da
variação. Quanto menos variáveis, e se, elas explicam tão bem quanto os que tem mais variáveis,
economiza-se tempo e fica mais fácil de chegar as conclusões. Existe o critério do modelo único e o critério
do modelo aninhado. Dentre os passos recomendados na seleção dos melhores modelos para
evitar/minimizar a chance de erro tipo I, os critérios correspondem ao segundo passo. No critério do modelo
único, trabalha-se com apenas este modelo, onde nele é colocado todas as variáveis. Neste modelo é possível
avaliar quem tem a menor soma de quadrado do resíduo. A vantagem da soma de quadrado é que quando se
divide pelo grau de liberdade, há uma redução do efeito do número de pontos. Entretanto, se for apenas
verificado a soma de quadrado ocorrerá uma tendência ao favorecimento de modelos que possuem mais
variáveis. O quadrado médio resolve isso, porque considera o número de variáveis que são adicionadas no
modelo. Pode também ser utilizado o valor de E ou o da probabilidade de E, devido a escala, pois F não tem
unidade, onde F = Quadrado médio do modelo/Quadrado médio do resíduo. No caso do modelo aninhado
que é outra possibilidade, este é um modelo dentro de outro modelo. É como se fosse um modelo geral e
dentro dele ocorresse um subcaso desse geral. Trabalhando com esse tipo de modelo (modelo aninhado)
pode-se começar com um modelo completo e ir retirando-se uma a uma variável, até o ponto em que ao
retirar mais uma variável se tenha uma perda significativa de informação. Ou pode-se sair de um modelo
com uma variável e ir adicionando variáveis, e observando se há ganhos de informação, ou seja estava-se
aninhando, colocando-se uma a uma variável, chegando a um ponto que ao adicionar mais uma variável não
trouxe ganho de informação, então não é necessário continuar, mas de modo que ao ser adicionada ou
retirada as variáveis todas são testadas. Como exemplo, poderia citar um modelo geral composto pelos
nutrientes essenciais e como subcaso deste geral os macronutrientes, os macro estão aninhados, dentro do
modelo geral (nutrientes essenciais). O objetivo é obter o menor modelo que melhor explique o máximo da
variação.
misturou critérios e procedimentos. O critério é o r² ou r² corrigido, ou AIC, etc. Modelo geral e modelo
aninhado são procedimentos ou estratégias de seleção, que irão gerar os critérios usados para a seleção
propriamente dita...
[0.000] (IP:281473654487006 | 16:08:36 | 23:53:12 | 44:36 | 15.422)
Avalie o efeito de diferentes estratégias de seleção do melhor modelo sobre a probabilidade de
ocorrência de erro do tipo I.
A primeira estratégia na seleção do melhor modelo é montar e testar todas as regressões possíveis para ver
qual é a melhor, entretanto de acordo com o número de variáveis envolvidas há um aumento no numero de
combinações possíveis, acarretando em uma maior quantidade de testes a serem testados. Por exemplo, para
12 variáveis há 4096 possíveis modelos, dessa forma se testados todos os modelos , não há como errar,
porque a pessoa vai ver qual é a melhor das possibilidades, entretanto a quantidade de combinações é
elevadíssima, o que complica na analise de todas as equações possíveis criadas. Outra estratégia é a
eliminação para trás, essa estratégia começa com todas as variáveis, onde se retira uma por uma de trás para
frente e testa todas as variáveis do modelo. Se a retirada de uma variável não prejudicar o modelo então ela
pode ser descartada. E quando entra uma variável sendo significativa ela não sai mais do modelo. Por
exemplo um modelo com 6 variáveis, o modelo começa com todas as 6, tira uma variável de trás para frente
e testa, se afetou uma menos que as demais, essa sai. O modelo agora fica com 5, repito novamente esse
processo, agora tem 4, repito novamente, agora tem 3. De modo que quando deixa de ser significativo no
modelo com 3, paro. Seleção para frente, é o inverso da seleção de eliminação para trás, onde é adicionado
uma variável de cada vez, e as variáveis mais importante, até colocar todas. A que trouxe mais ganho fica
fixa, texto as demais e vejo se houve algum ganho, se houver fica fixa, até encontrar uma que não trouxe
ganho. Todas as variáveis já estão no modelo, contudo, ocorre uma seleção em ordem das primeiras para as
últimas. Stepwise é outra estratégia, existe o stepwise (forward e backward) o principio é o mesmo, o
stepwise backward é igual ao forward só que o procedimento é feito ao contrário. O stepwise começa com
todas as variáveis e testa as variáveis de uma em uma, até que a adição de qualquer outra não traga ganho
para o modelo. Testa-se todas as variáveis para ver se elas permanecem no modelo. A diferença para as
outras estratégias é que quando entra uma variável no modelo ocorre uma nova avaliação de todas as
variáveis que já estavam no modelo, e pode-se retirar uma das variáveis já presentes, onde nas outras
estratégias se entrou, não sai mais, e se saiu, não entra mais. Ao se retestar, devido ao elevado número de
testes que são realizados, há um aumento na chance de ocorrer o erro tipo I, pois o erro é acumulativo para o
F devido aos diversos possíveis modelos que entram, e depois para os vários possíveis F´s para sair alguma
variável. Os programas permitem selecionar valores para uma variável entrar ou sair, a recomendação é que
a entrada seja fácil – possua uma ampla faixa de valores (1, se não puder 0,99999). É certo porque o objetivo
do teste é fazer todas as combinações possíveis. E que seja difícil de sair (0, se não puder 0,00000001), para
que o a chance de ocorrer o erro tipo I seja minimizada, já que são realizados um grande número de testes.
Outra estratégia menos tradicional é o AIC (Akaike Information Criteria), esse é um critério que mistura o
R² com o número de variáveis. Neste montam-se e calculam-se todos os modelos, e quanto menor for o AIC
melhor.
veja sua resposta e a pergunta. Eu perguntei especificamente sobre o efeito das diferentes estratégias sobre o
erro tipo I, que não é mencionado uma única vez em sua resposta.
Download

Sabatina 4 comentada