1.  [2.000] (IP:281473857278462 | 19:36:32 | 19:32:41 | 56:09 | 4.486)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
A afirmativa é verdadeira, pois o r2 não-ajustado é influenciado pela adição de variáveis no
modelo, ou seja, o aumento do número de variáveis utilizadas, por si só, leva a um maior r2 nãoajustado, assim as variáveis adicionadas podem não estar explicando nada, e mesmo assim
estariam aumentando o r2.
Para a escolha de um modelo, neste caso, seria melhor optar pelo uso do r2 ajustado que tem por
finalidade corrigir o r2 não ajustado, retirando o efeito decorrente do aumento do número de
variáveis no modelo de regressão. Se o r2 corrigido aumentar mesmo após o ajuste não será
apenas em função do aumento do número de variáveis e sim por que estas variáveis adicionadas
realmente estão explicando melhor o modelo.
correto, e muito sucinto.
2.  [1.500] (IP:281473857278462 | 19:38:08 | 19:33:43 | 55:35 | 3.208)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Modelo geral
1.Testar todas as regressões possíveis: é a única estratégia que avalia todas as possibilidades de
combinação de variáveis, no entanto a depender do número de variáveis inseridas no modelo
haverá um número de combinações diferentes, assim quanto mais variáveis maior será o número
de combinações, e vice-versa. Para situações com muitas variáveis, testar todas as regressões
possíveis torna-se quase impossível, sendo que a cada teste realizado acarretará um amento de
chances de cometer o erro tipo1. Sendo esta a única estratégia que sempre vai garantir a escolha
da melhor regressão possível, justamente pelo fato de testar todas as possíveis.
Modelos aninhados
2. Eliminação para trás: neste processo partimos de uma regressão completa, ou seja, contento
todas as variáveis, e em cada “ciclo” é eliminada uma variável, sendo a ordem das variáveis no
modelo de regressão definida por sua possível importância, iniciando a eliminação pela de menor
importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada
da ultima variável de cada modelo, em seguida, elimina-se a variável cuja saída produz menor
efeito no modelo. Após a retirada de determinada variável, ela não poderá ser mais utilizada. Em
sequencia se realiza novamente o processo, partindo agora do modelo obtido (completo menos a
variável retirada), até se obter o menor modelo de regressão que explique tão bem quanto a
equação completa.
3. Seleção para a frente: possui o mesmo principio do método de eliminação para trás, só que
este é realizado em sentido contrário. Ou seja, partindo de um modelo sem as variáveis, que vão
sendo introduzidas (primeiro as mais importantes) progressivamente no modelo, e são feitos
testes para medir seu efeito no conjunto. Após a verificação dos modelos é escolhida a que
melhor explica o fenômeno estudado, que é obtido quando não ocorre efeito com a inclusão da
variável.
4. Stepwise (forward) – é uma combinação das estratégias de seleção para frente e eliminação
para trás, e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção
para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das
variáveis já presentes. Com mais variáveis este modelo possui maior confiabilidade. Porém, como
ocorre um aumento muito grande no número de testes de variáveis, as chances de cometer o erro
tipo 1 aumentam. Como os programas selecionam valores de probabilidade para uma variável
entrar e sair do modelo recomenda-se usar 1(ou 0,99999) e 0 (ou 0,0000001), respectivamente.
5. Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações
do Stepwise (forward), porém o princípio operacional é de trás para frente, ou seja, o processo é
iniciado com todas as variáveis compondo o modelo e estas vão sendo testadas e eliminadas.
embora ainda confunda técnica e estratégia, pelo menos já fez o agrupamento dos modelos
aninhados
3.  [2.000] (IP:281473857278462 | 19:38:53 | 19:34:36 | 55:43 | 4.028)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
As técnicas mais utilizadas na seleção do modelo mais adequado para uma regressão linear
múltipla são as seguintes:
1. Testar todas as regressões possíveis: nesta técnica aplica-se todas as regressões possíveis,
estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no
estudo, logo, este número de combinações fica sendo determinado pela expressão [2p-1], onde p
corresponde ao número de variáveis independentes. Entretanto, existe limitação de informações
quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela
condição específica, considerando um número p de parâmetros, para aqueles dados em
particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e
como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou
seja, os parâmetros são considerados independentemente de sua importância.
2. Eliminação para trás: neste teste, inicia-se com a regressão múltipla contendo todas as
variáveis, posteriormente, eliminamos a cada rodada de seleção a variável de menor efeito no
modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A desvantagem do
método reside no fato de que uma vez retirada a variável não entrará mais na composição do
modelo, isto possibilita que a variável poderia estar apresentando pouco efeito no modelo quando
foi eliminada, mas esta mesma variável, porém, em outra combinação (outro modelo) poderá ser
mais efetiva quanto a explicar o fenômeno. A eliminação para trás testa todos os modelos com p1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que
as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a
retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua
importância.
3. Seleção para frente: esta técnica assemelha-se a de eliminação para trás, contudo em direção
oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis,
iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a
aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de
avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão
múltipla. A desvantagem desta é similar em fundamento a da eliminação para trás, tendo em vista
que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas
combinações;
4. Stepwise (forward e backward): esta se configura como uma junção dos doi últimos métodos
anteriormente descritos, acrescido da possibilidade de adicionarmos ou retirarmos variáveis do
modelo em processo de seleção na circunstância em que se julgar viável (combinação de maior
efeito), ou seja, este método supre a deficiência ocorrida nos descritos acima quanto a descrever
a melhor combinação entre as variáveis. Essa ação apresenta seus benefícios isso é fato, todavia
esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao
grande número de modelos gerados.
cuidado com a formatação matemática. O número de combinações é 2^p-1 ou seja, dois elevado
a p, menos um... isto é muito diferente de 2 vezes p -1 como você colocou...
4.
[2.000] (IP:281473857278462 | 19:39:39 | 19:37:07 | 57:28 | 4.44)
Discuta o significado e possíveis implicações do AIC
O Critério de informação de Akaike (AIC) é baseado na teoria de informação, é uma forma
alternativa para escolher o melhor modelo de regressão, onde a partir da distância ou informação
(que é uma medida de discrepância entre as linhas do modelo verdadeiro e o modelo
aproximado), o AIC penaliza os modelos em função do número de parâmetros. Sendo também
em estatística frequentemente utilizado para a escolha exata de uma equação de regressão no
caso de alternativas não aninhadas, isso quando não existem variáveis independentes comuns
aos dois.
O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N
Onde, L é a estatística log verossimilhança, N o número de observações e k o número de
coeficientes estimados (incluindo a constante).
Quanto menor, mais o modelo explica com o menor custo em número de variável o que esta
acontecendo.
O AIC também avalia quanto o modelo explica de acordo com o número de variáveis usadas,
quanto menor, mais o modelo explica com o menor uso de variáveis. E explica a ligação entre as
variáveis e com o número variáveis que é utilizado ou a melhor quantidade de variáveis que entra
com a quantidade de dados explicados simultaneamente.
Este critério tende a penalizar modelos em que são constituídos por muitas variáveis, isso quer
dizer que quanto menor for o número de variáveis mais o modelo aproximará de uma explicação
lógica da realidade, assim sempre que possível e lógico devemos adotar modelos simples, em
detrimento de modelos complexos e de difícil entendimento.
embora continue com o problema com implicações, o parágrafo final ficou particularmente claro
5.  [2.000] (IP:281473857278462 | 19:40:13 | 19:38:09 | 57:56 | 22.358)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Na avaliação de modelos únicos ou aninhados (derivado de um modelo mais geral), é preciso
estabelecer critérios para seleção do melhor entre os modelos, ou seja, o que envolva o mínimo
de parâmetros que expliquem satisfatoriamente a variável resposta. Para isso, são utilizados
critérios estatísticos de avaliação, ditos critérios de seleção, que podem ser os seguintes
parâmetros: R2, R2, Valor de F, QMR, SQR, AIC, entre outros.
1. Coeficiente de determinação (R2): este método baseia-se na observação dos valores
determinados para o R2 (varia de 0 a 1) de acordo com o ajuste do modelo de regressão múltipla,
logo, se adicionarmos uma variável insignificante ao modelo teremos um aumento mínimo de R2.
Daí deve-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no
fenômeno. Contudo, sua empregabilidade tem sido mais voltada em determinarmos quando
devemos parar de adicionar variáveis ao modelo, ao invés de encontrar o melhor, tendo em vista
que os valores de R2 não reduzem quando adicionamos mais variáveis;
2. Coeficiente de determinação ajustado (R2 ajustado): No intuito de minimizarmos erros
decorrentes da análise incorreta do R2 para alguns é preferível usar o R2 ajustado, que não
aumenta apenas em decorrência da adição de variáveis ao modelo, contudo apresentará valores
superiores quando na analise de F entre os modelos apresentar aumento do efeito das variáveis
incluídas. Consequentemente, o critério de escolha baseado no R2 ajustado consiste em escolher
o que apresentar valor máximo;
3. Resultado da análise de variância (F): entende-se neste critério que na avaliação dos modelos
aquele que apresentar um maior efeito devido ao tratamento sobre o acaso deverá ser escolhido
como o que melhor representa o comportamento em estudo. Baseia-se na observação dos
valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o
F, melhor a equação de regressão explica o comportamento das variáveis;
4. Quadrado médio dos resíduos (QMR): neste método inferimos que quanto menor for o QMR de
um modelo consequentemente maior será o R2 ajustado, portanto, modelos nos quais
apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste;
5. Soma dos quadrados dos resíduos (SQR): tem o mesmo principio do critério anterior, tendo em
vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa
limitação quando a dependência do tamanho da amostra;
6. Critério de informação de Akaike (AIC): configura-se como um critério de seleção do melhor
modelo, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a
relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem
como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo;
excelente
6.  [1.500] (IP:281473826793570 | 13:27:18 | 17:20:30 | 53:12 | 31.275)
Discuta o significado e possíveis implicações do AIC
O Critério de Informação de Akaike (AIC) é um princípio que nos permite escolher o melhor
modelo para a regressão, ou seja, é uma ferramenta para seleção de modelos, oferecendo uma
medida relativa da qualidade do ajuste de um modelo estatístico, onde as regressões com menor
índice são consideradas as que melhor representam determinado fenômeno. Esse critério baseiase na teoria da informação, considerando simultaneamente a qualidade de informação, a
qualidade da ligação entre as variáveis com o número de variáveis que é utilizada, assim como a
quantidade de variáveis que entra, com a quantidade de dados explicados. O AIC é um teste de
máxima verossimilhança para verificar se o modelo escolhido é adequado. Suas implicações são
em relação à escolha do modelo de regressão, onde, quem tiver o menor AIC apresenta-se como
melhor modelo, avalia também, quanto o modelo explica de acordo com o número de variáveis
usadas, em que, quanto menor, mais o modelo explica com o menor custo, usando-se de poucas
variáveis, e explica a ligação entre as variáveis e o número de variáveis que é utilizado, ou a
melhor quantidade de variáveis que entra com a quantidade de dados explicados
simultaneamente.
AIC não é um princípio, mas sim uma medida ou constante. Não vi nada quanto a implicações.
7.  [2.000] (IP:281473826793570 | 13:28:03 | 17:21:09 | 53:06 | 29.605)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Na avaliação de modelos únicos é preciso estabelecer critérios para seleção que envolva o
mínimo de parâmetros e que expliquem satisfatoriamente a variável resposta. Com isso, tem-se
os seguintes parâmetros: o coeficiente de determinação do modelo (R2), que baseia-se na
observação dos valores determinados para o R2, quanto mais próximo de 1, maior a validade da
regressão, devendo-se escolher o modelo com maior R2 que substancialmente explique o que
ocorre no fenômeno; o coeficiente de determinação do modelo corrigido (R2c), que tem a função
de minimizar erros decorrentes da análise incorreta do R2, levando em consideração o número de
variáveis da regressão, suavizando o efeito da adição, contudo, o critério de escolha se mantém,
devendo-se escolher o que apresentar valor máximo; o resultado da análise de variância (F), que
testa a significância do conjunto de parâmetros através do teste da hipótese nula, grandes valores
de F permitem a rejeição de H0, nesse critério, deve ser escolhido o que melhor representa o
comportamento em estudo; o quadrado médio dos resíduos (QMR), nesse critério quanto menor o
QMR maior será o R2c, portanto modelos que apresentem valores reduzidos de QMR deverão
ser escolhidos como de melhor ajuste; a soma dos quadrados dos resíduos (SQR), tem o mesmo
princípio do critério anterior, tendo em vista que este componente é utilizado na determinação do
QMR, porém, apresenta certa limitação quanto a dependência do tamanho da amostra; Cp de
Mallows (Cp), baseia-se no conceito de erro quadrático médio dos valores ajustados, sendo que a
estratégia de seleção de modelos baseia-se em encontrar modelos com valores de Cp próximo
ao número de parâmetros; também é possível montar todos os modelos e estabelecer os
respectivos AIC, índice que leva em conta a qualidade e a quantidade de parâmetros utilizados
em uma regressão, quanto menor o AIC, mais o modelo explica com o menor custo em número
de variáveis.
mais uma alma salva... excelente, e com enfoque bastante diferente da outra resposta correta
8.  [2.000] (IP:281473826793570 | 13:28:19 | 17:22:03 | 53:44 | 45.561)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
A afirmativa é correta, pois quanto maior o número de variáveis adicionadas, maior será o R2
não-ajustado, ou seja, as variáveis adicionadas podem não estar explicando nada, porém
automaticamente o R2 é aumentado. Adotar esse modelo, implica na possibilidade de estar
trabalhando com um modelo mais complexo pelo número de variáveis e que pode não esta tendo
bons resultados, já que o R2 elevado pode ser em função da quantidade de variáveis adicionadas
e não de sua relevância. Sendo nesse caso, mais adequado o uso do R2 ajustado, no qual, anula
o efeito decorrente do aumento do número de variáveis no modelo de regressão, ou seja, esse
modelo permite trabalhar com as variáveis que realmente contribuem para uma explicação
adequada.
ok
9.  [2.000] (IP:281473826793570 | 13:28:47 | 17:22:55 | 54:08 | 14.306)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
Algumas técnicas podem ser adotadas para se obter um modelo que melhor explique um
determinado comportamento, a partir de um conjunto de dados coletados, são elas:
1. Testar todas as regressões possíveis: essa técnica baseia-se em testar todas as regressões
possíveis, que poderiam explicar o maior número de variáveis possíveis, onde para cada número
de parâmetros (p), existe 2p – 1 de modelos possíveis. Havendo uma garantia que existe uma
solução para qualquer conjunto de variáveis utilizadas, sendo necessário, avaliar apenas o critério
de escolha para chegar ao modelo mais adequado. A desvantagem desse método consiste na
limitação de informações, sendo que o modelo selecionado somente atende aquela condição
específica, considerando um número p de parâmetros para aqueles dados em particular,
implicando em não sabermos se os parâmetros considerados contribuem e como contribuem para
o comportamento da variável dependente, além de aumentar a chance de cometer o erro tipo I e
dificultar o entendimento estatístico com a elevação do número de parâmetros;
2. Eliminação para trás (backward elimition): essa técnica testa todos os parâmetros, gerando
todos os modelos possíveis, porém diferente do teste de todas as regressões possíveis, a
eliminação para trás, testa também todos os modelos com p – 1 variáveis, assim, a medida que
se retira uma variável, faz-se um novo teste. A desvantagem desse método consiste no fato de
que uma vez retirada a variável não entrará mais na composição do modelo e consequentemente,
no processo de seleção, isso nos faz pensar que aquela variável poderia estar apresentando
pouco efeito no modelo da vez ou esta mesma variável, porém, em outro modelo poderá ser mais
efetiva quanto a explicar o fenômeno. Considera-se, portanto nesse modelo que retirar variáveis
de pouco ou nenhum efeito não traz ônus para significância do modelo, ou seja, com ou sem
estas, a explicação do comportamento não é comprometida;
3. Seleção para frente (forward selection): essa técnica assemelha-se a de eliminação para trás,
porém em direção contrária, ou seja, agora em vez de iniciarmos com um modelo contendo todas
as variáveis, iniciaremos com o modelo simples com apenas uma variável, de maior efeito, após a
aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de
avaliação, até abranger o número total de variáveis na regressão múltipla. A desvantagem desta
é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta
variável não poderá mais ser retirada para se avaliar novas combinações;
4. Stepwise (forward e backward): essa técnica baseia-se na junção dos melhores pontos das
outras técnicas discutidas anteriormente, acrescida da possibilidade de adicionarmos ou
retirarmos variáveis do modelo em processo de seleção na circunstância em que julgar
necessária, verificando a melhor combinação possível e consequentemente o melhor modelo.
Essa técnica apresenta muitos benefícios, contudo, vale salientar que esta maior possibilidade
também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos
gerados.
acredito que o número de combinações é superior ao descrito, possivelmente por problema de
formatação quando saiu do word para texto simples. É sempre prudente checar este tipo de
coisa. Uma boa possibilidade é usar simbologia como ^ que é geralmente reconhecido como
potência
10.  [1.000] (IP:281473826793570 | 13:29:02 | 17:23:20 | 54:18 | 23.691)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Para a seleção do melhor modelo de regressão linear múltipla, é preciso escolher uma estratégia
que minimize o número de variáveis incluídas, descartando aquelas não significantes. Dentre
essas estratégias, as mais utilizadas são, a de testar todas as regressões possíveis, sendo este o
único algoritmo que garante uma solução para qualquer conjunto de variáveis, quanto mais
variáveis, maior será o número de combinações, e vice-versa; a de eliminação para trás, que
inicia-se com a regressão completa (com todas as variáveis) e a cada estágio é eliminada a
variável cuja, saída produz menor efeito no modelo geral, lembrando que uma vez retirada a
variável não poderá mais ser aproveitada; a de seleção para frente, onde as variáveis vão sendo
introduzidas progressivamente no modelo, sendo feito testes para medir seu efeito no conjunto,
possui o mesmo princípio da eliminação para trás, porém ao contrário, após a verificação de
todos os modelos é escolhida a que melhor explica o fenômeno estudado; outra estratégia é o
stepwise (forward e backward), sendo uma combinação dos outros métodos e conduz à melhores
resultados, onde todas as variáveis adicionadas ao modelo são testadas, eliminando algumas
delas até chegar ao modelo adequado, em que não ocorra mais nenhuma modificação. Esse
procedimento possui maior confiabilidade, entretanto, o grande número de testes realizados,
aumenta a chance de ocorrência do erro tipo I.
confusão entre técnica e estratégia
11.  [1.500] (IP:281473857279372 | 12:40:34 | 22:03:40 | 23:06 | 38.386)
Discuta o significado e possíveis implicações do AIC
O critério de Informação de Akaike (AIC) consiste em basear-se na teoria de informação,
caracterizando-se como uma forma alternativa para escolher o melhor modelo de regressão a
partir da minimização da informação (ou distância). No entanto, o AIC pode ser explicado como
um critério que atribui uma pontuação ao modelo, baseado na adequação desse modelo aos
dados e na ordem deste modelo.
No que diz respeito às implicações, temos que: o modelo que apresentar os menores índices de
AIC será caracterizado como sendo o melhor (esta característica é um dos fatores que deve ser
usado como critério de escolha do modelo). O AIC também permite em função do número de
variáveis, avaliar quanto o modelo explica (ou seja, o modelo que for constituído por um numero
reduzido de variáveis será mais bem explicado, tendendo, portanto, a obtenção de informações
mais reais). Esta característica nos permite abrir mão sempre que possível de modelos mais
complexos e que dificultam o entendimento. O AIC também possibilita explicar a ligação entre as
variáveis.
ok, embora tenha havido confusão entre implicações e características a meu ver
12.  [2.000] (IP:281473857279372 | 12:41:14 | 21:53:24 | 12:10 | 39.766)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
A utilização do coeficiente de determinação (R2) é um critério usado em função de ser
responsável por explicar a regressão, espera-se, por tanto, que quanto mais próximo de 1 for os
valores do R2, mais explicado é o modelo. No entanto, o R2 não corrigido caracteriza-se por ser
influenciado pelo número de variáveis que se adiciona, havendo, por tanto, a necessidade da
utilização do R2 corrigido, o qual nos permite eliminar os possíveis efeitos da adição dessas
variáveis. O Teste F proposto por Ronald A. Fisher é um outro critério para a seleção da melhor
regressão por nos dar uma relação entre o quadrado médio da regressão (que inclui, além das
variações do acaso, dadas pelos resíduos, também os efeitos das diferenças entre os
tratamentos) e o quadrado médio do resíduo – QMR (que corresponde a uma estimativa correta
da variância experimental, e quanto menor o QMR, maior será os valores do R2). O AIC também
é outro critério importante para a seleção da melhor regressão, correspondendo a uma avaliação
da qualidade de adequação dos modelos, de tal forma que quanto menor os índices de AIC, mais
a relação entre as variáveis são explicadas.
salvou-se uma alma... excelente
13.  [1.000] (IP:281473857279372 | 12:41:44 | 22:02:42 | 20:58 | 2.419)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
Quanto mais próximo de 1 for o coeficiente de determinação, melhor será o modelo, ou pelo
menos espera-se que seja, já que algumas considerações devem ser observadas. O R2 nãoajustado, por exemplo, é afetado pela adição de variáveis no modelo, ou seja, quanto maior o
número de variáveis adicionadas a equação, maior será o R2 não-ajustado. Nesse pressuposto,
este aumento do coeficiente em função do número de variáveis pode não ser o suficiente pra
explicar o modelo. Desta forma, deve-se efetuar uma correção para minimizar as possibilidades
de cometer explicações erradas. Sendo assim, o R² ajustado é utilizado em função de ser
responsável por retirar o efeito que veio somente do aumento do número de variáveis que foram
adicionadas.
Se após o procedimento de correção, o R2 ajustado apresentar valores superiores ao R2 nãoajustado, isso implica dizer que a variável adicionada melhora a explicação do modelo. Por outro
lado, se após a correção o R2 ajustado for igual ou inferior ao R2 não-ajustado, isso implica dizer
que a variável adicionada não melhorou em nada a explicação do modelo, tornando-se
desnecessária.
estava indo muito bem até dizer que o r2 ajustado poderia ser maior do que o não ajustado,q
uando na realidade sempre é inferior. Apenas pode ser mais ou menos inferior dependendo da
importância de cada variável
14.  [1.000] (IP:281473857279372 | 12:42:17 | 22:02:36 | 20:19 | 4.819)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
- Teste de todas as possíveis regressões: Aplica-se em função dos possíveis arranjos formados a
partir das variáveis em estudo. O número de variáveis tem uma relação direta com o número das
diferentes combinações do modelo. Desta forma, quanto maior o número de variáveis no modelo,
maior será o número de combinações.
- Eliminação para trás: Esta estratégia inicia-se com o conjunto total de variáveis, as quais estão
organizadas de acordo que o grau de importância de cada uma. Desta forma, em cada fase de
eliminação, são eliminadas as variáveis menos importantes do modelo. Ou seja, o procedimento
estratégico parte da ideia de que a variável eliminada possui o menor efeito da etapa de
eliminação quando comparada com as demais variáveis do modelo. Este procedimento se torna
contínuo até que se obtenha um modelo mais simples e que explique tão bem quanto o modelo
original.
- Eliminação para frente: Este procedimento estratégico é realizado em sentido contrário quando
comparamos com a eliminação para trás. Nesse contexto, as variáveis vão sendo dispostas
gradativamente no modelo, iniciando-se com as variáveis que possivelmente seja as de maior
importância, e com esse procedimento eliminando-se as de menor importância. Esta
característica possibilita a formação de vários modelos distintos. Após a avaliação de todos os
modelos seleciona-se aquele que melhor explica a situação em estudo.
- Stepwise: Este tipo estratégico parte da ideia de que é necessário retornar sempre ao ponto
anterior antes de seguir adiante, possibilitando a eliminação de uma das variáveis avaliadas
anteriormente. No entanto, na Stepwise as variáveis possuem uma maior confiabilidade no que
diz respeito a sua importância para o modelo. Esta característica do modelo permite a obtenção
de um número maior de testes em função dos modelos obtidos. Desta forma, as chances de
cometer o erro do tipo I são maiores. A Stepwise pode ser baseada na seleção para frente
(Forward), ou baseada na seleção para trás (Backward), porém no que diz respeito às variáveis,
ambos possuem a mesma ideia de combinação.
confusão entre técnica e estratégia
15.  [2.000] (IP:281473857279372 | 12:42:53 | 22:02:18 | 19:25 | 26.185)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
Quando obtemos um determinado conjunto de dados, nos atentamos a ideia de obtenção de
modelos que melhor explique o comportamento real desses dados, necessitando do emprego de
artifícios que possibilite a melhor escolha do modelo. No entanto, com o intuito de selecionar o
modelo mais adequado, algumas técnicas são utilizadas para tal objetivo.
- Teste de todas as possíveis regressões: Aplica-se em função dos possíveis arranjos formados a
partir das variáveis em estudo. O número de variáveis tem uma relação direta com o número das
diferentes combinações do modelo. Desta forma, quanto maior o número de variáveis no modelo,
maior será o número de combinações. Esta técnica apresenta a limitação de que, o modelo
escolhido só representa aquela situação específica, limitando informações.
- Eliminação para trás: Esta estratégia inicia-se com o conjunto total de variáveis, as quais estão
organizadas de acordo que o grau de importância de cada uma. Desta forma, em cada fase de
eliminação, são eliminadas as variáveis menos importantes do modelo. Ou seja, o procedimento
estratégico parte da ideia de que a variável eliminada possui o menor efeito da etapa de
eliminação quando comparada com as demais variáveis do modelo. Este procedimento se torna
contínuo até que se obtenha um modelo mais simples e que explique tão bem quanto o modelo
original.
- Eliminação para frente: Este procedimento estratégico é realizado em sentido contrário quando
comparamos com a eliminação para trás. Nesse contexto, as variáveis vão sendo dispostas
gradativamente no modelo, iniciando-se com as variáveis que possivelmente seja as de maior
importância, e com esse procedimento eliminando-se as de menor importância. Esta
característica possibilita a formação de vários modelos distintos. Após a avaliação de todos os
modelos seleciona-se aquele que melhor explica a situação em estudo.
- Stepwise: Este tipo estratégico parte da ideia de que é necessário retornar sempre ao ponto
anterior antes de seguir adiante, possibilitando a eliminação de uma das variáveis avaliadas
anteriormente. No entanto, na Stepwise as variáveis possuem uma maior confiabilidade no que
diz respeito a sua importância para o modelo. Esta característica do modelo permite a obtenção
de um número maior de testes em função dos modelos obtidos. Desta forma, as chances de
cometer o erro do tipo I são maiores.
A Stepwise pode ser baseada na seleção para frente (Forward), ou baseada na seleção para trás
(Backward), porém ambos com a mesma ideia de combinação de variáveis. No entanto, a
seleção stepwise (fordward e backward) pode ocasionar a seleção arbitrária de variáveis que
pertencem ao modelo, aumentando as chances de cometer o erro do tipo I.
não entendi como testar todos os modelos possíveis só teste uma situação. Se a ideia é derivada
dos dados originais, bem isto é absolutamente inerente a qualquer modelagem, por isto que se
faz a checagem posterior como mencionei em sala. de resto, ok
16.  [2.000] (IP:281473653566460 | 20:01:22 | 17:20:43 | 19:21 | 2.131)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Para selecionar a melhor regressão linear múltipla, considerando que a regressão selecionada
deverá descrever satisfatoriamente a relação existente entre variáveis dependentes e a variável
resposta, faz-se necessário adotar requisitos para avaliar o melhor modelo que se ajuste a um
determinado conjunto de dados. Partindo desse pressuposto, existem alguns critérios que são
comumente utilizados para avaliar os modelos:
- Coeficiente de determinação (R2): este método baseia-se na observação dos valores
determinados para o R2 que pode assumir valores de 0 a 1, salientando que valores próximos de
1 atestam que a relação entre variáveis independentes e variável dependente (ou variável
resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando
bom ajuste. Já a observação de R² baixos, próximos de zero, denotam que o modelo
(representado pela equação) não consegue explicar a relação existente entre as variáveis. Desta
forma, utiliza-se o R² como critério, considerando que quanto maior ele for melhor é o ajuste do
modelo. No entanto, vale salientar que o R² é sensível ao aumento de preditores (variáveis
independentes) no modelo, observando-se também um aumento do mesmo, contudo, este
aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são
necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta.
Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também
ao número das mesmas no modelo.
- Coeficiente de determinação ajustado: No intuito de minimizarmos erros decorrentes da análise
incorreta do R2 para alguns é preferível usar o coeficiente de determinação ajustado, não
necessariamente este aumenta com a adição de variáveis ao modelo (p + s(conj. variáveis)),
contudo apresentará valores superiores quando na analise de F entre os modelos (p e p + s)
apresentar aumento do efeito das variáveis incluídas. Consequentemente, o critério de escolha
baseado no coeficiente de determinação ajustado, consiste em escolher o que apresentar maior
valor;
- QMR (quadrado médio dos resíduos): neste método inferimos que quanto menor for o QMR de
um modelo conseqüentemente maior será o coeficiente de determinação ajustado, portanto,
modelos nos quais apresentem reduzidos valores para o QMR deverão ser escolhidos como os
de melhor ajuste;
- SQR (soma dos quadrados dos resíduos): tem o mesmo principio do critério anterior, tendo em
vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa
limitação quando a dependência do tamanho da amostra;
- Teste F: Baseia-se na observação dos valores de F (calculado) dos modelos analisados,
partindo do pressuposto de que quanto maior o F calculado, melhor a equação de regressão
explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre
o quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o
aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são
inversamente proporcionais).
Cp (Cp de Mallows): este critério baseia-se no conceito de erro quadrático médio dos valores
ajustados e pode ser determinado pela seguinte equação:
Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)]
Onde:
SSR – Soma dos quadrados do resíduo
MSR – Quadrado médio do resíduo
N – número de parcelas experimentais
p – número de parâmetros
Logo, a estratégia de seleção de modelos baseada no Cp consiste em encontrar modelos com
valores de Cp próximo do número de parâmetros (p +1). Por exemplo, se considerarmos 4
parâmetros (variáveis independentes) para observar o comportamento de y (variável
dependente), e calcularmos o Cp de dois modelos concorrentes, onde o Cp1 = 3,666 e o Cp2 =
7,5600, optaríamos pelo modelo que apresentasse o Cp1, já que este se aproxima mais do
número de parâmetros (4).
- AIC (Critério de informação de Akaike): Consiste como um critério de seleção do melhor modelo,
baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a
equação (modelo) explica a relação entre as variáveis.
excelente
17.  [1.000] (IP:281473653566460 | 20:07:57 | 17:20:45 | 12:48 | 1.445)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Testar Todas as Regressões Possíveis – esse é o único algoritmo que garante uma solução para
qualquer conjunto de variáveis, porém, depende do número de variáveis que compõem o modelo
haverá um número de combinações diferentes, quanto mais variáveis maior será o número de
combinações, e vice-versa.
Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível,
sendo que a cada teste realizado levara a um amento de chances de cometer o erro tipo1.
Eliminação Para Trás – o processo inicia-se com a regressão completa (com todas as variáveis) e
em cada estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de
regressão é definida por sua suposta importância (menor efeito), iniciando a eliminação pela de
menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da
retirada da última variável de cada modelo, em seguida, elimina-se a variável que apresentou
menor efeito com sua retirada. Uma vez retirada à variável não poderá ser aproveitada. Depois
reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão
bem quanto a equação completa.
Seleção Para Frente – segue o mesmo princípio do método de eliminação para trás, só que este
é realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas
progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de
cada vez, formando diferentes modelos de regressão com seus respectivos efeitos. Uma vez
retida a variável não poderá ser aproveitada. Após a verificação de todos os modelos é escolhida
a que melhor explica o fenômeno estudado.
Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores
resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio
realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste
modelo testa todas as variáveis eliminando algumas delas até chegar a um modelo adequado,
porém as variáveis eliminadas podem ser novamente introduzidas para verificar se há alguma
melhora no modelo, esse processo irá se repetir até que não ocorra nenhuma modificação. Por
conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento
muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam.
Stepwise (backward) – possui as mesmas limitações do Stepwise (forward), porém o princípio
operacional é de trás para frentes, ou seja, o contrário.
confusão técnica x estratégia
18.  [2.000] (IP:281473653566460 | 20:08:30 | 17:20:49 | 12:19 | 3.825)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
As técnicas mais utilizadas são:
- Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos
possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de
parâmetros (p), existe 2p – 1 de modelos possíveis, onde p corresponde ao número de variáveis
independentes. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de
variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar ao
modelo mais adequado. Entretanto, existe limitação de informações quando se utiliza esta
técnica, uma vez que o modelo selecionado somente atende para àquela condição específica,
considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não
sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou
menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são
considerados independentemente de sua importância.
Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número
de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de
cometer o erro tipo I.
- Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os
modelos possíveis, entretanto, diferentemente do teste de todas as regressões possíveis, a
eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se
retira uma variável, faz-se um novo teste. Salientando que as variáveis retiradas são aquelas
consideradas menos importantes (menor efeito) e o teste é cessado quando a retirada de uma
variável implica na perda de significância do modelo ou na perda razoável de sua importância.
Dessa forma, considera-se que retirar variáveis de pouco ou nenhum efeito não traz perda de
significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é
comprometida.
- Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, agora
em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo
simples com apenas uma variável, essa de maior efeito, após a aplicação dos critérios de seleção
adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma,
processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem
desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada
esta variável não poderá mais ser retirada para se avaliar novas condições (combinações);
- Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das
outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o
teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada
adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou
adicionadas, verificando a melhor combinação possível e, conseqüentemente, o melhor modelo.
Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é
possível colocá-la novamente.
Apesar da vantagem, vale ressaltar que existem algumas limitações quanto ao seu uso,
principalmente por aumentar a chance de cometer o erro tipo I quando comparada, por exemplo,
ao teste que considera todas as regressões possíveis, já que há um aumento no número de
testes realizados.
-Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combinam
variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é
baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se
variável por variável mediante o teste.
Da mesma forma que o forward, a utilização desta técnica implica em uma maior chance do erro
tipo I.
excelente, exceto quanto ao erro de formatação matemática, igual ao que já comentei em
algumas outras respostas
19.  [2.000] (IP:281473653566460 | 20:08:49 | 17:20:09 | 11:20 | 178.688)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
Afirmativa correta, pois num modelo, quanto maior o número de variáveis adicionadas a equação,
maior será seu R2 não ajustado, ou seja, o R2 não ajustado é afetado pela adição de número de
variáveis no modelo. Por tanto é necessário efetuar uma correção para minimizar as chances de
cometer um equívoco. Neste caso o melhor é optar pelo R2 ajustado que retirar o efeito
decorrente do aumento do número de variáveis que foram adicionadas no modelo de regressão.
Se o R2 corrigido for maior que o R2 não corrigido, isso significa que as variáveis adicionadas
estão explicando melhor o modelo. Caso contrário, a variável adicionada não contribui para a
explicação do modelo. O R2 corrigido permite trabalhar com as variáveis que realmente
contribuem para uma explicação adequada.
ok
20.  [1.500] (IP:281473653566460 | 20:09:07 | 17:21:01 | 11:54 | 4.093)
Discuta o significado e possíveis implicações do AIC
O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de
modelos. Este índice avalia, em um grupo de possíveis modelos, a distância relativa entre o
modelo proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em
relação aos dados. Portanto, são calculados os logaritmos das razões de verossimilhança entre
os modelos, penalizando os modelos pelo número de parâmetros. Assim, o AIC avalia a
qualidade da ligação entre as variáveis e o número de variáveis utilizadas. Quanto menor for o
número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade,
nos relembrando de que sempre que possível devemos adotar modelos simples que melhor
retrate do que modelos complexos de difícil entendimento.
Implicações:
Explica a ligação entre a quantidade de variáveis que entra no modelo com a quantidade de
dados explicados simultaneamente.
Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor,
mais o modelo explica com o uso de poucas variáveis.
continua o problema das demais quanto às implicações, mas com explicação bem menos
aprofundada do que várias das respostas
21.  [1.000] (IP:281473824211098 | 23:28:23 | 01:27:49 | 59:26 | 1.962)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
- Testar todas as regressões possíveis – como o próprio nome já diz, esta técnica consiste em
aplicar todos os modelos de regressões possíveis, através dos possíveis arranjos que se possa
fazer com o maior número possível das variáveis envolvidas no estudo. Exemplo, se tivermos um
número de 8 variáveis em um determinado estudo, isso significa dizer que teremos 255 modelos
de regressão possíveis para avaliarmos a partir desta técnica. Apesar de ser a única estratégia
que sempre garante a melhor regressão possível, essa técnica é muito trabalhosa.
- Eliminação para trás - este teste inicia-se com todas as variáveis e é realizado com todos os
modelos de regressão. Posteriormente, uma única variável, aquela de menor efeito no modelo, é
eliminada de cada regressão e depois avaliada. Depois prossegue da mesma forma com as
outras variáveis. Assim, sempre avaliamos o efeito da última variável retirada. A desvantagem do
método é que uma vez retirada a variável, esta não entrará mais na composição do modelo e
conseqüentemente no processo de seleção, sendo assim ora aquela variável poderia estar
apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém em outra modelo,
poderia ser mais efetiva quanto a explicar o fenômeno.
- Seleção para frente - esta técnica é semelhante à de eliminação para trás, a diferença é que em
vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo
simples com apenas uma variável. Após a aplicação dos critérios de seleção, essa variável pode
permanecer ou ser retirada do modelo. Assim, a cada adição de uma nova variável, repete-se o
procedimento de avaliação até abranger o número total de variáveis na regressão múltipla. A
desvantagem desta é que uma vez adicionada esta variável, não poderá mais ser retirada para se
avaliar novas combinações;
- Stepwise – nada mais é do que a junção de técnicas descritas acima que pode ser de traz pra
frente e de frente pra traz simultaneamente. Nesta técnica pode-se adicionar ou retirar variáveis
do modelo em processo de seleção quando se julgar viável, ou seja, escolhendo a combinação
de maior efeito. Geralmente o critério mais utilizado é o Teste F, em que a probabilidade igual a 1
ou 0,9999 é utilizada para a variável entrar e 0 ou 0,0000001 para retirar uma variável. A grande
vantagem desse método é manter relações causais. Por outro lado, os valores de R2 são
artiﬁcialmente elevados; a seleção de variáveis é fortemente dependente das correlações entre as
preditivas; os erros-padrão dos coeﬁcientes de regressão são artiﬁcialmente baixos; evita a
necessidade de teoria fundamental ou bom entendimento dos dados; quanto maior o número de
variáveis candidatas, maior a interferência a que o modelo ﬁnal pode estar sujeito.
o mesmo problema dos demais
22.  [2.000] (IP:281473824211098 | 23:29:21 | 01:28:07 | 58:46 | 15.346)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
O R2(coeficiente de determinação) representa a proporção da variação da variável dependente
(Y) que é explicada pela variação da variável independente (x). Então, quanto maior o número de
variáveis adicionadas à equação, maior será seu R2, pois a variação devido ao acaso tende a ser
menor devido ao grande número de variáveis que o modelo contém. Por outro lado, o R2 ajustado
leva em consideração o número de variáveis no modelo, ou seja, não necessariamente aumenta
com a adição de variáveis, pois a influência da quantidade de variáveis no modelo é anulada.
Além disso, o R2 elevado poderá ser em função apenas do número de variáveis e não da sua
relevância, assim como trabalhar com um grande número de variáveis é muito mais complicado.
Um modelo que tenha menos variáveis e seja mais significativo poderá ser substituído por outro
com mais variáveis e maior R2. Geralmente o R2 ajustado é menor que o R2, porém pode
acontecer de o valor do R2ajustado ser superior ao R2 não ajustado, indicando que a variável
adicionada fornece respaldos para uma explicação mais coerente.

excelente
23.  [1.750] (IP:281473824211098 | 23:29:46 | 01:28:31 | 58:45 | 2.315)
Discuta o significado e possíveis implicações do AIC
O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de
modelos que avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo
proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos
dados. Para isso, são calculados os logaritmos das razões de verossimilhança entre os modelos,
penalizando os modelos pelo número de parâmetros. O AIC é também freqüentemente utilizado
para a escolha da especificação ótima de uma equação de regressão no caso de alternativas não
aninhadas, isso quando não existem variáveis independentes comuns aos dois.
O critério de Akaike (AIC) é definido como:
AIC = 2 x (k-L) / N
Onde:
k é o número de coeficientes estimados (incluindo a constante)
L é a estatística log verossimilhança e
N o número de observações.
Quanto menor o valor de AIC, mais o modelo explica com o menor custo, ou seja, uso de poucas
variáveis. Isso significa dizer que na escolha do modelo de regressão, o melhor modelo será
aquele que tiver o menor AIC.
Explica a ligação entre as variáveis e com o número de variáveis que é utilizado ou a melhor
quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente.
mesmos comentários dos demais
24.  [2.000] (IP:281473824211098 | 23:30:30 | 01:29:08 | 58:38 | 1.247)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
- Coeficiente de determinação (R²): O R² é um coeficiente que mede o quanto da variação de y
(variável dependente) pode ser explicada pela equação de regressão, isto é, através do R² podese dizer se um determinado modelo é adequado ou não para explicar a variação de uma
determinada variável em estudo. O coeficiente de determinação pode assumir valores de 0 a 1,
sendo que valores próximos de 1 indicam que a relação entre variáveis independentes e variável
dependente (ou variável resposta) podem ser satisfatoriamente explicadas através da regressão
encontrada, indicando bom ajuste. Já valores baixos de R², próximos de zero, denotam que o
modelo (representado pela equação) não consegue explicar a relação existente entre as
variáveis. Assim, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o
ajuste do modelo. Porém, vale ressaltar que o R² é sensível ao aumento de preditores (variáveis
independentes) no modelo, ou seja, com o aumento do número de variáveis há também um
aumento do R2, sendo que este aumento pode não corresponder à realidade, já que nem todas
as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a
predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao
efeito das variáveis, mas também ao número das mesmas no modelo.
- Coeficiente de determinação ajustado: O R2 ajustado não aumenta obrigatoriamente com o
aumento do número de variáveis independentes, já que em seu valor somente influi aqueles
preditores que apresentam efeito significativo (o efeito significativo dos preditores é obtido através
da análise de variância). Assim, o R² ajustado somente aumentará se a variável ou variáveis
adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é
preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de
escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o
modelo explica a relação entre as variáveis em estudo.
- Teste F: Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo
do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão explica o
comportamento das variáveis. Esta variação do valor de F é em função da relação entre o
quadrado médio da regressão e o quadrado médio do resíduo. Com isso, observa-se que o
aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são
inversamente proporcionais).
- Soma dos quadrados do resíduo (SSR): este critério baseia-se na observação da soma dos
quadrados do resíduo, sabendo-se que quanto menor o SSR, melhor o modelo descreve a
relação entre preditores e variável resposta. Contudo, o uso do SSR possui a limitação de que
seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do
resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, conseqüentemente,
afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de
minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de
escolha.
- AIC (Critério de informação de Akaike): Configura-se como um critério de seleção do melhor
modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC,
mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração
a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de
preditores que estão no modelo.
excelente
25.  [2.000] (IP:281473824211098 | 23:30:48 | 01:29:43 | 58:55 | 9.234)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
- Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos
possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de
parâmetros (p), existe 2p– 1 de modelos possíveis. Desta forma, há uma garantia de que há uma
solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o
critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de
informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende
para àquela condição específica, considerando um número p de parâmetros, para aqueles dados
em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e
como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou
seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe
uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros
aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo
I.
- Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os
modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a
eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se
retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas
consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica
na perda de significância do modelo ou na perda razoável de sua importância. Portanto,
considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância
do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida.
- Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na
desconsideração das variáveis menos importantes, todavia, o início do teste é inverso,
considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste.
- Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das
outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o
teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada
adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou
adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo.
Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é
possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas
limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o
erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões
possíveis, já que há um aumento no número de testes realizados.
-Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combina
variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é
baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se
variável por variável mediante o teste. Assim como o forward, a utilização desta técnica implica
em uma maior chance do erro tipo I.
ok, mas com o mesmo erro das demais
26.  [1.750] (IP:281474038335826 | 16:04:39 | 05:39:17 | 34:38 | 3.035)
Discuta o significado e possíveis implicações do AIC
O Critério de Informação de AKAIKE - AIC é baseado na teoria de informação que é uma forma
alternativa para escolher o melhor modelo de regressão, onde, o melhor modelo vai ser aquele
que apresentar menores índices. Teoricamente esse índice avalia ao mesmo tempo a qualidade
da informação e a qualidade da ligação entre as variáveis com o número de variáveis que é
utilizada. Além disso, este critério combina quanto o modelo explica com o número de variáveis
usado para isto.
O AIC pode ser definido pela seguinte equação: AIC = 2 x (k-L) / N
L= É a estatística log verossimilhança
N= É o número de observações
k= O número de coeficientes estimados (incluindo a constante).
Uma das implicações do IAC é na escolha do modelo de regressão, onde quem tiver o menor AIC
apresentasse como melhor modelo. A outra é avaliar o modelo de acordo com as explicações
decorrente do número de variáveis usadas, desta forma, quanto menor o valor, mais o modelo
são explicativos, e ainda com o menor custo (uso de poucas variáveis). Por fim, o IAC explica a
ligação entre as variáveis com o número variáveis que é utilizado (quantidade de variáveis que
entra com a quantidade de dados explicados simultaneamente).
mesmo problema de misturar implicação com característica ou uso
 [1.000] (IP:281474038335826 | 16:05:54 | 05:39:31 | 33:37 | 12.103)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla
No intuito de obter um modelo com menor número de variáveis incluídas, é preciso escolher
certas estratégias para essa seleção. Dentre as mais utilizadas, tem-se: O TESTE DE TODAS AS
REGRESSÕES POSSÍVEIS – que surgi como o único algoritmo que pode garantir uma solução
para qualquer conjunto de variáveis, porém, a depender do número de variáveis que compõem o
modelo haverá um número de combinações diferentes, quanto mais variáveis maiores será o
número de combinações, e viceversa. Em casos com muitas variáveis, testar todas as regressões
possíveis torna-se muito difícil, o que acarretará um aumento nas possibilidades de cometer o
erro tipo1.
A SELEÇÃO PARA FRENTE, aonde nesse método, as variáveis candidatas vão sendo
introduzidas progressivamente no modelo e são feitos testes para medir seu efeito no conjunto.
Tem também a estratégia da ELIMINAÇÃO PARA TRÁS, neste caso parte da regressão completa
(com todas variáveis) e a cada rodada é eliminada a variável cuja saída produz menor efeito no
modelo geral. Esses dois processos são bem semelhantes e promovem bons resultados,
principalmente se o número de variáveis não for tão grande.
E por último mais não menos importante temos a estratégia STEPWISE, que é uma combinação
dos outros dois métodos, em que cada variável adicionada ao modelo são testadas novamente.
Esse procedimento aumenta a confiabilidade da escolha das variáveis fixadas no modelo. Por
outro lado, o grande número de testes realizados para verificação de cada um dos modelos acaba
por aumentar a chance de ocorrência do
erro tipo I (rejeição da H0 quando esta é verdadeira).
a mesma confusão dos demais
27.  [2.000] (IP:281474038335826 | 16:06:30 | 05:39:36 | 33:06 | 2.695)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
É importante obter um modelo minimizando o número de variáveis incluídas, descartando aquelas
não significantes ou com pouca contribuição para o ajuste. Para isso é preciso escolher uma
estratégia para essa seleção. Um das técnicas é TESTAR TODAS AS REGRESSÕES
POSSÍVEIS. Esta técnica é a única estratégia que sempre garante a melhor regressão possível,
por se aplicar a todas as regressões possíveis, estas são determinadas pelos possíveis arranjos
que se possa fazer entre as variáveis envolvidas no estudo. Esta técnica tinha antigamente
muitos problemas quanto à carga computacional, a qual era exercida sobre os antigos
computadores no momento da análise, no entanto, com o advento do surgimento de
processadores com alta velocidade de processamento torna-se aplicável. A desvantagem do
método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor,
modelo de regressão múltipla;
Outra técnica é a ELIMINAÇÃO PARA TRÁS, onde se inicia com a regressão múltipla contendo
todas as variáveis, posteriormente, eliminando a cada rodada de seleção a variável de menor
efeito no modelo, e desta forma sempre se avaliará o efeito da última variável retirada, para que
haja melhor explicação do que se estar estudando. Este método tem como desvantagem,
impossibilidade de retorno da variável descartada para recompor o modelo, o que nos remete a
pensar que aquela variável poderia estar apresentando pouco efeito no modela da vez, mas que
esta mesma variável, poderia em outra combinação ser mais efetiva e explicar melhor o
fenômeno.
Comparando as estratégias, a SELEÇÃO PARA FRENTE é uma técnica que se assemelha a de
eliminação para trás, no entanto em direção oposta. Neste caso, em vez de iniciar o modelo
contendo todas as variáveis, inicia-se o modelo simples com apenas uma variável, a de maior
efeito. Após a aplicação dos critérios de seleção adiciona-se outra variável e repeti o
procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis
na regressão múltipla. A desvantagem desta é que esta variável não poderá mais ser retirada
para se avaliar novas combinações (semelhante a eliminação para trás).
Por fim, tem-se a estratégia chamada STEPWISE, que é uma das mais utilizadas em agrárias.
Ela configura como uma mistura dos métodos acrescido da possibilidade de adicionar ou retirar
variáveis do modelo em processo de seleção na circunstância em que se julgar viável
(combinação de maior efeito). Esta técnica supre a deficiência dos descritos anteriormente
(Seleção para frente e para trás) quanto a descrever a melhor combinação entre as variáveis.
Existem a FORWARD e a BACKWARD. A utilização desta técnica implica em uma maior chance
do erro tipo I.
A FORWARD baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai
adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no
stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor
combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas
anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da
vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso,
principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando
comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um
aumento no número de testes realizados.
Enquanto a BACKWARD, também possui o mesmo princípio da forward na medida em que
combinam variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o
teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e
retira-se variável por variável mediante o teste.
excelente
28.  [2.000] (IP:281474038335826 | 16:06:48 | 05:39:41 | 32:53 | 2.321)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
A regressão escolhida deverá descrever satisfatoriamente a relação existente entre variáveis
independentes e a variável resposta, para isso, é preciso adotar requisitos para avaliar o melhor
modelo que ajuste um determinado conjunto de dados. O COEFICIENTE DE DETERMINAÇÃO
(R²) é um deles, em que se configura como um coeficiente que mede o quanto da variação de Y
pode ser explicada pela equação. Desta forma, através do R², pode-se inferir se o modelo é
adequado ou não para explicar a variação de uma variável em estudo. Esse coeficiente pode
assumir valores de 0 a 1, salientando que valores próximos de 1 indica um bom ajuste, onde a
relação entre variáveis independentes e variável dependente podem ser satisfatoriamente
explicadas através da regressão encontrada. Já se o R² for próximo de zero, implica dizer que o
modelo não consegue explicar bem a relação existente entre as variáveis. Desta forma, utiliza-se
o R² como critério, considerando que quanto maior, melhor é o ajuste do modelo. Entretanto, vale
ressaltar que o R² é sensível ao aumento na medida em que se aumentam as variáveis
independentes, contudo, este aumento pode não corresponder à realidade, já que nem todas as
variáveis independentes são necessariamente efetivas (possuem efeito significativo) para a
predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao
efeito das variáveis, mas também ao número das mesmas no modelo.
Outro critério que pode ser utilizado é o COEFICIENTE DE DETERMINAÇÃO AJUSTADO, que
não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em
seu valor somente influi aqueles preditores que apresentam efeito significativo (o que é obtido
através da análise de variância). Desta forma, pode-se pensar que o R² ajustado somente
aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos.
A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em
relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior
é o seu valor, melhor o modelo explica a relação entre as variáveis analisadas.
Tem-se também a SOMA DOS QUADRADOS DO RESÍDUO, neste caso, quanto menor o SSR,
melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR
apresenta uma limitação: seu valor depende do tamanho da amostra, ou seja, para amostras
pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e,
consequentemente, afetando a relação existente entre variação do acaso e efeito de tratamento.
Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como
critério de escolha.
O teste F (resultado da análise de variância) é um critério que na avaliação dos modelos, aquele
que apresentar um maior efeito devido ao tratamento sobre o acaso (valores de Faltos ou
melhores significâncias Pr < F) deverá ser escolhido como o que melhor representa o
comportamento em estudo;
O Cp (Mallows) é um critério que se baseia no conceito de erro quadrático médio dos valores
ajustados e pode ser determinado pela seguinte equação:
Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)]
Onde:
SSR – Soma dos quadrados do resíduo
MSR – Quadrado médio do resíduo
N – número de parcelas experimentais
p – número de parâmetros
Logo, a estratégia de seleção consiste em encontrar modelos com valores de Cp próximo do
número de parâmetros (p+1).
Por fim, mas não o último, pois ainda existem outros critérios, tem-se o AIC (Critério de
informação de Akaike) em que se configura como um critério de seleção do melhor modelo,
considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre
as variáveis.
ótimo
29.  [2.000] (IP:281474038335826 | 16:07:06 | 05:38:57 | 31:51 | 254.718)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
Neste caso, a afirmativa é correta, pois o R2 não ajustado é afetado pela adição de número de
variáveis no modelo, ou seja, quanto maior o número de variáveis utilizadas, maior é o R2 não
ajustado, mesmo se as variáveis adicionadas não estiver explicando nada. No entanto, as
variáveis não devem ser jogada no intuito de aumentar o R2, mas sim, para explicar o
comportamento do experimento. Às vezes é melhor ter uma equação com R2 baixo, mais que
seja possível de explicá-la, do que uma com R2 alto com muitas variáveis, mas que não tem
como explicar o que estar acontecendo. A melhor opção pode ser em optar pelo R2 ajustado que
retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas. Por
tanto, se o R2 corrigido aumentar mesmo após o ajuste é porque não é em função do aumento do
número de variáveis e sim por que estas variáveis adicionadas estão explicando melhor o
modelo.
ótimo, com uma única ressalva de que o r2 ajustado não aumenta, mas cai menos quando a
variável é importante. O r2aj SEMPRE é menor do que o r2não ajustado.
30.  [1.000] (IP:281473652861817 | 22:58:04 | 04:10:13 | 12:09 | 2.974)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Devemos especificar as diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla, sendo portanto de grande importância se testar todas as regressões possíveis, pois este
é o único algoritmo que garante uma solução para qualquer conjunto de variáveis, contudo
dependendo do número de variáveis que compõem o modelo haverá um número de combinações
diferentes, ou seja, quanto mais variáveis maior será o número de combinações e vice-versa.
Vale ressaltar que em casos onde se tenha muitas variáveis, testar todas as regressões possíveis
torna-se quase impossível, porque cada teste realizado acarretará um aumento da probabilidade
de se cometer o erro tipo 1.
Outra especificação do modelo é o da Eliminação para trás, onde o processo inicia-se com a
regressão completa (todas as p variáveis) sendo eliminada uma variável em cada estágio, sendo
importante ressaltar que a ordem das variáveis no modelo de regressão é definida por sua
suposta importância, iniciando a eliminação pela de menor importância.
Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima
variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua
retirada. Uma vez retirada a variável não poderá ser aproveitada. Depois reinicia novamente o
processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação
completa.
Enquanto que uma outra especificação do modelo, o da Seleção para frente, possui o mesmo
principio do método de eliminação para trás, sendo realizado em sentido contrário. Ou seja, as
variáveis candidatas vão sendo introduzidas progressivamente no modelo, introduzindo as que
supostamente são mais importantes, uma de cada vez, formando diferentes modelos e de
regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada.
Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado.
Na especificação da estratégia 2 utiliza-se os Stepwise (forward) e o Stepwise (backward):
Stepwise (forward), o qual é uma combinação dos dois procedimentos anteriores conduzindo
melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em
cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já
presente. Neste modelo se testa todas as variáveis eliminando algumas delas até chegar a um
modelo adequado, porém as variáveis eliminadas podem ser novamente introduzidas para
verificar se há alguma melhora no modelo, esse processo irá persistir a ponto de não ocorrer
nenhuma modificação, por conter mais variáveis este modelo possui maior confiabilidade. Porém,
como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer
o erro tipo 1 aumenta.
Stepwise (backward), possui os mesmos princípios metodológicos e as mesmas limitações do
Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário.
de novo
31.  [2.000] (IP:281473652861817 | 22:58:28 | 04:11:31 | 13:03 | 3.245)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
Para saber qual modelo que melhor explique um determinado comportamento a partir de um
conjunto de dados coletados, é necessário avaliar e adotar alguma técnica que facilite a escolha
adequada por um determinado modelo, a saber:
- Testar todas as regressões possíveis, a partir desta técnica, é possível testar todos os modelos
possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de
parâmetros (p), existe 2p – 1 de modelos possíveis. Desta forma, se tem uma garantia de que há
uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o
critério de escolha para chegar no modelo mais adequado. Contudo, existe limitação de
informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende
para àquela condição específica, considerando um número p de parâmetros, para aqueles dados
em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e
como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou
seja, os parâmetros são considerados independentemente de sua importância.
Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número
de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de
cometer o erro tipo I.
- Eliminação para trás, essa técnica baseada em testar todos os parâmetros gerando todos os
modelos possíveis, entretanto, diferentemente do teste de todas as regressões possíveis, a
eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se
retira uma variável, faz-se um novo teste. É importante ressaltar que as variáveis retiradas são
aquelas consideradas menos importantes e o teste termina quando a retirada de uma variável
implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto,
considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância
do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida.
- Eliminação para frente, baseia-se no mesmo princípio da eliminação para trás, ou seja, na
desconsideração das variáveis menos importantes, todavia, o início do teste é inverso,
considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste.
- Stepwise (forward), pode ser considerada uma técnica que reúne os melhores pontos das outras
técnicas discutidas anteriormente. Esta técnica baseia-se na seleção para frente, ou seja, iniciase o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para
cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou
adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo.
Isto não é verificado nas técnicas anteriores onde uma vez retirada uma variável, não é possível
colocá-la novamente.
Contudo existem algumas limitações quanto ao seu uso, por aumentar razoavelmente a chance
de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as
regressões possíveis, já que há um aumento no número de testes realizados.
-Stepwise (Backward), utiliza-se o mesmo princípio da stepwise (forward) na medida em que
combina variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o
teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e
retira-se variável por variável mediante o teste.
Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I.
ótimo, exceto quanto à formatação matemática. Parece que todo mundo cometeu exatamente o
mesmo erro...
32.  [1.750] (IP:281473652861817 | 22:58:38 | 04:12:20 | 13:42 | 2.691)
Discuta o significado e possíveis implicações do AIC
O critério de informação - Akaike (AIC) foi desenvolvido por Hirotugu Akaike em 1974, onde a
partir da distância ou informação, sendo a distância uma medida de discrepância entre as linhas
do modelo verdadeiro e do modelo aproximado, onde o mesmo, penaliza os modelos em função
do número de parâmetros, sendo usado como um procedimento para identificação de modelo
estatístico ou modelo misto, este critério combina quanto o modelo explica com o número de
variáveis usado para isto. Sendo também uma estatística frequentemente utilizada para a escolha
da especificação de uma equação de regressão no caso de alternativas não aninhadas isso é
quando não existem variáveis independentes comuns aos dois.
O critério de Akaike (AIC) é definido como:
AIC = 2 x (k-L) / N; onde L é a estatística log verossimilhança, N o número de observações e k o
número de coeficientes estimados (incluindo a constante).
Quanto menor, mais o modelo explica com o menor custo em número de variáveis.
Esse procedimento possuem algumas implicações, são elas:
• Na escolha do modelo de regressão (quem tiver o menor AIC será o melhor modelo.)
• Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor,
mais o modelo explica com o menor custo (uso de poucas variáveis.)
• Explica a ligação entre as variáveis e com o número variáveis que é utilizado ou melhor
quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente.
boa mas com o mesmo problema de definição do que é implicação
33.  [2.000] (IP:281473652861817 | 22:58:42 | 04:13:18 | 14:36 | 2.801)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
Diante do pressuposto de que a regressão linear múltipla escolhida descreverá satisfatoriamente
a relação existente entre variáveis independentes e a variável resposta, pode ser satisfatório abrir
mão de critérios para que se possa garantir a escolha por um modelo adequado. Com base nisto,
existem alguns critérios que são comumente adotados ou utilizados para avaliar os modelos, são
eles:
- Coeficiente de determinação (R²), neste caso o R² configura-se como um coeficiente que mede
o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão.
O coeficiente de determinação pode assumir valores de 0 a 1, onde valores próximos de 1
atestam que a relação entre variáveis independentes e variáveis dependentes podem ser
satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Em R²
baixos, próximos de zero, denotam que o modelo (representado pela equação) não consegue
explicar a relação existente entre as variáveis. Sendo assim, utiliza-se o R² como critério,
considerando que quanto maior este for, melhor é o ajuste do modelo. Logo pode-se considerar a
comparação de modelos concorrentes (modelos que explicam uma mesma relação), caso
determinasse o coeficiente de determinação como critério de escolha para o melhor modelo,
escolheria o modelo que apresentasse maior R².
- Coeficiente de determinação ajustado: é baseada na limitação do coeficiente de determinação
(R²), o coeficiente de determinação ajustado não aumenta obrigatoriamente com o aumento do
número de variáveis independentes, já que em seu valor somente influi as variáveis
independentes que apresentam efeito significativo, obtido através da análise de variância.
Desta forma, pode-se pensar que o R² ajustado somente aumentará se a variável ou variáveis
adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é
preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de
escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o
modelo explica a relação entre as variáveis em estudo.
- Soma dos quadrados do resíduo (SSR): critério que baseia-se na observação da soma dos
quadrados do resíduo, onde quanto menor o SSR, melhor o modelo descreve a relação entre as
variáveis independentes. Contudo, o uso do SSR apresenta uma limitação, seu valor depende do
tamanho d amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito,
afetando os graus de liberdade do resíduo e, consequentemente, afetando a relação existente
entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o
uso do quadrado médio dos resíduos como critério de escolha.
- Teste F: baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo
do pressuposto de que quanto maior o F calculado, melhor a equação de regressão explica o
comportamento das variáveis. Esta variação do valor de F é em função da relação entre o
quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o
aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são
inversamente proporcionais).
- Cp: critério preconizado Mallows e que está baseado no erro quadrático médio dos valores
ajustados. Calcula-se este critério baseado na fórmula:
Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)]
Onde:
SSR – Soma dos quadrados do resíduo
MSR – Quadrado médio do resíduo
N – número de parcelas experimentais
p – número de parâmetros
Onde o modelo mais adequado será escolhido em função do número de Cp calculado que mais
se aproxime do valor dos parâmetros (p +1).
- AIC (Critério de informação de Akaike): configura-se como um critério de seleção do melhor
modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC,
mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração
a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de
variáveis independentes que estão no modelo.
ótimo
34.  [2.000] (IP:281473652861817 | 22:58:47 | 04:14:24 | 15:37 | 21.414)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
A afirmativa é verdadeira, pois num modelo, quanto maior o número de variáveis adicionadas a
equação, maior será seu R2 pelo simples fato de estar levando em consideração mais variáveis
que um modelo com menos.
A correção do R2 diz respeito a correção do número de elementos que é colocado no modelo,
enquanto o R2 corrigido anula a influencia da quantidade de variáveis. Realizar uma atividade
baseando-se no R2 não corrigido implica na possibilidade de se estar trabalhando com um
modelo bem mais complicado pelo número de variáveis que possui e que no fim das contas não
estará surtindo efeito algum porque seu R2 elevado poderá ser apenas em função do número de
variáveis e não da sua relevância.
Um modelo contendo menos variáveis e que seja bem mais significativo no que se propõe,
poderá ser substituído por outro com um número maior de variáveis e consequentemente maior
R2, contudo com pouca ou quase nenhuma se trabalharmos apenas com o R2 não corrigido.
ok
35.  [1.750] (IP:281473824607337 | 18:36:52 | 20:22:54 | 46:02 | 1.159)
Discuta o significado e possíveis implicações do AIC
Primeiramente vamos discutir o significado do AIC. O critério informativo de Akaike (AIC) é uma
ferramenta para seleção de modelos, pois oferece uma medida relativa da qualidade do ajuste de
um modelo estatístico, ou seja, o AIC é um índice que nos permiti escolhe o melhor modelo para
a regressão. Este índice avalia ao mesmo tempo a qualidade de informação, qualidade da ligação
entre as variáveis com o número de variáveis que é utilizada, assim como a quantidade de
variáveis que entra, com a quantidade de dados explicados. O AIC não fornece um teste de um
modelo no sentido usual de testar uma hipótese nula. O AIC é um teste de máxima
verossimilhança para verificar se o modelo escolhido é o adequado.
As implicações do AIC são em relação à escolha dos modelos utilizamos os valores de AIC para
decidir qual é o melhor modelo a ser utilizado, sendo assim quando temos um conjunto de
modelos candidatos, o modelo a ser utilizado é aquele que apresentar o menor valor de AIC
(quanto menor for o valor de AIC melhor será o ajuste do modelo aos dados recolhidos). O
importante é que o modelo se ajuste bem aos dados junto ao ponto (ou transecto). Este critério
combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor,
mais o modelo explica com o menor custo em número de variáveis. Outra aplicação do AIC é em
modelo misto para selecionar qual modelo de co-variância é mais útil.
continua o mesmo problema dos demais. gostei da parte inicial
36.  [2.000] (IP:281473824607337 | 18:37:39 | 20:22:56 | 45:17 | 1.638)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
É fundamental compreender que a capacidade explicativa de um modelo mede a parte da
variação da variável dependente que é explicada pelas variáveis independentes, ou seja, quanto
mais elevado e próximo de 1 o R2, melhor será este modelo ou "melhor seria" este modelo
porque é imprescindível fazer algumas considerações. O R2 não ajustado é afetado pela adição
de número de variáveis no modelo, portanto, para conclusões assertivas opta-se pelo R2
ajustado. De forma geral o R2 ajustado corrige para o número de elementos (variáveis) que foram
adicionadas na equação, ou seja, retira o efeito proveniente apenas do número de variáveis que
foram adicionadas, e se o R2 corrigido aumentar mesmo após o ajuste é porque não é função de
ter colocado mais variáveis e sim que estas variáveis adicionadas estão explicando melhor o
modelo. A função da correção é fazer uma análise científica, em que a explicação mais simples
que explica tão bem quanto a mais complexa é provavelmente a mais interessante, então duas
equações com R2 corrigidos iguais, a menor é melhor, facilitando a discussão e sendo um
modelo mais econômico, porque será gasto menos grau de liberdade para ter o mesmo ganho.
Desta maneira a afirmativa "nem sempre o modelo com melhor R2 não ajustado é o mais
adequado" é coerente diante de tudo que foi explicado.
bem explicado
37.  [1.500] (IP:281473824607337 | 18:38:11 | 20:22:58 | 44:47 | 1.546)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
As técnicas de seleção de modelos podem implicar em grande aumento na chance cometer o
erro tipo I. A avaliação de um modelo procura verificar se os parâmetros estimados são ou não
estatisticamente significativos e satisfatórios. Os critérios estatísticos de avaliação dos modelos
têm como objetivo verificar o grau de confiabilidade das estimativas obtidas. O critério para
seleção da regressão linear múltipla (RLM), refere-se ao fator escolhido para comparação dos
modelos de regressão e desta forma escolher o melhor modelo, como exemplo o coeficiente de
correlação (R), o valor de F e coeficiente de determinação (R2). O critério para seleção possibilita
encontrar quais as variáveis entram no modelo de regressão, para avaliar um conjunto de dados
a ser feito as regressões.
O coeficiente de correlação é uma medida da relação linear entre duas ou mais variáveis, este
indica a proximidade dos pontos á reta de regressão e quanto mais próximo o de 1,0 for o valor
de R, mais os pontos se encontram na reta de regressão. Quanto mais próximo de zero, mais
pobre será o ajustamento da reta de regressão aos pontos.
Já o coeficiente de determinação da regressão tem por objetivo revelar o quanto as variáveis
independentes explicam a variação da variável dependente, ou seja, é uma medida que procura
refletir o quanto os valores de Y estão relacionados com os valores de X, no coeficiente de
determinação os valores também vão varia de 0 a 1, sendo que quanto mais próximo de 1 é
melhor. O teste F dá uma ideia da relação entre a variação devida ao resíduo e ao acaso.
nenhuma menção ao AIC, apesar da outra pergunta?
38.  [2.000] (IP:281473824607337 | 18:38:34 | 20:23:00 | 44:26 | 1.39)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Testar Todas as Regressões Possíveis – este é o único algoritmo que garante uma solução para
qualquer conjunto de variáveis, porém, a depender do número de variáveis que compõem o
modelo haverá um
número de combinações diferentes, quanto mais variáveis maior será o número de combinações,
e viceversa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase
impossível, sendo
que a cada teste realizado acarretará um amento de chances de cometer o erro tipo1.
Eliminação Para Trás – o processo inicia-se com a regressão completa (todas as p variáveis) e
em cada estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de
regressão é definida
por sua suposta importância, iniciando a eliminação pela de menor importância. Todos os
modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de
cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada.
Uma vez retirada a variável não poderá
ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de
regressão que explicará tão bem quanto a equação completa.
Seleção Para Frente – possui o mesmo principio do método de eliminação para trás, só que este
é realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas
progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de
cada vez, formando diferentes modelos e de
regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada.
Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado.
Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores
resultados.
O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se
um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo testa
todas as variáveis
eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas
podem ser
novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá
persistir até o que não ocorra nenhuma modificação. Por conter mais variáveis este modelo
possui maior confiabilidade.
Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de
cometer o erro tipo 1 aumentam.
Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações
do Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário.
de novo a confusão técnica x estratégia
39.  [1.500] (IP:281473824607337 | 18:39:01 | 20:23:06 | 44:05 | 5.15)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
As técnicas mais utilizadas são as seguintes:
1ª – Testar todas as regressões possíveis: como o titulo já propõe, esta técnica aplica-se a todas
as regressões
possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis
envolvidas no
estudo, logo, este número de combinações fica sendo determinado pela expressão 2^(p_máx )-1,
onde p
corresponde ao número de variáveis independentes, ou seja, se em determinado estudo tivermos
um número
de 8 variáveis, isso implica dizer que teremos 255 modelos de regressão possíveis para
avaliarmos na
respectiva técnica. Problemas quanto a esta técnica relacionava-se à elevada carga
computacional a qual era
exercida sobre os antigos computadores no momento da análise, mas, isso se modificou com o
advento de
processadores com alta velocidade de processamento tornando aplicável o método. A
desvantagem do
método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor,
modelo de
regressão múltipla;
2ª – Eliminação para trás (backward elimition): neste teste, inicia-se com a regressão múltipla
contendo
todas as variáveis, posteriormente, eliminamos a cada rodada de seleção (R2, R_a^2, Cp e etc) a
variável de
menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A
desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na
composição
do modelo e consequentemente no processo de seleção, isso nos faz pensar ou refletir que, ora
aquela
variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável,
porém, em
outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno;
3ª – Seleção para frente (forward selection): esta técnica assemelha-se a de eliminação para trás,
contudo em
direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis,
iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a
aplicação dos
cadê a stepwise mesmo?
40.  [1.000] (IP:281473821820604 | 15:53:34 | 10:47:02 | 53:28 | 5.476)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Primeiro, testar todas as regressões possiveis, desde elas sozinhas, até todas juntas. Só que, o
método tem a desvantagem de fornecer informações limitadas sobre qual o melhor modelo de
regressão múltipla, em contrapartida, não tem como não achar a melhor já que testei todos.
Quanto mais variáveis maior será o número de combinações, sendo que, testar todas as
regressões possíveis quando se tem muitas variáveis pode tornar-se um problema, pois aumentase a chance de cometer o erro tipo I a cada teste realizado.
Eliminação para trás, pego todas as variáveis, jogo no modelo e faço regressão pra todo mundo.
Começo com todas as variáveis, testo todos os modelos tirando uma única variável, e em seguida
elimino a variável de menor efeito no modelo, desta maneira, avalia-se o efeito da ultima variável
retirada. A variável retirada é aquela de menor importância, lembrando que uma vez retirada ela
não poderá mais ser aproveitada, ou seja, pode ser que a eliminação dela em um momento que
apresentou pouco efeito não se repita se testada em outra combinação. Fazendo esse
procedimento até reiniciar novamente o processo e conseguir um modelo de regressão que
explique bem a equação.
Seleção para frente é igual à para trás, ao contrário, ou seja, inicia-se com um modelo simples
com uma variável em vez de iniciar por um modelo com todas as variáveis. Essa variável é
aquela que supostamente apresenta maior efeito, e o procedimento de avaliação vai sendo
realizado até incluir todas as variáveis na regressão. O problema é que, uma vez inserida a
variável não poderá ser retirada.
E por último, o stepwise, que nada mais é que a união dos métodos anteriores, sendo que ele
permite a eliminação ou acréscimo de variáveis durante o processo (combinações), o que nao era
permitido nos outros. Portanto, se ao eliminar uma variável e perceber que mantê-la no modelo é
mais vantajoso, pode-se trazê-la de volta, e o contrário também ocorre. O que era desvantagem
na utilização dos anteriores, aqui é uma vantagem. É um método mais confiável. No entanto, o
fato de ocorrer um número muito grande de testes aumentam também as chances de ocorrer erro
tipo I.
confusão entre técnica e estratégia
41.  [2.000] (IP:281473821820604 | 15:57:40 | 10:49:12 | 51:32 | 2.839)
Discuta diferentes critérios para seleção da melhor regressão linear múltipla.
São adotados os seguintes critérios:
Soma dos quadrados do resíduo (SSR): quanto menor o SSR, melhor o modelo descreve a
relação entre os preditores e
variável resposta. No entanto, no caso de amostras pequenas a variação do resíduo diminuirá
significativamente, o que afeta a relação existente entre variação do acaso e o efeito do
tratamento.
Teste F, parte do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão
vai explicar o comportamento das
variáveis.O aumento do valor F(calculado) está diretamente relacionado com a diminuição do
QMR.
Coeficiente de determinação (R2)- mede o quanto da variação de y (variável dependente) pode
ser explicada pela equação de regressão.O coeficiente de determinação pode assumir valores de
0 a 1, onde, os valores próximos de 1 atestam que a relação entre variáveis independentes e
variável dependente podem ser explicadas através da regressão encontrada, indicando bom
ajuste. Já o R2 baixo, próximo de zero, significa que o modelo não consegue explicar a relação
existente entre as variáveis.
Quando isto acontece, utiliza-se o R2, considerando que o melhor ajuste será quanto maior for o
R2.
Coeficiente de determinação ajustado (R2 ajustado), o coeficiente de determinação ajustado não
aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu
valor somente influi aqueles preditores que apresentam efeito significativo, que é obtido através
da ANOVA. É preferível utilizar o coeficiente de determinação ajustado em relação ao R2 como
critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor,
melhor o modelo explica a relação entre as variáveis em estudo.
AIC (Critério de informação de Akaike), leva em consideração a ligação entre as variáveis, a
quantidade de preditores existentes no modelo, além da qualidade da informação. Quanto menor
o valor de AIC, mais o modelo explica a relação entre as variáveis.
excelente
42.  [1.750] (IP:281473821820604 | 15:58:33 | 10:49:54 | 51:21 | 4.318)
Discuta o significado e possíveis implicações do AIC
O AIC (Akaike Information Criteria), foi desenvolvido sob o conceito de que, quando o tamanho da
amostra tende a infinito, ele converge para o valor exato da divergência de Kullback-Leibler, que é
uma medida de quanta informação é deixada para trás quando se tenta representar um conjunto
T de medidas utilizando uma base conhecida L. Assim como os outros métodos, também tem
desvantagens, pois, por vezes o AIC não só falha em escolher um modelo mais parcimonioso,
como em outras escolhe o modelo de maior ordem entre todos os modelos comparados.
O critério de Akaike (AIC) é dado por: 2 x (k L) /N, onde:
L é a estatística log verossimilhança, N o número de observações e k é o número de coeficientes
estimados.
Implicações:
- combina simultanemente várias informações;
- na escolha do modelo, selecionar quem tiver menos AIC
- combina quanto o modelo explica com o número de variáveis usado para isto;
- quanto menor, mais o modelo explica com o menor custo em número de variáveis.
boa parte matemática, mas mistura um pouco o que é implicação, já que nenhum destes pontos é
uma consequência do AIC, mas sim características dele
43.  [2.000] (IP:281473821820604 | 15:59:52 | 10:51:36 | 51:44 | 3.652)
Compare as possíveis técnicas adotadas para seleção do modelo mais adequado
para uma regressão linear múltipla.
É fundamental a adoção de técnicas que permitam facilitar a escolha do modelo mais adequado
para uma regressão linear múltipla. Algumas técnicas são adotadas com esse objetivo, são elas:
Testar todos os modelos possíveis, pois dessa forma não tem como não achar o melhor, já que
todos foram testados,sendo necessário, apenas, avaliar o critério de escolha para chegar no
modelo mais adequado. Neste caso, com desvantagem de atender somente àquela condição
específica, considerando aquele conjunto de dados em particular. Além disso, quando o número
de parâmetros aumenta, aumenta também a chance de cometer erro tipo I.
Outra técnica utilizada é a eliminação para trás, que baseia-se em pegar todas as variáveis, jogar
no modelo e fazer regressão pra todo mundo. Mas diferentemente da técnica anterior, à medida
que se retira uma variável (aquela considerada menos importante), um novo teste é feito,
avaliando cada nova regressão.
E, a seleção para frente, outra técnica utilizada para este fim, assemelha-se à eliminação para
trás, só que, ao contrário. Em vez de desconsiderar a variável que se mostrar menos importante
(eliminar), considera-se uma variável, e a cada adição realiza-se um novo teste.
O Stepwise (forward), técnica muito utilizada para seleção do melhor modelo, é a junção das
técnicas anteriores, e se baseia na seleção para frente, sendo que, as variáveis podem ser
eliminadas ou adicionadas até se encontrar a melhor combinação, o que não é permitido nos
outros testes. Lembrando que, desta forma, aumenta-se a chance de cometer o erro tipo I, assim
como a primeira técnica, que testa todas as regressões possíveis.
O Stepwise (Backward), mesmo princípio da stepwise (forward), só que baseia-se na seleção
para trás, ou seja, realiza-se o teste com todos os parâmetros e retira-se variável por variável a
cada teste. Assim como o stepwise (forward), há grandes chances de se cometer erro tipo I.
ok
44.  [2.000] (IP:281473821820604 | 16:01:11 | 10:52:48 | 51:37 | 16.563)
Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R²
não-ajustado é o mais adequado".
É coerente.
O que acontece é que, o R2 ajustado elimina qualquer influência da quantidade de variáveis. Eu
posso estar aumentando o número de variáveis e elas nao explicarem coisa alguma.
Ao optar pelo uso do R2 nao corrigido é possivel estar trabalhando com um modelo mais
complicado pelo número de variáveis que nao vai estar influenciando em nada devido o R2 alto
ser decorrente do número de variáveis e não da sua "significância".
Se trabalhar com R2 não ajustado apenas, é possível que ocorra substituição de um modelo com
menos variáveis e mais significativo por um modelo com mais variáveis e maior R2 com pouca ou
nenhuma significância.
ok

Download

sabatina 4

REG_MUL_21_Maio_08

bioestatistica - IME-USP

AjusteInformacao - Danielle Carusi Machado

Intervalo de confiança

apresentação

Document

Regressao Multipla - Departamento de Informática e Estatística

Comentários (PPT - 120KB

Document

SAP PA e regressão logística: Instalando, configurando e usando