1. [2.000] (IP:281473857278462 | 19:36:32 | 19:32:41 | 56:09 | 4.486) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". A afirmativa é verdadeira, pois o r2 não-ajustado é influenciado pela adição de variáveis no modelo, ou seja, o aumento do número de variáveis utilizadas, por si só, leva a um maior r2 nãoajustado, assim as variáveis adicionadas podem não estar explicando nada, e mesmo assim estariam aumentando o r2. Para a escolha de um modelo, neste caso, seria melhor optar pelo uso do r2 ajustado que tem por finalidade corrigir o r2 não ajustado, retirando o efeito decorrente do aumento do número de variáveis no modelo de regressão. Se o r2 corrigido aumentar mesmo após o ajuste não será apenas em função do aumento do número de variáveis e sim por que estas variáveis adicionadas realmente estão explicando melhor o modelo. correto, e muito sucinto. 2. [1.500] (IP:281473857278462 | 19:38:08 | 19:33:43 | 55:35 | 3.208) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Modelo geral 1.Testar todas as regressões possíveis: é a única estratégia que avalia todas as possibilidades de combinação de variáveis, no entanto a depender do número de variáveis inseridas no modelo haverá um número de combinações diferentes, assim quanto mais variáveis maior será o número de combinações, e vice-versa. Para situações com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo que a cada teste realizado acarretará um amento de chances de cometer o erro tipo1. Sendo esta a única estratégia que sempre vai garantir a escolha da melhor regressão possível, justamente pelo fato de testar todas as possíveis. Modelos aninhados 2. Eliminação para trás: neste processo partimos de uma regressão completa, ou seja, contento todas as variáveis, e em cada “ciclo” é eliminada uma variável, sendo a ordem das variáveis no modelo de regressão definida por sua possível importância, iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida, elimina-se a variável cuja saída produz menor efeito no modelo. Após a retirada de determinada variável, ela não poderá ser mais utilizada. Em sequencia se realiza novamente o processo, partindo agora do modelo obtido (completo menos a variável retirada), até se obter o menor modelo de regressão que explique tão bem quanto a equação completa. 3. Seleção para a frente: possui o mesmo principio do método de eliminação para trás, só que este é realizado em sentido contrário. Ou seja, partindo de um modelo sem as variáveis, que vão sendo introduzidas (primeiro as mais importantes) progressivamente no modelo, e são feitos testes para medir seu efeito no conjunto. Após a verificação dos modelos é escolhida a que melhor explica o fenômeno estudado, que é obtido quando não ocorre efeito com a inclusão da variável. 4. Stepwise (forward) – é uma combinação das estratégias de seleção para frente e eliminação para trás, e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presentes. Com mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis, as chances de cometer o erro tipo 1 aumentam. Como os programas selecionam valores de probabilidade para uma variável entrar e sair do modelo recomenda-se usar 1(ou 0,99999) e 0 (ou 0,0000001), respectivamente. 5. Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frente, ou seja, o processo é iniciado com todas as variáveis compondo o modelo e estas vão sendo testadas e eliminadas. embora ainda confunda técnica e estratégia, pelo menos já fez o agrupamento dos modelos aninhados 3. [2.000] (IP:281473857278462 | 19:38:53 | 19:34:36 | 55:43 | 4.028) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. As técnicas mais utilizadas na seleção do modelo mais adequado para uma regressão linear múltipla são as seguintes: 1. Testar todas as regressões possíveis: nesta técnica aplica-se todas as regressões possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo, logo, este número de combinações fica sendo determinado pela expressão [2p-1], onde p corresponde ao número de variáveis independentes. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. 2. Eliminação para trás: neste teste, inicia-se com a regressão múltipla contendo todas as variáveis, posteriormente, eliminamos a cada rodada de seleção a variável de menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na composição do modelo, isto possibilita que a variável poderia estar apresentando pouco efeito no modelo quando foi eliminada, mas esta mesma variável, porém, em outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno. A eliminação para trás testa todos os modelos com p1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. 3. Seleção para frente: esta técnica assemelha-se a de eliminação para trás, contudo em direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da eliminação para trás, tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas combinações; 4. Stepwise (forward e backward): esta se configura como uma junção dos doi últimos métodos anteriormente descritos, acrescido da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de seleção na circunstância em que se julgar viável (combinação de maior efeito), ou seja, este método supre a deficiência ocorrida nos descritos acima quanto a descrever a melhor combinação entre as variáveis. Essa ação apresenta seus benefícios isso é fato, todavia esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos gerados. cuidado com a formatação matemática. O número de combinações é 2^p-1 ou seja, dois elevado a p, menos um... isto é muito diferente de 2 vezes p -1 como você colocou... 4. [2.000] (IP:281473857278462 | 19:39:39 | 19:37:07 | 57:28 | 4.44) Discuta o significado e possíveis implicações do AIC O Critério de informação de Akaike (AIC) é baseado na teoria de informação, é uma forma alternativa para escolher o melhor modelo de regressão, onde a partir da distância ou informação (que é uma medida de discrepância entre as linhas do modelo verdadeiro e o modelo aproximado), o AIC penaliza os modelos em função do número de parâmetros. Sendo também em estatística frequentemente utilizado para a escolha exata de uma equação de regressão no caso de alternativas não aninhadas, isso quando não existem variáveis independentes comuns aos dois. O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N Onde, L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados (incluindo a constante). Quanto menor, mais o modelo explica com o menor custo em número de variável o que esta acontecendo. O AIC também avalia quanto o modelo explica de acordo com o número de variáveis usadas, quanto menor, mais o modelo explica com o menor uso de variáveis. E explica a ligação entre as variáveis e com o número variáveis que é utilizado ou a melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente. Este critério tende a penalizar modelos em que são constituídos por muitas variáveis, isso quer dizer que quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica da realidade, assim sempre que possível e lógico devemos adotar modelos simples, em detrimento de modelos complexos e de difícil entendimento. embora continue com o problema com implicações, o parágrafo final ficou particularmente claro 5. [2.000] (IP:281473857278462 | 19:40:13 | 19:38:09 | 57:56 | 22.358) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Na avaliação de modelos únicos ou aninhados (derivado de um modelo mais geral), é preciso estabelecer critérios para seleção do melhor entre os modelos, ou seja, o que envolva o mínimo de parâmetros que expliquem satisfatoriamente a variável resposta. Para isso, são utilizados critérios estatísticos de avaliação, ditos critérios de seleção, que podem ser os seguintes parâmetros: R2, R2, Valor de F, QMR, SQR, AIC, entre outros. 1. Coeficiente de determinação (R2): este método baseia-se na observação dos valores determinados para o R2 (varia de 0 a 1) de acordo com o ajuste do modelo de regressão múltipla, logo, se adicionarmos uma variável insignificante ao modelo teremos um aumento mínimo de R2. Daí deve-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no fenômeno. Contudo, sua empregabilidade tem sido mais voltada em determinarmos quando devemos parar de adicionar variáveis ao modelo, ao invés de encontrar o melhor, tendo em vista que os valores de R2 não reduzem quando adicionamos mais variáveis; 2. Coeficiente de determinação ajustado (R2 ajustado): No intuito de minimizarmos erros decorrentes da análise incorreta do R2 para alguns é preferível usar o R2 ajustado, que não aumenta apenas em decorrência da adição de variáveis ao modelo, contudo apresentará valores superiores quando na analise de F entre os modelos apresentar aumento do efeito das variáveis incluídas. Consequentemente, o critério de escolha baseado no R2 ajustado consiste em escolher o que apresentar valor máximo; 3. Resultado da análise de variância (F): entende-se neste critério que na avaliação dos modelos aquele que apresentar um maior efeito devido ao tratamento sobre o acaso deverá ser escolhido como o que melhor representa o comportamento em estudo. Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o F, melhor a equação de regressão explica o comportamento das variáveis; 4. Quadrado médio dos resíduos (QMR): neste método inferimos que quanto menor for o QMR de um modelo consequentemente maior será o R2 ajustado, portanto, modelos nos quais apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste; 5. Soma dos quadrados dos resíduos (SQR): tem o mesmo principio do critério anterior, tendo em vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a dependência do tamanho da amostra; 6. Critério de informação de Akaike (AIC): configura-se como um critério de seleção do melhor modelo, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo; excelente 6. [1.500] (IP:281473826793570 | 13:27:18 | 17:20:30 | 53:12 | 31.275) Discuta o significado e possíveis implicações do AIC O Critério de Informação de Akaike (AIC) é um princípio que nos permite escolher o melhor modelo para a regressão, ou seja, é uma ferramenta para seleção de modelos, oferecendo uma medida relativa da qualidade do ajuste de um modelo estatístico, onde as regressões com menor índice são consideradas as que melhor representam determinado fenômeno. Esse critério baseiase na teoria da informação, considerando simultaneamente a qualidade de informação, a qualidade da ligação entre as variáveis com o número de variáveis que é utilizada, assim como a quantidade de variáveis que entra, com a quantidade de dados explicados. O AIC é um teste de máxima verossimilhança para verificar se o modelo escolhido é adequado. Suas implicações são em relação à escolha do modelo de regressão, onde, quem tiver o menor AIC apresenta-se como melhor modelo, avalia também, quanto o modelo explica de acordo com o número de variáveis usadas, em que, quanto menor, mais o modelo explica com o menor custo, usando-se de poucas variáveis, e explica a ligação entre as variáveis e o número de variáveis que é utilizado, ou a melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente. AIC não é um princípio, mas sim uma medida ou constante. Não vi nada quanto a implicações. 7. [2.000] (IP:281473826793570 | 13:28:03 | 17:21:09 | 53:06 | 29.605) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Na avaliação de modelos únicos é preciso estabelecer critérios para seleção que envolva o mínimo de parâmetros e que expliquem satisfatoriamente a variável resposta. Com isso, tem-se os seguintes parâmetros: o coeficiente de determinação do modelo (R2), que baseia-se na observação dos valores determinados para o R2, quanto mais próximo de 1, maior a validade da regressão, devendo-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no fenômeno; o coeficiente de determinação do modelo corrigido (R2c), que tem a função de minimizar erros decorrentes da análise incorreta do R2, levando em consideração o número de variáveis da regressão, suavizando o efeito da adição, contudo, o critério de escolha se mantém, devendo-se escolher o que apresentar valor máximo; o resultado da análise de variância (F), que testa a significância do conjunto de parâmetros através do teste da hipótese nula, grandes valores de F permitem a rejeição de H0, nesse critério, deve ser escolhido o que melhor representa o comportamento em estudo; o quadrado médio dos resíduos (QMR), nesse critério quanto menor o QMR maior será o R2c, portanto modelos que apresentem valores reduzidos de QMR deverão ser escolhidos como de melhor ajuste; a soma dos quadrados dos resíduos (SQR), tem o mesmo princípio do critério anterior, tendo em vista que este componente é utilizado na determinação do QMR, porém, apresenta certa limitação quanto a dependência do tamanho da amostra; Cp de Mallows (Cp), baseia-se no conceito de erro quadrático médio dos valores ajustados, sendo que a estratégia de seleção de modelos baseia-se em encontrar modelos com valores de Cp próximo ao número de parâmetros; também é possível montar todos os modelos e estabelecer os respectivos AIC, índice que leva em conta a qualidade e a quantidade de parâmetros utilizados em uma regressão, quanto menor o AIC, mais o modelo explica com o menor custo em número de variáveis. mais uma alma salva... excelente, e com enfoque bastante diferente da outra resposta correta 8. [2.000] (IP:281473826793570 | 13:28:19 | 17:22:03 | 53:44 | 45.561) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". A afirmativa é correta, pois quanto maior o número de variáveis adicionadas, maior será o R2 não-ajustado, ou seja, as variáveis adicionadas podem não estar explicando nada, porém automaticamente o R2 é aumentado. Adotar esse modelo, implica na possibilidade de estar trabalhando com um modelo mais complexo pelo número de variáveis e que pode não esta tendo bons resultados, já que o R2 elevado pode ser em função da quantidade de variáveis adicionadas e não de sua relevância. Sendo nesse caso, mais adequado o uso do R2 ajustado, no qual, anula o efeito decorrente do aumento do número de variáveis no modelo de regressão, ou seja, esse modelo permite trabalhar com as variáveis que realmente contribuem para uma explicação adequada. ok 9. [2.000] (IP:281473826793570 | 13:28:47 | 17:22:55 | 54:08 | 14.306) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. Algumas técnicas podem ser adotadas para se obter um modelo que melhor explique um determinado comportamento, a partir de um conjunto de dados coletados, são elas: 1. Testar todas as regressões possíveis: essa técnica baseia-se em testar todas as regressões possíveis, que poderiam explicar o maior número de variáveis possíveis, onde para cada número de parâmetros (p), existe 2p – 1 de modelos possíveis. Havendo uma garantia que existe uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, avaliar apenas o critério de escolha para chegar ao modelo mais adequado. A desvantagem desse método consiste na limitação de informações, sendo que o modelo selecionado somente atende aquela condição específica, considerando um número p de parâmetros para aqueles dados em particular, implicando em não sabermos se os parâmetros considerados contribuem e como contribuem para o comportamento da variável dependente, além de aumentar a chance de cometer o erro tipo I e dificultar o entendimento estatístico com a elevação do número de parâmetros; 2. Eliminação para trás (backward elimition): essa técnica testa todos os parâmetros, gerando todos os modelos possíveis, porém diferente do teste de todas as regressões possíveis, a eliminação para trás, testa também todos os modelos com p – 1 variáveis, assim, a medida que se retira uma variável, faz-se um novo teste. A desvantagem desse método consiste no fato de que uma vez retirada a variável não entrará mais na composição do modelo e consequentemente, no processo de seleção, isso nos faz pensar que aquela variável poderia estar apresentando pouco efeito no modelo da vez ou esta mesma variável, porém, em outro modelo poderá ser mais efetiva quanto a explicar o fenômeno. Considera-se, portanto nesse modelo que retirar variáveis de pouco ou nenhum efeito não traz ônus para significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida; 3. Seleção para frente (forward selection): essa técnica assemelha-se a de eliminação para trás, porém em direção contrária, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação, até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas combinações; 4. Stepwise (forward e backward): essa técnica baseia-se na junção dos melhores pontos das outras técnicas discutidas anteriormente, acrescida da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de seleção na circunstância em que julgar necessária, verificando a melhor combinação possível e consequentemente o melhor modelo. Essa técnica apresenta muitos benefícios, contudo, vale salientar que esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos gerados. acredito que o número de combinações é superior ao descrito, possivelmente por problema de formatação quando saiu do word para texto simples. É sempre prudente checar este tipo de coisa. Uma boa possibilidade é usar simbologia como ^ que é geralmente reconhecido como potência 10. [1.000] (IP:281473826793570 | 13:29:02 | 17:23:20 | 54:18 | 23.691) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Para a seleção do melhor modelo de regressão linear múltipla, é preciso escolher uma estratégia que minimize o número de variáveis incluídas, descartando aquelas não significantes. Dentre essas estratégias, as mais utilizadas são, a de testar todas as regressões possíveis, sendo este o único algoritmo que garante uma solução para qualquer conjunto de variáveis, quanto mais variáveis, maior será o número de combinações, e vice-versa; a de eliminação para trás, que inicia-se com a regressão completa (com todas as variáveis) e a cada estágio é eliminada a variável cuja, saída produz menor efeito no modelo geral, lembrando que uma vez retirada a variável não poderá mais ser aproveitada; a de seleção para frente, onde as variáveis vão sendo introduzidas progressivamente no modelo, sendo feito testes para medir seu efeito no conjunto, possui o mesmo princípio da eliminação para trás, porém ao contrário, após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado; outra estratégia é o stepwise (forward e backward), sendo uma combinação dos outros métodos e conduz à melhores resultados, onde todas as variáveis adicionadas ao modelo são testadas, eliminando algumas delas até chegar ao modelo adequado, em que não ocorra mais nenhuma modificação. Esse procedimento possui maior confiabilidade, entretanto, o grande número de testes realizados, aumenta a chance de ocorrência do erro tipo I. confusão entre técnica e estratégia 11. [1.500] (IP:281473857279372 | 12:40:34 | 22:03:40 | 23:06 | 38.386) Discuta o significado e possíveis implicações do AIC O critério de Informação de Akaike (AIC) consiste em basear-se na teoria de informação, caracterizando-se como uma forma alternativa para escolher o melhor modelo de regressão a partir da minimização da informação (ou distância). No entanto, o AIC pode ser explicado como um critério que atribui uma pontuação ao modelo, baseado na adequação desse modelo aos dados e na ordem deste modelo. No que diz respeito às implicações, temos que: o modelo que apresentar os menores índices de AIC será caracterizado como sendo o melhor (esta característica é um dos fatores que deve ser usado como critério de escolha do modelo). O AIC também permite em função do número de variáveis, avaliar quanto o modelo explica (ou seja, o modelo que for constituído por um numero reduzido de variáveis será mais bem explicado, tendendo, portanto, a obtenção de informações mais reais). Esta característica nos permite abrir mão sempre que possível de modelos mais complexos e que dificultam o entendimento. O AIC também possibilita explicar a ligação entre as variáveis. ok, embora tenha havido confusão entre implicações e características a meu ver 12. [2.000] (IP:281473857279372 | 12:41:14 | 21:53:24 | 12:10 | 39.766) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. A utilização do coeficiente de determinação (R2) é um critério usado em função de ser responsável por explicar a regressão, espera-se, por tanto, que quanto mais próximo de 1 for os valores do R2, mais explicado é o modelo. No entanto, o R2 não corrigido caracteriza-se por ser influenciado pelo número de variáveis que se adiciona, havendo, por tanto, a necessidade da utilização do R2 corrigido, o qual nos permite eliminar os possíveis efeitos da adição dessas variáveis. O Teste F proposto por Ronald A. Fisher é um outro critério para a seleção da melhor regressão por nos dar uma relação entre o quadrado médio da regressão (que inclui, além das variações do acaso, dadas pelos resíduos, também os efeitos das diferenças entre os tratamentos) e o quadrado médio do resíduo – QMR (que corresponde a uma estimativa correta da variância experimental, e quanto menor o QMR, maior será os valores do R2). O AIC também é outro critério importante para a seleção da melhor regressão, correspondendo a uma avaliação da qualidade de adequação dos modelos, de tal forma que quanto menor os índices de AIC, mais a relação entre as variáveis são explicadas. salvou-se uma alma... excelente 13. [1.000] (IP:281473857279372 | 12:41:44 | 22:02:42 | 20:58 | 2.419) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". Quanto mais próximo de 1 for o coeficiente de determinação, melhor será o modelo, ou pelo menos espera-se que seja, já que algumas considerações devem ser observadas. O R2 nãoajustado, por exemplo, é afetado pela adição de variáveis no modelo, ou seja, quanto maior o número de variáveis adicionadas a equação, maior será o R2 não-ajustado. Nesse pressuposto, este aumento do coeficiente em função do número de variáveis pode não ser o suficiente pra explicar o modelo. Desta forma, deve-se efetuar uma correção para minimizar as possibilidades de cometer explicações erradas. Sendo assim, o R² ajustado é utilizado em função de ser responsável por retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas. Se após o procedimento de correção, o R2 ajustado apresentar valores superiores ao R2 nãoajustado, isso implica dizer que a variável adicionada melhora a explicação do modelo. Por outro lado, se após a correção o R2 ajustado for igual ou inferior ao R2 não-ajustado, isso implica dizer que a variável adicionada não melhorou em nada a explicação do modelo, tornando-se desnecessária. estava indo muito bem até dizer que o r2 ajustado poderia ser maior do que o não ajustado,q uando na realidade sempre é inferior. Apenas pode ser mais ou menos inferior dependendo da importância de cada variável 14. [1.000] (IP:281473857279372 | 12:42:17 | 22:02:36 | 20:19 | 4.819) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla - Teste de todas as possíveis regressões: Aplica-se em função dos possíveis arranjos formados a partir das variáveis em estudo. O número de variáveis tem uma relação direta com o número das diferentes combinações do modelo. Desta forma, quanto maior o número de variáveis no modelo, maior será o número de combinações. - Eliminação para trás: Esta estratégia inicia-se com o conjunto total de variáveis, as quais estão organizadas de acordo que o grau de importância de cada uma. Desta forma, em cada fase de eliminação, são eliminadas as variáveis menos importantes do modelo. Ou seja, o procedimento estratégico parte da ideia de que a variável eliminada possui o menor efeito da etapa de eliminação quando comparada com as demais variáveis do modelo. Este procedimento se torna contínuo até que se obtenha um modelo mais simples e que explique tão bem quanto o modelo original. - Eliminação para frente: Este procedimento estratégico é realizado em sentido contrário quando comparamos com a eliminação para trás. Nesse contexto, as variáveis vão sendo dispostas gradativamente no modelo, iniciando-se com as variáveis que possivelmente seja as de maior importância, e com esse procedimento eliminando-se as de menor importância. Esta característica possibilita a formação de vários modelos distintos. Após a avaliação de todos os modelos seleciona-se aquele que melhor explica a situação em estudo. - Stepwise: Este tipo estratégico parte da ideia de que é necessário retornar sempre ao ponto anterior antes de seguir adiante, possibilitando a eliminação de uma das variáveis avaliadas anteriormente. No entanto, na Stepwise as variáveis possuem uma maior confiabilidade no que diz respeito a sua importância para o modelo. Esta característica do modelo permite a obtenção de um número maior de testes em função dos modelos obtidos. Desta forma, as chances de cometer o erro do tipo I são maiores. A Stepwise pode ser baseada na seleção para frente (Forward), ou baseada na seleção para trás (Backward), porém no que diz respeito às variáveis, ambos possuem a mesma ideia de combinação. confusão entre técnica e estratégia 15. [2.000] (IP:281473857279372 | 12:42:53 | 22:02:18 | 19:25 | 26.185) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. Quando obtemos um determinado conjunto de dados, nos atentamos a ideia de obtenção de modelos que melhor explique o comportamento real desses dados, necessitando do emprego de artifícios que possibilite a melhor escolha do modelo. No entanto, com o intuito de selecionar o modelo mais adequado, algumas técnicas são utilizadas para tal objetivo. - Teste de todas as possíveis regressões: Aplica-se em função dos possíveis arranjos formados a partir das variáveis em estudo. O número de variáveis tem uma relação direta com o número das diferentes combinações do modelo. Desta forma, quanto maior o número de variáveis no modelo, maior será o número de combinações. Esta técnica apresenta a limitação de que, o modelo escolhido só representa aquela situação específica, limitando informações. - Eliminação para trás: Esta estratégia inicia-se com o conjunto total de variáveis, as quais estão organizadas de acordo que o grau de importância de cada uma. Desta forma, em cada fase de eliminação, são eliminadas as variáveis menos importantes do modelo. Ou seja, o procedimento estratégico parte da ideia de que a variável eliminada possui o menor efeito da etapa de eliminação quando comparada com as demais variáveis do modelo. Este procedimento se torna contínuo até que se obtenha um modelo mais simples e que explique tão bem quanto o modelo original. - Eliminação para frente: Este procedimento estratégico é realizado em sentido contrário quando comparamos com a eliminação para trás. Nesse contexto, as variáveis vão sendo dispostas gradativamente no modelo, iniciando-se com as variáveis que possivelmente seja as de maior importância, e com esse procedimento eliminando-se as de menor importância. Esta característica possibilita a formação de vários modelos distintos. Após a avaliação de todos os modelos seleciona-se aquele que melhor explica a situação em estudo. - Stepwise: Este tipo estratégico parte da ideia de que é necessário retornar sempre ao ponto anterior antes de seguir adiante, possibilitando a eliminação de uma das variáveis avaliadas anteriormente. No entanto, na Stepwise as variáveis possuem uma maior confiabilidade no que diz respeito a sua importância para o modelo. Esta característica do modelo permite a obtenção de um número maior de testes em função dos modelos obtidos. Desta forma, as chances de cometer o erro do tipo I são maiores. A Stepwise pode ser baseada na seleção para frente (Forward), ou baseada na seleção para trás (Backward), porém ambos com a mesma ideia de combinação de variáveis. No entanto, a seleção stepwise (fordward e backward) pode ocasionar a seleção arbitrária de variáveis que pertencem ao modelo, aumentando as chances de cometer o erro do tipo I. não entendi como testar todos os modelos possíveis só teste uma situação. Se a ideia é derivada dos dados originais, bem isto é absolutamente inerente a qualquer modelagem, por isto que se faz a checagem posterior como mencionei em sala. de resto, ok 16. [2.000] (IP:281473653566460 | 20:01:22 | 17:20:43 | 19:21 | 2.131) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Para selecionar a melhor regressão linear múltipla, considerando que a regressão selecionada deverá descrever satisfatoriamente a relação existente entre variáveis dependentes e a variável resposta, faz-se necessário adotar requisitos para avaliar o melhor modelo que se ajuste a um determinado conjunto de dados. Partindo desse pressuposto, existem alguns critérios que são comumente utilizados para avaliar os modelos: - Coeficiente de determinação (R2): este método baseia-se na observação dos valores determinados para o R2 que pode assumir valores de 0 a 1, salientando que valores próximos de 1 atestam que a relação entre variáveis independentes e variável dependente (ou variável resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já a observação de R² baixos, próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a relação existente entre as variáveis. Desta forma, utiliza-se o R² como critério, considerando que quanto maior ele for melhor é o ajuste do modelo. No entanto, vale salientar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo, observando-se também um aumento do mesmo, contudo, este aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo. - Coeficiente de determinação ajustado: No intuito de minimizarmos erros decorrentes da análise incorreta do R2 para alguns é preferível usar o coeficiente de determinação ajustado, não necessariamente este aumenta com a adição de variáveis ao modelo (p + s(conj. variáveis)), contudo apresentará valores superiores quando na analise de F entre os modelos (p e p + s) apresentar aumento do efeito das variáveis incluídas. Consequentemente, o critério de escolha baseado no coeficiente de determinação ajustado, consiste em escolher o que apresentar maior valor; - QMR (quadrado médio dos resíduos): neste método inferimos que quanto menor for o QMR de um modelo conseqüentemente maior será o coeficiente de determinação ajustado, portanto, modelos nos quais apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste; - SQR (soma dos quadrados dos resíduos): tem o mesmo principio do critério anterior, tendo em vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a dependência do tamanho da amostra; - Teste F: Baseia-se na observação dos valores de F (calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o F calculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais). Cp (Cp de Mallows): este critério baseia-se no conceito de erro quadrático médio dos valores ajustados e pode ser determinado pela seguinte equação: Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)] Onde: SSR – Soma dos quadrados do resíduo MSR – Quadrado médio do resíduo N – número de parcelas experimentais p – número de parâmetros Logo, a estratégia de seleção de modelos baseada no Cp consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p +1). Por exemplo, se considerarmos 4 parâmetros (variáveis independentes) para observar o comportamento de y (variável dependente), e calcularmos o Cp de dois modelos concorrentes, onde o Cp1 = 3,666 e o Cp2 = 7,5600, optaríamos pelo modelo que apresentasse o Cp1, já que este se aproxima mais do número de parâmetros (4). - AIC (Critério de informação de Akaike): Consiste como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. excelente 17. [1.000] (IP:281473653566460 | 20:07:57 | 17:20:45 | 12:48 | 1.445) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Testar Todas as Regressões Possíveis – esse é o único algoritmo que garante uma solução para qualquer conjunto de variáveis, porém, depende do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maior será o número de combinações, e vice-versa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo que a cada teste realizado levara a um amento de chances de cometer o erro tipo1. Eliminação Para Trás – o processo inicia-se com a regressão completa (com todas as variáveis) e em cada estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de regressão é definida por sua suposta importância (menor efeito), iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da última variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada. Uma vez retirada à variável não poderá ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação completa. Seleção Para Frente – segue o mesmo princípio do método de eliminação para trás, só que este é realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de cada vez, formando diferentes modelos de regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado. Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo testa todas as variáveis eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas podem ser novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá se repetir até que não ocorra nenhuma modificação. Por conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam. Stepwise (backward) – possui as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário. confusão técnica x estratégia 18. [2.000] (IP:281473653566460 | 20:08:30 | 17:20:49 | 12:19 | 3.825) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. As técnicas mais utilizadas são: - Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p – 1 de modelos possíveis, onde p corresponde ao número de variáveis independentes. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar ao modelo mais adequado. Entretanto, existe limitação de informações quando se utiliza esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I. - Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, entretanto, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Salientando que as variáveis retiradas são aquelas consideradas menos importantes (menor efeito) e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Dessa forma, considera-se que retirar variáveis de pouco ou nenhum efeito não traz perda de significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas condições (combinações); - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, conseqüentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem, vale ressaltar que existem algumas limitações quanto ao seu uso, principalmente por aumentar a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados. -Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combinam variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. Da mesma forma que o forward, a utilização desta técnica implica em uma maior chance do erro tipo I. excelente, exceto quanto ao erro de formatação matemática, igual ao que já comentei em algumas outras respostas 19. [2.000] (IP:281473653566460 | 20:08:49 | 17:20:09 | 11:20 | 178.688) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". Afirmativa correta, pois num modelo, quanto maior o número de variáveis adicionadas a equação, maior será seu R2 não ajustado, ou seja, o R2 não ajustado é afetado pela adição de número de variáveis no modelo. Por tanto é necessário efetuar uma correção para minimizar as chances de cometer um equívoco. Neste caso o melhor é optar pelo R2 ajustado que retirar o efeito decorrente do aumento do número de variáveis que foram adicionadas no modelo de regressão. Se o R2 corrigido for maior que o R2 não corrigido, isso significa que as variáveis adicionadas estão explicando melhor o modelo. Caso contrário, a variável adicionada não contribui para a explicação do modelo. O R2 corrigido permite trabalhar com as variáveis que realmente contribuem para uma explicação adequada. ok 20. [1.500] (IP:281473653566460 | 20:09:07 | 17:21:01 | 11:54 | 4.093) Discuta o significado e possíveis implicações do AIC O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos. Este índice avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos dados. Portanto, são calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo número de parâmetros. Assim, o AIC avalia a qualidade da ligação entre as variáveis e o número de variáveis utilizadas. Quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade, nos relembrando de que sempre que possível devemos adotar modelos simples que melhor retrate do que modelos complexos de difícil entendimento. Implicações: Explica a ligação entre a quantidade de variáveis que entra no modelo com a quantidade de dados explicados simultaneamente. Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor, mais o modelo explica com o uso de poucas variáveis. continua o problema das demais quanto às implicações, mas com explicação bem menos aprofundada do que várias das respostas 21. [1.000] (IP:281473824211098 | 23:28:23 | 01:27:49 | 59:26 | 1.962) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla - Testar todas as regressões possíveis – como o próprio nome já diz, esta técnica consiste em aplicar todos os modelos de regressões possíveis, através dos possíveis arranjos que se possa fazer com o maior número possível das variáveis envolvidas no estudo. Exemplo, se tivermos um número de 8 variáveis em um determinado estudo, isso significa dizer que teremos 255 modelos de regressão possíveis para avaliarmos a partir desta técnica. Apesar de ser a única estratégia que sempre garante a melhor regressão possível, essa técnica é muito trabalhosa. - Eliminação para trás - este teste inicia-se com todas as variáveis e é realizado com todos os modelos de regressão. Posteriormente, uma única variável, aquela de menor efeito no modelo, é eliminada de cada regressão e depois avaliada. Depois prossegue da mesma forma com as outras variáveis. Assim, sempre avaliamos o efeito da última variável retirada. A desvantagem do método é que uma vez retirada a variável, esta não entrará mais na composição do modelo e conseqüentemente no processo de seleção, sendo assim ora aquela variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém em outra modelo, poderia ser mais efetiva quanto a explicar o fenômeno. - Seleção para frente - esta técnica é semelhante à de eliminação para trás, a diferença é que em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável. Após a aplicação dos critérios de seleção, essa variável pode permanecer ou ser retirada do modelo. Assim, a cada adição de uma nova variável, repete-se o procedimento de avaliação até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é que uma vez adicionada esta variável, não poderá mais ser retirada para se avaliar novas combinações; - Stepwise – nada mais é do que a junção de técnicas descritas acima que pode ser de traz pra frente e de frente pra traz simultaneamente. Nesta técnica pode-se adicionar ou retirar variáveis do modelo em processo de seleção quando se julgar viável, ou seja, escolhendo a combinação de maior efeito. Geralmente o critério mais utilizado é o Teste F, em que a probabilidade igual a 1 ou 0,9999 é utilizada para a variável entrar e 0 ou 0,0000001 para retirar uma variável. A grande vantagem desse método é manter relações causais. Por outro lado, os valores de R2 são artificialmente elevados; a seleção de variáveis é fortemente dependente das correlações entre as preditivas; os erros-padrão dos coeficientes de regressão são artificialmente baixos; evita a necessidade de teoria fundamental ou bom entendimento dos dados; quanto maior o número de variáveis candidatas, maior a interferência a que o modelo final pode estar sujeito. o mesmo problema dos demais 22. [2.000] (IP:281473824211098 | 23:29:21 | 01:28:07 | 58:46 | 15.346) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". O R2(coeficiente de determinação) representa a proporção da variação da variável dependente (Y) que é explicada pela variação da variável independente (x). Então, quanto maior o número de variáveis adicionadas à equação, maior será seu R2, pois a variação devido ao acaso tende a ser menor devido ao grande número de variáveis que o modelo contém. Por outro lado, o R2 ajustado leva em consideração o número de variáveis no modelo, ou seja, não necessariamente aumenta com a adição de variáveis, pois a influência da quantidade de variáveis no modelo é anulada. Além disso, o R2 elevado poderá ser em função apenas do número de variáveis e não da sua relevância, assim como trabalhar com um grande número de variáveis é muito mais complicado. Um modelo que tenha menos variáveis e seja mais significativo poderá ser substituído por outro com mais variáveis e maior R2. Geralmente o R2 ajustado é menor que o R2, porém pode acontecer de o valor do R2ajustado ser superior ao R2 não ajustado, indicando que a variável adicionada fornece respaldos para uma explicação mais coerente. excelente 23. [1.750] (IP:281473824211098 | 23:29:46 | 01:28:31 | 58:45 | 2.315) Discuta o significado e possíveis implicações do AIC O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos que avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos dados. Para isso, são calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo número de parâmetros. O AIC é também freqüentemente utilizado para a escolha da especificação ótima de uma equação de regressão no caso de alternativas não aninhadas, isso quando não existem variáveis independentes comuns aos dois. O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N Onde: k é o número de coeficientes estimados (incluindo a constante) L é a estatística log verossimilhança e N o número de observações. Quanto menor o valor de AIC, mais o modelo explica com o menor custo, ou seja, uso de poucas variáveis. Isso significa dizer que na escolha do modelo de regressão, o melhor modelo será aquele que tiver o menor AIC. Explica a ligação entre as variáveis e com o número de variáveis que é utilizado ou a melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente. mesmos comentários dos demais 24. [2.000] (IP:281473824211098 | 23:30:30 | 01:29:08 | 58:38 | 1.247) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. - Coeficiente de determinação (R²): O R² é um coeficiente que mede o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão, isto é, através do R² podese dizer se um determinado modelo é adequado ou não para explicar a variação de uma determinada variável em estudo. O coeficiente de determinação pode assumir valores de 0 a 1, sendo que valores próximos de 1 indicam que a relação entre variáveis independentes e variável dependente (ou variável resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já valores baixos de R², próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a relação existente entre as variáveis. Assim, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o ajuste do modelo. Porém, vale ressaltar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo, ou seja, com o aumento do número de variáveis há também um aumento do R2, sendo que este aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo. - Coeficiente de determinação ajustado: O R2 ajustado não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo (o efeito significativo dos preditores é obtido através da análise de variância). Assim, o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo. - Teste F: Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo. Com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais). - Soma dos quadrados do resíduo (SSR): este critério baseia-se na observação da soma dos quadrados do resíduo, sabendo-se que quanto menor o SSR, melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR possui a limitação de que seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, conseqüentemente, afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha. - AIC (Critério de informação de Akaike): Configura-se como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo. excelente 25. [2.000] (IP:281473824211098 | 23:30:48 | 01:29:43 | 58:55 | 9.234) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. - Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p– 1 de modelos possíveis. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I. - Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto, considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração das variáveis menos importantes, todavia, o início do teste é inverso, considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste. - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados. -Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combina variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I. ok, mas com o mesmo erro das demais 26. [1.750] (IP:281474038335826 | 16:04:39 | 05:39:17 | 34:38 | 3.035) Discuta o significado e possíveis implicações do AIC O Critério de Informação de AKAIKE - AIC é baseado na teoria de informação que é uma forma alternativa para escolher o melhor modelo de regressão, onde, o melhor modelo vai ser aquele que apresentar menores índices. Teoricamente esse índice avalia ao mesmo tempo a qualidade da informação e a qualidade da ligação entre as variáveis com o número de variáveis que é utilizada. Além disso, este critério combina quanto o modelo explica com o número de variáveis usado para isto. O AIC pode ser definido pela seguinte equação: AIC = 2 x (k-L) / N L= É a estatística log verossimilhança N= É o número de observações k= O número de coeficientes estimados (incluindo a constante). Uma das implicações do IAC é na escolha do modelo de regressão, onde quem tiver o menor AIC apresentasse como melhor modelo. A outra é avaliar o modelo de acordo com as explicações decorrente do número de variáveis usadas, desta forma, quanto menor o valor, mais o modelo são explicativos, e ainda com o menor custo (uso de poucas variáveis). Por fim, o IAC explica a ligação entre as variáveis com o número variáveis que é utilizado (quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente). mesmo problema de misturar implicação com característica ou uso [1.000] (IP:281474038335826 | 16:05:54 | 05:39:31 | 33:37 | 12.103) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla No intuito de obter um modelo com menor número de variáveis incluídas, é preciso escolher certas estratégias para essa seleção. Dentre as mais utilizadas, tem-se: O TESTE DE TODAS AS REGRESSÕES POSSÍVEIS – que surgi como o único algoritmo que pode garantir uma solução para qualquer conjunto de variáveis, porém, a depender do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maiores será o número de combinações, e viceversa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se muito difícil, o que acarretará um aumento nas possibilidades de cometer o erro tipo1. A SELEÇÃO PARA FRENTE, aonde nesse método, as variáveis candidatas vão sendo introduzidas progressivamente no modelo e são feitos testes para medir seu efeito no conjunto. Tem também a estratégia da ELIMINAÇÃO PARA TRÁS, neste caso parte da regressão completa (com todas variáveis) e a cada rodada é eliminada a variável cuja saída produz menor efeito no modelo geral. Esses dois processos são bem semelhantes e promovem bons resultados, principalmente se o número de variáveis não for tão grande. E por último mais não menos importante temos a estratégia STEPWISE, que é uma combinação dos outros dois métodos, em que cada variável adicionada ao modelo são testadas novamente. Esse procedimento aumenta a confiabilidade da escolha das variáveis fixadas no modelo. Por outro lado, o grande número de testes realizados para verificação de cada um dos modelos acaba por aumentar a chance de ocorrência do erro tipo I (rejeição da H0 quando esta é verdadeira). a mesma confusão dos demais 27. [2.000] (IP:281474038335826 | 16:06:30 | 05:39:36 | 33:06 | 2.695) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. É importante obter um modelo minimizando o número de variáveis incluídas, descartando aquelas não significantes ou com pouca contribuição para o ajuste. Para isso é preciso escolher uma estratégia para essa seleção. Um das técnicas é TESTAR TODAS AS REGRESSÕES POSSÍVEIS. Esta técnica é a única estratégia que sempre garante a melhor regressão possível, por se aplicar a todas as regressões possíveis, estas são determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo. Esta técnica tinha antigamente muitos problemas quanto à carga computacional, a qual era exercida sobre os antigos computadores no momento da análise, no entanto, com o advento do surgimento de processadores com alta velocidade de processamento torna-se aplicável. A desvantagem do método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor, modelo de regressão múltipla; Outra técnica é a ELIMINAÇÃO PARA TRÁS, onde se inicia com a regressão múltipla contendo todas as variáveis, posteriormente, eliminando a cada rodada de seleção a variável de menor efeito no modelo, e desta forma sempre se avaliará o efeito da última variável retirada, para que haja melhor explicação do que se estar estudando. Este método tem como desvantagem, impossibilidade de retorno da variável descartada para recompor o modelo, o que nos remete a pensar que aquela variável poderia estar apresentando pouco efeito no modela da vez, mas que esta mesma variável, poderia em outra combinação ser mais efetiva e explicar melhor o fenômeno. Comparando as estratégias, a SELEÇÃO PARA FRENTE é uma técnica que se assemelha a de eliminação para trás, no entanto em direção oposta. Neste caso, em vez de iniciar o modelo contendo todas as variáveis, inicia-se o modelo simples com apenas uma variável, a de maior efeito. Após a aplicação dos critérios de seleção adiciona-se outra variável e repeti o procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é que esta variável não poderá mais ser retirada para se avaliar novas combinações (semelhante a eliminação para trás). Por fim, tem-se a estratégia chamada STEPWISE, que é uma das mais utilizadas em agrárias. Ela configura como uma mistura dos métodos acrescido da possibilidade de adicionar ou retirar variáveis do modelo em processo de seleção na circunstância em que se julgar viável (combinação de maior efeito). Esta técnica supre a deficiência dos descritos anteriormente (Seleção para frente e para trás) quanto a descrever a melhor combinação entre as variáveis. Existem a FORWARD e a BACKWARD. A utilização desta técnica implica em uma maior chance do erro tipo I. A FORWARD baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados. Enquanto a BACKWARD, também possui o mesmo princípio da forward na medida em que combinam variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. excelente 28. [2.000] (IP:281474038335826 | 16:06:48 | 05:39:41 | 32:53 | 2.321) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. A regressão escolhida deverá descrever satisfatoriamente a relação existente entre variáveis independentes e a variável resposta, para isso, é preciso adotar requisitos para avaliar o melhor modelo que ajuste um determinado conjunto de dados. O COEFICIENTE DE DETERMINAÇÃO (R²) é um deles, em que se configura como um coeficiente que mede o quanto da variação de Y pode ser explicada pela equação. Desta forma, através do R², pode-se inferir se o modelo é adequado ou não para explicar a variação de uma variável em estudo. Esse coeficiente pode assumir valores de 0 a 1, salientando que valores próximos de 1 indica um bom ajuste, onde a relação entre variáveis independentes e variável dependente podem ser satisfatoriamente explicadas através da regressão encontrada. Já se o R² for próximo de zero, implica dizer que o modelo não consegue explicar bem a relação existente entre as variáveis. Desta forma, utiliza-se o R² como critério, considerando que quanto maior, melhor é o ajuste do modelo. Entretanto, vale ressaltar que o R² é sensível ao aumento na medida em que se aumentam as variáveis independentes, contudo, este aumento pode não corresponder à realidade, já que nem todas as variáveis independentes são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo. Outro critério que pode ser utilizado é o COEFICIENTE DE DETERMINAÇÃO AJUSTADO, que não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo (o que é obtido através da análise de variância). Desta forma, pode-se pensar que o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis analisadas. Tem-se também a SOMA DOS QUADRADOS DO RESÍDUO, neste caso, quanto menor o SSR, melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR apresenta uma limitação: seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, consequentemente, afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha. O teste F (resultado da análise de variância) é um critério que na avaliação dos modelos, aquele que apresentar um maior efeito devido ao tratamento sobre o acaso (valores de Faltos ou melhores significâncias Pr < F) deverá ser escolhido como o que melhor representa o comportamento em estudo; O Cp (Mallows) é um critério que se baseia no conceito de erro quadrático médio dos valores ajustados e pode ser determinado pela seguinte equação: Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)] Onde: SSR – Soma dos quadrados do resíduo MSR – Quadrado médio do resíduo N – número de parcelas experimentais p – número de parâmetros Logo, a estratégia de seleção consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p+1). Por fim, mas não o último, pois ainda existem outros critérios, tem-se o AIC (Critério de informação de Akaike) em que se configura como um critério de seleção do melhor modelo, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. ótimo 29. [2.000] (IP:281474038335826 | 16:07:06 | 05:38:57 | 31:51 | 254.718) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". Neste caso, a afirmativa é correta, pois o R2 não ajustado é afetado pela adição de número de variáveis no modelo, ou seja, quanto maior o número de variáveis utilizadas, maior é o R2 não ajustado, mesmo se as variáveis adicionadas não estiver explicando nada. No entanto, as variáveis não devem ser jogada no intuito de aumentar o R2, mas sim, para explicar o comportamento do experimento. Às vezes é melhor ter uma equação com R2 baixo, mais que seja possível de explicá-la, do que uma com R2 alto com muitas variáveis, mas que não tem como explicar o que estar acontecendo. A melhor opção pode ser em optar pelo R2 ajustado que retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas. Por tanto, se o R2 corrigido aumentar mesmo após o ajuste é porque não é em função do aumento do número de variáveis e sim por que estas variáveis adicionadas estão explicando melhor o modelo. ótimo, com uma única ressalva de que o r2 ajustado não aumenta, mas cai menos quando a variável é importante. O r2aj SEMPRE é menor do que o r2não ajustado. 30. [1.000] (IP:281473652861817 | 22:58:04 | 04:10:13 | 12:09 | 2.974) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Devemos especificar as diferentes estratégias para seleção do melhor modelo de regressão linear múltipla, sendo portanto de grande importância se testar todas as regressões possíveis, pois este é o único algoritmo que garante uma solução para qualquer conjunto de variáveis, contudo dependendo do número de variáveis que compõem o modelo haverá um número de combinações diferentes, ou seja, quanto mais variáveis maior será o número de combinações e vice-versa. Vale ressaltar que em casos onde se tenha muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, porque cada teste realizado acarretará um aumento da probabilidade de se cometer o erro tipo 1. Outra especificação do modelo é o da Eliminação para trás, onde o processo inicia-se com a regressão completa (todas as p variáveis) sendo eliminada uma variável em cada estágio, sendo importante ressaltar que a ordem das variáveis no modelo de regressão é definida por sua suposta importância, iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada. Uma vez retirada a variável não poderá ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação completa. Enquanto que uma outra especificação do modelo, o da Seleção para frente, possui o mesmo principio do método de eliminação para trás, sendo realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de cada vez, formando diferentes modelos e de regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado. Na especificação da estratégia 2 utiliza-se os Stepwise (forward) e o Stepwise (backward): Stepwise (forward), o qual é uma combinação dos dois procedimentos anteriores conduzindo melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo se testa todas as variáveis eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas podem ser novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá persistir a ponto de não ocorrer nenhuma modificação, por conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumenta. Stepwise (backward), possui os mesmos princípios metodológicos e as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário. de novo 31. [2.000] (IP:281473652861817 | 22:58:28 | 04:11:31 | 13:03 | 3.245) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. Para saber qual modelo que melhor explique um determinado comportamento a partir de um conjunto de dados coletados, é necessário avaliar e adotar alguma técnica que facilite a escolha adequada por um determinado modelo, a saber: - Testar todas as regressões possíveis, a partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p – 1 de modelos possíveis. Desta forma, se tem uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais adequado. Contudo, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I. - Eliminação para trás, essa técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, entretanto, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. É importante ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste termina quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto, considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente, baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração das variáveis menos importantes, todavia, o início do teste é inverso, considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste. - Stepwise (forward), pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Esta técnica baseia-se na seleção para frente, ou seja, iniciase o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores onde uma vez retirada uma variável, não é possível colocá-la novamente. Contudo existem algumas limitações quanto ao seu uso, por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados. -Stepwise (Backward), utiliza-se o mesmo princípio da stepwise (forward) na medida em que combina variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I. ótimo, exceto quanto à formatação matemática. Parece que todo mundo cometeu exatamente o mesmo erro... 32. [1.750] (IP:281473652861817 | 22:58:38 | 04:12:20 | 13:42 | 2.691) Discuta o significado e possíveis implicações do AIC O critério de informação - Akaike (AIC) foi desenvolvido por Hirotugu Akaike em 1974, onde a partir da distância ou informação, sendo a distância uma medida de discrepância entre as linhas do modelo verdadeiro e do modelo aproximado, onde o mesmo, penaliza os modelos em função do número de parâmetros, sendo usado como um procedimento para identificação de modelo estatístico ou modelo misto, este critério combina quanto o modelo explica com o número de variáveis usado para isto. Sendo também uma estatística frequentemente utilizada para a escolha da especificação de uma equação de regressão no caso de alternativas não aninhadas isso é quando não existem variáveis independentes comuns aos dois. O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N; onde L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados (incluindo a constante). Quanto menor, mais o modelo explica com o menor custo em número de variáveis. Esse procedimento possuem algumas implicações, são elas: • Na escolha do modelo de regressão (quem tiver o menor AIC será o melhor modelo.) • Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor, mais o modelo explica com o menor custo (uso de poucas variáveis.) • Explica a ligação entre as variáveis e com o número variáveis que é utilizado ou melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente. boa mas com o mesmo problema de definição do que é implicação 33. [2.000] (IP:281473652861817 | 22:58:42 | 04:13:18 | 14:36 | 2.801) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Diante do pressuposto de que a regressão linear múltipla escolhida descreverá satisfatoriamente a relação existente entre variáveis independentes e a variável resposta, pode ser satisfatório abrir mão de critérios para que se possa garantir a escolha por um modelo adequado. Com base nisto, existem alguns critérios que são comumente adotados ou utilizados para avaliar os modelos, são eles: - Coeficiente de determinação (R²), neste caso o R² configura-se como um coeficiente que mede o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão. O coeficiente de determinação pode assumir valores de 0 a 1, onde valores próximos de 1 atestam que a relação entre variáveis independentes e variáveis dependentes podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Em R² baixos, próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a relação existente entre as variáveis. Sendo assim, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o ajuste do modelo. Logo pode-se considerar a comparação de modelos concorrentes (modelos que explicam uma mesma relação), caso determinasse o coeficiente de determinação como critério de escolha para o melhor modelo, escolheria o modelo que apresentasse maior R². - Coeficiente de determinação ajustado: é baseada na limitação do coeficiente de determinação (R²), o coeficiente de determinação ajustado não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi as variáveis independentes que apresentam efeito significativo, obtido através da análise de variância. Desta forma, pode-se pensar que o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo. - Soma dos quadrados do resíduo (SSR): critério que baseia-se na observação da soma dos quadrados do resíduo, onde quanto menor o SSR, melhor o modelo descreve a relação entre as variáveis independentes. Contudo, o uso do SSR apresenta uma limitação, seu valor depende do tamanho d amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, consequentemente, afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha. - Teste F: baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o F calculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais). - Cp: critério preconizado Mallows e que está baseado no erro quadrático médio dos valores ajustados. Calcula-se este critério baseado na fórmula: Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)] Onde: SSR – Soma dos quadrados do resíduo MSR – Quadrado médio do resíduo N – número de parcelas experimentais p – número de parâmetros Onde o modelo mais adequado será escolhido em função do número de Cp calculado que mais se aproxime do valor dos parâmetros (p +1). - AIC (Critério de informação de Akaike): configura-se como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de variáveis independentes que estão no modelo. ótimo 34. [2.000] (IP:281473652861817 | 22:58:47 | 04:14:24 | 15:37 | 21.414) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". A afirmativa é verdadeira, pois num modelo, quanto maior o número de variáveis adicionadas a equação, maior será seu R2 pelo simples fato de estar levando em consideração mais variáveis que um modelo com menos. A correção do R2 diz respeito a correção do número de elementos que é colocado no modelo, enquanto o R2 corrigido anula a influencia da quantidade de variáveis. Realizar uma atividade baseando-se no R2 não corrigido implica na possibilidade de se estar trabalhando com um modelo bem mais complicado pelo número de variáveis que possui e que no fim das contas não estará surtindo efeito algum porque seu R2 elevado poderá ser apenas em função do número de variáveis e não da sua relevância. Um modelo contendo menos variáveis e que seja bem mais significativo no que se propõe, poderá ser substituído por outro com um número maior de variáveis e consequentemente maior R2, contudo com pouca ou quase nenhuma se trabalharmos apenas com o R2 não corrigido. ok 35. [1.750] (IP:281473824607337 | 18:36:52 | 20:22:54 | 46:02 | 1.159) Discuta o significado e possíveis implicações do AIC Primeiramente vamos discutir o significado do AIC. O critério informativo de Akaike (AIC) é uma ferramenta para seleção de modelos, pois oferece uma medida relativa da qualidade do ajuste de um modelo estatístico, ou seja, o AIC é um índice que nos permiti escolhe o melhor modelo para a regressão. Este índice avalia ao mesmo tempo a qualidade de informação, qualidade da ligação entre as variáveis com o número de variáveis que é utilizada, assim como a quantidade de variáveis que entra, com a quantidade de dados explicados. O AIC não fornece um teste de um modelo no sentido usual de testar uma hipótese nula. O AIC é um teste de máxima verossimilhança para verificar se o modelo escolhido é o adequado. As implicações do AIC são em relação à escolha dos modelos utilizamos os valores de AIC para decidir qual é o melhor modelo a ser utilizado, sendo assim quando temos um conjunto de modelos candidatos, o modelo a ser utilizado é aquele que apresentar o menor valor de AIC (quanto menor for o valor de AIC melhor será o ajuste do modelo aos dados recolhidos). O importante é que o modelo se ajuste bem aos dados junto ao ponto (ou transecto). Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis. Outra aplicação do AIC é em modelo misto para selecionar qual modelo de co-variância é mais útil. continua o mesmo problema dos demais. gostei da parte inicial 36. [2.000] (IP:281473824607337 | 18:37:39 | 20:22:56 | 45:17 | 1.638) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". É fundamental compreender que a capacidade explicativa de um modelo mede a parte da variação da variável dependente que é explicada pelas variáveis independentes, ou seja, quanto mais elevado e próximo de 1 o R2, melhor será este modelo ou "melhor seria" este modelo porque é imprescindível fazer algumas considerações. O R2 não ajustado é afetado pela adição de número de variáveis no modelo, portanto, para conclusões assertivas opta-se pelo R2 ajustado. De forma geral o R2 ajustado corrige para o número de elementos (variáveis) que foram adicionadas na equação, ou seja, retira o efeito proveniente apenas do número de variáveis que foram adicionadas, e se o R2 corrigido aumentar mesmo após o ajuste é porque não é função de ter colocado mais variáveis e sim que estas variáveis adicionadas estão explicando melhor o modelo. A função da correção é fazer uma análise científica, em que a explicação mais simples que explica tão bem quanto a mais complexa é provavelmente a mais interessante, então duas equações com R2 corrigidos iguais, a menor é melhor, facilitando a discussão e sendo um modelo mais econômico, porque será gasto menos grau de liberdade para ter o mesmo ganho. Desta maneira a afirmativa "nem sempre o modelo com melhor R2 não ajustado é o mais adequado" é coerente diante de tudo que foi explicado. bem explicado 37. [1.500] (IP:281473824607337 | 18:38:11 | 20:22:58 | 44:47 | 1.546) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. As técnicas de seleção de modelos podem implicar em grande aumento na chance cometer o erro tipo I. A avaliação de um modelo procura verificar se os parâmetros estimados são ou não estatisticamente significativos e satisfatórios. Os critérios estatísticos de avaliação dos modelos têm como objetivo verificar o grau de confiabilidade das estimativas obtidas. O critério para seleção da regressão linear múltipla (RLM), refere-se ao fator escolhido para comparação dos modelos de regressão e desta forma escolher o melhor modelo, como exemplo o coeficiente de correlação (R), o valor de F e coeficiente de determinação (R2). O critério para seleção possibilita encontrar quais as variáveis entram no modelo de regressão, para avaliar um conjunto de dados a ser feito as regressões. O coeficiente de correlação é uma medida da relação linear entre duas ou mais variáveis, este indica a proximidade dos pontos á reta de regressão e quanto mais próximo o de 1,0 for o valor de R, mais os pontos se encontram na reta de regressão. Quanto mais próximo de zero, mais pobre será o ajustamento da reta de regressão aos pontos. Já o coeficiente de determinação da regressão tem por objetivo revelar o quanto as variáveis independentes explicam a variação da variável dependente, ou seja, é uma medida que procura refletir o quanto os valores de Y estão relacionados com os valores de X, no coeficiente de determinação os valores também vão varia de 0 a 1, sendo que quanto mais próximo de 1 é melhor. O teste F dá uma ideia da relação entre a variação devida ao resíduo e ao acaso. nenhuma menção ao AIC, apesar da outra pergunta? 38. [2.000] (IP:281473824607337 | 18:38:34 | 20:23:00 | 44:26 | 1.39) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Testar Todas as Regressões Possíveis – este é o único algoritmo que garante uma solução para qualquer conjunto de variáveis, porém, a depender do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maior será o número de combinações, e viceversa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo que a cada teste realizado acarretará um amento de chances de cometer o erro tipo1. Eliminação Para Trás – o processo inicia-se com a regressão completa (todas as p variáveis) e em cada estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de regressão é definida por sua suposta importância, iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada. Uma vez retirada a variável não poderá ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação completa. Seleção Para Frente – possui o mesmo principio do método de eliminação para trás, só que este é realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de cada vez, formando diferentes modelos e de regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado. Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo testa todas as variáveis eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas podem ser novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá persistir até o que não ocorra nenhuma modificação. Por conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam. Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário. de novo a confusão técnica x estratégia 39. [1.500] (IP:281473824607337 | 18:39:01 | 20:23:06 | 44:05 | 5.15) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. As técnicas mais utilizadas são as seguintes: 1ª – Testar todas as regressões possíveis: como o titulo já propõe, esta técnica aplica-se a todas as regressões possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo, logo, este número de combinações fica sendo determinado pela expressão 2^(p_máx )-1, onde p corresponde ao número de variáveis independentes, ou seja, se em determinado estudo tivermos um número de 8 variáveis, isso implica dizer que teremos 255 modelos de regressão possíveis para avaliarmos na respectiva técnica. Problemas quanto a esta técnica relacionava-se à elevada carga computacional a qual era exercida sobre os antigos computadores no momento da análise, mas, isso se modificou com o advento de processadores com alta velocidade de processamento tornando aplicável o método. A desvantagem do método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor, modelo de regressão múltipla; 2ª – Eliminação para trás (backward elimition): neste teste, inicia-se com a regressão múltipla contendo todas as variáveis, posteriormente, eliminamos a cada rodada de seleção (R2, R_a^2, Cp e etc) a variável de menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na composição do modelo e consequentemente no processo de seleção, isso nos faz pensar ou refletir que, ora aquela variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém, em outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno; 3ª – Seleção para frente (forward selection): esta técnica assemelha-se a de eliminação para trás, contudo em direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos cadê a stepwise mesmo? 40. [1.000] (IP:281473821820604 | 15:53:34 | 10:47:02 | 53:28 | 5.476) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Primeiro, testar todas as regressões possiveis, desde elas sozinhas, até todas juntas. Só que, o método tem a desvantagem de fornecer informações limitadas sobre qual o melhor modelo de regressão múltipla, em contrapartida, não tem como não achar a melhor já que testei todos. Quanto mais variáveis maior será o número de combinações, sendo que, testar todas as regressões possíveis quando se tem muitas variáveis pode tornar-se um problema, pois aumentase a chance de cometer o erro tipo I a cada teste realizado. Eliminação para trás, pego todas as variáveis, jogo no modelo e faço regressão pra todo mundo. Começo com todas as variáveis, testo todos os modelos tirando uma única variável, e em seguida elimino a variável de menor efeito no modelo, desta maneira, avalia-se o efeito da ultima variável retirada. A variável retirada é aquela de menor importância, lembrando que uma vez retirada ela não poderá mais ser aproveitada, ou seja, pode ser que a eliminação dela em um momento que apresentou pouco efeito não se repita se testada em outra combinação. Fazendo esse procedimento até reiniciar novamente o processo e conseguir um modelo de regressão que explique bem a equação. Seleção para frente é igual à para trás, ao contrário, ou seja, inicia-se com um modelo simples com uma variável em vez de iniciar por um modelo com todas as variáveis. Essa variável é aquela que supostamente apresenta maior efeito, e o procedimento de avaliação vai sendo realizado até incluir todas as variáveis na regressão. O problema é que, uma vez inserida a variável não poderá ser retirada. E por último, o stepwise, que nada mais é que a união dos métodos anteriores, sendo que ele permite a eliminação ou acréscimo de variáveis durante o processo (combinações), o que nao era permitido nos outros. Portanto, se ao eliminar uma variável e perceber que mantê-la no modelo é mais vantajoso, pode-se trazê-la de volta, e o contrário também ocorre. O que era desvantagem na utilização dos anteriores, aqui é uma vantagem. É um método mais confiável. No entanto, o fato de ocorrer um número muito grande de testes aumentam também as chances de ocorrer erro tipo I. confusão entre técnica e estratégia 41. [2.000] (IP:281473821820604 | 15:57:40 | 10:49:12 | 51:32 | 2.839) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. São adotados os seguintes critérios: Soma dos quadrados do resíduo (SSR): quanto menor o SSR, melhor o modelo descreve a relação entre os preditores e variável resposta. No entanto, no caso de amostras pequenas a variação do resíduo diminuirá significativamente, o que afeta a relação existente entre variação do acaso e o efeito do tratamento. Teste F, parte do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão vai explicar o comportamento das variáveis.O aumento do valor F(calculado) está diretamente relacionado com a diminuição do QMR. Coeficiente de determinação (R2)- mede o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão.O coeficiente de determinação pode assumir valores de 0 a 1, onde, os valores próximos de 1 atestam que a relação entre variáveis independentes e variável dependente podem ser explicadas através da regressão encontrada, indicando bom ajuste. Já o R2 baixo, próximo de zero, significa que o modelo não consegue explicar a relação existente entre as variáveis. Quando isto acontece, utiliza-se o R2, considerando que o melhor ajuste será quanto maior for o R2. Coeficiente de determinação ajustado (R2 ajustado), o coeficiente de determinação ajustado não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo, que é obtido através da ANOVA. É preferível utilizar o coeficiente de determinação ajustado em relação ao R2 como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo. AIC (Critério de informação de Akaike), leva em consideração a ligação entre as variáveis, a quantidade de preditores existentes no modelo, além da qualidade da informação. Quanto menor o valor de AIC, mais o modelo explica a relação entre as variáveis. excelente 42. [1.750] (IP:281473821820604 | 15:58:33 | 10:49:54 | 51:21 | 4.318) Discuta o significado e possíveis implicações do AIC O AIC (Akaike Information Criteria), foi desenvolvido sob o conceito de que, quando o tamanho da amostra tende a infinito, ele converge para o valor exato da divergência de Kullback-Leibler, que é uma medida de quanta informação é deixada para trás quando se tenta representar um conjunto T de medidas utilizando uma base conhecida L. Assim como os outros métodos, também tem desvantagens, pois, por vezes o AIC não só falha em escolher um modelo mais parcimonioso, como em outras escolhe o modelo de maior ordem entre todos os modelos comparados. O critério de Akaike (AIC) é dado por: 2 x (k L) /N, onde: L é a estatística log verossimilhança, N o número de observações e k é o número de coeficientes estimados. Implicações: - combina simultanemente várias informações; - na escolha do modelo, selecionar quem tiver menos AIC - combina quanto o modelo explica com o número de variáveis usado para isto; - quanto menor, mais o modelo explica com o menor custo em número de variáveis. boa parte matemática, mas mistura um pouco o que é implicação, já que nenhum destes pontos é uma consequência do AIC, mas sim características dele 43. [2.000] (IP:281473821820604 | 15:59:52 | 10:51:36 | 51:44 | 3.652) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. É fundamental a adoção de técnicas que permitam facilitar a escolha do modelo mais adequado para uma regressão linear múltipla. Algumas técnicas são adotadas com esse objetivo, são elas: Testar todos os modelos possíveis, pois dessa forma não tem como não achar o melhor, já que todos foram testados,sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais adequado. Neste caso, com desvantagem de atender somente àquela condição específica, considerando aquele conjunto de dados em particular. Além disso, quando o número de parâmetros aumenta, aumenta também a chance de cometer erro tipo I. Outra técnica utilizada é a eliminação para trás, que baseia-se em pegar todas as variáveis, jogar no modelo e fazer regressão pra todo mundo. Mas diferentemente da técnica anterior, à medida que se retira uma variável (aquela considerada menos importante), um novo teste é feito, avaliando cada nova regressão. E, a seleção para frente, outra técnica utilizada para este fim, assemelha-se à eliminação para trás, só que, ao contrário. Em vez de desconsiderar a variável que se mostrar menos importante (eliminar), considera-se uma variável, e a cada adição realiza-se um novo teste. O Stepwise (forward), técnica muito utilizada para seleção do melhor modelo, é a junção das técnicas anteriores, e se baseia na seleção para frente, sendo que, as variáveis podem ser eliminadas ou adicionadas até se encontrar a melhor combinação, o que não é permitido nos outros testes. Lembrando que, desta forma, aumenta-se a chance de cometer o erro tipo I, assim como a primeira técnica, que testa todas as regressões possíveis. O Stepwise (Backward), mesmo princípio da stepwise (forward), só que baseia-se na seleção para trás, ou seja, realiza-se o teste com todos os parâmetros e retira-se variável por variável a cada teste. Assim como o stepwise (forward), há grandes chances de se cometer erro tipo I. ok 44. [2.000] (IP:281473821820604 | 16:01:11 | 10:52:48 | 51:37 | 16.563) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". É coerente. O que acontece é que, o R2 ajustado elimina qualquer influência da quantidade de variáveis. Eu posso estar aumentando o número de variáveis e elas nao explicarem coisa alguma. Ao optar pelo uso do R2 nao corrigido é possivel estar trabalhando com um modelo mais complicado pelo número de variáveis que nao vai estar influenciando em nada devido o R2 alto ser decorrente do número de variáveis e não da sua "significância". Se trabalhar com R2 não ajustado apenas, é possível que ocorra substituição de um modelo com menos variáveis e mais significativo por um modelo com mais variáveis e maior R2 com pouca ou nenhuma significância. ok