Análise de Variância one-way two-way Notas de aula – Prof Adriano Ferreti Borgatto – 04/08/2014 Por Jeovani Schmitt Quando devo utilizar a ANÁLISE DE VARIÂNCIA? • Possuo uma variável dependente quantitativa • Possuo variável (is) independente qualitativa (em cada variável qualitativa tenho mais de duas categorias/grupos*) Meu interesse é descobrir diferenças significativas estatisticamente em termos de valores médios dos grupos (ou das categorias) * Para duas categorias/grupos a ANOVA equivale ao teste t de Student Em relação ao número de variáveis independentes: Uma variável independente Duas variáveis independentes ONE-WAY (um fator) TWO-WAY (dois fatores) Uma variável qualitativa é chamado UM FATOR Duas variáveis qualitativa é chamado DOIS FATORES obs.: Três variáveis independentes = TREE-WAY e assim por diante. ONE-WAY (um fator) Exemplo 1: ANOVA ONE-WAY (um fator) FATOR = posição do jogador com 5 categorias Arquivo de dados: D:\Jeovani\ESTATISTICA\2014-Prof. ADRIANO\Topicos especiais - 2014_2\aula_04_08\SM7DC.sav Exemplo 1: ANOVA ONE-WAY (um fator) Posição do jogador – variável qualitativa com 5 categorias SM7DC – variável quantitativa (soma das 7 dobras cutâneas) Posição do jogador – variável qualitativa com 5 categorias SM7DC – variável quantitativa (soma das 7 dobras cutâneas) H0: Não existe diferença na média da SM7DC entre as posições dos jogadores H1: caso contrário (existe diferença em pelo menos um par) Caso rejeitar H0, para identificar onde existe a diferença é realizado outro teste estatístico (Post hoc) Suposições do Modelo • variâncias homogêneas dos grupos • normalidade dos resíduos Arquivo de dados: SM7DC.sav Variável independente Posição do jogador com 5 categorias: 1 – goleiro 2 – zagueiro 3 – lateral 4 – meia 5 – atacante Variável dependente SM7DC 1º. Realizar uma comparação descritiva Analisar Comparar Médias Médias ... Pode-se solicitar um gráfico de linhas para se ter uma ideia das possíveis diferenças visualmente Gráficos Caixas de diálogo legadas Linha ... Posição 4 (meia) foi a média mais alta. De acordo com o Post hoc Tukey, houve diferença significativa estatisticamente entre a posição 4 e 3 (lateral) e entre a posição 4 e 5 (atacante). PROCEDIMENTOS PARA EXECUTAR A ANOVA Analisar Modelo Linear geral Com uma única variável ... Configurações RESULTADO da ANOVA Variabilidade devido à posição do jogador Variabilidade devido ao acaso (dentro grupo) p-valor deu 0,005 (significativo) OUVIR AUDIO Se a variabilidade dentro do grupo for pequena, a chance de rejeitar H0 é grande. RESULTADO da ANOVA p-valor deu 0,005 (significativo) Rejeita-se H0, ao nível de 5% de significância, ou seja, existe diferença entre pelo menos duas médias. SOMENTE quando a ANOVA é significativa, procede-se ao teste de comparação de médias (Post hoc) Solicitando para o SPSS um Post hoc Tukey é um Post hoc muito utilizado no Brasil. Porém, quando há muitas categorias para fazer comparações, aconselha-se utilizar um teste mais conservador, por exemplo: Sidak ou Bonferroni. Mais conservador significa tem menor probabilidade de erro tipo II - detectar falsas diferenças. (afirmar que existe diferenças onde não existe) Saídas importantes: Comentar!!!! Saídas importantes: Sig. = p -valor < 0,05 é significativo. Posição 3 e 4 mesma Posição 4 e 3 Posição 4 e 5 Posição 5 e 4 mesma Apresentação do Resultado da diferença de médias: Resumindo: Ao nível de 5% de significância, são estatisticamente diferentes em termos de valores médios da SM7DC: Posição 3 e 4: Lateral e Meia e Posição 4 e 5: Meia e Atacante Suposições do Modelo • variâncias homogêneas dos grupos • normalidade dos resíduos Verificando a normalidade dos resíduos Verificando homogeneidade de variâncias Saída para homogeneidade de variâncias p-valor < 0,05: As variâncias não são iguais (suposição violada) p-valor > 0,05: As variâncias são consideradas iguais. Comentar!!!! Saída para verificação da normalidade dos resíduos Será criada a coluna ZRE_1 (resíduos padronizados) Solicitar o gráfico dos resíduos e o valor da variável dependente (SM7DC) Gráficos Caixas de diálogo legadas Dispersão/ponto ... Comentar!!!! Violação nas suposições. O que fazer??? • Problema com Normalidade • usar teste não paramétrico* • transformação nos dados (Box-Cox, logarítmica, ...) Observação: * O problema dos testes não paramétricos é que eles têm menor poder. Isto é, aumenta o ERRO TIPO II (detectar falsas diferenças) ** O teste não paramétrico equivalente seria Kruskal Wallis. TWO-WAY (dois fatores) ANOVA TWO-WAY Exemplo: Variável dependente: agilidade (em segundos) Variáveis independentes: FATOR A: Local (GETI ou CDS) FATOR B: Sexo (Feminino / Masculino) Vamos considerar duas situações: Variável dependente: agilidade (em seg.) SITUAÇÃO 1 SITUAÇÃO 2 Masc Fem 50 50 40 40 30 agilidade agilidade 30 20 20 10 10 GETI local CDS Não há interação entre os fatores A e B Retas paralelas = indicativo de não associação p-valor para a interação será > 0,05 (não significativo) GETI local CDS Há interação entre os fatores A e B Retas não paralelas = indicativo de associação Analisar o p-valor para a interação SITUAÇÃO 1 A interação LOCAL*SEXO não é significativo. Neste caso, estuda-se cada variável em separado e os resultados são apresentados uma tabela para cada. SITUAÇÃO 2 A interação LOCAL*SEXO é significativo. Neste caso, faz-se as seguintes comparações: Comparação 1: fixa-se um fator (por exemplo: LOCAL) e compara-se com o outro fator (Sexo) Comparação 2: fixa-se um fator (por exemplo: SEXO) e compara-se com o outro fator (Local) Variáveis independentes Local (FATOR 1) 1 – GETI 2 – CDS Variável dependente (em seg.) sexo (FATOR 2) 1 – Masculino 2 – Feminino Arquivo de dados: D:\Jeovani\ESTATISTICA\2014-Prof. ADRIANO\Topicos especiais - 2014_2\aula_04_08\Fatorial.sav Pode-se solicitar um gráfico de linhas para se ter uma ideia das possíveis diferenças visualmente Configurações Configuração da Análise Saídas importantes: Quando a interação é significativa estuda-se apenas a interação. Comparações post hoc O SPSS não oferece como analisar a interação via menu. Esta análise deve ser feita através de SINTAXE Colar a SINTAXE abaixo:. Variável dependente Variável independente – fator 1 Variável independente – fator 2 PLOT = para fazer o gráfico Teste post hoc escolhido Fixando sexo e comparando local Fixando local e comparando sexo Saídas importantes: Repete a ANOVA Repete de 1. No Fem, o local é significativo Através das saídas anteriores, elaborar a tabela para apresentação dos resultados. Nas linhas significa que fixouse o Local, e comparou-se os valores médios do Sexo em cada local Nas colunas significa que fixou-se o sexo, e comparou-se os valores médios de local em cada sexo. Através das saídas anteriores, elaborar a tabela para apresentação dos resultados. Nos dois locais (GETI e CDS) os valores médios de sexo são significativamente diferentes. GETI os homens têm mais agilidade e no CDS as mulheres. Conferir!! Parece que não é a mesma conclusão. No gênero Masculino, independe o local (não significativo) Já no gênero Feminino, a diferença é significativa. (No CDS as mulheres são mais ágeis) Arquivo Exemplo1.sav Arquivo de dados: D:\Jeovani\ESTATISTICA\2014-Prof. ADRIANO\Topicos especiais - 2014_2\aula_04_08\Exemplo1.sav FATOR 1 Local: 1 – Monte Verde 2 – Parque da Figueira FATOR 2 Instrução 1 – Nenhum 2 – Fundamental 3 – Médio Variável dependente Pode-se solicitar um gráfico de linhas para se ter uma ideia das possíveis diferenças visualmente Configuração da Análise Saídas importantes: Colar a SINTAXE abaixo:. UNIANOVA renda BY local instrucao /PLOT = profile(local*instrucao) /EMMEANS=TABLES(local*instrucao) comp (instrucao) adj (Sidak) /EMMEANS=TABLES(local*instrucao) comp (local) adj (Sidak) /DESIGN=local instrucao local*instrucao. Selecionar e Executar RESULTADOS: Através das saídas anteriores, elaborar a tabela para apresentação dos resultados. Arquivo Exemplo2.sav Arquivo de dados: D:\Jeovani\ESTATISTICA\2014-Prof. ADRIANO\Topicos especiais - 2014_2\aula_04_08\Exemplo2.sav Variável dependente FATOR 1: etnia FATOR 2: sexo 1 – Alemão 2 – Italiano 3 – Polonês 1 – Masculino 2 – Feminino Pode-se solicitar um gráfico de linhas para se ter uma ideia das possíveis diferenças visualmente Suposições do Modelo • variâncias homogêneas dos grupos • normalidade dos resíduos Saída para homogeneidade de variâncias p-valor < 0,05: As variâncias não são iguais (suposição violada) Configuração da Análise Saídas importantes: Colar a SINTAXE abaixo:. UNIANOVA IMC BY etnia sexo /PLOT = profile(etnia*sexo) /EMMEANS=TABLES(etnia*sexo) comp (sexo) adj (Sidak) /EMMEANS=TABLES(etnia*sexo) comp (etnia) adj (Sidak) /DESIGN= etnia sexo etnia*sexo. Selecionar e Executar RESULTADOS: Através das saídas anteriores, elaborar a tabela para apresentação dos resultados. Conclusão: Existe diferença entre os gêneros no Polonês.