ANÁLISE MULTIVARIADA DE DADOS Hair, Anderson, Tatham & Black - 2005 - Curso Análise Fatorial Exploratória e Confirmatória Claudette Maria Medeiros Vendramini Universidade São Francisco (USF) Laboratório de Métodos Estatísticos em Psicologia e Educação - LAMEPE - IV Congresso Brasileiro de Avaliação Psicológica V Congresso da Associação Brasileira de Rorschach e Métodos Projetivos XIV Conferência Internacional de Avaliação Psicológica: Formas e Contextos Avaliação Psicológica: Formação, Atuação e Interfaces 29/07/2009 a 01/08/2009 - Campinas-SP Interesse e utilidade • Avanços na análise de dados • Computadores podem analisar grande quantidade de dados complexos • Microcomputadores e programas estatísticos (SPSS, SAS, MINITAB, STATISTICA, entre outros • Cresce o interesse por técnicas multivariadas • Pouca bibliografia para pesquisador que não são especialistas em matemática ou estatística • Pesquisadores analistas de dados ou quantitativistas Análise Uni e bivariada Análise univariada: Análise de distribuições de uma única variável Análise bivariada: classificação cruzada, correlação, análise de variância e regressão simples para analisar duas variáveis Análise multivariada Análise simultânea de múltiplas variáveis em um único relacionamento ou conjunto de relações • Auxilia na compreensão de comportamentos complexos no ambiente de trabalho • Acrescenta informações potencialmente úteis • Permite preservar as correlações naturais entre as múltiplas influências de comportamento sem isolar qualquer indivíduo ou variável Análise multivariada • Todas as variáveis devem ser aleatórias e interrelacionadas • Diferentes efeitos das variáveis não podem ser interpretados de forma separada • Tem o propósito de medir, explicar e prever o grau de relacionamento entre combinações ponderadas de variáveis • Consiste em combinações múltiplas de variáveis • Inclui técnicas de múltiplas variáveis Tomada de decisão • No meio educacional os indivíduos (diretores, professores, estudantes, entre outros) possuem características sócio-demográficas muito variadas • Somente pela análise multivariada as múltiplas relações podem ser analisadas • Todo pesquisador (profissional ou acadêmico) deve sustentar sua análise de dados em bases teóricas e quantitativas A variável estatística • Combinação linear de variáveis, especificadas pelo pesquisador, com pesos empiricamente determinados por técnicas multivariadas Valor da variável estatística = w1X1 w2X2 w3X3 ... wnXn Xn é a variável observada wn é o peso determinado pela técnica multivariada • É importante compreender a contribuição de cada variável representada no modelo A variável estatística (VE) VE w1X1 w2X2 w3X3 ... wnXn • A VE é um único valor determinado para atingir melhor um determinado objetivo, como em: • Regressão múltipla: melhor se correlacionar com a variável a ser predita • Análise discriminante: criar escores para cada observação que diferencie de forma máxima os grupos de observações • Análise fatorial: VE’s que melhor representem a estrutura subjacente ou a dimensionalidade das variáveis representadas pelas suas intercorrelações Escalas de medida Tipos básicos: •Não-métricos (qualitativos) Atributo Característica Propriedade categórica •Métricos (quantitativos) Quantia ou magnitude, Quantidade relativa Grau Técnicas de análise • Tipos de relação: • dependência • Uma VD em uma única relação • Diversas VD´s em uma única relação • Múltiplas relações de VD´s e VI´s • Interdependência • entre variáveis • entre casos/respondentes • entre objetos (mapeamento perceptual) Regressão Múltipla Y1 X 1 X 2 X 3 ... X n m étrico m étrica, não m étrica • Abordagem: método que relaciona uma única VD métrica a duas ou mais VI´s métricas ou não métricas adequadamente transformadas em métricas • Objetivo: - examinar a relação entre uma VD e duas ou mais VI´s • Passos: - definir se o objetivo é de previsão ou de explicação - selecionar VD e VI´s - obter um tamanho de amostra adequado - Verificar normalidade, linearidade, homoscedasticidade e independência dos termos de erro - estimação do modelo de regressão - avaliação do ajuste do modelo - interpretação e validação dos resultados Modelagem de equações estruturais Y1 X 11 X 12 X 13 ... X 1n Y2 X 21 X 22 X 23 ... X 2 n .................................................. Ym X m1 X m 2 X m 3 ... X mn m étrico m étrica, não m étrica • Abordagem: método que permite separar relações para cada conjunto de VD’s. Fornece uma estimação mais apropriada e mais eficiente para uma série de equações de regressão múltipla. • Objetivo: - estimar simultaneamente um conjunto de relações entre duas ou mais VD´s e duas ou mais VI´s • Passos: - especificar o modelo teórico (relações causais) - construir um diagrama de caminhos - traduzir o diagrama de caminhos em equações estruturais - especificar o modelo de mensuração - identificar correlações de construtos e indicadores - Escolher o tipo de matriz de entrada de dados - avaliar a identificação, estimativas e ajuste do modelo - interpretação e validação dos resultados Análise conjunta Y1 X 1 X 2 X 3 ... X n não m étrica, m étrica não m étrica • Abordagem: é uma técnica multivariada usada especificamente para entender como os respondentes desenvolvem preferências por produtos, serviços ou idéias, combinando quantias separadas de valor fornecidas por cada atributo. • Objetivo: - examinar a relação entre uma VD e duas ou mais VI´s - determinar a contribuição de VI´s - estabelecer um modelo de julgamentos do consumidor • Passos: - construir um conjunto de produtos ou serviços reais ou hipotéticos combinando níveis selecionados de cada atributo - apresentar as combinações a um conjunto de respondentes para avaliação geral (escolher entre um conjunto de produtos - verificar a adequação da forma do modelo e da representatividade da amostra - selecionar técnica de estimação e avaliar o ajuste - interpretar e validar os resultados Análise Fatorial • Abordagem: analisar a estrutura das intercorrelações entre um número de variáveis explicáveis em termos de dimensões latentes comuns denominadas fatores. • Todas as variáveis são consideradas simultaneamente para análise. • Objetivo: - resumir e reduzir dados - identificar estrutura de relações entre variáveis • Passos: - definir se a análise é exploratória ou confirmatória - calcular a matriz de correlações para especificar o agrupamento de variáveis - analisar a matriz de correlações - analisar a adequação da amostra - determinar os fatores e o ajuste geral pelo método de fatores comuns ou de componentes principais Análise de Agrupamentos • Abordagem: classificar uma amostra de indivíduos ou objetos em grupos mutuamente excludentes com base na similaridade dos indivíduos ou objetos. É uma classificação de acordo com relações naturais. Semelhante à análise fatorial que agrega variáveis, em análise de agrupamentos se agrega indivíduos ou objetos. • Objetivo: - encontrar subgrupos significativos de indivíduos ou objetos - estabelecer o perfil das pessoas ou variáveis • Os grupos não são pré-definidos, são identificados na análise. • Passos: - medir a similaridade ou associação entre sujeitos para determinar o número de grupos - agrupar os sujeitos ou objetos - estabelecer o perfil das pessoas ou variáveis Escalonamento multidimensional • Abordagem: determinar a imagem relativa percebida de um conjunto de objetos (itens associados a percepções comumente consideradas como produto, serviço, imagem, aroma). Transforma julgamentos de consumidores quanto à similaridade ou preferência em distâncias representadas em espaço multidimensional (mapa perceptual) • Objetivo: - explorar e identificar dimensões não reconhecidas que afetam o comportamento - obter avaliações comparativas de objetos quando as bases específicas de comparação são desconhecidas ou identificadas • Passos: - identificar todos os objetos relevantes - escolher entre dados de similaridade ou de preferência - selecionar uma análise agregada ou desagregada Análise de Correspondência • Abordagem: É uma técnica multivariada de interdependência entre objetos, composicional baseada na associação entre objetos e um conjunto de características descritivas ou atributos especificados pelo pesquisador. • Objetivo: - redução dimensional da classificação dos sujeitos ou objetos em conjunto de atributos - mapeamento perceptual desses sujeitos ou objetos relativo a um conjunto de atributos • Acomoda dados não métricos e relações não lineares. • Passos: - organiza tabelas de contingência, isto é, tabelas cruzadas de duas variáveis categóricas - transforma dados não métricos em métricos - reduz dimensão - faz mapeamento perceptual Inferência estatística Para interpretar as inferências estatísticas é necessário especificar os níveis de erros aceitáveis. Em testes de hipótese se verifica se a afirmação feita a respeito de um parâmetro populacional , chamada de hipótese estatística, pode ser aceita ou não. Teste de Hipóteses Objetivo : Fornecer uma metodologia que permita verificar se os dados amostrais trazem evidências que apóiam ou não uma hipótese estatística. Hipótese estatística : Conjectura sobre um ou mais parâmetros de uma população Tipos de hipótese Hipótese Nula (H0): É o que temos como verdade inicialmente Hipótese Alternativa (H1): É a hipótese que surge baseada em experiências do pesquisador. Probabilidades de erro em um teste para a diferença de médias Realidade H0: sem Decisão estatística diferença H1: com diferença H0: sem diferença H1: com diferença 1- Erro tipo II Erro tipo I 1- Poder do teste Fatores que determinam o poder de um teste estatístico Tamanho do efeito Estimativa do grau em que o fenômeno estudado existe na população O valor de Tamanho da amostra Construindo modelos multivariados Estágio 1 Definir: o problema de pesquisa (definir os conceitos e identificar as relações fundamentais a serem investigadas) os objetivos de análise em termos conceituais a técnica multivariada, de dependência ou de interdependência Estágio 2 Desenvolver o plano de análise Tamanho mínimo da amostra Tipos das variáveis Métodos de estimação Tipos de medidas de associação Construindo modelos multivariados Estágio 3 Avaliar as suposições subjacentes a cada técnica multivariada Para as técnicas baseadas em inferências Normalidade multivariada Linearidade Independências de termos de erro Igualdade de variância em uma relação de dependência Construindo modelos multivariados Estágio 4 Estimar o modelo multivariado Avaliar o ajuste do modelo Estágio 5 Interpretar as variáveis estatísticas Identificar evidência empírica de relações multivariadas nos dados da amostra que possam ser generalizadas para a população Estágio 6 Validação do modelo multivariado