Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte I Jorge Oishi [email protected] 1 Técnicas Multivariadas • Tópicos abrangidos: – Análise de Componentes Principais – Análise Fatorial – Análise Discriminante – Análise de Cluster – Análise de Correspondência [email protected] 2 Técnicas Multivariadas • Conceitos básicos: – Análise Multivariada – todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada indivíduo ou objeto sob investigação. – Qualquer análise de duas ou mais variáveis, pode ser considerada análise multivariada. – Para ser considerada verdadeiramente como multivariada, todas as variáveis devem ser aleatórias e inter-relacionadas, de modo que seus efeitos não podem ser interpretados de forma separada. [email protected] 3 Técnicas Multivariadas Estrutura dos dados X1 X2 ... Xp Caso 1 x11 x12 ... x1p Caso 2 x21 x22 ... x2p .... ... ... ... .. Caso n xn1 xn2 ... xnp [email protected] 4 Técnicas Multivariadas • OBJETIVOS – Redução dos dados ou simplificação estrutural: • O fenômeno sendo estudado é representado o mais simplificado possível sem o sacrifício de informações valiosas; – Ordenação e agrupamento: • Grupos de objetos ou variáveis são criadas baseadas nas características mensuradas; – Investigação da dependência entre variáveis: • A natureza do relacionamento entre as variáveis é de interesse. Todas as variáveis são mutuamente ou são uma ou mais variáveis dependentes das outras? Como é essa relação? [email protected] 5 Técnicas Multivariadas • OBJETIVOS – Previsão: • O relacionamento entre variáveis deve ser determinado com o propósito de fazer previsão dos valores de uma ou mais variáveis com base na observação das outras variáveis; – Construção e testes de hipóteses: • Hipóteses estatísticas, formuladas em termos de parâmetros de populações multivariadas podem ser testadas. [email protected] 6 Técnicas Multivariadas • Variáveis: dois tipos de classificações: – Quanto a resposta: • Métricas: discretas ou contínuas • Não métricas: nominais ou ordinais – Quanto ao uso: • Dependentes ou respostas • Independentes ou explanatórias [email protected] 7 Técnicas Multivariadas • Classificação das Técnicas • Forma geral: – Vetores de variáveis: X (X1 ,, X p ) ~ – Classificação das técnicas depende: • Da dependência ou independências das variáveis • Do número de variáveis dependentes • Do tipo de escala (métrica, não-métrica) [email protected] 8 Técnicas Multivariadas • Técnica de Dependência – É aquela na qual uma variável ou um conjunto de variáveis é identificado como variável dependente a ser predita ou explicada por outras variáveis independentes; • Técnica de Interdependência – É aquela na qual nenhuma das variáveis é definida como dependente ou independente, mas o procedimento envolve a análise simultânea de todas as variáveis no conjunto. [email protected] 9 Técnicas Multivariadas • Técnicas de Dependência – Podem ser classificadas por duas características: • O número de variáveis dependentes, • O tipo de escala das variáveis. • Exemplos de técnicas – – – – – Regressão Linear Múltipla MANOVA Análise Discriminante Análise de Correlação Canônica Análise Conjunta [email protected] 10 Técnicas Multivariadas • Técnicas de Interdependência – Depende da estrutura procurada: • Estrutura de variáveis; • Estrutura de casos; • Estrutura de objetos (da matriz de dados). • Exemplos – – – – Análise Fatorial Análise de Cluster Escalonamento Multidimensional Análise de Correspondências [email protected] 11 Técnicas Multivariadas (Y1,, Yr ) (X1,, Xs ) onde r s p • Se Y1: métrica e Xi todas métricas Regressão Linear Múltipla; • Se Y1: não-métrica e Xi todas métricas Análise Discriminante Múltipla; • Se Y1: métrica e Xi todas não métricas ANOVA; • Se Y1: métrica ou não-métrica e Xi todas não métricas Análise Conjunta; [email protected] 12 Técnicas Multivariadas (Y1 ,, Yr ) (X1 ,, Xs ) • Se Yi: todas métricas e Xi todas não-métricas MANOVA; • Se Yi: métricas ou não-métrica e Xi métricas ou não-métricas Análise de Correlação Canônica; [email protected] 13 Análise de Componentes Principais • Pearson (1901) e Hotelling (1933) – O objetivo principal é a obtenção de um pequeno número de combinações lineares (componentes principais) de um conjunto de variáveis, que retenham o máximo possível da informação contida nas variáveis originais. • Redução dos dados originais • Facilitar a interpretação através da descoberta de relacionamentos não suspeitos previamente. [email protected] 14 Análise de Componentes Principais • A análise de componentes principais substitui um conjunto de variáveis correlacionadas por um conjunto de novas variáveis nãocorrelacionadas, sendo essas combinações lineares das variáveis iniciais e colocadas em ordem decrescente por suas variâncias Var CP1 > Var CP2 > .... > Var CPp [email protected] 15 Análise de Componentes Principais • Algebricamente, componentes principais são combinações lineares particulares das “p” variáveis aleatórias X1, X2, ..., Xp; • Geometricamente, essas combinações lineares representam a relação de um novo sistema de coordenadas obtido por deslocamento e rotação do sistema original com X1, X2, ..., Xp como eixos; • Os novos eixos representam as direções com variabilidade máxima e fornecem uma descrição mais simples e mais parcimoniosa da estrutura de covariância; • Os componentes principais dependem da matriz de correlação (r) ou da matriz de covariâncias () de X1, X2, ..., Xp. O seu desenvolvimento não necessita da suposição de normalidade. [email protected] 16 Análise de Componentes Principais • Exemplos: – Aplicação na confiabilidade de sistemas complexos – redução no conjunto de variáveis originais (peças) para três variáveis (componentes principais) e no final o estudo mostrou que bastava apenas o primeiro deles. – Análise de componentes principais em imagens multi-temporais de satélites para estudo de vulnerabilidade à perda de solo no semi-árido nordestino. Basicamente foi utilizada a ACP para reunir as informações de duas imagens para compor duas outras, não correlacionadas entre si, com melhores propriedades interpretativas. [email protected] 17 Análise de Componentes Principais [email protected] 18 Análise de Componentes Principais [email protected] 19 Análise de Componentes Principais [email protected] 20 Análise de Componentes Principais [email protected] 21 Análise de Componentes Principais • Seleção do número de componentes – Kaiser ou Método da Raiz Latente: autovalores maiores que 1 (Johnson = 0,7); – Scree test – gráfico dos autovalores. [email protected] 22 Análise de Componentes Principais – Após a seleção dos componentes, a elaboração do gráficos dos dois primeiros componentes pode ser muito útil para entender a relação entre as variáveis e os componentes; – Se apenas os dois primeiros componentes “explicarem” mais de 80 ou 90% da variabilidade total das variáveis originais isto significa que o fenômeno sob estudo pode ser muito simplificado; – No primeiro exemplo, de 80 variáveis originais apenas três componentes “explicam” quase tanto quanto os 80 e, no final, apenas o primeiro componente já foi suficiente para o objetivo do trabalho. [email protected] 23 Análise Fatorial • Spearman (1904), Pearson e Hotelling (1933) • Objetivo – Analisar as inter-relações entre um grande número de variáveis em termos de poucas, mas não observáveis, variáveis chamadas fatores. – Verificar se é possível descrever um conjunto de p variáveis em um conjunto menor de índices ou fatores que “explicam” tanto sobre o fenômeno, que o conjunto original. – Surgiu da tentativa de definir e medir “constructos”, tais como Inteligência, Amor, etc. [email protected] 24 Análise Fatorial • Raciocínio: suponha que variáveis possam ser agrupadas segundo suas correlações, isto é, que todas as variáveis dentro de um grupo sejam altamente correlacionadas entre si, mas tenham correlações muito baixas com as variáveis de outros grupos. • A idéia por trás da Análise Fatorial é que cada grupo de variáveis representa um constructo básico, que é o responsável pelas correlações observadas nas respostas. [email protected] 25 Análise Fatorial • Dados as variáveis: X1, X2,..., Xp Existem F1, F2, ..., Fm, onde m < p tal que X1 = a11F1 + a12F2 + · · · + a1mFm + 1 X2 = a21F1 + a22F2 + · · · + a2mFm + 2 ……………………………………………… Xp = ap1F1 + ap2F2 + · · · + apmFm + p ? [email protected] 26 Análise Fatorial – De forma visual, os dados originais formam uma nuvem de pontos num espaço de pdimensional. – A transformação de X em F permite transportar os pontos do espaço pdimensional para um espaço m-dimensional com menos dimensões, e portanto mais fácil de interpretar. – Por isso é importante que m não seja maior que 2 ou 3. [email protected] 27 Análise Fatorial • Na Análise Fatorial são calculados os coeficientes aij – denominados de cargas fatoriais e os Fatores Fi. • Suposições: – Fi e i são variáveis com médias 0 e variância 1; – aij2: proporção da variância de Xi que é devido ao fator Fi é chamada de Comunalidade de Xi. [email protected] 28 Análise Fatorial •Não existe uma solução única para a AF de um conjunto de dados, mas apenas dois princípios básicos que se deve ter em conta: Princípio de Parcimônia: Tem-se que explicar as correlações entre as variáveis observadas utilizando o menor número de fatores possível. Interpretabilidade: Deseja-se que os fatores tenham um significado no contexto estudado, guardando em si mesmos uma coerência lógica. [email protected] 29 Análise Fatorial • Há dois tipos de aplicação e de entendimento da AF: – Análise fatorial Exploratória: mais antiga buscar dimensões subjacentes, para saber o que é mais importante ou mais significativo de um conjunto de variáveis. – Analise fatorial Confirmatória: se desenha uma estrutura dos fatores e em seguida, busca-se a confirmação desta, estudando as variáveis observadas. (uso em modelagem de comportamento). [email protected] 30 Análise Fatorial • Métodos de extração dos fatores – Componentes Principais – Fator Principal com várias alternativas: • • • • Método do Eixo Principal Método do Centróide Máxima Verossimilhança Comunalidades [email protected] 31 Análise Fatorial • Entrada dos dados para análise: – Matriz dos dados brutos – Matriz de correlações • Saídas: – Autovalores – Matriz de cargas fatoriais sem rotação – Rotação dos fatores: ortogonais e obliquas – Coeficientes fatoriais [email protected] 32 Análise Fatorial • Rotações ortogonais – Varimax – Quartimax – Equamax • Rotações Obliquas – Oblimin – Promax [email protected] 33 Fator II NÃO Rodado Fator rodado II Rotação ortogonal V1 V2 Fator I NÃO Rodado V4 V3 V5 Fator rodado I [email protected] 34 Fator II NÃO Rodado Fator rodado ortog. II Fator rodado II oblíquo Rotação oblíqua V1 V2 Fator I NÃO Rodado V4 V3 Fator rodado I Oblíquo V5 Fator rodado ortog. I [email protected] 35 Total Variance Explained Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total 4,915 1,817 1,446 1,173 ,979 ,869 ,764 ,712 ,574 ,432 ,381 ,307 ,282 ,202 ,147 Initial Eigenvalues % of Variance Cumulative % 32,769 32,769 12,113 44,883 9,639 54,522 7,823 62,344 6,528 68,872 5,792 74,664 5,094 79,758 4,743 84,502 3,828 88,330 2,879 91,209 2,539 93,748 2,045 95,793 1,881 97,674 1,344 99,017 ,983 100,000 Extraction Sums of Squared Loadings Total % of Variance Cumulative % 4,915 32,769 32,769 1,817 12,113 44,883 1,446 9,639 54,522 1,173 7,823 62,344 Rotation Sums of Squared Loading s Total % of Variance Cumulative % 3,122 20,810 20,810 2,786 18,575 39,385 2,114 14,096 53,481 1,330 8,864 62,344 Extraction Method: Principal Component Analysis. [email protected] 36 3 24 2 27 38 23 1 46 1 28 45 16 0 17 44 2 -1 32 36 29 14 39 2141 25 8 12 15 13 4 11 35 5 229 19 3126 37 42 20 18 43 40 6 10 34 30 33 -2 7 48 47 3 -3 -3 -2 -1 REGR factor score 2 for analysis [email protected] 0 1 2 1 37