Seminário DEs/DEP
Algumas Técnicas Estatísticas
Multivariadas
Parte I
Jorge Oishi
[email protected]
1
Técnicas Multivariadas
• Tópicos abrangidos:
– Análise de Componentes Principais
– Análise Fatorial
– Análise Discriminante
– Análise de Cluster
– Análise de Correspondência
[email protected]
2
Técnicas Multivariadas
• Conceitos básicos:
– Análise Multivariada – todos os métodos estatísticos
que simultaneamente analisam múltiplas medidas
sobre cada indivíduo ou objeto sob investigação.
– Qualquer análise de duas ou mais variáveis, pode ser
considerada análise multivariada.
– Para ser considerada verdadeiramente como
multivariada, todas as variáveis devem ser aleatórias
e inter-relacionadas, de modo que seus efeitos não
podem ser interpretados de forma separada.
[email protected]
3
Técnicas Multivariadas
Estrutura dos dados
X1
X2
...
Xp
Caso 1
x11
x12
...
x1p
Caso 2
x21
x22
...
x2p
....
...
...
...
..
Caso n
xn1
xn2
...
xnp
[email protected]
4
Técnicas Multivariadas
• OBJETIVOS
– Redução dos dados ou simplificação estrutural:
• O fenômeno sendo estudado é representado o mais
simplificado possível sem o sacrifício de informações
valiosas;
– Ordenação e agrupamento:
• Grupos de objetos ou variáveis são criadas baseadas nas
características mensuradas;
– Investigação da dependência entre variáveis:
• A natureza do relacionamento entre as variáveis é de
interesse. Todas as variáveis são mutuamente ou são uma
ou mais variáveis dependentes das outras? Como é essa
relação?
[email protected]
5
Técnicas Multivariadas
• OBJETIVOS
– Previsão:
• O relacionamento entre variáveis deve ser
determinado com o propósito de fazer previsão
dos valores de uma ou mais variáveis com base
na observação das outras variáveis;
– Construção e testes de hipóteses:
• Hipóteses estatísticas, formuladas em termos de
parâmetros de populações multivariadas podem
ser testadas.
[email protected]
6
Técnicas Multivariadas
• Variáveis: dois tipos de classificações:
– Quanto a resposta:
• Métricas: discretas ou contínuas
• Não métricas: nominais ou ordinais
– Quanto ao uso:
• Dependentes ou respostas
• Independentes ou explanatórias
[email protected]
7
Técnicas Multivariadas
• Classificação das Técnicas
• Forma geral:
– Vetores de variáveis: X  (X1 ,, X p )
~
– Classificação das técnicas depende:
• Da dependência ou independências das variáveis
• Do número de variáveis dependentes
• Do tipo de escala (métrica, não-métrica)
[email protected]
8
Técnicas Multivariadas
• Técnica de Dependência
– É aquela na qual uma variável ou um conjunto de
variáveis é identificado como variável dependente a
ser predita ou explicada por outras variáveis
independentes;
• Técnica de Interdependência
– É aquela na qual nenhuma das variáveis é definida
como dependente ou independente, mas o
procedimento envolve a análise simultânea de todas
as variáveis no conjunto.
[email protected]
9
Técnicas Multivariadas
• Técnicas de Dependência
– Podem ser classificadas por duas características:
• O número de variáveis dependentes,
• O tipo de escala das variáveis.
• Exemplos de técnicas
–
–
–
–
–
Regressão Linear Múltipla
MANOVA
Análise Discriminante
Análise de Correlação Canônica
Análise Conjunta
[email protected]
10
Técnicas Multivariadas
• Técnicas de Interdependência
– Depende da estrutura procurada:
• Estrutura de variáveis;
• Estrutura de casos;
• Estrutura de objetos (da matriz de dados).
• Exemplos
–
–
–
–
Análise Fatorial
Análise de Cluster
Escalonamento Multidimensional
Análise de Correspondências
[email protected]
11
Técnicas Multivariadas
(Y1,, Yr )  (X1,, Xs ) onde r  s  p
• Se Y1: métrica e Xi todas métricas  Regressão
Linear Múltipla;
• Se Y1: não-métrica e Xi todas métricas 
Análise Discriminante Múltipla;
• Se Y1: métrica e Xi todas não métricas 
ANOVA;
• Se Y1: métrica ou não-métrica e Xi todas não
métricas  Análise Conjunta;
[email protected]
12
Técnicas Multivariadas
(Y1 ,, Yr )  (X1 ,, Xs )
• Se Yi: todas métricas e Xi todas não-métricas 
MANOVA;
• Se Yi: métricas ou não-métrica e Xi métricas ou
não-métricas  Análise de Correlação
Canônica;
[email protected]
13
Análise de Componentes Principais
• Pearson (1901) e Hotelling (1933)
– O objetivo principal é a obtenção de um
pequeno número de combinações lineares
(componentes principais) de um conjunto de
variáveis, que retenham o máximo possível da
informação contida nas variáveis originais.
• Redução dos dados originais
• Facilitar a interpretação através da descoberta de
relacionamentos não suspeitos previamente.
[email protected]
14
Análise de Componentes Principais
• A análise de componentes principais substitui
um conjunto de variáveis correlacionadas por
um conjunto de novas variáveis nãocorrelacionadas, sendo essas combinações
lineares das variáveis iniciais e colocadas em
ordem decrescente por suas variâncias
Var CP1 > Var CP2 > .... > Var CPp
[email protected]
15
Análise de Componentes Principais
• Algebricamente, componentes principais são combinações lineares
particulares das “p” variáveis aleatórias X1, X2, ..., Xp;
• Geometricamente, essas combinações lineares representam a
relação de um novo sistema de coordenadas obtido por
deslocamento e rotação do sistema original com X1, X2, ..., Xp como
eixos;
• Os novos eixos representam as direções com variabilidade máxima
e fornecem uma descrição mais simples e mais parcimoniosa da
estrutura de covariância;
• Os componentes principais dependem da matriz de correlação (r)
ou da matriz de covariâncias () de X1, X2, ..., Xp. O seu
desenvolvimento não necessita da suposição de normalidade.
[email protected]
16
Análise de Componentes Principais
• Exemplos:
– Aplicação na confiabilidade de sistemas complexos – redução no
conjunto de variáveis originais (peças) para três variáveis
(componentes principais) e no final o estudo mostrou que
bastava apenas o primeiro deles.
– Análise de componentes principais em imagens multi-temporais
de satélites para estudo de vulnerabilidade à perda de solo no
semi-árido nordestino. Basicamente foi utilizada a ACP para
reunir as informações de duas imagens para compor duas
outras, não correlacionadas entre si, com melhores
propriedades interpretativas.
[email protected]
17
Análise de Componentes Principais
[email protected]
18
Análise de Componentes Principais
[email protected]
19
Análise de Componentes Principais
[email protected]
20
Análise de Componentes Principais
[email protected]
21
Análise de Componentes Principais
• Seleção do número de componentes
– Kaiser ou Método da Raiz Latente: autovalores
maiores que 1 (Johnson = 0,7);
– Scree test – gráfico dos autovalores.
[email protected]
22
Análise de Componentes Principais
– Após a seleção dos componentes, a elaboração do gráficos dos
dois primeiros componentes pode ser muito útil para entender a
relação entre as variáveis e os componentes;
– Se apenas os dois primeiros componentes “explicarem” mais de
80 ou 90% da variabilidade total das variáveis originais isto
significa que o fenômeno sob estudo pode ser muito simplificado;
– No primeiro exemplo, de 80 variáveis originais apenas três
componentes “explicam” quase tanto quanto os 80 e, no final,
apenas o primeiro componente já foi suficiente para o objetivo do
trabalho.
[email protected]
23
Análise Fatorial
• Spearman (1904), Pearson e Hotelling (1933)
• Objetivo
– Analisar as inter-relações entre um grande número de variáveis
em termos de poucas, mas não observáveis, variáveis
chamadas fatores.
– Verificar se é possível descrever um conjunto de p variáveis em
um conjunto menor de índices ou fatores que “explicam” tanto
sobre o fenômeno, que o conjunto original.
– Surgiu da tentativa de definir e medir “constructos”, tais como
Inteligência, Amor, etc.
[email protected]
24
Análise Fatorial
• Raciocínio: suponha que variáveis possam ser
agrupadas segundo suas correlações, isto é, que todas
as variáveis dentro de um grupo sejam altamente
correlacionadas entre si, mas tenham correlações muito
baixas com as variáveis de outros grupos.
• A idéia por trás da Análise Fatorial é que cada grupo de
variáveis representa um constructo básico, que é o
responsável pelas correlações observadas nas
respostas.
[email protected]
25
Análise Fatorial
• Dados as variáveis: X1, X2,..., Xp
Existem F1, F2, ..., Fm, onde m < p tal que
X1 = a11F1 + a12F2 + · · · + a1mFm + 1
X2 = a21F1 + a22F2 + · · · + a2mFm + 2
………………………………………………
Xp = ap1F1 + ap2F2 + · · · + apmFm + p ?
[email protected]
26
Análise Fatorial
– De forma visual, os dados originais formam
uma nuvem de pontos num espaço de pdimensional.
– A transformação de X em F permite
transportar os pontos do espaço pdimensional para um espaço m-dimensional
com menos dimensões, e portanto mais fácil
de interpretar.
– Por isso é importante que m não seja maior
que 2 ou 3.
[email protected]
27
Análise Fatorial
• Na Análise Fatorial são calculados os
coeficientes aij – denominados de cargas
fatoriais e os Fatores Fi.
• Suposições:
– Fi e i são variáveis com médias 0 e variância
1;
– aij2: proporção da variância de Xi que é
devido ao fator Fi é chamada de
Comunalidade de Xi.
[email protected]
28
Análise Fatorial
•Não existe uma solução única para a AF de um conjunto de
dados, mas apenas dois princípios básicos que se deve ter em
conta:
Princípio
de Parcimônia: Tem-se que explicar as correlações
entre as variáveis observadas utilizando o menor número de
fatores possível.
Interpretabilidade:
Deseja-se que os fatores tenham um
significado no contexto estudado, guardando em si mesmos uma
coerência lógica.
[email protected]
29
Análise Fatorial
• Há dois tipos de aplicação e de entendimento
da AF:
– Análise fatorial Exploratória: mais antiga  buscar
dimensões subjacentes, para saber o que é mais
importante ou mais significativo de um conjunto de
variáveis.
– Analise fatorial Confirmatória: se desenha uma
estrutura dos fatores e em seguida, busca-se a
confirmação desta, estudando as variáveis
observadas. (uso em modelagem de
comportamento).
[email protected]
30
Análise Fatorial
• Métodos de extração dos fatores
– Componentes Principais
– Fator Principal com várias alternativas:
•
•
•
•
Método do Eixo Principal
Método do Centróide
Máxima Verossimilhança
Comunalidades
[email protected]
31
Análise Fatorial
• Entrada dos dados para análise:
– Matriz dos dados brutos
– Matriz de correlações
• Saídas:
– Autovalores
– Matriz de cargas fatoriais sem rotação
– Rotação dos fatores: ortogonais e obliquas
– Coeficientes fatoriais
[email protected]
32
Análise Fatorial
• Rotações ortogonais
– Varimax
– Quartimax
– Equamax
• Rotações Obliquas
– Oblimin
– Promax
[email protected]
33
Fator II NÃO Rodado
Fator rodado II
Rotação
ortogonal
V1
V2
Fator I NÃO Rodado
V4
V3
V5
Fator rodado I
[email protected]
34
Fator II NÃO Rodado
Fator rodado
ortog. II
Fator rodado II
oblíquo
Rotação
oblíqua
V1
V2
Fator I NÃO Rodado
V4
V3
Fator rodado I
Oblíquo
V5
Fator rodado ortog. I
[email protected]
35
Total Variance Explained
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
4,915
1,817
1,446
1,173
,979
,869
,764
,712
,574
,432
,381
,307
,282
,202
,147
Initial Eigenvalues
% of Variance
Cumulative %
32,769
32,769
12,113
44,883
9,639
54,522
7,823
62,344
6,528
68,872
5,792
74,664
5,094
79,758
4,743
84,502
3,828
88,330
2,879
91,209
2,539
93,748
2,045
95,793
1,881
97,674
1,344
99,017
,983
100,000
Extraction Sums of Squared Loadings
Total
% of Variance
Cumulative %
4,915
32,769
32,769
1,817
12,113
44,883
1,446
9,639
54,522
1,173
7,823
62,344
Rotation Sums of Squared Loading s
Total
% of Variance
Cumulative %
3,122
20,810
20,810
2,786
18,575
39,385
2,114
14,096
53,481
1,330
8,864
62,344
Extraction Method: Principal Component Analysis.
[email protected]
36
3
24
2
27
38
23
1
46
1
28
45
16
0
17
44
2
-1
32
36
29
14
39
2141
25
8
12
15
13
4
11
35 5
229
19
3126
37
42 20
18 43
40 6
10
34
30
33
-2
7
48
47
3
-3
-3
-2
-1
REGR factor score 2 for analysis
[email protected]
0
1
2
1
37
Download

Análise Estrutural - GEPEQ - Grupo de Estudo e Pesquisa em