Seminário DEs/DEP
Algumas Técnicas Estatísticas
Multivariadas
Parte II
Jorge Oishi
[email protected]
1
Técnicas Multivariadas

Tópicos abrangidos:



Análise Discriminante
Análise de Cluster
Análise de Correspondência
[email protected]
2
Análise Discriminante

Objetivo

Construir um modelo preditivo para prognosticar o grupo a qual
pertence uma observação a partir de determinadas
características observadas.

Permite classificar novos indivíduos em grupos previamente
estabelecidos a partir das informações das variáveis observadas.

Fundamentalmente, se deseja construir uma regra ou esquema
de classificação que possibilite ao investigador predizer a
população que é mais provável que um indivíduo pertença.

Este é o caso onde temos uma variável dependente não métrica
(que define os grupos) e várias variáveis independentes
métricas.
[email protected]
3
Análise Discriminante

Curiosidade: teve início com a “certeza” que um diretor
de penitenciária americana tinha em ser capaz de
reconhecer um criminoso andando na rua, somente
através das medidas morfométricas da pessoa;

Hitler criou as medidas perfeitas de um ariano puro;

Ainda hoje existem “teorias” sobre a relação entre
medidas morfométricas e estruturas psíquicas.
[email protected]
4
Análise Discriminante

Exemplos:





Área de crédito: dado o cadastro de clientes, estabelecer
um critério para empréstimo. (Credit Score);
Área de negócios: criar uma regra, a partir de um banco de
dados sobre a previsão de insolvência de empresas;
Área de negócios: regra para prever a troca de
fornecedores por parte dos clientes;
Policial: através das imagens de satélite ser capaz de
reconhecer se uma plantação é de maconha.
Policial: construir um critério para ajudar a PM de nossa
cidade a identificar os locais de maior risco em relação à
criminalidade.
[email protected]
5
Análise Discriminante
Grupos
Casos
X1
X2
...
Xp
1
1
X111
X112
...
X11p
1
2
X211
X212
...
X21p
...
...
...
...
...
...
1
n1
Xn1,11
Xn1,12
...
Xn1,1p
2
1
X121
X222
...
X12p
...
...
...
...
...
...
2
n2
Xn221
Xn2,22
...
Xn2,2p
...
...
...
...
...
...
m
1
X1m1
X1m2
...
X1mp
...
...
...
....
...
...
m
nm
Xnm,m1
Xnm,m2
...
Xnm,mp
[email protected]
6
Análise Discriminante
Avaliação de um novo produto
Grupo
Sujeito
Durabilidade
Desempenho
Estilo
1
1
8
9
6
1
2
6
7
5
1
3
10
6
3
1
4
9
4
4
1
5
4
8
2
2
6
5
4
7
2
7
3
7
2
2
8
4
5
5
2
9
2
4
3
2
10
2
2
2
[email protected]
7
Análise Discriminante

Curso de Multivariada\NOVPRODU.STA
[email protected]
8
Análise de Cluster

Objetivo



Dado um conjunto de n objetos observados através de p
variáveis, agregá-los em grupos “similares” segundo o
conjunto de características avaliadas.
O que diferencia esta técnica da anterior é que nesta o
número de grupos não é conhecido de antemão.
Os agrupamentos resultantes devem ter a propriedade de
serem bastante homogêneos internamente ao grupo, mas
bastante heterogêneos em relação aos elementos de
outros grupos.
[email protected]
9
Análise de Cluster




A forma de agir da Análise de Cluster difere das demais técnicas
por trabalhar unicamente com o conceito de distância entre os
sujeitos.
A “semelhança” utilizada é dada por proximidade dos casos
segundo uma medida de distância, que em muitos casos é a
distância euclidiana e em outros a distância estatística.
Ela pode ser usada também para agrupar variáveis ao invés de
casos, porém a distância utilizada é a correlação entre elas. Este
tipo de distância oferece alguns desafios que precisa ser
entendido dentro do contexto do estudo.
Basicamente existem 3 tipos de medidas de similaridade entre
os sujeitos:distância, correlação e associação.
[email protected]
10
Análise de Cluster

Algorítmos de agrupamento:


Como fazer para colocar no mesmo grupos os
casos?
Método Hierárquico




Método aglomerativo – começa só com ele
Método divisivo – começa com todos os casos
Dendrograma – árvore que mostra os casos se
agrupando
Algorítmos:


single linkage, average linkage e complete linkage
Ward
[email protected]
11
Análise de Cluster

Método Não hierárquico: não usa o processo de
árvore mas partem de agrupamentos feitos a
priori e corrigem o os agrupamentos reajustando
as distâncias entre os elementos ao centro de
cada grupo.Também são chamados de K-means.



Método de Referencia Seqüencial
Método da Referencia Paralela
Método da Otimização
[email protected]
12
Análise de Cluster

Número de Agrupamentos: quantos grupos
formar?



Não existem regras que possam ser recomendadas
para todos os casos.
Existe a regra estatística, que a distância entre os
agrupamentos são claramente determinados a partir de
um teste de hipóteses;
Existe a regra do “bom senso” onde os grupos são
construídos a partir do dendrograma.
[email protected]
13
Análise de Cluster
STATISTICA.lnk
[email protected]
14
Análise de Correspondências

Objetivo


Analisar tabelas de dupla-entrada ou de múltiplas
entradas levando-se em consideração alguma
medida de correspondência entre linhas e
colunas;
Ela converte uma matriz de dados não negativos
em um tipo de representação gráfica em que
linhas e colunas são representadas em
dimensões reduzidas, isto é, por pontos num
gráfico.
[email protected]
15
Análise de Correspondências

Exemplo:

Consideremos as vendas de três produtos A, B e C para
pessoas de três faixas etárias.
Venda de produto
Faixa etária
A
B
C
Total
18 – 35
20
20
20
60
36 – 55
40
10
40
90
56 ou +
20
10
40
70
Total
80
40
100
220
[email protected]
16
Análise de Correspondências



Queremos encontrar um padrão para estabelecer
que os jovens compram mais do produto X ou os
idosos compram do produto Y;
Para isso precisamos de uma medida padronizada
de vendas que leve em conta simultaneamente as
diferenças em vendas para uma combinação
específica de produto-faixa etária;
Se um grupo compra mais unidades de um produto
do que o esperado, podemos associar essa faixa
etária ao produto comprado.
[email protected]
17
Análise de Correspondências



Em uma representação gráfica, grupos de idade seriam
colocados mais proximamente de produtos com os quais
eles estão mais altamente associados e mais afastados
de produtos com menores associações.
Isso se faz através do cálculo dos valores observados
menos os valores esperados sob a suposição de não
haver qualquer associação entre produtos e
consumidores.
Os valores esperados são calculados através do produto
cruzado entre os totais de linhas e colunas
correspondentes, dividido pelo total de vendas.
[email protected]
18
Análise de Correspondências

Após a determinação dos valores esperados,
encontra-se o Qui-quadrado de cada cruzamento
através da seguinte fórmula:
2
( valorobservado- valoresperado)
χ 
valoresperado
2
[email protected]
19
Análise de Correspondências
χ
2
Venda de produto
Faixa etária
A
B
C
Total
18 – 35
21,8
0,15
-0,15
10,9
7,58
7,58
27,3
1,94
-1,94
60
9,67
36 – 55
32,7
1,62
1,62
6,4
2,47
-2,47
40,9
0,02
-0,02
90
4,11
56 ou +
25,4
1,17
-1,17
12,7
0,58
-0,58
31,8
2,10
2,10
70
3,85
Total
80
2,94
40
10,63
100
4,06
220
17,63
[email protected]
20
Análise de Correspondências
2D Plot of Row and Column Coordinates; Dimension: 1 x 2
Input Table (Rows x Columns): 3 x 3
Dimension 2; Eigenvalue: .01969 (24.56% of Inertia)
Standardization: Row and column prof iles
0.25
A
0.20
0.15
Adultos
0.10
0.05
Jovens
0.00
B
-0.05
-0.10
C
-0.15
Idosos
-0.20
-0.25
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Row.Coords
Col.Coords
Dimension 1; Eigenv alue: .06047 (75.44% of Inertia)
[email protected]
21
Análise de Correspondências

A partir da construção de uma estrutura de
relacionamento, determinam-se dimensões através da
decomposição espectral (autovalores e autovetores)
cujo gráfico das variáveis e casos são representados por
pontos e cujas proximidades refletem a semelhança
entre comportamentos.

A construção dessas dimensões é realizada através dos
softwares estatísticos e fica muito difícil a sua obtenção
através de outros meios.

A grande contribuição da AC está nesses gráficos que
permitem a avaliação visual do comportamentos das
linhas e colunas num único gráfico.
[email protected]
22
Bibliografia





Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C.
Análise Multivariada de Dados. 5a. Edição, Bookman,
2005
Johnson, R.A.; Wichern, D.W. Applied Multivariate
Statistical Analysis. 4a. Edição, Prentice Hall, 1998.
Manly, B.F.J. Multivariate Statistical Analysis: A primer.
2a. Edição, Chapman & Hall, 1997.
Manual do Statistica, Vol III: Statistics II. StatSoft, 1999.
Lopez, C.P. Métodos Estadísticos Avanzados com
SPSS. Thomson, 2005.
[email protected]
23
Muito obrigado a todos vocês que conseguiram me
agüentar nesses dois dias.
Que Deus os abençoe e os gratifiquem contribuindo com
um mãozinha na MegaSena (mas se ganharem não se
esqueçam da minha comissão)
[email protected]
24
Download

Análise Estrutural