Josias Jônatas
Data Mining Consultant
StatSoft South America Consulting Services
Conteúdo
Análise de Agrupamentos
Análise de Componentes Principais
Análise de Fatores
Análise Discriminante
Multivariate Statistical Process Control - MSPC
Josias Jônatas
Data Mining Consultant
StatSoft South America Consulting Services
Definição
Tree Diagram for 36 Cases
Ward`s method
Euclidean distances
70
60
50
40
30
Linkage Distance
20
10
0
Bolívia
Haiti
India
Egito
Argélia
Quenia
Banglade
Paquist
Nigéria
Gana
Rep.C. Af.
Brasil
México
Turquia
Chile
C.Rica
China
Filipina
Uruguai
URSS
Hungria
Grécia
Iugosláv
Portugal
Canadá
Japão
Austrália
EUA
Espanha
Itália
Nova Zelândia
Israel
RU
RFA
Suécia
Suiça
Análise de
Agrupamento é uma
técnica multivariada cuja
finalidade é agregar
objetos (OTU’s –
Unidades de Objetos
Taxonômicos) com base
nas características que
eles possuem. O
resultado são grupos que
exibem máxima
homogeneidade de
objetos dentro de grupos
e, ao mesmo tempo,
máxima heterogeneidade
entre os grupos.
Conceitos Básicos
Consumo (em R$)
Tempo (em dias)
Conceitos Básicos
Alguns pontos relevantes que devemos observar em análise de
agrupamentos são:
A análise de agrupamentos não faz distinção entre variáveis
dependentes e independentes, no entanto pode examinar
relações de interdependência entre todo o conjunto de variáveis.
O objetivo principal de análise de agrupamentos é classificar
objetos em grupos relativamente homogêneos, a partir das
variáveis consideradas importantes para a análise;
Os objetos em um grupo são relativamente semelhantes em
termos dessas variáveis e diferentes de objetos de outros
grupos;
A mais forte aplicação desta técnica tem sido em Pesquisa de
Marketing, principalmente, Segmentação de Mercado.
Padronizando os dados
Imagine a
situação descrita
na tabela ao lado.
Foram medidas 3
características de
8 clientes e
queremos avaliar
uma forma de
agrupar estes
clientes e
encontrar aquelas
que acompanham
um
comportamento
semelhante.
Percentual de
Importância
Salário
Médio
Consumo
Médio
Cliente 1
10,85
1.500,80
149,35
Cliente 2
14,13
1.496,07
187,99
Cliente 3
8,62
1.448,79
130,97
Cliente 4
23,04
1.277,33
424,87
Cliente 5
16,04
1.204,02
214,36
Cliente 6
43,74
1.190,94
1.139,52
Cliente 7
25,39
1.292,91
358,39
Cliente 8
42,86
1.590,66
721,90
Média
23,08
1.375,19
415,92
Desvio
Padrão
13,69
152,05
351,62
Fase 2
Padronizando os dados
1.650,00
Cliente 8
1.600,00
1.550,00
1.500,00
1.450,00
1.400,00
Média Salarial
1.350,00
1.300,00
1.250,00
O primeiro passo da
análise é definir um
critério para a formação
dos grupos. Um critério
que parece ser razoável
é considerar a
proximidade entre os
pontos. Pontos
próximos, então,
representariam regiões
com comportamentos
semelhantes no que se
refere às variáveis do
gráfico, ou seja, regiões
que podem fazer parte
de um mesmo grupo.
Fase 2
1.200,00
1.150,00
-50,00
Cliente
Cliente12
Cliente 3
Cliente 7
Cliente 4
Cliente 5
Cliente 6
0,00
50,00
100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00
Percentual de Importância
Padronizando os dados
1.650,00
Cliente 8
1.600,00
1.550,00
1.500,00
1.450,00
1.400,00
Média Salarial
1.350,00
1.300,00
1.250,00
Note que as distâncias
no sentido vertical são
muito maiores do que
no sentido horizontal, o
que reflete o fato da
variabilidade da variável
X2 ser muito maior do
que a de X1. Em
termos, práticos, a
variável X1 contribuiu
muito pouco para a
definição dos grupos. E
se quiséssemos dar
igual importância às
duas variáveis?
Fase 2
1.200,00
1.150,00
-50,00
Cliente
Cliente12
Cliente 3
Cliente 7
Cliente 4
Cliente 5
Cliente 6
0,00
50,00
100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00
Percentual de Importância
Padronizando os dados
1,60
Cliente 8
1,40
1,20
1,00
0,80
0,60
0,40
0,20
0,00
Média Salarial
-0,20
-0,40
-0,60
-0,80
-1,00
Uma maneira popular de
tratar com isso é usar
variáveis padronizadas. Ou
seja, subtraímos a média do
grupo de cada valor e
dividimos pelo desvio padrão:
Fase 2
1
Cliente Cliente
2
Cliente 3
Z ij 
Cliente 7
Cliente 4
Cliente 5
Cliente 6
-1,20
-1,40
-1,20 -1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80
Percentual de Importância
X ij  X j
Sj
Isso garante que as duas
variáveis estão sendo
consideradas com
importâncias equivalentes.
Observe agora os novos
grupos.
Resumo dos Estágios
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
O Deve-se
número de
Ao
garantir
Nesse
grupos
final do
que
Aqui
primeiro
pode
processo
dedefinimos
fato
serinstante
definido
as
devariáveis
formação
o algoritmo
devemos
a priori,
têm
de
através
comportamento
de grupos
algum
avaliar
conhecimento
é se
importante
diferenciado
asque
variáveis
será
caracterizar
que
nos
utilizado
devem
se
diversos
tenha
ou
na
os
grupos.
sobregrupos
os
É comum,
dados,
não
formados.
ser
conveniência
então,
identificação
padronizadas
Oque
usocada
de
dedos
estatísticas
eanálise
grupo
ogrupos:
critério
seja
ou
uma
ainda
amostra
pode
descritivas
que
ser
aleatória
será
definido
utilizado
éde
Métodos
recomendado
aalguma
posteriori
na hierárquicos
determinação
subpopulação
com
parabase
esta
e
e aplicar técnicas inferenciais
nos resultados
Métodos
para
fase
compará-las.
dos
de
da
daPartição
análise.
grupos.
análise.
Medidas de Parecença
As medidas de parecença têm
um papel central nos
algoritmos de agrupamentos.
Através delas são definidos
critérios para avaliar se dois
pontos estão próximos, e
portanto podem fazer parte de
um mesmo grupo, ou não.
Há dois tipos de medidas de
parecença: medidas de
similaridade (quanto maior o
valor, maior a semelhança
entre os objetos) e medidas de
dissimilaridade (quanto maior o
valor, mais diferentes são os
objetos.)
Medidas disponíveis na
Solução STATISTICA
Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formação dos
agrupamentos pode ser classificada em duas grandes famílias de
métodos: hierárquicos e de partição.
Métodos Hierárquicos Aglomerativos
• Para
esses
métodos
os
agrupamentos são formados a partir de
uma matriz de parecença;
• Queremos identificar os objetos que
mais se parecem;
• Agrupamos esses objetos e os
consideramos como um único objeto;
• Definimos uma nova matriz de
parecença.
Algoritmos de Agrupamentos
Os procedimentos hierárquicos envolvem a construção de
uma hierarquia de uma estrutura do tipo árvore. Existem
basicamente dois tipos de procedimentos hierárquicos de
agrupamento: Aglomerativos e Divisivos.
Métodos Hierárquicos Aglomerativos Usando o STATISTICA
O STATISTICA traz uma série de
Vamos enumerar pelos menos 5 mémétodos implementados:
todos aqui:
•
Método do vizinho mais próximo;
•
Método do vizinho mais longe;
•
Método das médias das distâncias;
•
Método da centróide;
•
Método de Ward.
Algoritmos de Agrupamentos
Método do vizinho mais próximo
(Single Linkage)
a distância
entre os
grupos é
definida como
sendo a
distância entre
os elementos
mais próximos
(menor
distância) dos
dois grupos
Algoritmos de Agrupamentos
Método do vizinho mais longe
(Complete Linkage)
a distância
entre dois
grupos é
definida como
sendo a
distância entre
os indivíduos
mais distantes
dos dois grupos
(distância
máxima).
Algoritmos de Agrupamentos
Método do centróide
Este método define a
coordenada de cada
grupo como sendo a
média das
coordenadas de seus
objetos. Uma vez
obtida essa
coordenada,
denominada centróide,
a distância entre os
grupos é obtida
através do cálculo das
distâncias entre os
centróides.
Algoritmos de Agrupamentos
Método de Ward
O método de Ward busca unir objetos que tornem os
agrupamentos formados os mais homogêneos possível. A medida
de homogeneidade utilizada baseia-se na partição da soma de
quadrados total de uma análise de variância. Observe abaixo:
 x
k
j 1 iG j
i1

k


k

 X 1   n j X j 1  X 1   x i 1  X j 1
2
j 1
2

2
j 1 iG j
O Método de Ward, é atraente por basear-se numa medida com
forte apelo estatístico e por gerar grupos que, assim como os do
método do vizinho mais longe, possuem alta homogeneidade
interna.
No STATISTICA
Na opção Input File existem duas maneiras para entrar com uma
base de dados: Raw Data ou Distance Matrix. Por vezes, algum
procedimento hierárquico ou medida de distância não está
implementada num procedimento automático. É possível, então,
entrar com a matriz de distância e avaliar os grupos. As informações
que esta matriz deve ter são:
Medidas de distância;
Média, Desvio Padrão e Número de Casos;
Tipo de Matriz:
1 – Matriz de Correlação;
2 – Matriz de Similaridade;
3 – Matriz de Dissimilaridade;
4 – Matriz de Variância e Covariância.
No STATISTICA
Exercício
Abra o arquivo Países.sta e avalie algum tipo de agrupamento entre
os 36 países disponíveis para análise.
Josias Jônatas
Data Mining Consultant
StatSoft South America Consulting Services
Definição
Análise de Componentes Principais (ACP) é uma técnica
estatística que transforma linearmente um conjunto de p variáveis em
um novo conjunto com um número menor (k) de variáveis nãocorrelacionadas, que explica uma parcela substancial das informações
Projection of the cases on the factor-plane ( 1 x 2)
do conjunto original.
Cases w ith sum of cosine square >= 0,00
4
Também será útil
3
quando desejamos
2
confirmar um
1
modelo de
0
agrupamento
-1
avaliado com a
-2
técnica de Análise
-3
de Agrupamentos
(ao lado vemos os
-4
grupos vistos
-5
-8
-6
-4
-2
0
2
4
6
8
10
Active
anteriormente)
Factor 1: 70,05%
C.Rica
China
Chile Méx ico
Portugal
Iugosláv
Turquia
Grécia
Brasil
Espanha Uruguai
Israel
Filipina
Nova ZelândiaURSS
Hungria
Itália
Suécia
Austrália
Japão
Canadá
Suiça
RU
RFA
Argélia
IndiaQuenia
Egito
Haiti
Paquistã
Banglade
Gana
Nigéria
Factor 2: 8,46%
BolíviaRep.C. Af.
EUA
Motivação
No menu Help, opte por Open Examples, na pasta Datasets
busque o arquivo Economic Indicators. O arquivo consta de
informações econômicas (Imposto, PNB, Inflação e Dívida) de 40
países.
Vamos estudar o
relacionamento
entre as variáveis
usando a Análise
de Correlações.
Depois faremos
uma Análise de
Agrupamentos e,
logo em seguida,
uma Análise de
Componentes
Principais.
Motivação
Vamos proceder com uma análise
de correlação. No menu Statistics,
opte por Basic Statistics and
Tables e, em seguida, clique duas
vezes na opção Correlation
matrices.
Insira todas as variáveis em
One variable list e clique em
Summary Correlation matrix.
Depois clique na opção
Scatterplot matrix.
Motivação
Correlations (Economic indicators 4v*40c)
WAGERAT E
GNP
INFLATION
DEBT
Vamos
avaliar os
resultados:
O que há de
peculiar
entre as
variáveis?
Qual a
estrutura de
relação entre
elas?
Motivação
Tree Diagram for 40 Cases
Ward`s method
Euclidean distances
40
35
30
25
20
15
5
0
Linkage Distance
10
Algeria
Sri Lanka
India
Brazil
South Afr
Egypt
Kenia
Peru
Ethiopia
Haiti
Australia
Austria
Norway
France
USA
Sweden
Japan
Britain
Denmark
Netherlan
Germany
Switzerlan
Luxemburg
Belgium
Finland
Taiwan
China
Malaysia
Mexico
Greece
Czech
Poland
Thailand
Hungary
Portugal
Indonesia
Italy
Korea
Ireland
Spain
Motivação
Agora, para finalizar essa motivação, vamos à técnica de Análise de
Componentes Principais. No menu Statistics, opte por Multivariate
Exploratory Techiniques e Principal Components & Classification
Analysis.
Motivação
Na aba Advanced, em
Variables inserimos as
variáveis de interesse para
a análise como na janela
abaixo. Variáveis
suplementares são aqueles
que desejamos analisar,
mas não diretamente.
Podemos
desejar usar
apenas
algumas
observações,
então usamos
Active cases
variable.
Motivação
Para observar o
comportamento
das variáveis
podemos avaliar
um gráfico de
scaterplot. Clique
em Plot var.
factor
coordinates, 2D.
Em seguida, na
aba Cases clique
em Plot cases
factor
coordinates, 2D.
Motivação
Projection of the variables on the factor-plane ( 1 x 2)
1,0
0,5
INFLATION
WAGERATE
GNP
0,0
DEBT
Factor 2 : 3,11%
-0,5
-1,0
-1,0
-0,5
0,0
Factor 1 : 94,31%
0,5
1,0
Motivação
Projection of the cases on the factor-plane ( 1 x 2)
Cases w ith sum of cosine square >= 0,00
1,2
1,0
0,8
Spain
Haiti
0,6
Portugal
Ireland
Hungary
Greece
ThailandItaly
Ethiopia
0,4
South Africa
0,2
Egypt
0,0
Sri LankaBrazil
Kenia
-0,2
India
Algeria
-0,4
Factor 2: 3,11%
-0,6
Britain
Poland
Czech
Republic
Denmark
Netherlands
Japan
Lux emburg
Korea Finland
Germany
Switzerland
Norway
Sweden
Austria
Australia
France
MalaysiaIndonesia
USA
China
Mex ico
Taiwan
Belgium
Peru
-0,8
-1,0
-1,2
-1,4
-6
-5
-4
-3
-2
-1
0
Factor 1: 94,31%
1
2
3
4
5
Active
Principais Objetivos da Análise
As p variáveis originais (X1, . . . , Xp) são transformadas em
p variáveis (Y1, . . . , Yp), denominadas componentes principais, de
modo que Y1 é aquela que explica a maior parcela da variabilidade
total dos dados, Y2 explica a segunda maior parcela e assim por
diante. Portanto, podemos afirmar que os principais objetivos de
ACP são:
Descrição
e entendimento da
estrutura de correlação
das variáveis
Obtenção
de combinações
interpretáveis das
variáveis
Confirma grupos
da Análise de
Agrupamentos
Componentes
Principais
Redução
da dimensionalidade
dos dados
Algumas Considerações Importantes
- O intuito da análise é resumir o padrão de correlação entre as
variáveis e muitas vezes é possível chegar a conjuntos não
correlacionados de variáveis, de modo que surge alguns
agrupamentos;
- Algebricamente, as componentes principais são combinações lineares
das variáveis originais;
- Geometricamente, as componentes principais são as coordenadas dos
pontos amostrais em um sistema de eixos obtido pela rotação do
sistema de eixos original, na direção da máxima variabilidade dos
dados;
- A análise de componentes principais depende somente da matriz de
covariância ou a de correlação. Não exige qualquer suposição sobre a
forma da distribuição multivariada dessas variáveis;
- Se a normalidade existe, a análise é engrandecida, se não ela ainda
vale a pena.
Como Obter as Componentes Principais
Suponha que
estamos observando
3 variáveis que
refletem a motivação,
preferência e
habilidades
intelectuais de um
grupo de pessoas. No
entanto, queremos
saber se é possível
ter respostas
adequadas quando
trabalhamos apenas
duas variáveis.
Aplicação
Vamos retornar
àquele exemplo
sobre índices
econômicos.
Vejamos como se
estrutura o
relacionamento
entre as variáveis e
avaliar um modelo
algébrico de
componentes
principais. Clique
em Eigenvalues e
Eigenvectors
(Autovalores e
Autovetores).
Aplicação
Aplicação
Os autovetores nos dão os coeficientes das equações lineares abaixo:
CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt
CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt
CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt
CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt
CP1 é responsável por 94,31% da informação original e CP2 é
responsável por 3,11% da informação original. Essas duas componentes
juntas nos fornecem 97,42% de informação.
Quantidade de Componentes a Escolher
Eigenvalues of correlation matrix
4,5
4,0
94,31%
3,5
3,0
2,5
2,0
Eigenvalue
1,5
1,0
0,5
3,11%
2,23%
,34%
0,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Eigenvalue number
3,5
4,0
4,5
5,0
Como Interpretar as Componentes Principais?
- A interpretação é feita com base nas correlações entre
as variáveis originais e as componentes principais, e nos
coeficientes dados pelas combinações lineares que
levam às componentes principais;
- As correlações são medidas das contribuições
individuais de cada variável e não consideram a
contribuição multivariada das demais variáveis;
- A primeira componente principal pode ser interpretada
como uma média entre as variáveis com maior
coeficiente na combinação linear
Contribuições
Podemos medir o grau de relação que existe entre as variáveis e as
componentes principais com a opção Factor & variable correlations.
E podemos
também medir
a contribuição
de cada
variável para a
construção de
uma
componente
principal
usando a
opção
Contributions
of variables.
Contribuições
 Wagerate X CP  v Wagerate X CP . CP
1
1
1
 0,5072. 3,772414  0,98512

Contribuição WagerateX CP1  v WagerateX CP1
  0,5072  0,257252
2

2
Análise de Classificação
Podemos avaliar um
modelo de
agrupamento usando
a técnica de
componentes
principais, basta clicar
nas opções Factor
coordinates of cases e
Plot case factor
coordinates, 2D.
Um modelo de Scores
pode ser exibido com
as opções Factor
scores e Factor scores
Coefficients
Análise de Classificação
Projection of the cases on the factor-plane ( 1 x 2)
Cases w ith sum of cosine square >= 0,00
1,2
1,0
0,8
Spain
Haiti
0,6
Portugal
Ireland
Hungary
Greece
ThailandItaly
Ethiopia
0,4
South Africa
0,2
Egypt
0,0
Sri LankaBrazil
Kenia
-0,2
India
Algeria
-0,4
Factor 2: 3,11%
-0,6
Britain
Poland
Czech
Republic
Denmark
Netherlands
Japan
Lux emburg
Korea Finland
Germany
Switzerland
Norway
Sweden
Austria
Australia
France
MalaysiaIndonesia
USA
China
Mex ico
Taiwan
Belgium
Peru
-0,8
-1,0
-1,2
-1,4
-6
-5
-4
-3
-2
-1
0
Factor 1: 94,31%
1
2
3
4
5
Active
Exercício
Abra o arquivo Países.sta e confirme o agrupamento entre os 36
países na técnica de Cluster Analysis.
Josias Jônatas
Data Mining Consultant
StatSoft South America Consulting Services
Definição e Conceitos
Análise Fatorial é um nome genérico dado a uma classe de métodos
estatísticos multivariados cujo propósito principal é definir a estrutura
subjacente em uma matriz de dados. Assim, têm-se os seguintes
pontos:
Abordar o problema de analisar a estrutura das inter-relações
(correlações) entre um grande número de variáveis, definindo
um conjunto de dimensões latentes comuns, chamadas de
fatores;
Identificar as dimensões separadas da estrutura e então
determinar o grau em que cada variável é explicada por cada
dimensão;
Resumir e reduzir os dados em dimensões latentes
interpretáveis e compreensíveis usando escores para cada
dimensão e, conseqüentemente, substituir as variáveis originais.
Definição e Conceitos
Os modelos de análise fatorial buscam explicar o
comportamento das variáveis observadas em relação ao
comportamento de um conjunto de variáveis não observadas
(variáveis latentes ou fatores).
Desta forma, sejam
  X 1 ,, X p 
T
E    1 ,,  p   
Um modelo de análise fatorial é dado por:
X 1  1  11F1    1m Fm   1
X 2   2  21F2    2 m Fm   2

X p   p  p1Fp    pm Fm   p
T
Definição e Conceitos
Traduzindo para notação de matriz, temos:
 X 1   1  11
 X     
 2    2    21
       
    
 X p    p  p1
12
22

p 2
1m   F1 
 2 m   F2 
1 
 
    2

      
   
 pm  Fm   p 

Cargas Fatoriais
Podemos interpretar as cargas fatoriais como:
CovX i ,Fj   Covi 1F1   ij Fj   imFm   i ;Fj 
Observe que os fatores são ortogonais, ou seja a covariância entre
fatores é igual a zero. Portanto,
CovX i ,Fj   Covij Fj ; Fj   ij
Definição e Conceitos
temos:
Vamos estudar a variância das variáveis observadas. Para Xi
 i2  Var X i   Var X i  i   Var i 1F1   im Fm   i 
o resultado disso é:
 i2  i21   im2  i
Portanto, temos dois importantes conceitos:
Comunalidade. Parcela da variância de Xi que é explicada
pelos fatores comuns.
2
Pode-se usar a
c     
2
i
2
i1
2
im
proporção de Pri
variabilidade explicada:

ci
 i2
Especificidade. Parcela de variância de Xi que não é explicada
pelos fatores
Especificidade :  i
Definição e Conceitos
Se definimos a variabilidade total das variáveis originais
como sendo:
p
 T2   i2
i 1
temos, então que
p
2
c
i
i 1
Representa a parcela da variabilidade total que é explicada pelo
conjunto de fatores. Conseqüentemente,
p
PrT 
2
c
i
i 1
 T2
é a proporção da variabilidade total dos dados que é explicada pelo
conjunto de fatores comuns.
Aplicação
Imagine a matriz de correlação para nove elementos da imagem de
uma loja:
Política de
devolução
Pessoal
Disponibilidade de
produto
Serviço interno
Diversidade de itens
para cada produto
Nível de Preço
Atmosfera da loja
Diversidade de
produtos
Qualidade de
produto
A questão que se pode levantar é: Estes elementos todos são
separados no que se refere às suas propriedades de avaliação ou
eles se ‘agrupam’ em algumas áreas mais gerais de avaliação?
Aplicação
Aplicação
Experiência Interna
Oferta de Produtos
Valor
Etapas do Processo de Análise Fatorial
Tamanho da Amostra
Variáveis Objetivo
Planejamento da Análise Fatorial
O propósito geral de técnicas de análise fatorial é encontrar um modo de
condensar a informação contida em diversas variáveis originais em um
conjunto menor de novas dimensões compostas ou variáveis estatísticas com
uma perda mínima de informação.
Fase 1
É importante definir com critério as variáveis que farão parte da pesquisa com
Análise Fatorial, definir as propriedades de medidas e tipos de variáveis
envolvidas. Quanto maior for o número de variáveis, maior será o tamanho da
amostra.
Algumas cuidados importantes em Análise de Fatores dizem respeito ao
tamanho da amostra:
Dificilmente um pesquisador realiza uma Análise Fatorial com menos que
50 observações;
Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;
Alguns estudiosos propõem um mínimo de 20 observações vezes o
número de variáveis a serem estudadas.
Quando se lida com amostras menores, o pesquisador sempre deve
interpretar qualquer descoberta com precaução.
Etapas do Processo de Análise Fatorial
Abra o arquivo
Hatco.sta na pasta
Treinamento / BDs /
STATISTICA /.
Etapas do Processo de Análise Fatorial
Interpretação dos Fatores
Cargas fatoriais:
Fase 4
A carga fatorial é o meio de interpretar o papel que cada variável tem na
definição de cada fator;
As cargas fatoriais são a correlação de cada variável com o fator, elas são
significantes quando seus valores excedem 0,70;
Cargas maiores fazem a variável ser representativa no fator.
Rotação de fatores:
Rotação
Quartimax. Concentra-se em rotacionar Fatorial
o fator inicial de modo que uma variável Ortogonal
tenha carga alta em um fator e cargas e Oblíqua
tão baixas nos demais;
Varimax. Este método, por outro lado,
busca concentrar cargas altas e baixas
em cada fator, isso maximiza a variância
Equamax. É uma espécie de acordo
entre os dois métodos acima.
1,0
Fator 2
Fator 2_Ort
V1 Fator 2_Obl
V2
0,50
Fator 1
-1,0
-0,50
0,50
-0,50
-1,0
V5
V3 1,0
V4
Fator 1_Obl
Fator 1_Ort
Exemplo
Vamos usar uma base de dados da Hatco para avaliar a existência
de agrupamentos de percepções que clientes têm com respeito à
empresa.
As variáveis
que nos
interessam são:
X1 a X4, X6 e X7.
O tamanho da
amostra é de
100
observações,
resultando em
14 casos para
cada variável,
um valor
aceitável.
Exemplo: Medidas de Correlação
Suposições de Normalidade, Linearidade, Homocedasticidade...
afetam as correlações e se estas não são significantes, então a
perda é considerável nos resultados da Análise Fatorial. Sendo
assim, é preciso avaliar a grandeza e significância das correlações.
Estas
correlações
são
significantes
ao nível de
5%. Note que
8 das 15
correlações
são
significantes.
Isso é
adequado.
Exemplo: Decidindo Quantos Fatores Usar
O passo seguinte é selecionar o número de componentes a
serem mantidos para análise posterior. Podemos usar os autovalores
para fazer essa seleção, tomando o teste da raiz latente em que os
autovalores devem assumir resultados superiores a 1. Portanto,
temos 3 fatores com essa característica e que respondem por
83,24% da variabilidade nas variáveis originais.
Exemplo: O Gráfico para o Teste da Raiz Latente
Teste da Rais Latente
3,0
2,513
2,5
2,0
1,740
1,5
Value
1,0
0,597
0,530
0,5
0,416
0,204
0,0
1
2
3
4
Number of Eigenvalues
5
6
Exemplo: Cargas Fatoriais e Cumunalidades
Uma vez decididos por 2
fatores, então precisamos
informar ao STATISTICA
que ele deve escolher 2
fatores com autovalores
maior que 1.
Clique em OK na janela
ao lado e retorne ao
módulo de análise.
Clique em Summary:
Factor loading.
Exemplo: Cargas Fatoriais e Cumunalidades
O fator 1 é o que explica a
porção maior da variabilidade e o
fator 2 é o que explica
ligeiramente menos;
2,51 é a porção de variabilidade
total explicada pelo Fator 1, isso
corresponde a 41,89% de
explicação;
1,74 é a porção de variabilidade
total explicada pelo Fator 2 que
corresponde a 28,99% de
explicação;
A significância das cargas
fatoriais foram aquelas com
valores superiores a 0,70.
Exemplo: Aplicando Rotação Varimax
A rotação compensou a variância
explicada por cada fator,
distribuindo melhor os 70,9% de
variabilidade explicada pelos dois
fatores.
Desta forma temos 39,50%
em lugar dos 41,89% para
o Fator 1; temos 31,40%
em lugar dos 28,99% para
o Fator 2.
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2
Rotation: Unrotated
Extraction: Principal components
0,4
0,2
X7
X2
0,0
-0,2
X3
Factor 2
-0,4
X1
-0,6
X4 X
6
-0,8
-1,0
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
Factor 1
0,2
0,4
0,6
0,8
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2
Rotation: Varimax normalized
Extraction: Principal components
X6 X4
1,0
0,8
0,6
0,4
Factor 2
0,2
0,0
-0,2
-1,0
X2
X1
X7
X3
-0,8
-0,6
-0,4
-0,2
0,0
Factor 1
0,2
0,4
0,6
0,8
1,0
Josias Jônatas
Data Mining Consultant
StatSoft South America Consulting Services
Definição
A análise discriminante envolve determinar uma variável estatística
que é a combinação linear de duas ou mais variáveis independentes
que discriminarão melhor entre grupos definidos a priori.
A discriminação é conseguida estabelecendo-se os pesos da variável
estatística para cada variável para maximizar a variância entre
grupos relativa à variância dentro dos grupos.
A
B
Função Discriminante
A
B
Função Discriminante
Definição
A combinação linear para uma análise discriminante,
também conhecida como a função discriminante, é
determinada de uma equação que assume a seguinte
forma:
z jk  a  w1x1k  w2 x2k   wn xnk
onde
zjk = escore Z discriminante da função discriminante
j para o objeto k
a = intercepto
wi = peso discriminante
independente i
xik = objeto k na variável Xi.
para
a
variável
Exemplo
Uma empresa está interessada em investigar se um de seus novos
produtos será comercialmente bem-sucedido. Isso conduz a uma
pesquisa com consumidores que comprariam ou não o novo produto.
Estudamos, então, as 3 características descritas no quadro abaixo:
Note que a característica
Durabilidade discrimina
bem os dois grupos.
Já a característica Estilo
tem uma diferença entre
médias de grupo igual a
0,2. No entanto, isso não
caracteriza uma má
discriminação. É preciso
avaliar a dispersão e os
escores discriminantes.
Exemplo
8
10
X1
Durabilidade
1
9
7
5
6
2
2
3
4
5
6
7
1
4
3
8
9
10
9
6
10
X2
Desempenho
1
2
3
7
4
8
3
2
5
1
4
5
6
7
8
9
10
8
9
10
10
X3
Estilo
1
7
9
8
5
3
4
2
1
6
2
3
4
5
6
7
Exemplo
Usando apenas a variável X1 obtemos um percentual de
classificação correta de 90%, visto que o item 5 não foi alocado
corretamente. Quando inserimos a variável X2, obtemos 100% de
acerto na Função 2. Mas com a análise discriminante, estamos
interessados não só em agrupar, como também maximizar
variabilidade entre grupos.
Exemplo
Exemplo
Faremos um procedimento passo a
passo. O método é o Forward
stepwise.
Exemplo
O função discriminante:
Z  4,53  0,4756.Durabilidade  0,3588.Desempenho
Exemplo
A Matriz de
Classificação e a
Classificação dos
Casos estão
demonstradas nas
tabelas a seguir.
Estágios do Processo de Análise Discriminante
À medida que
conceituamos os
procedimentos da
análise faremos um
exemplo para nos
familiarizarmos com o
STATISTICA.
Abra o arquivo
Hatco.sta.
Em Vars, opte por clicar
em All Specs.
Veja o significado de
cada variável.
Estágios do Processo de Análise Discriminante
Objetivo da Pesquisa:
Determinar se existem diferenças estatisticamente
significantes entre os perfis de escore médio em um
conjunto de variáveis para dois (ou mais) grupos definidos a
priori;
Determinar quais das variáveis independentes explicam o
máximo de diferenças nos perfis de escore médio dos dois
ou mais grupos;
Estabelecer procedimentos para classificar objetos em
grupos, com base em seus escores em um conjunto de
variáveis independentes;
Estabelecer o número e a composição das dimensões de
discriminação entre grupos formados a partir do conjunto de
variáveis independentes.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante:
Seleção de Variáveis Dependente e Independentes:
O pesquisador deve se concentrar na variável dependente
primeiro. O número de grupos pode ser dois ou mais, mas devem
ser mutuamente excludentes e cobrir todos os casos.
Tamanho da amostra:
A Análise Discriminante é muito sensível ao tamanho da amostra e
o número de variáveis preditoras Alguns estudos sugerem um
número de 20 observações para cada preditora.
Divisão da Amostra:
É muito comum um estudo de validação do modelo, usando
recursos de divisão da amostra (crossvalidation); este
procedimento consiste em dividir a amostra em duas partes: 1.
Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Vamos observar os dados em
termos de média e desviopadrão, considerando o
tamanho amostral.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Crie uma nova variável
na tabela em que o
valor geral é 1 para
todos os casos.
Ela aparece ao lado
como NewVar e será
uma variável auxiliar
para contagem de
casos.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
A variável X11 avalia duas abordagens quanto à compra de produtos
e serviços:
1 – Análise de Valor Total: avalia cada aspecto de compra,
incluindo cada tanto o produto quanto o serviço que é
comprado;
0 – Especificação de Compra: define-se todas as características
de produto e serviço desejados e o vendedor, então, faz uma
oferta para preencher as especificações.
Já a variável Grupo define uma parte das observações que será
usado para análise (assume valor 0) e a parte das observações que
será usada para validar (assume valor 1) o modelo discriminante.
Usamos 60 observações para análise e 40 para validação.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Estágios do Processo de Análise Discriminante
Suposições da Análise Discriminante:
Uma suposição chave é a de normalidade
multivariada para as variáveis independentes.
Existem evidências da sensibilidade da análise
discriminante a violações dessas suposições;
Outra questão é a matriz de covariância que é
desconhecida, no entanto deve ser igual para
todo grupo; matrizes desiguais afetam
negativamente o processo de classificação;
Também é preciso ter cuidado com a
Multicolinearidade.
Estágios do Processo de Análise Discriminante
Estimação do Modelo Discriminante:
Método Computacional
Estimação Simultânea: envolve a computação da função
discriminante, de modo que todas as variáveis independentes são
consideradas juntas;
Estimação Stepwise: envolve a inclusão das variáveis
independentes na função discriminante, uma por vez, com base em
seu poder discriminatório.
Significância Estatística
As medidas de lambda de Wilks, traço de Hotelling e critério de Pillai
avaliam a significância estatística do poder discriminatório da função
discriminante;
A maior raiz característica de Roy avalia apenas a primeira função
discriminante;
Se um método stepwise é empregado para estimar a função
discriminante, as medidas D2 de Mahalanobis são mais adequadas
Exemplo no STATISTICA
Exemplo no STATISTICA
Escolha a opção
Tradicional discriminant
analysis. A outra opção é
usada quando temos
variáveis independentes
categóricas.
Escolha as variáveis
para análise em
Variables:
X11 é Dependente e de
X1 a X7, são as
Independentes.
Exemplo no STATISTICA
Habilite a
opção Foward
stepwise para o
procedimento
computacional
Vamos usar a opção
Cross validation para
avaliar a função
discriminante para
esses dados.
Exemplo no STATISTICA
Exemplo no STATISTICA
Esta tabela
nos dá o
entendimento
das variáveis
que entram na
Análise
Discriminante.
Exemplo no STATISTICA
Note que a variável
X7 é a que apresenta
maior poder
discriminante e foi
escolhida primeiro.
Em seguida aparece
X3 e depois X1
disputa com X5 com
valores muito
próximos.
Após a seleção das 3
variáveis, as 4
restantes não
contribuem para
discriminar os grupos.
Exemplo no STATISTICA
Avaliação do Ajuste Geral:
Cálculo de Escores Z discriminantes
z jk  a  w1x1k  w2 x2k   wn xnk
Avaliação de Diferenças de Grupos
Um caminho para avaliar o ajuste geral do
magnitude de diferenças entre membros de
dos escores Z discriminantes. Podemos
comparação dos centróides dos grupos, o
média para todos os membros dos grupos.
modelo é determinar a
cada grupo em termos
fazer isso usando a
escore Z discriminante
Avaliação da Precisão Preditiva de Pertinência de Grupo
O uso de matriz de classificação nos informa o valor razão de
sucesso (um percentual de classificação correta);
O escore de corte que é o critério em relação ao qual o escore
discriminante de cada objeto é comparado para determinar em qual
grupo o objeto deve ser classificado.
Exemplo no STATISTICA
O que desejamos,
desde o início, é
maximizar a distância
entre as médias
populacionais e
minimizar a variância.
Uma medida de
distância usada é o D2
de Mahalanobis.
Clique nas opções
Class squared
Mahalanobis distances,
Class means for
canonical variables e
Tests of significance of
distances.
Exemplo no STATISTICA
Z Corte
38.1,836  22.1,063

 0,773
38  22
Observações com escores discriminantes menores
que ZCorte se classificam no grupo de Análise de
Valor Total ( 1 ). E os escores com valores maiores,
se classificam no grupo Especificação de Compra (
0 ).
Exemplo no STATISTICA
Exemplo no STATISTICA
Exemplo no STATISTICA
Interpretação dos Resultados:
Pesos Discriminantes
A interpretação de pesos discriminantes é
análoga à interpretação de pesos beta em
análise de regressão e está, portanto,
sujeita às mesmas críticas.
Z  0,447.X 1  0,472.X 3  0,659.X 7
É a função discriminante com
pesos padronizados.
Exemplo no STATISTICA
Interpretação dos Resultados:
Cargas Discriminantes
As cargas discriminantes medem a correlação linear simples entre cada variável
independente e a função discriminante.
As cargas são
consideradas mais
válidas do que os
pesos como um
meio de
interpretação do
poder
discriminatório de
variáveis
independentes por
causa de sua
natureza
correlacional.
Exemplo no STATISTICA
Interpretação dos Resultados:
A Diferença entre os Grupos
Associado a cada função discriminante
encontramos um raiz característica
(autovalor);
O teste Lambda de Wilk avalia a
diferença entre os grupos (0 e 1);
A estatística Qui-Quadrado revela se a
diferença entre os grupos é significante;
O R canônico pode ser interpretado
elevando-se o seu valor ao quadrado,
então
dizemos que o modelo
discriminante
explica certa
porcentagem (66,9%)
da variância na
variável dependente.
Exemplo no STATISTICA
Coeficientes da
Função de
Classificação
Resultados da Classificação
Josias Jônatas
Data Mining Consultant
StatSoft South America Consulting Services
LSC para Diâmetro Interno de Pistão
LIC para Diâmetro Interno de Pistão
LSC para Diâmetro Externo de Pistão
LIC para Diâmetro Externo de Pistão
Usando MSPC:
- Avaliamos cada variável no tempo;
- Avaliamos o conjunto de variáveis, dado que
a relação entre elas existe;
- Avaliamos cada lote para determinar sucesso
na detecção de um processo irregular.
Controle Estatístico do Processo Multivariado
Tempo
Lotes
i
1
2
j
2
.
.
.
. . .
k
Time-wise Mult-way Principal Components Analysis
Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso
desta técnica multivariada. Os dados vem de um processo industrial
que mede a polimerização de um reator por lote.
Time-wise Mult-way Principal Components Analysis
Descrição do problema:
• Para cada batelada tomamos 100 leituras de 10 variáveis
observadas;
• Tomamos 55 bateladas:
• 47 bateladas alcançaram sucesso, ou seja, a qualidade do
polímero é aceitável: 1-37, 39, 41, 43, 44, 47 e 49;
• 4 bateladas estão próximas do limite de tolerância: 38, 45,
46 e 49;
• 8 bateladas não obtiveram sucesso: 40, 42 e 50-55;
• Dividimos essas bateladas em 2 arquivos: 30 com sucesso
estão em NormalBatches.sta e 25 (com sucesso, sem sucesso e
próximo
dos
limites)
foram
misturadas
em
BatchesForDeployment.sta.
Time-wise Mult-way Principal Components Analysis
Objetivos da análise:
• Aplicar TMPCA em NormalBatches.sta para
construir um modelo de referência que
descreva a evolução de bons lotes;
• Usar este modelo para identificar bateladas
futuras como lotes com Sucesso ou sem
Sucesso
usando
os
dados
de
BatchesForDeployment.sta.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Podemos explorar o
comportamento do
Processo com PCA e
modelar com PLS, usando
o tempo ou os lotes.
Este módulo suporta a
entrada tanto de variáveis
contínuas como de variáveis
discretas que assumam um
comportamento dicotômico
(variável dummy), assumindo
valores 0 e 1.
Time-wise Mult-way Principal Components Analysis
Escolha as variáveis como no quadro a seguir.
Time-wise Mult-way Principal Components Analysis
Nonlinear Iterative Partial Least
Squares, NIPALS é o algoritmo
responsável por encontrar o
conjunto mais adequado de
Componentes Principais e
também por descrever um
modelo de estrutura latente nos
dados (PLS).
Nesta janela, selecionamos o
método para determinar o
número de componentes. O
método de Cross Validation é
indicado, visto que fará uma
busca iterativa do melhor
número de componentes.
Time-wise Mult-way Principal Components Analysis
Uma importante característica
do STATISTICA TMPCA é sua
funcionalidade de préprocessamento que nos
habilita a a padronizar os
dados para construir um
modelo melhor.
A opção default é Unit standard deviations, ela calcular um único
desvio padrão para padronizar todos os lotes. Esse procedimento é
requerido sempre que executamos uma PCA.
Podemos criar um procedimento de substituição de Missing Data.
E quando trabalhamos com grandes bases de dados, podemos
informar ao STATISTICA que a base é de certa ordem em MB.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Uma avaliação primária é concernente às
componentes geradas pela iteração. Na opção
Summary na aba Quick, vemos uma tabela que
avalia o R2 das componentes com os casos
selecionados aleatoriamente para treinamento do
modelo por Cross Validation.
A parte dos casos que não foi usada no modelo tem o
seu índice em Q2.
Foram geradas 14 componentes, visto que 10
componentes foram avaliadas com casos para
treinamento e 10 com casos para teste.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Time-w ise Multi-w ay Principal Components Analysis Summary Overview
Number of components is 14
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
1
2
3
4
5
6
7
8
Component
9
10
11
12
13
14
R²X(Cumul.)
Q²(Cumul.)
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Variable importance
1,00
0,98
0,96
0,94
0,931
0,927
0,926
0,92
0,90
0,891
0,884
Power
0,88
0,86
0,847
0,84
0,841
0,824
0,82
0,820
0,799
0,80
0,78
T 2 DR
T 3 DR
T 1 DR
TFM 2
TFM 1
PRES2
Variable
T 1 RM
T 2 RM
PRES3
PRES1
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Agora o alvo é encontrar possíveis outliers. Podemos
detectar outliers a partir de seus x-scores, visto que o uso de
Componentes Principais transformou os valores originais em outra
escala. Usamos, então, a distribuição amostral multivariada T2Hotelling. Para ao i-ésima observação temos:
Hotelling T² Control Chart
Number of components is 14
2
ik
2
ik
t
Ti  
k 1 s
2
C
90,478
90
80
70
60
50
T²
tik é o escore da i-ésima
observação para o késimo componente;
100
40
sik é o desvio padrão
estimado de tk;
C é o número de
componentes.
30
20
10
0
B1
B3
B2
B5
B4
B7
B6
B9
B8
B11 B13 B15 B17 B19 B21 B23 B25 B27 B29
B10 B12 B14 B16 B18 B20 B22 B24 B26 B28 B30
Batch
99,000%
Time-wise Mult-way Principal Components Analysis
Outras medidas para diagnóstico:
O T2-Hotelling não é suficiente para
predizer outliers, especialmente se
inserimos observações que não foram
usadas para treinar o modelo. Uma
quantidade melhor é o Erro Quadrático
da Predição (SPE – Square of the
predictions error). Para o i-ésimo
elemento temos o SPE definido ao
lado.
Podemos usar ainda os resíduos para
detectar outliers com a técnica
distância do modelo (D-To-Model).
Tome a i-ésima observação e veja ao
lado.
M
2
Q i   x ij  xˆ ij 
j 1
xij é um elemento da matriz
X_Barra;
^x é um elemento da matriz de
ij
escores das Componentes
Principais
M
D  To  Model 
 x
j 1
 xˆ ij 
2
ij
M C
M é o número de variáveis
originais;
xij é o número de componentes
Time-wise Mult-way Principal Components Analysis
SPE(Q) Chart
Number of components is 14
12
11
10
9
8
7
Q
6
5
4
3
2
1
0
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99
Time
99,000%
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Os valores são considerados outliers se excedem o limite
calculado de 0,496 calculado pela solução.
Distance to model
Number of components is 14
The normalized distance to the model is 0,496
0,45
0,40
0,35
0,30
0,25
0,20
Distance
0,15
0,10
0,05
0,00
B1
B3
B2
B5
B4
B7
B6
B9
B8
B11
B13
B15
B17
B19
B21
B23
B25
B27
B29
B10
B12
B14
B16
B18
B20
B22
B24
B26
B28
B30
Batch
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
O gráfico abaixo exprime o fato de que as bateladas não
sofrem desvios da normalidade quando avaliamos as 10 variáveis
juntas. A elipse representa o limite correlacionado para esta
variáveis.
Score scatterplot (t1 vs. t2)
Standard deviation of t1: 19,470
Standard deviation of t2: 10,948
80
60
40
B14
20
B10
B6
B8B7
t2
0
B22
B21
B9
B19 B15
B5
B30
B13
B26B20
B27
B2
B18 B17
B11
B4
B25
B23
B24 B16 B29
B3
B28
B1 B12
-20
-40
-60
+/-3,000*Std.Dev
-80
-80
-60
-40
-20
0
t1
20
40
60
80
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Podemos ainda avaliar a importância de cada variável para
algum componente. O gráfico abaixo, por exemplo, se refere ao
primeiro componente e, note, a primeira variável é a que mais
influencia.
Score contribution plot (t1, 0)
0,05
0,04
0,039
0,036
0,03
0,026
0,02
0,018
0,016
0,011
0,008
0,01
0,004
0,00
0,000
0,000
T 2 RM
PRES2
-0,01
-0,02
Score contribution (B1
-0,03
-0,04
-0,05
T 1 DR
T 2 DR
T 3 DR
PRES1
TFM 1
T 1 RM
Variable
PRES3
TFM 2
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Para avaliar a trajetória dos pontos ao longo do tempo,
usamos a opção Trajectory.
Trajectory plot of variable: T1DR
Number of batches: 30
1,0
0,9
0,8
Trajectory
0,7
0,6
+/-3,000*Std.Dev
+/-2,000*Std.Dev
Mean
0,5
0
7
14
21
28
35
42
49
Time
56
63
70
77
84
91
98
Time-wise Mult-way Principal Components Analysis
Agora vamos
avaliar uma
nova batelada
contida no
arquivo
Batches For
Deployment,
no Help do
STATISTICA,
usando o
procedimento
de MSPC
Deployment.
Gere o PMML
script do
como ao lado.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Cancele a
janela ao lado
até retornar à
janela inicial.
Abra o
arquivo que
será avaliado
(use Open
Data) e siga
os passos.
Time-wise Mult-way Principal Components Analysis
Busque o script do PMML salvo em lugar conhecido e seguro. Use a
opção Load models do STATISTICA MSPC.
Assim que inserir o script, as opções na aba Results estarão
habilitadas para uso. Clique em Summary.
Time-wise Mult-way Principal Components Analysis
Avalie novamente os resultados anteriores para esse novo conjunto
de bateladas. Observe que essas bateladas estão fora de
especificação e, portanto, a qualidade dos polímeros não é
satisfatória.
Time-wise Mult-way Principal Components Analysis
Hotelling T² Control Chart
Number of components is 14
25000
20.904,183
20.433,084
19.516,728
20000
15000
T²
10.337,29210.184,001
10000
7.842,383
5000
99,000%
0
90,478
B31
B33
B32
B35
B34
B37
B36
B39
B38
B41
B40
B43
B42
B45
B44
Batch
B47
B46
B49
B48
B51
B50
B53
B52
B55
B54
StatSoft South America
Deptº. de Projetos e Consultoria
Josias Jônatas – Consultor Data Miner
Deptº. de Treinamentos e Suporte
Andréia Santiago – Gerente de Treinamentos
Fone: 55 11 3422 4250
Fax: 55 11 3422 4255
Download

Exemplo no STATISTICA - GEPEQ - Grupo de Estudo e Pesquisa