Desenvolvendo o pensamento
estatístico com a ESALQ.
Prof.Dra.Regina Célia de Carvalho Pinto Moran
[email protected] - Fone/Fax: 3289-7959
Bacharel e Mestre em Estatística pela Unicamp
Doutora pela Universidade de Oxford Inglaterra
Sumário do Encontro
Apresentação:
O antes , o durante e o depois da Análise Multivariada:
necessária uma articulação mais abrangente... Que o
mero estatisquês!
Estrutura dos dados: Sobre a Coleta de dados.
Geral _ Técnicas: táticas sobre técnicas Multivariadas
.
Pirâmide do Conhecimento
Visão de um Sistema
Psicologia Cognitiva
Linguagem
do seu
problema
Psicologia
Entendendo Variabilidade
Aprofundando o conhecimento
Onde estamos?
Como melhorar ?
• estatística
• Qual o estado da arte
das quatro correntes?
Sujeito
Estatística
Sistema/conhecimento/p
sicologia/entendimento
da variabilidade
Os dados e sua coleta.
A ciência Estatística articula o processo de
coleta dos dados.
Técnicas específicas: na tradução da busca
de padrões e estruturas presentes nos dados.
Estudos observacionais. Planejamento de
experimentos.
Estudo observacional comparativo
•visa conhecer as diferenças através do
comportamento de variáveis-resposta.
•levando em conta uma ou mais variáveis
explanatórias (variáveis de background).
•direcionando a atenção a componentes que
hipoteticamente possam responder por
diferenças/semelhanças entre os indivíduos.
Três tipos de estudos comparativos
• Experimentais:atribuição aleatória dos
sujeitos
•Quase-experimentais:a formação dos
grupos não é completamente determinada
por procedimentos aleatórios.
•Observacionais:as diferenças entre os
indivíduos é mais fundamental e o ‘
rationale’ não é a explicação causal.
Estudo enumerativo e analítico
Que diferença faz para a ação o fato de
podermos ou não fazer um nexo causal?
•estudo enumerativo: estimação, ação no
universo : Censo, inventários, planos de
aceitação, pesquisas eleitorais.
•estudo analítico: predição, a ação será tomada
em um sistema de causas para melhorar o
desempenho de um produto, processo ou sistema
no futuro: manuseio de plantio, tratamento de
leitegada, etc.
A articulação na coleta de dados
Aspectos do estudo
Tipo de estudo
Enumerativo
Analítico
Objetivo
Estimação
Predição
Maior fonte de incerteza Erro amostral
Extrapolação para o
futuro
Maior fonte de incerteza Sim
Não
é quantificável?
Ambiente do estudo
estático
dinâmico
Papel da estatística
Acessar a
Dar apoio ao
importância dos
especialista
efeitos.
Papel do conhecimento Definir o universo, Identificar variáveis,
específico da agronomia aprovar a
níveis, acessar
população alvo.
condições no futuro,
acessar o grau de
confiança.
Figura 1. Aspectos importantes de estudos analíticos e enumerativos.
Na Linguagem Estatística
Que saber nomeia o tipo de variável?
•variáveis aleatórias:características que podem tomar mais de um
valor entre os sujeitos, indivíduos estudados, seja na população ou amostra .
•Variáveis resposta (ou variáveis dependentes) :estão livres para
variar.
• variáveis explanatórias(independentes ou
preditoras):variáveis de background ou relacionadas , são
derivadas de forma intencional, estabelecidas para controlar
tendências e variabilidade
Note que:
• a distribuição da variável que assume a função de resposta é de
interesse, em resposta às variáveis chamadas explanatórias
• a distribuição da variável que assume a função de explanatória não
entra em consideração.
“É parte estrutural da nossa linguagem o mal entendido;
a arte está em ver onde está o mal entendido”.
Aqui vai um roteiro para você avaliar seu estudo antes de
iniciá-lo:
1. Como estão enunciados os objetivos de seu
trabalho? Focalize com os critérios de clareza,
objetividade, simplicidade;
2. Definição de termos. Leve sempre em conta sua
audiência e os novos colegas, clientes, fornecedores.
Focalize com os critérios de clareza, objetividade e
simplicidade;
3. Enuncie suas hipóteses, se for este o caso. Focalize
com os critérios de clareza, objetividade e
simplicidade;
Roteiro para coleta de dados
4.Avalie a adequação do enunciado do problema aos conhecimentos
disponíveis e os dados ;
5.Avalie a adequação dos enunciados das hipóteses aos
conhecimentos e dados disponíveis;
6.Avalie a adequação do plano do estudo (só pode ser gerado a partir
dos itens anteriores) às relações buscadas;
7.Avalie a adequação do controle de variáveis adotado;
8.Avalie a adequação dos critérios de constituição da amostra;
Só após ter claros estes itens :
9.Avalie a adequação da amostra e do tratamento dos dados com o
objetivo do estudo;
10.Avalie a adequação potencial de análise.
Outros elementos essenciais
A população é um conjunto bem definido que tem certas propriedades
específicas, por exemplo: propriedades rurais do Estado de Minas Gerais
com multicultura, sem inadimplência no crédito rural, com mais de seis
meses de assistência .
Critérios de elegibilidade que podem ser vistos como delimitações
restringem a população a um grupo de unidades de estudo: propriedades
dos segmentos geográficos 48,51,52,54, 60,63,65,66 e 69.
População alvo é o conjunto de todas as propriedades rurais do Estado
de Minas Gerais com multicultura, sem inadimplência no crédito rural,
com mais de seis meses de assistência , propriedades dos segmentos
geográficos 48,51,52,54, 60,63,65,66 e 69.
População amostrada ou acessível é a população que atende aos
critérios da população alvo e esta disponível:
A amostra é um conjunto de elementos da população.
Uma unidade de amostragem é o elemento ou conjunto de elementos
utilizado para selecionar a amostra.
Há como garantir amostra
representativa?
O termo amostra representativa refere-se a amostras nas
quais as características-chave aproximam-se de perto
daquelas da população.
Logo, não há como garantir uma amostra representativa
sem conhecer as características-chave na população.
Especificadores da população alvo e seus delimitadores
constituem as características- chave.
A unidade observacional , que pode ou não coincidir com a
unidade de amostragem ,é a unidade mais básica sobre as
quais as informações são coletadas.
Tipos de explanatórias
Variáveis explanatórias principais:
vão definir os grupos que devem ser comparados, elas
podem ser qualitativas ou quantitativas.
Variáveis explanatórias secundárias:
são as que influenciam a resposta sem ser de interesse
primário.
Variáveis explanatórias perturbadoras:
são as variáveis que não podem ser conhecidas no
estudo, mas que influenciam as diferenças observadas.
Variáveis explanatórias estáveis:
são as que o analista decide manter constante durante a
execução do estudo.
Níveis de medida
Estes níveis também delimitam as escolhas
de metodologia estatística.
Formas de comparar observações pelo nível
de medida da variável:
As unidades são diferentes? Propriedade da
variável nominal.
Qual possui a maior magnitude? Propriedade
da variável ordinal.
Qual a distância entre os indivíduos?
Propriedade da variável intervalar.
Níveis de medida
Uma escala nominal de medida é um conjunto de
categorias que varia em alguma qualidade, mas não em
magnitude.
Uma escala ordinal é um conjunto de categorias
naturalmente ordenadas nas quais os valores podem ser
comparados em magnitude, com diferentes valores
associados a diferentes quantidades.
Uma escala intervalar, além de incorporar a noção de
ordem ,tem a propriedade de que há uma distância
numérica específica entre cada par de valores
Níveis de medida
Variáveis nominais são também chamadas
qualitativas e as ordinais e intervalares
quantitativas.
As variáveis intervalares são reconhecidas como
discretas (número de grãos) ou contínuas(
tempo de maturação), conforme assumam
valores em um conjunto enumerável ou em
um contínuo respectivamente.
Esta nomeação das variáveis simboliza
diferenças que implicam na escolha de
metodologia estatística.
Somos humanos
“A mente humana suprime a incerteza. Nós
não estamos apenas convencidos de que
sabemos mais acerca de nossa política,
nossos negócios, e nossos esposos do que na
verdade sabemos, mas também de que o que
não sabemos não deve ser importante”.
Amostragem não Probabilística
Quando a amostragem por métodos não aleatórios é parte do
planejamento amostral.
Amostragem não probabilística tem três métodos
principais: por conveniência, intencional e por quota.
Amostragem não probabilística por conveniência é o uso
de pessoas ou objetos, pelo critério da disponibilidade. Desta
forma os sujeitos são convenientes e acessíveis à
participação no estudo.
Amostragem não probabilística intencional é uma
estratégia que utiliza os saberes sobre a população alvo e as
especificidades do estudo na seleção dos sujeitos a serem
incluídos na amostra
Amostragem não Probabilística
Amostragem não probabilística por quota é o
recrutamento de sujeitos com algum grau de
conhecimento da população alvo incorporado ao
plano. O conhecimento incorporado pode incorporar
representatividade à amostra.
Esta é a metodologia das pesquisas de opinião
pública, nas quais a seleção dos sujeitos fica por conta
dos entrevistadores preencherem, segundo critérios de
elegibilidade pré-determinados, quotas de sujeitos a
serem recrutados por entrevista, em geral em
logradouros públicos.
Amostragem Probabilística
Na amostra probabilística ou aleatória, cada
unidade da população- alvo tem uma
probabilidade não nula e calculável de ser
selecionada por métodos que independam do
julgamento humano.
Na amostragem probabilística fatores que
causarão erros sistemáticos, não se compensam
e não podem ser eliminados por aumento do
tamanho de amostra.
Amostra probabilística não é garantia!
Se a mostra é retirada de forma inadequada da
lista, não há santo que elimine o vício ainda que
infinitas amostras sejam retiradas, ou métodos
como bootstrapping e jacknife ( métodos de
estimação por amostragem intensiva) sejam
aplicados.
Há que encaminhar os vícios por limitação do
frame e por não respostas, não os esquecendo
nas limitações da análise.
Planejar bem! Pensar antes!
Importante é controle de variáveis dependentes,
explanatórias, estratificadoras.
Rejeitar uma amostra, e, insistir no mesmo
procedimento para obtenção de outra, é uma fraqueza,
um procedimento fraudulento, porque: introduz um
elemento de julgamento na seleção, e porque retira
desta amostra(e de quantas outras possíveis e também
indesejáveis) sua probabilidade de ser selecionada.
Frisemos que a falta de representatividade de uma
amostra não lança dúvida sobre o método. O
processo só pode ser avaliado pelo estudo de repetição
de resultados(ainda que você vá usar só um!), não pela
aparência de uma amostra.
Planejar bem! Pensar antes!
Se não é possível atribuir a cada elemento da
população uma probabilidade de seleção
calculável, a teoria de precisão dos estimadores
clássica não é aplicável.
Note que o mecanismo de aleatoriedade
relaciona-se à seleção, não à amostra específica
resultante. Eventualmente ela pode parecer
péssima, não aleatória, não representativa!
Planejar bem! Pensar antes!
Incorporar ao delineamento amostral este saber através
do uso das segmentações : como input do
delineamento amostral, como explanatória principal,
como variável controlada. Estamos falando de
amostra aleatória estratificada.
Na linguagem estatística cada segmentação é um fator
de estratificação, e a dupla, múltipla, estratificação
deve ser empregada.
De fato maior precisão é usualmente obtida pela
introdução de novos fatores, mais do que pelo
refinamento de grupos de um fator. A orientação nesta
escolha é tomar aqueles fatores mais relacionados às
respostas em estudo e apenas levemente
relacionados entre si.
Amostra casual simples: quando?
Amostra casual simples ou amostra aleatória
simples é a mais elementar das técnicas de
amostragem probabilística: cada unidade amostral
é incluída independentemente de qualquer outra e
tem chance igual de ser incluída na amostra.
Este é o método disponível na maioria dos softwares para retirada de
amostras a partir de bases de dados.
Note que aqui não existe nenhuma garantia de que
a amostra será representativa da população.
Amostra estratificada! Quando?
Amostra aleatória estratificada é aquela que incorpora
variáveis que têm uma base lógica para controlar potenciais
diferenças na tendência, variabilidade e inter-relações entre
as variáveis -resposta do estudo.
Este conhecimento prévio sobre a população é entrada da
metodologia de amostragem aleatória estratificada, e reflete
um esforço na direção de aumentar a verossimilhança da
representatividade. Critérios específicos de seleção garantem
que certas características estejam presentes em todas as
unidades, a partir de seu conhecimento na população.
Escolha a lente em função do que
quer ver!
Alguns fatos são norteadores:
o tamanho da amostra, a medida que aumenta, aumenta
também as chances de revelar diferenças, tendências,
padrões. Se estiverem presentes terão mais chance de
aparecer com o aumento do tamanho da amostra. Se
estiverem ausentes, não aparecerão!
O número mínimo de observações por segmento deve ser
maior que o número de respostas e maior que 20, número
mágico!
O número de observações não deve ser tão grande a ponto
de revelar diferenças sem importância prática..
Enfim!
Nos casos mais simples em que você quer o tamanho de uma
amostra para conhecer o efeito de uma ação, vamos precisar de:
Que tamanho de efeito interessa sob a hipótese que haja diferença
nos parâmetros estudados.
Na prática precisamos estimar a diferença usando valores
amostrais.
Estudos anteriores são valiosos em conhecer o estado de arte e
saber que valor de diferença esperar.
Muitas vezes são necessários estudos pilotos para conhecer
primeiras informações sobre os estimadores.
Algumas vezes fazemos suposições na ausência de estudos
anteriores ou impossibilidade de estudo piloto; uma diferença é
postulada como de interesse e os erros fixados levando então ao
cálculo do tamanho da amostra.
Um conjunto de
ferramentas:Técnicas de análise
multivariada propriamente dita.
Então o que são essas técnicas?
• visam solução de problemas
• são estratégias de soluções
• problema um estado inicial e um estado alvo
(final) e entre os dois temos obstáculos!
Método e representação
• dedução, parte-se das hipóteses para a
observação e ao confrontá-las chega-se à
conclusão
• a indução vai das observações para as
hipóteses.
• primeiro faz-se sua representação mental
• opera-se sobre essa representação de tal
forma a alcançar a solução.
A matriz de dados
•Os esquemas de representação são próprias
das áreas de origem do problema.
•Cada profissional segue,um esquema de
representação, próprio de sua área.
• Para enfoque via Análise Multivariada:
tradução na matriz de dados
A matriz de dados
N indivíduos em p-dimensões.
p variáveis em N-dimensões
XNxp
 x11
x
 21
 .

.

xN1
x12
x 22
.
.
xN2
x1p 

x 2p

..... .
. 

..... .
. 
..... . xNp 
Nxp
..... .
..... .
Elementos de um estudo:base
de definição da matriz de dados.
Conhecer o plano:
1) o plano de coleta de dados;
2) a coleta propriamente dita, que pode ser
manutenção de arquivos, observação, amostragem,
experimentação;
3) organização de bancos de dados de forma adequada
ao seu processamento e consistência, de tal forma
que a coleta assegure a qualidade dos dados;
4) a análise estatística propriamente dita, que sempre
passa por uma fase descritiva e, quando apropriado,
passa também pela fase inferêncial;
5) o relatório estatístico, que alinhavo das conclusões?
Elementos sob a leitura estatística
•Qual o tipo do estudo?
•Que variáveis estão envolvidas?
•Em quais funções?
•De que tipo são?
•As possíveis respostas estão na teoria
sobre coleta de dados.
•A partir daí a matriz de dados pode ser
delineada.
A maior redução de complexidade:
matriz de dados elementar
•A célula mais simples de representação
multivariada acontece quando se mede p variáveis
sob n unidades amostrais.
•Conservada a correspondência entre indivíduos e
variáveis.
•Tratadas simultaneamente sobre cada unidade: das
inter-relações entre essas variáveis
•Comparação entre as unidades representadas pelas
medidas das p variáveis.
A Matriz de dados: sobre-estruturação
da matriz elementar
•Articula fontes de variação controlada:
experimental ou observacional.
• Agrupam os indivíduos em sub-populações.
• Distingue função em variáveis :explanatórias,
tanto secundária quanto primária e em
variáveis respostas.
• Distingue agrupamento sobre o conjunto de
variáveis.
A representação dos dados articula-se
com a escolha das técnicas.
Componentes Principais.
Análise de Correspondências
Análise Fatorial.
Análise de Variância
Multivariada(MANOVA).
Análise Discriminante.
Análise Canônica.
Análise de Agrupamentos.
Análise de Componentes Principais:
matriz de dados elementar
Essa técnica permite:
•A obtenção de direções preferenciais para
a visualização dos n indivíduos observados levando em conta
medidas simultâneas de p variáveis.
•Em subespaços que serão propriamente determinados segundo
critério a ser definidos de tal forma que se possa ver o padrão de
dispersão desses indivíduos nas suas direções mais favoráveis.
• Usualmente aplicada na presença de mais de três variáveis:
uma visualização das nuvens de pontos sobre as observações
originais.
• A interpretação das direções suporte da visualização da
nuvem: nomear as novas variáveis.
Análise de Correspondências:
Dados Categóricos
Essa técnica permite:
•A obtenção de direções preferenciais para
a visualização dos n indivíduos observados levando em
conta medidas simultâneas de p variáveis categóricas.
•Em subespaços que serão propriamente determinados
segundo critério a ser definidos de tal forma que se possa ver
o padrão de dispersão desses indivíduos nas suas direções
mais favoráveis.
• Usualmente aplicada na presença de mais de três variáveis:
uma visualização das nuvens de pontos sobre as observações
originais.
• A interpretação das direções suporte da visualização da
nuvem.
Análise fatorial: matriz de dados
elementar+informação nas variáveis
• interesse da análise fatorial é determinar o
menor número de variáveis, construtos ou
variáveis latentes.
•novas variáveis que mimetizando o sistema
reproduzem as inter-relações entre as variáveis
originais
• passa pela construção de modelos, ou seja, a
explicação do vetor de variáveis originais
através de um vetor de variáveis que não são
observáveis.
Análise de Correlações Canonicas: matriz
de dados elementar + sobre estrutura nas variáveis
•as operações são realizadas levando-se em conta
que as variáveis tem um agrupamento natural em
dois conjuntos de variáveis que tem o mesmo tipo
de função no problema.
•nesse sentido ela é uma generalização da análise de
regressão multivariada.
• pressupõe um agrupamento, uma sobreestruturação, sobre as colunas da matriz de dados
•o que se busca é entender as inter-relações entre
esses dois conjuntos.
MANOVA:sobre-estrutura
por explanatórias.
• diferenciação da matriz de dados devido ao
agrupamento dos indivíduos
•controles experimental ou observacional.
• a generalização da ANOVA.
•Sobre estruturação vai gerar um conjunto de subpopulações multivariadas que é caracterizado por
vetores de médias hipoteticamente distintos.
• As matrizes de variâncias e covariâncias devem ser
iguais nos grupos
• hipótese da MANOVA...raramente se cumpre!
Análise Discriminante:
complementa a Manova
• o objetivo é o estudo de padrão de diferenciação de
distintos grupos
• também tem como objetivo de classificação.
•o entendimento das funções lineares de separações
desses grupos favorece o entendimento da formação
desses grupos em função das variáveis originais.
•trabalha na suposição de igualdade de matrizes de
variância e covariância no caso mais simples e há
desenvolvimento nos casos de distintas matrizes de
variância-covariância.
Análise de agrupamento: revelando
sobre-estrutura da matriz de dados
• na língua inglesa por Clusters Analysis
•matriz entra como elementar
•hipótese de que existe grupos naturais, inerentes aos
indivíduos que compõe a amostra.
•geração de variável de classificação, candidata a
explanatória.
• o que a técnica faz é descobrir esses agrupamentos,
consistência da determinação desses grupos em geral é
checada através de outras técnicas.
• portanto essas técnicas não são aplicadas isoladamente,
existe uma malha de inter-relações e uma ajuda a consolidar
ou consistir o resultado da outra.
Para finalizarmos!
Falamos sobre coleta e as técnicas!
Vamos às questões?
Ou a um exemplo? Neste o objetivo é mostrar a
simultaneidade de representação das variáveis
secundárias, primárias, observações e pontos
suplementares.
Conceito de pontos e variáveis suplementares é
importante.
Análise Componentes Principais
USO DE COMPONENTES PRINCIPAIS
NO CONTROLE ESTATÍSTICO DE PROCESSO
ME 672
Relatório Final
Luiz Fernando Molinari Zerbinatti
R.A.:
002064
Orientadora: Prof. Dra. Regina Célia de Carvalho P.
Moran
02/12/2002
Capacidade de processo:
não ao retângulo!
Uma distribuição bi variada: cortes de
probabilidade elípticos.
Elipses de controle
Elipses nas Componentes
Oito dimensões de carrocerias.
TABELA 1
Variáveis medidas e seus respectivos significados
VARIÁVEL
DIREÇÃO
POSIÇÃO
LADO
XFD
XFE
XTD
XTE
YFD
YFE
YTD
YTE
Transversal
Transversal
Transversal
Transversal
Longitudinal
Longitudinal
Longitudinal
Longitudinal
Frente
Frente
Traseira
Traseira
Frente
Frente
Traseira
Traseira
Direito
Esquerdo
Direito
Esquerdo
Direito
Esquerdo
Direito
Esquerdo
Gráficos uni variados:
variáveis em mesma unidade de medida.
A Matriz de Correlações
XFD
XFE
XTD
XTE
YFD
YFE
YTD
YTE
XFD
XFE
XTD
XTE
YFD
YFE
YTD
YTE
1.000
0.915
-.957
-.892
-.228
0.183
-.143
-.154
0.915
1.000
-.943
-.997
-.302
0.270
-.259
-.006
-.957
-.943
1.000
0.929
0.246
-.205
0.283
0.088
-.892
-.997
0.929
1.000
0.320
-.289
0.285
-.026
-.228
-.302
0.246
0.320
1.000
-.988
0.828
-.787
0.183
0.270
-.205
-.289
-.988
1.000
-.808
0.834
-.143
-.259
0.283
0.285
0.828
-.808
1.000
-.664
-.154
-.006
0.088
-.026
-.787
0.834
-.664
1.000
Representação gráfica da
matriz de correlações
Leitura da matriz de correlações
•Sugere que medidas transversais
incorrelatas com medidas longitudinais.
são
• Entretanto, nota-se que as medidas
longitudinais são fortemente correlacionadas
entre si, ocorrendo o mesmo para medidas
transversais.
Matriz de variâncias e covariâncias
XFD
XFE
XTD
XTE
YFD
YFE
YTD
YTE
XFD
XFE
XTD
XTE
YFD
YFE
YTD
YTE
3.265
2.383
-2.787
-2.289
-0.191
0.154
-0.122
-0.166
2.383
2.077
-2.189
-2.040
-0.202
0.182
-0.176
-0.005
-2.788
-2.190
2.597
2.126
0.184
-0.154
0.215
0.084
-2.289
-2.040
2.126
2.018
0.211
-0.192
0.191
-0.021
-0.192
-0.202
0.184
0.211
0.217
-0.216
0.182
-0.220
0.155
0.182
-0.154
-0.192
-0.216
0.220
-0.179
0.234
-0.123
-0.176
0.215
0.191
0.182
-0.179
0.224
-0.188
-0.166
-0.005
0.084
-0.021
-0.220
0.234
-0.188
0.359
Informação da ACP.
TABELA 3
Autovalores da matriz de covariância dos dados
CP
Autovalor
Diferença
Proporção
Proporção
Acumulada
1
2
3
4
5
6
7
8
9.53141004
0.90866942
0.31805216
0.14229847
0.06242540
0.01142613
0.00333277
0.00165472
8.62274062
0.59061726
0.17575369
0.07987307
0.05099927
0.00809336
0.00167805
---
0.8681
0.0828
0.0290
0.0130
0.0057
0.0010
0.0003
0.0002
0.8681
0.9509
0.9799
0.9928
0.9985
0.9995
0.9998
1.0000
As Componentes Principais
TABELA 4
7Autovetores associados aos autovalores da matriz de covariância dos dados
XFD
XFE
XTD
XTE
YFD
YFE
YTD
YTE
CP1
CP2
CP3
CP4
CP5
CP6
CP7
CP8
0.568634
0.457662
-.513232
-.445949
-.043378
0.037654
-.038631
-.011479
0.231703
-.101541
-.056151
0.155367
0.435397
-.450229
0.408104
-.591512
0.578218
-.457217
-.205015
0.552495
-.214226
0.193532
-.148864
0.061863
0.432439
0.134663
0.665523
-.095285
-.149595
0.178097
0.511347
0.165195
-.044721
-.084639
-.302806
0.098582
0.345057
-.213393
0.406121
0.748259
0.312706
-.046746
0.390406
-.122717
0.335785
-.448117
-.604006
0.232744
-.025854
0.737090
0.053233
0.661322
0.061629
-.031956
-.099755
0.032854
0.03429
-.02007
0.03932
-.02316
0.71039
0.69234
-.09280
-.06103
As componentes, as variáveis originais
e as unidades amostrais
Retirando valores na periferia da nuvem
da matriz de covariância dos dados sem as observações 10, 11, 12, 14 e 33
CP
Autovalor
Diferença
Proporção
Proporção
Acumulada
1
2
3
4
5
6
7
8
8,59448762
0,42863664
0,33070720
0,14906796
0,04069699
0,01086946
0,00322407
0,00145431
8.16585098
0.09792944
0.18163924
0.10837097
0.02982754
0.00764539
0.00176975
0,8991
0,0448
0,0346
0,0156
0,0043
0,0011
0,0003
0,0002
0,8991
0,9439
0,9785
0,9941
0,9984
0,9995
0,9998
1,0000
Com a retirada dos pontos
fora de controle.
Novas componentes,
maior visibilidade
Observações finais.
•Note que as Componentes dependem
das unidades amostrais.
•A interpretação das componentes não é
uma verdade universal!
•A escolha da matriz ser de correlação
ou variâncias e covariâncias depende do
problema.
Existem problemas uni variados?
A potencialidade das técnicas
multivariadas pode ser explorada nas
suas articulações como no antigo novo
conceito de mineração de dados, e suas
limitações precisam ser estudadas em
cada caso.
Download

Desenvolvendo o pensamento estatístico com a ESALQ