Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services Conteúdo Análise de Agrupamentos Análise de Componentes Principais Análise de Fatores Análise Discriminante Multivariate Statistical Process Control - MSPC Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services Definição Tree Diagram for 36 Cases Ward`s method Euclidean distances 70 60 50 40 30 Linkage Distance 20 10 0 Bolívia Haiti India Egito Argélia Quenia Banglade Paquist Nigéria Gana Rep.C. Af. Brasil México Turquia Chile C.Rica China Filipina Uruguai URSS Hungria Grécia Iugosláv Portugal Canadá Japão Austrália EUA Espanha Itália Nova Zelândia Israel RU RFA Suécia Suiça Análise de Agrupamento é uma técnica multivariada cuja finalidade é agregar objetos (OTU’s – Unidades de Objetos Taxonômicos) com base nas características que eles possuem. O resultado são grupos que exibem máxima homogeneidade de objetos dentro de grupos e, ao mesmo tempo, máxima heterogeneidade entre os grupos. Conceitos Básicos Consumo (em R$) Tempo (em dias) Conceitos Básicos Alguns pontos relevantes que devemos observar em análise de agrupamentos são: A análise de agrupamentos não faz distinção entre variáveis dependentes e independentes, no entanto pode examinar relações de interdependência entre todo o conjunto de variáveis. O objetivo principal de análise de agrupamentos é classificar objetos em grupos relativamente homogêneos, a partir das variáveis consideradas importantes para a análise; Os objetos em um grupo são relativamente semelhantes em termos dessas variáveis e diferentes de objetos de outros grupos; A mais forte aplicação desta técnica tem sido em Pesquisa de Marketing, principalmente, Segmentação de Mercado. Padronizando os dados Imagine a situação descrita na tabela ao lado. Foram medidas 3 características de 8 clientes e queremos avaliar uma forma de agrupar estes clientes e encontrar aquelas que acompanham um comportamento semelhante. Percentual de Importância Salário Médio Consumo Médio Cliente 1 10,85 1.500,80 149,35 Cliente 2 14,13 1.496,07 187,99 Cliente 3 8,62 1.448,79 130,97 Cliente 4 23,04 1.277,33 424,87 Cliente 5 16,04 1.204,02 214,36 Cliente 6 43,74 1.190,94 1.139,52 Cliente 7 25,39 1.292,91 358,39 Cliente 8 42,86 1.590,66 721,90 Média 23,08 1.375,19 415,92 Desvio Padrão 13,69 152,05 351,62 Fase 2 Padronizando os dados 1.650,00 Cliente 8 1.600,00 1.550,00 1.500,00 1.450,00 1.400,00 Média Salarial 1.350,00 1.300,00 1.250,00 O primeiro passo da análise é definir um critério para a formação dos grupos. Um critério que parece ser razoável é considerar a proximidade entre os pontos. Pontos próximos, então, representariam regiões com comportamentos semelhantes no que se refere às variáveis do gráfico, ou seja, regiões que podem fazer parte de um mesmo grupo. Fase 2 1.200,00 1.150,00 -50,00 Cliente Cliente12 Cliente 3 Cliente 7 Cliente 4 Cliente 5 Cliente 6 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00 Percentual de Importância Padronizando os dados 1.650,00 Cliente 8 1.600,00 1.550,00 1.500,00 1.450,00 1.400,00 Média Salarial 1.350,00 1.300,00 1.250,00 Note que as distâncias no sentido vertical são muito maiores do que no sentido horizontal, o que reflete o fato da variabilidade da variável X2 ser muito maior do que a de X1. Em termos, práticos, a variável X1 contribuiu muito pouco para a definição dos grupos. E se quiséssemos dar igual importância às duas variáveis? Fase 2 1.200,00 1.150,00 -50,00 Cliente Cliente12 Cliente 3 Cliente 7 Cliente 4 Cliente 5 Cliente 6 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00 Percentual de Importância Padronizando os dados 1,60 Cliente 8 1,40 1,20 1,00 0,80 0,60 0,40 0,20 0,00 Média Salarial -0,20 -0,40 -0,60 -0,80 -1,00 Uma maneira popular de tratar com isso é usar variáveis padronizadas. Ou seja, subtraímos a média do grupo de cada valor e dividimos pelo desvio padrão: Fase 2 1 Cliente Cliente 2 Cliente 3 Z ij Cliente 7 Cliente 4 Cliente 5 Cliente 6 -1,20 -1,40 -1,20 -1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80 Percentual de Importância X ij X j Sj Isso garante que as duas variáveis estão sendo consideradas com importâncias equivalentes. Observe agora os novos grupos. Resumo dos Estágios 1. Escolha do critério de parecença 2. Definição do número de grupos 3. Formação dos grupos 4. Validação do agrupamento 5. Interpretação dos grupos O Deve-se número de Ao garantir Nesse grupos final do que Aqui primeiro pode processo dedefinimos fato serinstante definido as devariáveis formação o algoritmo devemos a priori, têm de através comportamento de grupos algum avaliar conhecimento é se importante diferenciado asque variáveis será caracterizar que nos utilizado devem se diversos tenha ou na os grupos. sobregrupos os É comum, dados, não formados. ser conveniência então, identificação padronizadas Oque usocada de dedos estatísticas eanálise grupo ogrupos: critério seja ou uma ainda amostra pode descritivas que ser aleatória será definido utilizado éde Métodos recomendado aalguma posteriori na hierárquicos determinação subpopulação com parabase esta e e aplicar técnicas inferenciais nos resultados Métodos para fase compará-las. dos de da daPartição análise. grupos. análise. Medidas de Parecença As medidas de parecença têm um papel central nos algoritmos de agrupamentos. Através delas são definidos critérios para avaliar se dois pontos estão próximos, e portanto podem fazer parte de um mesmo grupo, ou não. Há dois tipos de medidas de parecença: medidas de similaridade (quanto maior o valor, maior a semelhança entre os objetos) e medidas de dissimilaridade (quanto maior o valor, mais diferentes são os objetos.) Medidas disponíveis na Solução STATISTICA Algoritmos de Agrupamentos A maioria dos algoritmos utilizados na formação dos agrupamentos pode ser classificada em duas grandes famílias de métodos: hierárquicos e de partição. Métodos Hierárquicos Aglomerativos • Para esses métodos os agrupamentos são formados a partir de uma matriz de parecença; • Queremos identificar os objetos que mais se parecem; • Agrupamos esses objetos e os consideramos como um único objeto; • Definimos uma nova matriz de parecença. Algoritmos de Agrupamentos Os procedimentos hierárquicos envolvem a construção de uma hierarquia de uma estrutura do tipo árvore. Existem basicamente dois tipos de procedimentos hierárquicos de agrupamento: Aglomerativos e Divisivos. Métodos Hierárquicos Aglomerativos Usando o STATISTICA O STATISTICA traz uma série de Vamos enumerar pelos menos 5 mémétodos implementados: todos aqui: • Método do vizinho mais próximo; • Método do vizinho mais longe; • Método das médias das distâncias; • Método da centróide; • Método de Ward. Algoritmos de Agrupamentos Método do vizinho mais próximo (Single Linkage) a distância entre os grupos é definida como sendo a distância entre os elementos mais próximos (menor distância) dos dois grupos Algoritmos de Agrupamentos Método do vizinho mais longe (Complete Linkage) a distância entre dois grupos é definida como sendo a distância entre os indivíduos mais distantes dos dois grupos (distância máxima). Algoritmos de Agrupamentos Método do centróide Este método define a coordenada de cada grupo como sendo a média das coordenadas de seus objetos. Uma vez obtida essa coordenada, denominada centróide, a distância entre os grupos é obtida através do cálculo das distâncias entre os centróides. Algoritmos de Agrupamentos Método de Ward O método de Ward busca unir objetos que tornem os agrupamentos formados os mais homogêneos possível. A medida de homogeneidade utilizada baseia-se na partição da soma de quadrados total de uma análise de variância. Observe abaixo: x k j 1 iG j i1 k k X 1 n j X j 1 X 1 x i 1 X j 1 2 j 1 2 2 j 1 iG j O Método de Ward, é atraente por basear-se numa medida com forte apelo estatístico e por gerar grupos que, assim como os do método do vizinho mais longe, possuem alta homogeneidade interna. No STATISTICA Na opção Input File existem duas maneiras para entrar com uma base de dados: Raw Data ou Distance Matrix. Por vezes, algum procedimento hierárquico ou medida de distância não está implementada num procedimento automático. É possível, então, entrar com a matriz de distância e avaliar os grupos. As informações que esta matriz deve ter são: Medidas de distância; Média, Desvio Padrão e Número de Casos; Tipo de Matriz: 1 – Matriz de Correlação; 2 – Matriz de Similaridade; 3 – Matriz de Dissimilaridade; 4 – Matriz de Variância e Covariância. No STATISTICA Exercício Abra o arquivo Países.sta e avalie algum tipo de agrupamento entre os 36 países disponíveis para análise. Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services Definição Análise de Componentes Principais (ACP) é uma técnica estatística que transforma linearmente um conjunto de p variáveis em um novo conjunto com um número menor (k) de variáveis nãocorrelacionadas, que explica uma parcela substancial das informações Projection of the cases on the factor-plane ( 1 x 2) do conjunto original. Cases w ith sum of cosine square >= 0,00 4 Também será útil 3 quando desejamos 2 confirmar um 1 modelo de 0 agrupamento -1 avaliado com a -2 técnica de Análise -3 de Agrupamentos (ao lado vemos os -4 grupos vistos -5 -8 -6 -4 -2 0 2 4 6 8 10 Active anteriormente) Factor 1: 70,05% C.Rica China Chile Méx ico Portugal Iugosláv Turquia Grécia Brasil Espanha Uruguai Israel Filipina Nova ZelândiaURSS Hungria Itália Suécia Austrália Japão Canadá Suiça RU RFA Argélia IndiaQuenia Egito Haiti Paquistã Banglade Gana Nigéria Factor 2: 8,46% BolíviaRep.C. Af. EUA Motivação No menu Help, opte por Open Examples, na pasta Datasets busque o arquivo Economic Indicators. O arquivo consta de informações econômicas (Imposto, PNB, Inflação e Dívida) de 40 países. Vamos estudar o relacionamento entre as variáveis usando a Análise de Correlações. Depois faremos uma Análise de Agrupamentos e, logo em seguida, uma Análise de Componentes Principais. Motivação Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices. Insira todas as variáveis em One variable list e clique em Summary Correlation matrix. Depois clique na opção Scatterplot matrix. Motivação Correlations (Economic indicators 4v*40c) WAGERAT E GNP INFLATION DEBT Vamos avaliar os resultados: O que há de peculiar entre as variáveis? Qual a estrutura de relação entre elas? Motivação Tree Diagram for 40 Cases Ward`s method Euclidean distances 40 35 30 25 20 15 5 0 Linkage Distance 10 Algeria Sri Lanka India Brazil South Afr Egypt Kenia Peru Ethiopia Haiti Australia Austria Norway France USA Sweden Japan Britain Denmark Netherlan Germany Switzerlan Luxemburg Belgium Finland Taiwan China Malaysia Mexico Greece Czech Poland Thailand Hungary Portugal Indonesia Italy Korea Ireland Spain Motivação Agora, para finalizar essa motivação, vamos à técnica de Análise de Componentes Principais. No menu Statistics, opte por Multivariate Exploratory Techiniques e Principal Components & Classification Analysis. Motivação Na aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente. Podemos desejar usar apenas algumas observações, então usamos Active cases variable. Motivação Para observar o comportamento das variáveis podemos avaliar um gráfico de scaterplot. Clique em Plot var. factor coordinates, 2D. Em seguida, na aba Cases clique em Plot cases factor coordinates, 2D. Motivação Projection of the variables on the factor-plane ( 1 x 2) 1,0 0,5 INFLATION WAGERATE GNP 0,0 DEBT Factor 2 : 3,11% -0,5 -1,0 -1,0 -0,5 0,0 Factor 1 : 94,31% 0,5 1,0 Motivação Projection of the cases on the factor-plane ( 1 x 2) Cases w ith sum of cosine square >= 0,00 1,2 1,0 0,8 Spain Haiti 0,6 Portugal Ireland Hungary Greece ThailandItaly Ethiopia 0,4 South Africa 0,2 Egypt 0,0 Sri LankaBrazil Kenia -0,2 India Algeria -0,4 Factor 2: 3,11% -0,6 Britain Poland Czech Republic Denmark Netherlands Japan Lux emburg Korea Finland Germany Switzerland Norway Sweden Austria Australia France MalaysiaIndonesia USA China Mex ico Taiwan Belgium Peru -0,8 -1,0 -1,2 -1,4 -6 -5 -4 -3 -2 -1 0 Factor 1: 94,31% 1 2 3 4 5 Active Principais Objetivos da Análise As p variáveis originais (X1, . . . , Xp) são transformadas em p variáveis (Y1, . . . , Yp), denominadas componentes principais, de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados, Y2 explica a segunda maior parcela e assim por diante. Portanto, podemos afirmar que os principais objetivos de ACP são: Descrição e entendimento da estrutura de correlação das variáveis Obtenção de combinações interpretáveis das variáveis Confirma grupos da Análise de Agrupamentos Componentes Principais Redução da dimensionalidade dos dados Algumas Considerações Importantes - O intuito da análise é resumir o padrão de correlação entre as variáveis e muitas vezes é possível chegar a conjuntos não correlacionados de variáveis, de modo que surge alguns agrupamentos; - Algebricamente, as componentes principais são combinações lineares das variáveis originais; - Geometricamente, as componentes principais são as coordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação do sistema de eixos original, na direção da máxima variabilidade dos dados; - A análise de componentes principais depende somente da matriz de covariância ou a de correlação. Não exige qualquer suposição sobre a forma da distribuição multivariada dessas variáveis; - Se a normalidade existe, a análise é engrandecida, se não ela ainda vale a pena. Como Obter as Componentes Principais Suponha que estamos observando 3 variáveis que refletem a motivação, preferência e habilidades intelectuais de um grupo de pessoas. No entanto, queremos saber se é possível ter respostas adequadas quando trabalhamos apenas duas variáveis. Aplicação Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors (Autovalores e Autovetores). Aplicação Aplicação Os autovetores nos dão os coeficientes das equações lineares abaixo: CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt CP1 é responsável por 94,31% da informação original e CP2 é responsável por 3,11% da informação original. Essas duas componentes juntas nos fornecem 97,42% de informação. Quantidade de Componentes a Escolher Eigenvalues of correlation matrix 4,5 4,0 94,31% 3,5 3,0 2,5 2,0 Eigenvalue 1,5 1,0 0,5 3,11% 2,23% ,34% 0,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 Eigenvalue number 3,5 4,0 4,5 5,0 Como Interpretar as Componentes Principais? - A interpretação é feita com base nas correlações entre as variáveis originais e as componentes principais, e nos coeficientes dados pelas combinações lineares que levam às componentes principais; - As correlações são medidas das contribuições individuais de cada variável e não consideram a contribuição multivariada das demais variáveis; - A primeira componente principal pode ser interpretada como uma média entre as variáveis com maior coeficiente na combinação linear Contribuições Podemos medir o grau de relação que existe entre as variáveis e as componentes principais com a opção Factor & variable correlations. E podemos também medir a contribuição de cada variável para a construção de uma componente principal usando a opção Contributions of variables. Contribuições Wagerate X CP v Wagerate X CP . CP 1 1 1 0,5072. 3,772414 0,98512 Contribuição WagerateX CP1 v WagerateX CP1 0,5072 0,257252 2 2 Análise de Classificação Podemos avaliar um modelo de agrupamento usando a técnica de componentes principais, basta clicar nas opções Factor coordinates of cases e Plot case factor coordinates, 2D. Um modelo de Scores pode ser exibido com as opções Factor scores e Factor scores Coefficients Análise de Classificação Projection of the cases on the factor-plane ( 1 x 2) Cases w ith sum of cosine square >= 0,00 1,2 1,0 0,8 Spain Haiti 0,6 Portugal Ireland Hungary Greece ThailandItaly Ethiopia 0,4 South Africa 0,2 Egypt 0,0 Sri LankaBrazil Kenia -0,2 India Algeria -0,4 Factor 2: 3,11% -0,6 Britain Poland Czech Republic Denmark Netherlands Japan Lux emburg Korea Finland Germany Switzerland Norway Sweden Austria Australia France MalaysiaIndonesia USA China Mex ico Taiwan Belgium Peru -0,8 -1,0 -1,2 -1,4 -6 -5 -4 -3 -2 -1 0 Factor 1: 94,31% 1 2 3 4 5 Active Exercício Abra o arquivo Países.sta e confirme o agrupamento entre os 36 países na técnica de Cluster Analysis. Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services Definição e Conceitos Análise Fatorial é um nome genérico dado a uma classe de métodos estatísticos multivariados cujo propósito principal é definir a estrutura subjacente em uma matriz de dados. Assim, têm-se os seguintes pontos: Abordar o problema de analisar a estrutura das inter-relações (correlações) entre um grande número de variáveis, definindo um conjunto de dimensões latentes comuns, chamadas de fatores; Identificar as dimensões separadas da estrutura e então determinar o grau em que cada variável é explicada por cada dimensão; Resumir e reduzir os dados em dimensões latentes interpretáveis e compreensíveis usando escores para cada dimensão e, conseqüentemente, substituir as variáveis originais. Definição e Conceitos Os modelos de análise fatorial buscam explicar o comportamento das variáveis observadas em relação ao comportamento de um conjunto de variáveis não observadas (variáveis latentes ou fatores). Desta forma, sejam X 1 ,, X p T E 1 ,, p Um modelo de análise fatorial é dado por: X 1 1 11F1 1m Fm 1 X 2 2 21F2 2 m Fm 2 X p p p1Fp pm Fm p T Definição e Conceitos Traduzindo para notação de matriz, temos: X 1 1 11 X 2 2 21 X p p p1 12 22 p 2 1m F1 2 m F2 1 2 pm Fm p Cargas Fatoriais Podemos interpretar as cargas fatoriais como: CovX i ,Fj Covi 1F1 ij Fj imFm i ;Fj Observe que os fatores são ortogonais, ou seja a covariância entre fatores é igual a zero. Portanto, CovX i ,Fj Covij Fj ; Fj ij Definição e Conceitos temos: Vamos estudar a variância das variáveis observadas. Para Xi i2 Var X i Var X i i Var i 1F1 im Fm i o resultado disso é: i2 i21 im2 i Portanto, temos dois importantes conceitos: Comunalidade. Parcela da variância de Xi que é explicada pelos fatores comuns. 2 Pode-se usar a c 2 i 2 i1 2 im proporção de Pri variabilidade explicada: ci i2 Especificidade. Parcela de variância de Xi que não é explicada pelos fatores Especificidade : i Definição e Conceitos Se definimos a variabilidade total das variáveis originais como sendo: p T2 i2 i 1 temos, então que p 2 c i i 1 Representa a parcela da variabilidade total que é explicada pelo conjunto de fatores. Conseqüentemente, p PrT 2 c i i 1 T2 é a proporção da variabilidade total dos dados que é explicada pelo conjunto de fatores comuns. Aplicação Imagine a matriz de correlação para nove elementos da imagem de uma loja: Política de devolução Pessoal Disponibilidade de produto Serviço interno Diversidade de itens para cada produto Nível de Preço Atmosfera da loja Diversidade de produtos Qualidade de produto A questão que se pode levantar é: Estes elementos todos são separados no que se refere às suas propriedades de avaliação ou eles se ‘agrupam’ em algumas áreas mais gerais de avaliação? Aplicação Aplicação Experiência Interna Oferta de Produtos Valor Etapas do Processo de Análise Fatorial Tamanho da Amostra Variáveis Objetivo Planejamento da Análise Fatorial O propósito geral de técnicas de análise fatorial é encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas com uma perda mínima de informação. Fase 1 É importante definir com critério as variáveis que farão parte da pesquisa com Análise Fatorial, definir as propriedades de medidas e tipos de variáveis envolvidas. Quanto maior for o número de variáveis, maior será o tamanho da amostra. Algumas cuidados importantes em Análise de Fatores dizem respeito ao tamanho da amostra: Dificilmente um pesquisador realiza uma Análise Fatorial com menos que 50 observações; Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100; Alguns estudiosos propõem um mínimo de 20 observações vezes o número de variáveis a serem estudadas. Quando se lida com amostras menores, o pesquisador sempre deve interpretar qualquer descoberta com precaução. Etapas do Processo de Análise Fatorial Abra o arquivo Hatco.sta na pasta Treinamento / BDs / STATISTICA /. Etapas do Processo de Análise Fatorial Interpretação dos Fatores Cargas fatoriais: Fase 4 A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator; As cargas fatoriais são a correlação de cada variável com o fator, elas são significantes quando seus valores excedem 0,70; Cargas maiores fazem a variável ser representativa no fator. Rotação de fatores: Rotação Quartimax. Concentra-se em rotacionar Fatorial o fator inicial de modo que uma variável Ortogonal tenha carga alta em um fator e cargas e Oblíqua tão baixas nos demais; Varimax. Este método, por outro lado, busca concentrar cargas altas e baixas em cada fator, isso maximiza a variância Equamax. É uma espécie de acordo entre os dois métodos acima. 1,0 Fator 2 Fator 2_Ort V1 Fator 2_Obl V2 0,50 Fator 1 -1,0 -0,50 0,50 -0,50 -1,0 V5 V3 1,0 V4 Fator 1_Obl Fator 1_Ort Exemplo Vamos usar uma base de dados da Hatco para avaliar a existência de agrupamentos de percepções que clientes têm com respeito à empresa. As variáveis que nos interessam são: X1 a X4, X6 e X7. O tamanho da amostra é de 100 observações, resultando em 14 casos para cada variável, um valor aceitável. Exemplo: Medidas de Correlação Suposições de Normalidade, Linearidade, Homocedasticidade... afetam as correlações e se estas não são significantes, então a perda é considerável nos resultados da Análise Fatorial. Sendo assim, é preciso avaliar a grandeza e significância das correlações. Estas correlações são significantes ao nível de 5%. Note que 8 das 15 correlações são significantes. Isso é adequado. Exemplo: Decidindo Quantos Fatores Usar O passo seguinte é selecionar o número de componentes a serem mantidos para análise posterior. Podemos usar os autovalores para fazer essa seleção, tomando o teste da raiz latente em que os autovalores devem assumir resultados superiores a 1. Portanto, temos 3 fatores com essa característica e que respondem por 83,24% da variabilidade nas variáveis originais. Exemplo: O Gráfico para o Teste da Raiz Latente Teste da Rais Latente 3,0 2,513 2,5 2,0 1,740 1,5 Value 1,0 0,597 0,530 0,5 0,416 0,204 0,0 1 2 3 4 Number of Eigenvalues 5 6 Exemplo: Cargas Fatoriais e Cumunalidades Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA que ele deve escolher 2 fatores com autovalores maior que 1. Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading. Exemplo: Cargas Fatoriais e Cumunalidades O fator 1 é o que explica a porção maior da variabilidade e o fator 2 é o que explica ligeiramente menos; 2,51 é a porção de variabilidade total explicada pelo Fator 1, isso corresponde a 41,89% de explicação; 1,74 é a porção de variabilidade total explicada pelo Fator 2 que corresponde a 28,99% de explicação; A significância das cargas fatoriais foram aquelas com valores superiores a 0,70. Exemplo: Aplicando Rotação Varimax A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores. Desta forma temos 39,50% em lugar dos 41,89% para o Fator 1; temos 31,40% em lugar dos 28,99% para o Fator 2. Exemplo: Aplicando Rotação Varimax Factor Loadings, Factor 1 vs. Factor 2 Rotation: Unrotated Extraction: Principal components 0,4 0,2 X7 X2 0,0 -0,2 X3 Factor 2 -0,4 X1 -0,6 X4 X 6 -0,8 -1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 Factor 1 0,2 0,4 0,6 0,8 Exemplo: Aplicando Rotação Varimax Factor Loadings, Factor 1 vs. Factor 2 Rotation: Varimax normalized Extraction: Principal components X6 X4 1,0 0,8 0,6 0,4 Factor 2 0,2 0,0 -0,2 -1,0 X2 X1 X7 X3 -0,8 -0,6 -0,4 -0,2 0,0 Factor 1 0,2 0,4 0,6 0,8 1,0 Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services Definição A análise discriminante envolve determinar uma variável estatística que é a combinação linear de duas ou mais variáveis independentes que discriminarão melhor entre grupos definidos a priori. A discriminação é conseguida estabelecendo-se os pesos da variável estatística para cada variável para maximizar a variância entre grupos relativa à variância dentro dos grupos. A B Função Discriminante A B Função Discriminante Definição A combinação linear para uma análise discriminante, também conhecida como a função discriminante, é determinada de uma equação que assume a seguinte forma: z jk a w1x1k w2 x2k wn xnk onde zjk = escore Z discriminante da função discriminante j para o objeto k a = intercepto wi = peso discriminante independente i xik = objeto k na variável Xi. para a variável Exemplo Uma empresa está interessada em investigar se um de seus novos produtos será comercialmente bem-sucedido. Isso conduz a uma pesquisa com consumidores que comprariam ou não o novo produto. Estudamos, então, as 3 características descritas no quadro abaixo: Note que a característica Durabilidade discrimina bem os dois grupos. Já a característica Estilo tem uma diferença entre médias de grupo igual a 0,2. No entanto, isso não caracteriza uma má discriminação. É preciso avaliar a dispersão e os escores discriminantes. Exemplo 8 10 X1 Durabilidade 1 9 7 5 6 2 2 3 4 5 6 7 1 4 3 8 9 10 9 6 10 X2 Desempenho 1 2 3 7 4 8 3 2 5 1 4 5 6 7 8 9 10 8 9 10 10 X3 Estilo 1 7 9 8 5 3 4 2 1 6 2 3 4 5 6 7 Exemplo Usando apenas a variável X1 obtemos um percentual de classificação correta de 90%, visto que o item 5 não foi alocado corretamente. Quando inserimos a variável X2, obtemos 100% de acerto na Função 2. Mas com a análise discriminante, estamos interessados não só em agrupar, como também maximizar variabilidade entre grupos. Exemplo Exemplo Faremos um procedimento passo a passo. O método é o Forward stepwise. Exemplo O função discriminante: Z 4,53 0,4756.Durabilidade 0,3588.Desempenho Exemplo A Matriz de Classificação e a Classificação dos Casos estão demonstradas nas tabelas a seguir. Estágios do Processo de Análise Discriminante À medida que conceituamos os procedimentos da análise faremos um exemplo para nos familiarizarmos com o STATISTICA. Abra o arquivo Hatco.sta. Em Vars, opte por clicar em All Specs. Veja o significado de cada variável. Estágios do Processo de Análise Discriminante Objetivo da Pesquisa: Determinar se existem diferenças estatisticamente significantes entre os perfis de escore médio em um conjunto de variáveis para dois (ou mais) grupos definidos a priori; Determinar quais das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos dois ou mais grupos; Estabelecer procedimentos para classificar objetos em grupos, com base em seus escores em um conjunto de variáveis independentes; Estabelecer o número e a composição das dimensões de discriminação entre grupos formados a partir do conjunto de variáveis independentes. Estágios do Processo de Análise Discriminante Projeto de Pesquisa para Análise Discriminante: Seleção de Variáveis Dependente e Independentes: O pesquisador deve se concentrar na variável dependente primeiro. O número de grupos pode ser dois ou mais, mas devem ser mutuamente excludentes e cobrir todos os casos. Tamanho da amostra: A Análise Discriminante é muito sensível ao tamanho da amostra e o número de variáveis preditoras Alguns estudos sugerem um número de 20 observações para cada preditora. Divisão da Amostra: É muito comum um estudo de validação do modelo, usando recursos de divisão da amostra (crossvalidation); este procedimento consiste em dividir a amostra em duas partes: 1. Modelagem (não menos que 60%) e 2. Teste (não mais que 40%). Estágios do Processo de Análise Discriminante Projeto de Pesquisa para Análise Discriminante Vamos observar os dados em termos de média e desviopadrão, considerando o tamanho amostral. Estágios do Processo de Análise Discriminante Projeto de Pesquisa para Análise Discriminante Crie uma nova variável na tabela em que o valor geral é 1 para todos os casos. Ela aparece ao lado como NewVar e será uma variável auxiliar para contagem de casos. Estágios do Processo de Análise Discriminante Projeto de Pesquisa para Análise Discriminante A variável X11 avalia duas abordagens quanto à compra de produtos e serviços: 1 – Análise de Valor Total: avalia cada aspecto de compra, incluindo cada tanto o produto quanto o serviço que é comprado; 0 – Especificação de Compra: define-se todas as características de produto e serviço desejados e o vendedor, então, faz uma oferta para preencher as especificações. Já a variável Grupo define uma parte das observações que será usado para análise (assume valor 0) e a parte das observações que será usada para validar (assume valor 1) o modelo discriminante. Usamos 60 observações para análise e 40 para validação. Estágios do Processo de Análise Discriminante Projeto de Pesquisa para Análise Discriminante Estágios do Processo de Análise Discriminante Suposições da Análise Discriminante: Uma suposição chave é a de normalidade multivariada para as variáveis independentes. Existem evidências da sensibilidade da análise discriminante a violações dessas suposições; Outra questão é a matriz de covariância que é desconhecida, no entanto deve ser igual para todo grupo; matrizes desiguais afetam negativamente o processo de classificação; Também é preciso ter cuidado com a Multicolinearidade. Estágios do Processo de Análise Discriminante Estimação do Modelo Discriminante: Método Computacional Estimação Simultânea: envolve a computação da função discriminante, de modo que todas as variáveis independentes são consideradas juntas; Estimação Stepwise: envolve a inclusão das variáveis independentes na função discriminante, uma por vez, com base em seu poder discriminatório. Significância Estatística As medidas de lambda de Wilks, traço de Hotelling e critério de Pillai avaliam a significância estatística do poder discriminatório da função discriminante; A maior raiz característica de Roy avalia apenas a primeira função discriminante; Se um método stepwise é empregado para estimar a função discriminante, as medidas D2 de Mahalanobis são mais adequadas Exemplo no STATISTICA Exemplo no STATISTICA Escolha a opção Tradicional discriminant analysis. A outra opção é usada quando temos variáveis independentes categóricas. Escolha as variáveis para análise em Variables: X11 é Dependente e de X1 a X7, são as Independentes. Exemplo no STATISTICA Habilite a opção Foward stepwise para o procedimento computacional Vamos usar a opção Cross validation para avaliar a função discriminante para esses dados. Exemplo no STATISTICA Exemplo no STATISTICA Esta tabela nos dá o entendimento das variáveis que entram na Análise Discriminante. Exemplo no STATISTICA Note que a variável X7 é a que apresenta maior poder discriminante e foi escolhida primeiro. Em seguida aparece X3 e depois X1 disputa com X5 com valores muito próximos. Após a seleção das 3 variáveis, as 4 restantes não contribuem para discriminar os grupos. Exemplo no STATISTICA Avaliação do Ajuste Geral: Cálculo de Escores Z discriminantes z jk a w1x1k w2 x2k wn xnk Avaliação de Diferenças de Grupos Um caminho para avaliar o ajuste geral do magnitude de diferenças entre membros de dos escores Z discriminantes. Podemos comparação dos centróides dos grupos, o média para todos os membros dos grupos. modelo é determinar a cada grupo em termos fazer isso usando a escore Z discriminante Avaliação da Precisão Preditiva de Pertinência de Grupo O uso de matriz de classificação nos informa o valor razão de sucesso (um percentual de classificação correta); O escore de corte que é o critério em relação ao qual o escore discriminante de cada objeto é comparado para determinar em qual grupo o objeto deve ser classificado. Exemplo no STATISTICA O que desejamos, desde o início, é maximizar a distância entre as médias populacionais e minimizar a variância. Uma medida de distância usada é o D2 de Mahalanobis. Clique nas opções Class squared Mahalanobis distances, Class means for canonical variables e Tests of significance of distances. Exemplo no STATISTICA Z Corte 38.1,836 22.1,063 0,773 38 22 Observações com escores discriminantes menores que ZCorte se classificam no grupo de Análise de Valor Total ( 1 ). E os escores com valores maiores, se classificam no grupo Especificação de Compra ( 0 ). Exemplo no STATISTICA Exemplo no STATISTICA Exemplo no STATISTICA Interpretação dos Resultados: Pesos Discriminantes A interpretação de pesos discriminantes é análoga à interpretação de pesos beta em análise de regressão e está, portanto, sujeita às mesmas críticas. Z 0,447.X 1 0,472.X 3 0,659.X 7 É a função discriminante com pesos padronizados. Exemplo no STATISTICA Interpretação dos Resultados: Cargas Discriminantes As cargas discriminantes medem a correlação linear simples entre cada variável independente e a função discriminante. As cargas são consideradas mais válidas do que os pesos como um meio de interpretação do poder discriminatório de variáveis independentes por causa de sua natureza correlacional. Exemplo no STATISTICA Interpretação dos Resultados: A Diferença entre os Grupos Associado a cada função discriminante encontramos um raiz característica (autovalor); O teste Lambda de Wilk avalia a diferença entre os grupos (0 e 1); A estatística Qui-Quadrado revela se a diferença entre os grupos é significante; O R canônico pode ser interpretado elevando-se o seu valor ao quadrado, então dizemos que o modelo discriminante explica certa porcentagem (66,9%) da variância na variável dependente. Exemplo no STATISTICA Coeficientes da Função de Classificação Resultados da Classificação Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services LSC para Diâmetro Interno de Pistão LIC para Diâmetro Interno de Pistão LSC para Diâmetro Externo de Pistão LIC para Diâmetro Externo de Pistão Usando MSPC: - Avaliamos cada variável no tempo; - Avaliamos o conjunto de variáveis, dado que a relação entre elas existe; - Avaliamos cada lote para determinar sucesso na detecção de um processo irregular. Controle Estatístico do Processo Multivariado Tempo Lotes i 1 2 j 2 . . . . . . k Time-wise Mult-way Principal Components Analysis Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso desta técnica multivariada. Os dados vem de um processo industrial que mede a polimerização de um reator por lote. Time-wise Mult-way Principal Components Analysis Descrição do problema: • Para cada batelada tomamos 100 leituras de 10 variáveis observadas; • Tomamos 55 bateladas: • 47 bateladas alcançaram sucesso, ou seja, a qualidade do polímero é aceitável: 1-37, 39, 41, 43, 44, 47 e 49; • 4 bateladas estão próximas do limite de tolerância: 38, 45, 46 e 49; • 8 bateladas não obtiveram sucesso: 40, 42 e 50-55; • Dividimos essas bateladas em 2 arquivos: 30 com sucesso estão em NormalBatches.sta e 25 (com sucesso, sem sucesso e próximo dos limites) foram misturadas em BatchesForDeployment.sta. Time-wise Mult-way Principal Components Analysis Objetivos da análise: • Aplicar TMPCA em NormalBatches.sta para construir um modelo de referência que descreva a evolução de bons lotes; • Usar este modelo para identificar bateladas futuras como lotes com Sucesso ou sem Sucesso usando os dados de BatchesForDeployment.sta. Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Podemos explorar o comportamento do Processo com PCA e modelar com PLS, usando o tempo ou os lotes. Este módulo suporta a entrada tanto de variáveis contínuas como de variáveis discretas que assumam um comportamento dicotômico (variável dummy), assumindo valores 0 e 1. Time-wise Mult-way Principal Components Analysis Escolha as variáveis como no quadro a seguir. Time-wise Mult-way Principal Components Analysis Nonlinear Iterative Partial Least Squares, NIPALS é o algoritmo responsável por encontrar o conjunto mais adequado de Componentes Principais e também por descrever um modelo de estrutura latente nos dados (PLS). Nesta janela, selecionamos o método para determinar o número de componentes. O método de Cross Validation é indicado, visto que fará uma busca iterativa do melhor número de componentes. Time-wise Mult-way Principal Components Analysis Uma importante característica do STATISTICA TMPCA é sua funcionalidade de préprocessamento que nos habilita a a padronizar os dados para construir um modelo melhor. A opção default é Unit standard deviations, ela calcular um único desvio padrão para padronizar todos os lotes. Esse procedimento é requerido sempre que executamos uma PCA. Podemos criar um procedimento de substituição de Missing Data. E quando trabalhamos com grandes bases de dados, podemos informar ao STATISTICA que a base é de certa ordem em MB. Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Uma avaliação primária é concernente às componentes geradas pela iteração. Na opção Summary na aba Quick, vemos uma tabela que avalia o R2 das componentes com os casos selecionados aleatoriamente para treinamento do modelo por Cross Validation. A parte dos casos que não foi usada no modelo tem o seu índice em Q2. Foram geradas 14 componentes, visto que 10 componentes foram avaliadas com casos para treinamento e 10 com casos para teste. Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Time-w ise Multi-w ay Principal Components Analysis Summary Overview Number of components is 14 1,1 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 1 2 3 4 5 6 7 8 Component 9 10 11 12 13 14 R²X(Cumul.) Q²(Cumul.) Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Variable importance 1,00 0,98 0,96 0,94 0,931 0,927 0,926 0,92 0,90 0,891 0,884 Power 0,88 0,86 0,847 0,84 0,841 0,824 0,82 0,820 0,799 0,80 0,78 T 2 DR T 3 DR T 1 DR TFM 2 TFM 1 PRES2 Variable T 1 RM T 2 RM PRES3 PRES1 Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Agora o alvo é encontrar possíveis outliers. Podemos detectar outliers a partir de seus x-scores, visto que o uso de Componentes Principais transformou os valores originais em outra escala. Usamos, então, a distribuição amostral multivariada T2Hotelling. Para ao i-ésima observação temos: Hotelling T² Control Chart Number of components is 14 2 ik 2 ik t Ti k 1 s 2 C 90,478 90 80 70 60 50 T² tik é o escore da i-ésima observação para o késimo componente; 100 40 sik é o desvio padrão estimado de tk; C é o número de componentes. 30 20 10 0 B1 B3 B2 B5 B4 B7 B6 B9 B8 B11 B13 B15 B17 B19 B21 B23 B25 B27 B29 B10 B12 B14 B16 B18 B20 B22 B24 B26 B28 B30 Batch 99,000% Time-wise Mult-way Principal Components Analysis Outras medidas para diagnóstico: O T2-Hotelling não é suficiente para predizer outliers, especialmente se inserimos observações que não foram usadas para treinar o modelo. Uma quantidade melhor é o Erro Quadrático da Predição (SPE – Square of the predictions error). Para o i-ésimo elemento temos o SPE definido ao lado. Podemos usar ainda os resíduos para detectar outliers com a técnica distância do modelo (D-To-Model). Tome a i-ésima observação e veja ao lado. M 2 Q i x ij xˆ ij j 1 xij é um elemento da matriz X_Barra; ^x é um elemento da matriz de ij escores das Componentes Principais M D To Model x j 1 xˆ ij 2 ij M C M é o número de variáveis originais; xij é o número de componentes Time-wise Mult-way Principal Components Analysis SPE(Q) Chart Number of components is 14 12 11 10 9 8 7 Q 6 5 4 3 2 1 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99 Time 99,000% Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Os valores são considerados outliers se excedem o limite calculado de 0,496 calculado pela solução. Distance to model Number of components is 14 The normalized distance to the model is 0,496 0,45 0,40 0,35 0,30 0,25 0,20 Distance 0,15 0,10 0,05 0,00 B1 B3 B2 B5 B4 B7 B6 B9 B8 B11 B13 B15 B17 B19 B21 B23 B25 B27 B29 B10 B12 B14 B16 B18 B20 B22 B24 B26 B28 B30 Batch Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis O gráfico abaixo exprime o fato de que as bateladas não sofrem desvios da normalidade quando avaliamos as 10 variáveis juntas. A elipse representa o limite correlacionado para esta variáveis. Score scatterplot (t1 vs. t2) Standard deviation of t1: 19,470 Standard deviation of t2: 10,948 80 60 40 B14 20 B10 B6 B8B7 t2 0 B22 B21 B9 B19 B15 B5 B30 B13 B26B20 B27 B2 B18 B17 B11 B4 B25 B23 B24 B16 B29 B3 B28 B1 B12 -20 -40 -60 +/-3,000*Std.Dev -80 -80 -60 -40 -20 0 t1 20 40 60 80 Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Podemos ainda avaliar a importância de cada variável para algum componente. O gráfico abaixo, por exemplo, se refere ao primeiro componente e, note, a primeira variável é a que mais influencia. Score contribution plot (t1, 0) 0,05 0,04 0,039 0,036 0,03 0,026 0,02 0,018 0,016 0,011 0,008 0,01 0,004 0,00 0,000 0,000 T 2 RM PRES2 -0,01 -0,02 Score contribution (B1 -0,03 -0,04 -0,05 T 1 DR T 2 DR T 3 DR PRES1 TFM 1 T 1 RM Variable PRES3 TFM 2 Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Para avaliar a trajetória dos pontos ao longo do tempo, usamos a opção Trajectory. Trajectory plot of variable: T1DR Number of batches: 30 1,0 0,9 0,8 Trajectory 0,7 0,6 +/-3,000*Std.Dev +/-2,000*Std.Dev Mean 0,5 0 7 14 21 28 35 42 49 Time 56 63 70 77 84 91 98 Time-wise Mult-way Principal Components Analysis Agora vamos avaliar uma nova batelada contida no arquivo Batches For Deployment, no Help do STATISTICA, usando o procedimento de MSPC Deployment. Gere o PMML script do como ao lado. Time-wise Mult-way Principal Components Analysis Time-wise Mult-way Principal Components Analysis Cancele a janela ao lado até retornar à janela inicial. Abra o arquivo que será avaliado (use Open Data) e siga os passos. Time-wise Mult-way Principal Components Analysis Busque o script do PMML salvo em lugar conhecido e seguro. Use a opção Load models do STATISTICA MSPC. Assim que inserir o script, as opções na aba Results estarão habilitadas para uso. Clique em Summary. Time-wise Mult-way Principal Components Analysis Avalie novamente os resultados anteriores para esse novo conjunto de bateladas. Observe que essas bateladas estão fora de especificação e, portanto, a qualidade dos polímeros não é satisfatória. Time-wise Mult-way Principal Components Analysis Hotelling T² Control Chart Number of components is 14 25000 20.904,183 20.433,084 19.516,728 20000 15000 T² 10.337,29210.184,001 10000 7.842,383 5000 99,000% 0 90,478 B31 B33 B32 B35 B34 B37 B36 B39 B38 B41 B40 B43 B42 B45 B44 Batch B47 B46 B49 B48 B51 B50 B53 B52 B55 B54 StatSoft South America Deptº. de Projetos e Consultoria Josias Jônatas – Consultor Data Miner Deptº. de Treinamentos e Suporte Andréia Santiago – Gerente de Treinamentos Fone: 55 11 3422 4250 Fax: 55 11 3422 4255