ANÁLISE DISCRIMINANTE Análise Discriminante A Análise Discriminante é usada para discriminar entre grupos, analisando dados com uma variável categórica dependente e variáveis de escala intervalar independentes. Emprega-se para descobrir as características que distinguem os membros de um grupo dos de outro, de modo que, conhecidas as características de um novo indivíduo, se possa prever a que grupo pertence. Utilização Foi originalmente desenvolvida na Botânica com o objectivo de distinguir entre grupos de plantas com base no tamanho e tipo de folhas, para que posteriormente fosse possível classificar as novas espécies encontradas. Em Marketing, utiliza-se para identificar as características de vários segmentos de mercado, e para fazer previsões de consumo relativamente aos indivíduos cujo comportamento se desconhece. Conceitos básicos Quando a variável categórica toma apenas dois valores, a técnica denomina-se análise discriminante de dois grupos. Quando se consideram três ou mais grupos, a técnica é referida como análise discriminante múltipla. A diferença principal entre as duas técnicas é que no primeiro caso apenas é possível derivar uma função discriminante, enquanto que no segundo caso pode ser determinada mais do que uma função discriminante. Conceitos básicos A análise discriminante permite responder a: • Como é que os consumidores leais a uma loja diferem dos não leais, em termos de características demográficas? • Será que utilizadores ligeiros, utilizadores médios e utilizadores frequentes diferem no consumo de alimentos congelados? • Que características psicográficas diferem entre compradores sensíveis ao preço e os não sensíveis? • Que características distinguem os consumidores respondem a inquéritos enviados por correio? os que Exemplo 1 Considere-se o quadro ao lado, com informação quantitativa e qualitativa sobre algumas famílias, nos primeiros anos de produção de frigoríficos: Facilmente se conclui que é o rendimento familiar que permite distinguir o grupo de famílias que possuíam frigorífico. Exemplo 1 Passado algum tempo, a situação tornou-se mais complexa, pois deixou de depender apenas da variável rendimento. Apenas uma análise das duas variáveis em conjunto permite perceber as decisões dos consumidores (ver gráfico). Exemplo 1 Discriminação entre dois grupos de consumidores Exemplo 2 Foi feito um estudo com 294 consumidores para determinar a relação entre a propensão para comprar em saldos e outras características. As variáveis independentes eram factores relacionados com atitudes de consumo e características demográficas. A variável dependente era a propensão para comprar em saldos, em três níveis: • Não utilizadores – não compraram nos últimos 12 meses • Utilizadores ligeiros – 1 ou 2 compras em 12 meses • Utilizadores frequentes – mais de 2 compras por ano Exemplo 2 Duas conclusões principais: • A percepção dos consumidores para a relação esforço/valor foi a variável mais importante na discriminação entre os utilizadores dos três grupos definidos atrás (não utilizadores, utilizadores ligeiros, utilizadores frequentes). Os utilizadores mais sensíveis aos saldos são aqueles que se preocupam menos com as condições de venda (garantia/trocas) associadas aos saldos. • Os consumidores mais conhecedores dos preços dos produtos são os que respondem melhor a uma baixa significativa de preços num saldo. Modelo O modelo da análise discriminante envolve combinações lineares da forma: D=b0+b1X1+b2X2+...+bkXk Onde D = valor (score) discriminante b = coeficientes (pesos) discriminantes X = variável independente preditiva Os pesos (b) são estimados de forma a que os grupos difiram o máximo possível nos valores da função discriminante. Isto acontece quando a razão da soma de quadrados entre grupos com a soma de quadrados dentro dos grupos, para a função discriminante, toma o valor máximo. Estatísticas associadas (1) Correlação canónica – Mede a extensão da associação entre os scores discriminantes e os grupos. É uma medida da associação entre a função discriminante simples e o conjunto de variáveis que define a pertença ao grupo. Centróide – É o valor médio dos scores discriminantes para um grupo particular. Matriz de classificação – Contém o número de casos classificados correctamente e incorrectamente. Os casos correctos aparecem na diagonal, porque os valores previstos e os observados são os mesmos. Estatísticas associadas (2) Coeficientes da função discriminante – São os multiplicadores das variáveis (nas unidades de medida originais). Scores discriminantes – Os coeficientes são multiplicados pelos valores das variáveis. Os produtos são somados, acrescenta-se um termo constante e obtêm-se os scores. Valor próprio – É a razão da soma de quadrados entre grupos com a soma de quadrados dentro dos grupos, para cada função discriminante. Estatísticas associadas (3) Valor F e significância – O valor F é calculado através de uma ANOVA, utilizando a variável categórica para definir os grupos. Cada variável preditiva é utilizada, à vez, como variável dependente na ANOVA. Média e desvio padrão do grupo – Calculam-se para cada variável preditiva, para cada grupo. Matriz de correlação dentro do grupo – É obtida calculando a média das matrizes de covariância para cada grupo. Estatísticas associadas (4) Coeficientes normalizados da função discriminante – São utilizados como multiplicadores quando as variáveis estão normalizadas (média=0, desvio padrão=1). Correlações de estrutura – Representam as correlações simples entre as variáveis preditivas e a função discriminante. Matriz de correlação total – Obtida a partir da totalidade dos casos. Estatísticas associadas (5) de Wilks – Para cada variável preditiva, é a razão da soma de quadrados dentro do grupo com a soma de quadrados total. Também denominada estatística U. Varia entre 0 e 1. Valores elevados de (próximos de 1) indicam que as médias dos grupos não parecem ser diferentes. Valores baixos de (próximos de 0) indicam que as médias dos grupos parecem ser diferentes. Assume-se que, cada grupo definido pela variável categórica é uma amostra proveniente de uma população normal multivariada, e que todas as populações têm a mesma matriz de covariância. Condução do processo Formular o problema Estimar os coeficientes da função discriminante Determinar a significância da função discriminante Interpretar os resultados Validar a análise discriminante Formular o problema O primeiro passo na análise discriminante consiste em identificar: • Os objectivos • A variável categórica • As variáveis independentes Formular o problema A variável categórica deve consistir em duas ou mais categorias mutuamente exclusivas. Se tiver uma escala de medida intervalar tem que ser convertida em categorias. As variáveis preditivas devem ser seleccionadas com base num modelo teórico ou numa pesquisa anterior, se possível. Formular o problema O passo seguinte é dividir a amostra em duas partes: • Amostra para análise ou estimação • Amostra para validação Se a amostra for suficientemente grande, pode ser dividida em duas metades. Deve aplicar-se a análise discriminante duas vezes trocando as duas metades da amostra. A distribuição nas duas amostras deve seguir a distribuição na amostra total. Exemplo: a relação entre consumidores leais e não leais deve manter-se nas amostras repartidas. Formular o problema – Exemplo Pretende-se conhecer as características principais das famílias que fizeram férias num determinado local nos últimos dois anos. Foram interrogadas 42 famílias. Dessas, 30 foram incluídas na amostra de análise e as restantes 12 foram colocadas na amostra de validação. Formular o problema – Exemplo Formular o problema – Exemplo Formular o problema – Exemplo As famílias que visitaram o local (estância turística) nos últimos 2 anos foram codificados com 1; os que não visitaram foram codificados com 2. Como se pode observar, no primeiro quadro há 15 em cada categoria, e no segundo há 6 em cada categoria. Obtiveram-se outros dados: • Rendimento anual • Atitude face às viagens • Importância dada às férias • Tamanho da família • Idade do chefe de família Estimar os coeficientes da função discriminante Podem ser utilizados dois métodos distintos para estimar os coeficientes da função discriminante: • Método directo – todas as variáveis preditivas são incluídas em simultâneo, independentemente do seu poder discriminador. • Análise discriminante faseada – as variáveis preditivas são incluídas sequencialmente, por ordem do seu poder discriminante. Estimar os coeficientes da função discriminante - Exemplo Os resultados da análise discriminante aplicada ao exemplo anterior são mostrados nos quadros seguintes. Os resultados foram obtidos a partir de um programa informático de análise estatística. Estimar os coeficientes da função discriminante - Exemplo Observa-se que a variável com mais poder discriminante é a variável Rendimento anual. Observa-se ainda que a variável Importância dada às férias tem um efeito mais discriminante que a variável Atitude face às viagens. Estimar os coeficientes da função discriminante - Exemplo A matriz de correlação entre grupos indica uma correlação baixa entre as variáveis preditivas. Estimar os coeficientes da função discriminante - Exemplo A significância dos rácios F indica que quando as variáveis preditivas são consideradas individualmente, apenas as variáveis Rendimento anual, Importância dada às férias e Tamanho da família diferenciam entre os grupos que visitaram ou não visitaram o local turístico. Estimar os coeficientes da função discriminante - Exemplo Como há apenas dois grupos, o programa apresenta só uma função discriminante. O valor próprio associado a esta função é 1,7862 e representa 100% da variância explicada. O quadrado da correlação canónica (0,8007)2=0,64, indica que 64% da variância na variável dependente (visita) é explicada por este modelo. Determinar a significância da função discriminante A interpretação da análise discriminante só faz sentido se as funções discriminantes forem estatisticamente significativas. A hipótese nula indica que, na população, as médias de todas as funções discriminantes, para todos os grupos, são iguais. Esta hipótese nula pode ser testada pelo de Wilks. Determinar a significância da função discriminante – Exemplo O de Wilks associado com a função é de 0,3589, que se transforma num qui-quadrado de 26,130 com 5 graus de liberdade. Este teste é significativo para além do nível de 5%. Interpretar os resultados O valor do coeficiente para uma variável preditiva depende das outras variáveis preditivas incluídas na função discriminante. Pode ter-se uma ideia da importância relativa das variáveis analisando os coeficientes normalizados da função discriminante. Essa importância relativa também pode ser dada pelas correlações da estrutura – também designados pesos canónicos ou pesos discriminantes. Interpretar os resultados – Exemplo Em geral, variáveis preditivas com valores mais elevados nos coeficientes normalizados contribuem mais fortemente para o poder discriminante da função. Interpretar os resultados – Exemplo Estes valores podem ser interpretados da mesma forma que os coeficientes normalizados. Ambos devem ser interpretados com precaução. Interpretar os resultados – Exemplo Uma vez que as correlações entre as variáveis são baixas, podemos examinar os coeficientes normalizados e concluir, com algum cuidado, que o Rendimento anual é a variável preditiva na discriminação entre grupos, seguida do Tamanho da família e da Importância dada às férias. Pode concluir-se o mesmo a partir das correlações de estrutura. Interpretar os resultados – Exemplo Os coeficientes não normalizados da função discriminante podem ser utilizados para propósitos classificatórios. Interpretar os resultados – Exemplo Os centróides dão o valor da função discriminante avaliada com os valores médios dos grupos. O grupo 1, que visitou o local turístico, tem um valor positivo. O grupo 2, que não visitou o local, tem um valor negativo. Interpretar os resultados – Exemplo Os sinais dos coeficientes associados com as variáveis preditivas são todos positivos, o que sugere que qualquer aumento em qualquer das variáveis se traduz num aumento da probabilidade da família visitar a estância turística. Validar a análise discriminante Tal como explicado anteriormente, os dados são divididos aleatoriamente em duas amostras: • Amostra de análise – utilizada para estimar a função determinante. • Amostra de validação – utilizada para criar a matriz de classificação. Validar a análise discriminante Os pesos discriminantes estimados a partir da amostra de análise são multiplicados pelos valores das variáveis preditivas da amostra de validação, obtendo-se os scores discriminantes para os casos desta última amostra. Estes casos são, então, atribuídos aos grupos usando uma regra de decisão (por exemplo, o caso é atribuído ao grupo cujo centróide estiver mais perto). A percentagem de casos correctamente classificados (hit ratio) obtém-se dividindo a soma da diagonal pelo número total de casos. Validar a análise discriminante A percentagem de classificação devida ao acaso obtém-se dividindo 1 pelo número de grupos (se os grupos tiverem tamanho igual). A precisão da classificação obtida por análise discriminante deve ser 25% superior àquela obtida pelo acaso. Validar a análise discriminante – Exemplo A percentagem de casos correctamente classificados é: (12+15)/30 = 0,90, ou 90%. Mas este valor pode estar artificialmente inflacionado, pois os dados usados na estimação foram também usados na validação. Validar a análise discriminante – Exemplo Utilizando a amostra de validação, obtém-se uma percentagem de casos correctamente classificados de (4+6)/12 = 0,833, ou 83,3%. Uma vez que a classificação devida ao acaso é de 1/2=50%, considera-se que a classificação devida à análise discriminante é satisfatória. Análise discriminante múltipla Neste caso, vão ser utilizados os mesmos dados de partida que foram utilizados no exemplo anterior, mas os casos vão ser classificados com base noutra variável categórica. Seguem-se os passos de: • Formulação, • Estimação, • Determinação da significância, • Interpretação e • Validação. Formulação As famílias vão ser classificadas em três categorias, com base no valor gasto nas férias (elevado, médio ou baixo). Existem dez famílias em cada categoria. A questão em estudo é saber se as famílias que gastam valores elevados, médios ou baixos nas férias podem ser diferenciadas em termos das variáveis: • Rendimento anual • Atitude face às viagens • Importância dada às férias • Tamanho da família • Idade do chefe de família Estimação A variável Rendimento anual parece ser a que mais diferencia os grupos. Também as variáveis Atitude face às viagens e Importância dada às férias parecem criar alguma separação. Os grupos 1 e 2 assemelham-se em termos de Tamanho da família e Idade do chefe de família. Estimação A matriz de correlação dentro dos grupos indica haver alguma correlação de Rendimento anual com Importância dada às férias e Tamanho da família. A Idade do chefe de família tem uma correlação negativa com Atitude face às viagens. No entanto estas correlações são baixas, sendo baixa a probabilidade de provocarem problemas sérios. Estimação A significância dos rácios F indica que, quando as variáveis preditivas são consideradas individualmente, apenas Rendimento anual e Atitude face às viagens são significantes a diferenciar entre os grupos. Estimação O número de funções discriminantes estimadas é igual ao número de grupos menos 1, desde que este não seja superior ao número de variáveis preditivas, caso em que fica limitado por este número. # func. discr. = MIN {#grupos-1, #variáveis preditivas} A primeira função tem o maior rácio de somas de quadrados de entre grupos sobre somas de quadrados dentro dos grupos. A segunda função, não relacionada com a primeira, tem o segundo maior rácio. E assim sucessivamente. Nem todas as funções são estatisticamente significativas. Estimação O número de funções discriminantes neste caso é 2 (número de grupos menos 1). O valor próprio associado com a primeira função é 3,8190 o que representa 93,93% da variância dos dados. A segunda função tem um valor próprio baixo: 0,2469. A variância correspondente é apenas de 6,07%. Determinação da significância Para testar a hipótese nula que diz que os centróides dos grupos são iguais, devem considerar-se as duas funções em simultâneo. No quadro anterior, o valor 0 debaixo de After Function indica que não foi removida nenhuma função. Esse teste tem uma significância para além de 5%. Quando a primeira função é removida (After Function=1), o teste não é significativo (Sig.=0,24). Isto indica que a segunda função não contribui significativamente para diferenciar os grupos. Interpretação Os coeficientes normalizados indicam um coeficiente elevado para o Rendimento anual na função 1. Por seu lado, a função 2 tem coeficientes elevados para Atitude face às viagens, Importância dada às férias e Idade do chefe de família. Interpretação A matriz de estrutura permite concluir da mesma forma que os coeficientes normalizados. As variáveis são agrupadas (este agrupamento é representado com asterisco) conforme contribuam mais para a função 1 ou função 2. Interpretação Diagrama de disseminação Interpretação O diagrama de disseminação (scattergram) mostra que o grupo 3 tem o valor mais elevado para a função 1, e o grupo 1 o valor mais baixo. Esta função está relacionada com o Rendimento anual e o Tamanho da família. Pode esperar-se que famílias com maior rendimento e maior agregado gastem mais dinheiro em férias. E famílias com menor rendimento e menor agregado gastem menos dinheiro em férias. Interpretação O diagrama de disseminação mostra ainda que a função 2 tende a separar o grupo 1 (valor mais elevado) do grupo 2 (valor mais baixo). Esta função está relacionada com Atitude face às viagens, Importância dada às férias e Idade do chefe de família. Como as suas correlações com a função 2 são positivas, esperamos que o grupo 1 tenha valores superiores ao grupo 2 em termos destas 3 variáveis. Isto é confirmado pelas médias dos grupos. Interpretação Mapa territorial Interpretação A interpretação do mapa territorial dá-nos informações semelhantes. Neste mapa: • Os centróides são marcados com asteriscos. • As fronteiras entre grupos são marcadas com números. Validação Validação A validação com base na amostra de análise tem uma percentagem de (9+9+8)/30=86,67% de casos correctamente classificados. A validação com base na amostra de validação tem uma percentagem de (3+3+3)/12=75% de casos correctamente classificados. A classificação devida ao acaso gera uma percentagem de 1/3=33,3% de casos correctamente classificados. A melhoria que obtivemos com a análise discriminante é mais de 25% superior à classificação devida ao acaso, logo temos uma validação satisfatória. Análise discriminante faseada As variáveis preditivas são incluídas sequencialmente, por ordem do seu poder discriminante. Calcula-se um rácio F para cada variável preditiva. A variável com rácio mais elevado é a primeira a ser incluída na função discriminante. A segunda variável a ser incluída é a que tiver o rácio F imediatamente inferior. O resultado depende do critério de optimização adoptado. Um processo comum é o de Mahalanobis que se baseia na maximização da distância entre os dois grupos mais próximos. SPSS Na barra de menus escolher Analyze Classify Discriminant… Seleccionar as variáveis independentes para a lista correspondente. Seleccione a variável dependente e defina o intervalo de variação em Define Range. Consulte o ficheiro de dados Consulte o ficheiro de saída SPSS SPSS Prima o botão Statistics e seleccione Means, Univariate ANOVAs, e Within-groups correlation. SPSS Prima o botão Classify e seleccione os gráficos que pretende visualizar. SPSS Médias dos grupos Group Statistics Género m f Total Ordenado actual Meses desde o início do contrato Experiência anterior (meses) Nível de educação (anos) Ordenado actual Meses desde o início do contrato Experiência anterior (meses) Nível de educação (anos) Ordenado actual Meses desde o início do contrato Experiência anterior (meses) Nível de educação (anos) Mean 46581,94 97,11 88,39 14,50 25812,50 97,58 137,08 13,33 38274,17 97,30 107,87 14,03 Std. Deviation 28852,54 ,83 74,96 2,60 6305,99 ,51 104,70 2,39 24701,84 ,75 89,67 2,54 Valid N (listwise) Weighted Unweig hted 18,000 18 18,000 18 18,000 18 18,000 18 12,000 12 12,000 12 12,000 12 12,000 12 30,000 30 30,000 30 30,000 30 30,000 30 Os valores das variáveis Ordenado actual e Experiência anterior são bastante diferentes entre os grupos. SPSS Pooled W ithin-Groups Matrices Correlation Ordenado actual Experiência anterior (meses) Meses desde o início do contrato Nível de educação (anos) Ordenado actual 1,000 ,122 -,249 ,529 Experiência anterior (meses) ,122 1,000 ,127 -,072 Meses desde o início do contrato -,249 ,127 1,000 -,320 Nível de educação (anos) ,529 -,072 -,320 1,000 A matriz de correlação entre grupos indica uma correlação considerável entre o Ordenado actual e o Nível de educação. SPSS Tests of Equality of Group Means Ordenado actual Experiência anterior (meses) Meses desde o início do contrato Nível de educação (anos) Wilks' Lambda ,824 ,927 ,901 ,948 F 5,961 2,212 3,059 1,549 df1 1 1 1 1 df2 28 28 28 28 Sig . ,021 ,148 ,091 ,224 A significância dos rácios F indica que apenas a variável Ordenado actual pode diferenciar entre os grupos. SPSS Os coeficientes normalizados e a matriz de estrutura sugerem que o ordenado é uma variável discriminante. Standardized Canonical Discriminant Function Coefficients Ordenado actual Meses desde o início do contrato Experiência anterior (meses) Nível de educação (anos) Function 1 -,855 ,331 ,541 ,209 Structure Matrix Ordenado actual Meses desde o início do contrato Experiência anterior (meses) Nível de educação (anos) Function 1 -,761 ,545 ,463 -,388 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. SPSS Valores próprios e de Wilks Eigenv alues Function 1 Eig envalue ,368a % of Variance 100,0 Cumulative % 100,0 Canonical Correlation ,519 a. First 1 canonical discriminant functions were used in the analysis. W ilks' Lambda Test of Function(s) 1 Wilks' Lambda ,731 Chi-square 8,145 df 4 Sig . ,086 O de Wilks tem uma significância superior a 5%, devendo aceitar-se a hipótese nula que indica que, na população, as médias da função discriminante, para todos os grupos, são iguais.