ANÁLISE
DISCRIMINANTE
Análise Discriminante
A Análise Discriminante é usada para discriminar
entre grupos, analisando dados com uma variável
categórica dependente e variáveis de escala
intervalar independentes.
Emprega-se para descobrir as características que
distinguem os membros de um grupo dos de outro,
de modo que, conhecidas as características de um
novo indivíduo, se possa prever a que grupo
pertence.
Utilização
Foi originalmente desenvolvida na Botânica com o
objectivo de distinguir entre grupos de plantas com base
no tamanho e tipo de folhas, para que posteriormente
fosse possível classificar as novas espécies
encontradas.
Em Marketing, utiliza-se para identificar as características
de vários segmentos de mercado, e para fazer
previsões de consumo relativamente aos indivíduos cujo
comportamento se desconhece.
Conceitos básicos
Quando a variável categórica toma apenas dois valores,
a técnica denomina-se análise discriminante de dois
grupos. Quando se consideram três ou mais grupos, a
técnica é referida como análise discriminante múltipla.
A diferença principal entre as duas técnicas é que no
primeiro caso apenas é possível derivar uma função
discriminante, enquanto que no segundo caso pode ser
determinada mais do que uma função discriminante.
Conceitos básicos
A análise discriminante permite responder a:
• Como é que os consumidores leais a uma loja diferem dos
não leais, em termos de características demográficas?
• Será que utilizadores ligeiros, utilizadores médios e
utilizadores frequentes diferem no consumo de alimentos
congelados?
• Que características psicográficas diferem entre
compradores sensíveis ao preço e os não sensíveis?
• Que características distinguem os consumidores
respondem a inquéritos enviados por correio?
os
que
Exemplo 1
Considere-se o
quadro ao lado,
com informação
quantitativa e
qualitativa sobre
algumas famílias,
nos primeiros
anos de produção
de frigoríficos:
Facilmente se conclui que é o rendimento familiar que permite
distinguir o grupo de famílias que possuíam frigorífico.
Exemplo 1
Passado algum
tempo, a situação
tornou-se mais
complexa, pois
deixou de depender
apenas da variável
rendimento.
Apenas uma análise das duas variáveis em conjunto permite
perceber as decisões dos consumidores (ver gráfico).
Exemplo 1
Discriminação entre dois grupos de consumidores
Exemplo 2
Foi feito um estudo com 294 consumidores para determinar a
relação entre a propensão para comprar em saldos e outras
características.
As variáveis independentes eram factores relacionados com
atitudes de consumo e características demográficas. A
variável dependente era a propensão para comprar em
saldos, em três níveis:
• Não utilizadores – não compraram nos últimos 12 meses
• Utilizadores ligeiros – 1 ou 2 compras em 12 meses
• Utilizadores frequentes – mais de 2 compras por ano
Exemplo 2
Duas conclusões principais:
• A percepção dos consumidores para a relação esforço/valor
foi a variável mais importante na discriminação entre os
utilizadores dos três grupos definidos atrás (não utilizadores,
utilizadores ligeiros, utilizadores frequentes). Os utilizadores
mais sensíveis aos saldos são aqueles que se preocupam
menos com as condições de venda (garantia/trocas)
associadas aos saldos.
• Os consumidores mais conhecedores dos preços dos
produtos são os que respondem melhor a uma baixa
significativa de preços num saldo.
Modelo
O modelo da análise discriminante envolve combinações
lineares da forma:
D=b0+b1X1+b2X2+...+bkXk
Onde
D = valor (score) discriminante
b = coeficientes (pesos) discriminantes
X = variável independente preditiva
Os pesos (b) são estimados de forma a que os grupos difiram o máximo
possível nos valores da função discriminante. Isto acontece quando a
razão da soma de quadrados entre grupos com a soma de quadrados
dentro dos grupos, para a função discriminante, toma o valor máximo.
Estatísticas associadas (1)
Correlação canónica – Mede a extensão da associação
entre os scores discriminantes e os grupos. É uma medida
da associação entre a função discriminante simples e o
conjunto de variáveis que define a pertença ao grupo.
Centróide – É o valor médio dos scores discriminantes para
um grupo particular.
Matriz de classificação – Contém o número de casos
classificados correctamente e incorrectamente. Os casos
correctos aparecem na diagonal, porque os valores
previstos e os observados são os mesmos.
Estatísticas associadas (2)
Coeficientes da função discriminante – São os
multiplicadores das variáveis (nas unidades de medida
originais).
Scores discriminantes – Os coeficientes são multiplicados
pelos valores das variáveis. Os produtos são somados,
acrescenta-se um termo constante e obtêm-se os scores.
Valor próprio – É a razão da soma de quadrados entre
grupos com a soma de quadrados dentro dos grupos, para
cada função discriminante.
Estatísticas associadas (3)
Valor F e significância – O valor F é calculado através de
uma ANOVA, utilizando a variável categórica para definir
os grupos. Cada variável preditiva é utilizada, à vez, como
variável dependente na ANOVA.
Média e desvio padrão do grupo – Calculam-se para cada
variável preditiva, para cada grupo.
Matriz de correlação dentro do grupo – É obtida
calculando a média das matrizes de covariância para cada
grupo.
Estatísticas associadas (4)
Coeficientes normalizados da função discriminante – São
utilizados como multiplicadores quando as variáveis estão
normalizadas (média=0, desvio padrão=1).
Correlações de estrutura – Representam as correlações
simples entre as variáveis preditivas e a função
discriminante.
Matriz de correlação total – Obtida a partir da totalidade dos
casos.
Estatísticas associadas (5)
 de Wilks – Para cada variável preditiva, é a razão da soma
de quadrados dentro do grupo com a soma de quadrados
total. Também denominada estatística U.
Varia entre 0 e 1.
Valores elevados de  (próximos de 1) indicam que as
médias dos grupos não parecem ser diferentes.
Valores baixos de  (próximos de 0) indicam que as
médias dos grupos parecem ser diferentes.
Assume-se que, cada grupo definido pela variável categórica
é uma amostra proveniente de uma população normal
multivariada, e que todas as populações têm a mesma
matriz de covariância.
Condução do processo
Formular o problema
Estimar os coeficientes da
função discriminante
Determinar a significância da
função discriminante
Interpretar os resultados
Validar a análise discriminante
Formular o problema
O primeiro passo na análise discriminante consiste
em identificar:
• Os objectivos
• A variável categórica
• As variáveis independentes
Formular o problema
A variável categórica deve consistir em duas ou mais
categorias mutuamente exclusivas. Se tiver uma
escala de medida intervalar tem que ser convertida
em categorias.
As variáveis preditivas devem ser seleccionadas com
base num modelo teórico ou numa pesquisa
anterior, se possível.
Formular o problema
O passo seguinte é dividir a amostra em duas partes:
• Amostra para análise ou estimação
• Amostra para validação
Se a amostra for suficientemente grande, pode ser dividida em
duas metades. Deve aplicar-se a análise discriminante duas
vezes trocando as duas metades da amostra.
A distribuição nas duas amostras deve seguir a distribuição na
amostra total. Exemplo: a relação entre consumidores leais e
não leais deve manter-se nas amostras repartidas.
Formular o problema – Exemplo
Pretende-se conhecer as características principais
das famílias que fizeram férias num determinado
local nos últimos dois anos.
Foram interrogadas 42 famílias. Dessas, 30 foram
incluídas na amostra de análise e as restantes 12
foram colocadas na amostra de validação.
Formular o problema – Exemplo
Formular o problema – Exemplo
Formular o problema – Exemplo
As famílias que visitaram o local (estância turística) nos
últimos 2 anos foram codificados com 1; os que não
visitaram foram codificados com 2.
Como se pode observar, no primeiro quadro há 15 em cada
categoria, e no segundo há 6 em cada categoria.
Obtiveram-se outros dados:
• Rendimento anual
• Atitude face às viagens
• Importância dada às férias
• Tamanho da família
• Idade do chefe de família
Estimar os coeficientes da função discriminante
Podem ser utilizados dois métodos distintos para estimar os
coeficientes da função discriminante:
• Método directo – todas as variáveis preditivas são
incluídas em simultâneo, independentemente do seu
poder discriminador.
• Análise discriminante faseada – as variáveis preditivas
são incluídas sequencialmente, por ordem do seu poder
discriminante.
Estimar os coeficientes da função discriminante - Exemplo
Os resultados da análise discriminante aplicada ao
exemplo anterior são mostrados nos quadros
seguintes.
Os resultados foram obtidos a partir de um programa
informático de análise estatística.
Estimar os coeficientes da função discriminante - Exemplo
Observa-se que a variável com mais poder discriminante é a
variável Rendimento anual.
Observa-se ainda que a variável Importância dada às férias
tem um efeito mais discriminante que a variável Atitude face
às viagens.
Estimar os coeficientes da função discriminante - Exemplo
A matriz de correlação entre grupos indica uma
correlação baixa entre as variáveis preditivas.
Estimar os coeficientes da função discriminante - Exemplo
A significância dos rácios F indica que quando as variáveis
preditivas são consideradas individualmente, apenas as
variáveis Rendimento anual, Importância dada às férias e
Tamanho da família diferenciam entre os grupos que
visitaram ou não visitaram o local turístico.
Estimar os coeficientes da função discriminante - Exemplo
Como há apenas dois grupos, o programa apresenta só uma
função discriminante.
O valor próprio associado a esta função é 1,7862 e representa
100% da variância explicada.
O quadrado da correlação canónica (0,8007)2=0,64, indica
que 64% da variância na variável dependente (visita) é
explicada por este modelo.
Determinar a significância da função discriminante
A interpretação da análise discriminante só faz
sentido se as funções discriminantes forem
estatisticamente significativas.
A hipótese nula indica que, na população, as médias
de todas as funções discriminantes, para todos os
grupos, são iguais.
Esta hipótese nula pode ser testada pelo  de Wilks.
Determinar a significância da função discriminante – Exemplo
O  de Wilks associado com a função é de 0,3589,
que se transforma num qui-quadrado de 26,130
com 5 graus de liberdade.
Este teste é significativo para além do nível de 5%.
Interpretar os resultados
O valor do coeficiente para uma variável preditiva depende
das outras variáveis preditivas incluídas na função
discriminante.
Pode ter-se uma ideia da importância relativa das variáveis
analisando os coeficientes normalizados da função
discriminante.
Essa importância relativa também pode ser dada pelas
correlações da estrutura – também designados pesos
canónicos ou pesos discriminantes.
Interpretar os resultados – Exemplo
Em geral, variáveis preditivas com valores mais
elevados nos coeficientes normalizados contribuem
mais fortemente para o poder discriminante da
função.
Interpretar os resultados – Exemplo
Estes valores podem ser interpretados da mesma
forma que os coeficientes normalizados.
Ambos devem ser interpretados com precaução.
Interpretar os resultados – Exemplo
Uma vez que as correlações entre as variáveis são baixas,
podemos examinar os coeficientes normalizados e concluir,
com algum cuidado, que o Rendimento anual é a variável
preditiva na discriminação entre grupos, seguida do
Tamanho da família e da Importância dada às férias.
Pode concluir-se o mesmo a partir das correlações de
estrutura.
Interpretar os resultados – Exemplo
Os coeficientes não normalizados da função discriminante
podem ser utilizados para propósitos classificatórios.
Interpretar os resultados – Exemplo
Os centróides dão o valor da função discriminante avaliada
com os valores médios dos grupos.
O grupo 1, que visitou o local turístico, tem um valor positivo.
O grupo 2, que não visitou o local, tem um valor negativo.
Interpretar os resultados – Exemplo
Os sinais dos coeficientes associados com as
variáveis preditivas são todos positivos, o que
sugere que qualquer aumento em qualquer das
variáveis se traduz num aumento da probabilidade
da família visitar a estância turística.
Validar a análise discriminante
Tal como explicado anteriormente, os dados são
divididos aleatoriamente em duas amostras:
• Amostra de análise – utilizada para estimar a
função determinante.
• Amostra de validação – utilizada para criar a
matriz de classificação.
Validar a análise discriminante
Os pesos discriminantes estimados a partir da amostra de
análise são multiplicados pelos valores das variáveis
preditivas da amostra de validação, obtendo-se os scores
discriminantes para os casos desta última amostra.
Estes casos são, então, atribuídos aos grupos usando uma
regra de decisão (por exemplo, o caso é atribuído ao grupo
cujo centróide estiver mais perto).
A percentagem de casos correctamente classificados (hit ratio)
obtém-se dividindo a soma da diagonal pelo número total de
casos.
Validar a análise discriminante
A percentagem de classificação devida ao acaso obtém-se
dividindo 1 pelo número de grupos (se os grupos tiverem
tamanho igual).
A precisão da classificação obtida por análise discriminante
deve ser 25% superior àquela obtida pelo acaso.
Validar a análise discriminante – Exemplo
A percentagem de casos correctamente classificados é:
(12+15)/30 = 0,90, ou 90%.
Mas este valor pode estar artificialmente inflacionado, pois os
dados usados na estimação foram também usados na
validação.
Validar a análise discriminante – Exemplo
Utilizando a amostra de validação, obtém-se uma
percentagem de casos correctamente classificados de
(4+6)/12 = 0,833, ou 83,3%.
Uma vez que a classificação devida ao acaso é de 1/2=50%,
considera-se que a classificação devida à análise
discriminante é satisfatória.
Análise discriminante múltipla
Neste caso, vão ser utilizados os mesmos dados de
partida que foram utilizados no exemplo anterior,
mas os casos vão ser classificados com base
noutra variável categórica.
Seguem-se os passos de:
• Formulação,
• Estimação,
• Determinação da significância,
• Interpretação e
• Validação.
Formulação
As famílias vão ser classificadas em três categorias, com base
no valor gasto nas férias (elevado, médio ou baixo). Existem
dez famílias em cada categoria.
A questão em estudo é saber se as famílias que gastam
valores elevados, médios ou baixos nas férias podem ser
diferenciadas em termos das variáveis:
• Rendimento anual
• Atitude face às viagens
• Importância dada às férias
• Tamanho da família
• Idade do chefe de família
Estimação
A variável Rendimento anual parece ser a que mais diferencia
os grupos. Também as variáveis Atitude face às viagens e
Importância dada às férias parecem criar alguma separação.
Os grupos 1 e 2 assemelham-se em termos de Tamanho da
família e Idade do chefe de família.
Estimação
A matriz de correlação dentro dos grupos indica haver alguma
correlação de Rendimento anual com Importância dada às
férias e Tamanho da família. A Idade do chefe de família tem
uma correlação negativa com Atitude face às viagens.
No entanto estas correlações são baixas, sendo baixa a
probabilidade de provocarem problemas sérios.
Estimação
A significância dos rácios F indica que, quando as variáveis
preditivas são consideradas individualmente, apenas
Rendimento anual e Atitude face às viagens são significantes
a diferenciar entre os grupos.
Estimação
O número de funções discriminantes estimadas é igual ao
número de grupos menos 1, desde que este não seja superior
ao número de variáveis preditivas, caso em que fica limitado
por este número.
# func. discr. = MIN {#grupos-1, #variáveis preditivas}
A primeira função tem o maior rácio de somas de quadrados de
entre grupos sobre somas de quadrados dentro dos grupos.
A segunda função, não relacionada com a primeira, tem o
segundo maior rácio. E assim sucessivamente.
Nem todas as funções são estatisticamente significativas.
Estimação
O número de funções discriminantes neste caso é 2 (número
de grupos menos 1). O valor próprio associado com a
primeira função é 3,8190 o que representa 93,93% da
variância dos dados.
A segunda função tem um valor próprio baixo: 0,2469. A
variância correspondente é apenas de 6,07%.
Determinação da significância
Para testar a hipótese nula que diz que os centróides dos
grupos são iguais, devem considerar-se as duas funções em
simultâneo.
No quadro anterior, o valor 0 debaixo de After Function indica
que não foi removida nenhuma função. Esse teste tem uma
significância para além de 5%.
Quando a primeira função é removida (After Function=1), o
teste não é significativo (Sig.=0,24). Isto indica que a
segunda função não contribui significativamente para
diferenciar os grupos.
Interpretação
Os coeficientes normalizados indicam um coeficiente elevado
para o Rendimento anual na função 1. Por seu lado, a
função 2 tem coeficientes elevados para Atitude face às
viagens, Importância dada às férias e Idade do chefe de
família.
Interpretação
A matriz de estrutura permite concluir da mesma forma que os
coeficientes normalizados.
As variáveis são agrupadas (este agrupamento é
representado com asterisco) conforme contribuam mais para
a função 1 ou função 2.
Interpretação
Diagrama de
disseminação
Interpretação
O diagrama de disseminação (scattergram) mostra que o
grupo 3 tem o valor mais elevado para a função 1, e o grupo
1 o valor mais baixo.
Esta função está relacionada com o Rendimento anual e o
Tamanho da família. Pode esperar-se que famílias com
maior rendimento e maior agregado gastem mais dinheiro
em férias. E famílias com menor rendimento e menor
agregado gastem menos dinheiro em férias.
Interpretação
O diagrama de disseminação mostra ainda que a função 2
tende a separar o grupo 1 (valor mais elevado) do grupo 2
(valor mais baixo).
Esta função está relacionada com Atitude face às viagens,
Importância dada às férias e Idade do chefe de família.
Como as suas correlações com a função 2 são positivas,
esperamos que o grupo 1 tenha valores superiores ao grupo
2 em termos destas 3 variáveis. Isto é confirmado pelas
médias dos grupos.
Interpretação
Mapa territorial
Interpretação
A interpretação do mapa territorial dá-nos informações
semelhantes.
Neste mapa:
• Os centróides são marcados com asteriscos.
• As fronteiras entre grupos são marcadas com números.
Validação
Validação
A validação com base na amostra de análise tem uma
percentagem de (9+9+8)/30=86,67% de casos correctamente
classificados.
A validação com base na amostra de validação tem uma
percentagem de (3+3+3)/12=75% de casos correctamente
classificados.
A classificação devida ao acaso gera uma percentagem de
1/3=33,3% de casos correctamente classificados.
A melhoria que obtivemos com a análise discriminante é mais
de 25% superior à classificação devida ao acaso, logo temos
uma validação satisfatória.
Análise discriminante faseada
As variáveis preditivas são incluídas sequencialmente, por
ordem do seu poder discriminante.
Calcula-se um rácio F para cada variável preditiva. A variável
com rácio mais elevado é a primeira a ser incluída na função
discriminante. A segunda variável a ser incluída é a que tiver
o rácio F imediatamente inferior.
O resultado depende do critério de optimização adoptado. Um
processo comum é o de Mahalanobis que se baseia na
maximização da distância entre os dois grupos mais
próximos.
SPSS
Na barra de menus escolher
Analyze  Classify  Discriminant…
Seleccionar as variáveis independentes para a lista
correspondente. Seleccione a variável dependente
e defina o intervalo de variação em Define Range.
Consulte o ficheiro de dados
Consulte o ficheiro de saída
SPSS
SPSS
Prima o botão Statistics e seleccione Means,
Univariate ANOVAs, e Within-groups correlation.
SPSS
Prima o botão Classify e seleccione os gráficos que
pretende visualizar.
SPSS
Médias
dos
grupos
Group Statistics
Género
m
f
Total
Ordenado actual
Meses desde o início do contrato
Experiência anterior (meses)
Nível de educação (anos)
Ordenado actual
Meses desde o início do contrato
Experiência anterior (meses)
Nível de educação (anos)
Ordenado actual
Meses desde o início do contrato
Experiência anterior (meses)
Nível de educação (anos)
Mean
46581,94
97,11
88,39
14,50
25812,50
97,58
137,08
13,33
38274,17
97,30
107,87
14,03
Std. Deviation
28852,54
,83
74,96
2,60
6305,99
,51
104,70
2,39
24701,84
,75
89,67
2,54
Valid N (listwise)
Weighted
Unweig hted
18,000
18
18,000
18
18,000
18
18,000
18
12,000
12
12,000
12
12,000
12
12,000
12
30,000
30
30,000
30
30,000
30
30,000
30
Os valores das variáveis Ordenado actual e Experiência anterior são
bastante diferentes entre os grupos.
SPSS
Pooled W ithin-Groups Matrices
Correlation
Ordenado actual
Experiência anterior (meses)
Meses desde o início do contrato
Nível de educação (anos)
Ordenado
actual
1,000
,122
-,249
,529
Experiência
anterior
(meses)
,122
1,000
,127
-,072
Meses desde
o início do
contrato
-,249
,127
1,000
-,320
Nível de
educação
(anos)
,529
-,072
-,320
1,000
A matriz de correlação entre grupos indica uma correlação
considerável entre o Ordenado actual e o Nível de educação.
SPSS
Tests of Equality of Group Means
Ordenado actual
Experiência anterior (meses)
Meses desde o início do contrato
Nível de educação (anos)
Wilks'
Lambda
,824
,927
,901
,948
F
5,961
2,212
3,059
1,549
df1
1
1
1
1
df2
28
28
28
28
Sig .
,021
,148
,091
,224
A significância dos rácios F indica que apenas a variável
Ordenado actual pode diferenciar entre os grupos.
SPSS
Os coeficientes
normalizados e a matriz
de estrutura sugerem
que o ordenado é uma
variável discriminante.
Standardized Canonical Discriminant Function Coefficients
Ordenado actual
Meses desde o início do contrato
Experiência anterior (meses)
Nível de educação (anos)
Function
1
-,855
,331
,541
,209
Structure Matrix
Ordenado actual
Meses desde o início do contrato
Experiência anterior (meses)
Nível de educação (anos)
Function
1
-,761
,545
,463
-,388
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
SPSS
Valores próprios e  de Wilks
Eigenv alues
Function
1
Eig envalue
,368a
% of Variance
100,0
Cumulative %
100,0
Canonical
Correlation
,519
a. First 1 canonical discriminant functions were used in the
analysis.
W ilks' Lambda
Test of Function(s)
1
Wilks'
Lambda
,731
Chi-square
8,145
df
4
Sig .
,086
O  de Wilks tem uma significância superior a 5%, devendo aceitar-se a
hipótese nula que indica que, na população, as médias da função
discriminante, para todos os grupos, são iguais.
Download

020-analiseDiscriminante