ANÁLISE
DISCRIMINANTE
LIG, 30 de outubro de 2008
INTRODUÇÃO




Técnicas multivariadas que dizem respeito à “separação” de
conjuntos distintos de objetos (ou observações) e à alocação de
novos objetos (observações a grupos previamente definidos.
Principais objetivos:
Descrever gráfica e algebricamente os aspectos que diferenciam
os grupos de objetos (observações). Determinar “discriminantes”
entre grupos. (discriminação).
Alocar objetos em classes previamente definidas. A ênfase aqui
está na derivação de uma regra que pode ser usada para
designar de forma ótima um novo objeto às classes existentes.
MÉTODO DE FISHER



Considere duas classes (populações) 1 e 2.
Os objetos ou observações são ordinariamente
separados ou classificados com base nas medidas
associadas à variável X de dimensão px1. Os
valores observados de X diferem de uma classe
para outra.
Se os valores de X não forem muito diferentes dos
objetos em 1 e 2, as classes serão indistinguíveis
e novos objetos poderiam ser designados
aleatoriamente a qualquer uma das classes.
MÉTODO DE FISHER



Estas duas populações podem ser descritas pelas
respectivas funções de densidade de probabilidade
f1(x) e f2(x), e conseqüentemente, podemos falar na
designação de observações às populações.
A idéia de Fisher foi transformar as observações
multivariadas X em observações univariadas Y tal
que as Y 's obtidas a partir das populações 1 e 2
fossem o mais “separadas” possíveis.
Fisher sugeriu tomar combinações lineares das
componentes de X para criar as variáveis Y 's.
Método de Fisher
Suponhaπ i uma populaçãocarcaterizada por um vetoraleatórioX tal que
E[ X | π i ]   e Var( X | π i )   i , i  1,2.
i
Seja a um vetorem R p de constantesfixadas e defina
Y  a T X . Então,temos que sob a i - ésima populaçãovale:
E[Y | π i ]   iY  a T  e Var(Y | π i )  a T  i a T , i  1,2.
i
Finalmente, começaremos que as matrizes de covariânciassão
iguaisnas duas populaçõestal que 1   2   .
Fisher selecionou a tal que a distância quadrada entre
1Y e 2Y relativa à variabilidade dos Y's seja a maior possível.
Isto é, selecionou a tal que a razão:
1Y   2Y 
2
Var(Y )

a

T
(   )
1
T
a a
2

2
seja máxima.
Método de Fisher
Fazendo     , temos entãoo problemade maximizar
1
a razão
(a T  ) 2
a a
T
2
, cuja solução,via desigualda
de de Cauchy- Schwarzé dada por :
a   1 , cujo valormáximo é dado por  T  -1.


Fazendoa   1   1    , temos
 
Y 
1
1

1
 X queé conhecidacomo a função
T
2
2
discriminante linearde Fisher.
Função discriminante linear de Fisher

Podemos usar a função discriminante linear de Fisher
como um esquema de classificação. A saber, defina
Y0=(1- 2)TΣ-1x0 como o valor da função para uma nova
observação x0 e considere o ponto médio entre as duas
médias populacionais, dado por



1
1
m  1Y   2Y      T  1   
2
1
2
2
2 1

Função discriminante linear de Fisher
Subtraindo m dos valores esperados de Y0
condicionados a cada uma das duas populações obtemos:

E[Y0 |  1 ]  m    
1


T
2

1
1 

1
 1   2 T  1  1   2
2
pois é positivadefinida.



  0,


1
 1   2 T  1  1   2 
2
e

1
  
2
E[Y0 |  2 ]  m    
1
1

 
  
T
1
2
T
2
2
1
1





1
 1   2 T  1  1   2 
2

2
  0,
Função discriminante linear de Fisher



Assim, se Y0 provém da população 1 esperamos que ele
seja superior ao ponto médio m e, caso contrário,
esperamos que ele seja inferior ao ponto médio m. Desse
modo a regra de classificação é dada por
Alocar a nova observação x0 em
 1 , se y 0  m  0

 2 , se y 0  m  0
Porém 1, 2, e Σ são geralmente desconhecidos. Portanto,
a regra acima não pode ser implementada a menos que a e
m possam ser estimados a partir das observações
amostrais.
Estimação



Suponha que tenhamos amostras de tamanhos n1 e n2 de 1 e 2,
respectivamente.
Sejam X1 e X2 as matrizes de dados de ordens n1 x p e
n2 x p.
A partir dessas matrizes, calculamos os vetores de médias amostrais e as
matrizes de covariância amostrais.
Notação:
Seja X i , i  1,2 matriz de ordem ni  p tal que
 X (i ) 
 1(i ) 
X 
X i   2 , com X (ki ) a k - ésima observaçãoda populaçãoπ i

 (i ) 
 X ni 




(i )
tal que X (ki )  X k(i1) , X k(i2) ,  , X kp
com
X kj(i ) - a observaçãoda j - ésima variável(j  1,2,.., p) da k - ésima
observação(k  1,2,..., n i ) da i - ésima população.
Notação
1
Xi 
ni
ni

X (ki ) , i  1,2
k 1

ni


T
1
(i )
(i )
Si 
X k  X i X k  X i , i  1,2.
ni  1 k 1
Como estamos supondo covariâncias iguais nas duas
populações, o estimador não tendencioso para a matriz
Σ de covariância populacional é dado por:
(n1  1) S1  (n2  1) S 2
S
n1  n2  2
Estimação


Dadas as amostras, observamos os
valores x1 , x2 e S
Substituímos então esses valores na
regra anterior tal que a regra estimada é
alocar a nova observação x0 em
ˆ 0
 1 , se y 0  m
1
ˆ
,
com
m

( x1  x2 ) S 1 ( x1  x2 ).

ˆ 0
2
 2 , se y 0  m
Informações adicionais




(a T  ) 2
Seja 2 o valor máximo da razão populacional : a T  a
2 é chamado distância quadrada entre as duas
populações.
O máximo da razão amostral é D2= d'S-1d, em que
D2 é a distância quadrada amostral e d é a
diferença entre os vetores de média amostrais.
Para duas populações a “separação” máxima
relativa que pode ser obtida considerando-se todos
os compostos lineares das observações
multivariadas é igual a distância D.
Teste de separação
• A distância quadrada D2 pode ser usada para testar
a diferença entre médias para as duas populações via teste
T2 de Hotelling da seguinte forma sob a suposição de
normalidade.
n1n2
 
D2
n1  n2
2
Sob H 0 a hipótesenulade que as médias das duas populaçõessão iguais,
n 1  n2  p  1 2
 ~ F p ,n1  n2  p 1
p (n1  n2  2)
Se a hipótese nula é rejeitada, podemos concluir que a diferença
entre as duas populações é significativa.
Comentários



Separação significativa entre populações não
implica necessariamente em “boa” regra de
classificação.
A eficácia de um procedimento de classificação
pode ser avaliada independentemente de qualquer
teste de separação.
Por outro lado, se a separação não é significativa, a
busca por uma regra “boa” de classificação será
provavelmente infrutífera.
Classificação em uma de duas populações



Regras de classificação são geralmente desenvolvidas a
partir de amostras de “aprendizado”, isto é amostras
para as quais sabe-se de qual das duas populações
provém o objeto.
As medidas características dos objetos selecionados
aleatoriamente são, então, examinadas pelas suas
diferenças para os dois grupos.
Na prática: o conjunto de todos os resultados amostrais
é dividido em duas regiões R1 e R2 tal que se uma nova
observação ´cair em R1 ela será alocada na população
1 e, se cair em R2, ela será alocada na população 2.
Classificação em uma de duas populações






Deve ficar claro que as regras de classificação geralmente não
fornecem um método de designação livre de erro. Isto ocorre porque
pode não existir uma distinção entre as medidas características das
duas populações, isto é, os grupos podem de alguma forma sobreporse.
É, então, possível classificar incorretamente uma observação
proveniente da população 1 na população 2 e vice-versa.
Um bom procedimento de classificação deveria resultar em poucas
classificações incorretas.
Em outras palavras, as chances, ou probabilidades de classificação
incorreta devem ser pequenas.
Outro aspecto da classificação é o custo que pode-se estar sujeito
devido a uma classificação incorreta.
Suponha que classificar um objeto de 1 em 2 represente um erro
mais sério do que classificar um objeto de 2 em 1. Um procedimento
de classificação ótimo deve sempre que possível levar em conta os
custos associados à classificação incorreta.
Custo de classificação
incorreta






Sejam f1(x) e f2(x), as densidades de probabilidade associadas às
populações 1 e 2.
Um objeto, caracterizado pelas medidas dadas pelo vetor x, deve
ser designado de forma ótima a 1 ou a 2.
Seja R a coleção de todas as possíveis observações x.
Sejam R1 o conjunto de valores no espaço amostral para os quais
classificamos o objeto em 1 e, R2 o conjunto dos valores
restantes para os quais classificamos o objeto em 2.
Como todo objeto deve ser classificado em uma, e somente uma,
das duas populações segue que os conjuntos R1 e R2 devem ser
mutuamente exclusivos e exaustivos tal que R1 R2= e
R1UR2=R.
A probabilidade condicional, p21, de classificar um objeto de 1
em 2 é:
p 21 
 f ( x)d x
1
R2
Custo de classificação
incorreta

Similarmente, a probabilidade
condicional, p12, de classificar
um objeto de 2 em 1 é:
p12 
f
2 ( x)d x
R1
Sejam 1 a probabilidade a priori de um objeto pertencer a 1 e, 2 a
probabilidade a priori de um objeto pertencer a 2. A probabilidade
total de classificação incorreta é então dada por:
PTCI= 1 p21 + 2 p12
As regras de classificação são freqüentemente avaliadas em termos
de suas probabilidades de classificação incorreta, mas este critério
não leva em consideração os custos de classificação.
Custo de classificação
incorreta
Observação
proveniente de:
Alocada em 1
Alocada em 2
1
0
C21
2
C12
0
Para qualquer regra de classificação, o custo esperado de classificação
incorreta (CECI) é dado por:
CECI=C21 1 p21 + C12 2 p12
Uma regra de classificação razoável deve ter um CECI tão pequeno
quanto possível.
Regras de alocação ótimas


Sugere-se que uma regra de classificação adequada poderia ser
determinada pela minimização do custo esperado de
classificação incorreta (CECI). Em outras palavras, as regiões R1
e R2 devem ser escolhidas tal que o CECI seja minimizado
Resultado: As regiões R1 e R2 que minimizam o CECI são
definidas pelos valores de x para os quais as seguintes
desigualdades valem:
R1 :
R2 :
f1 ( x) C12 2

f 2 ( x) C211
f1 ( x) C12 2

f 2 ( x) C211
Regras de alocação ótimas
A implementação dessa regra requer

o cálculo da razão das funções de densidade em x0
(nova observação);

a razão entre os custos de classificação incorreta C12 e
C21 e,

a razão das probabilidades de incidência a priori, 1 e 2.
Casos especiais:
f1 ( x ) C12

f 2 ( x ) C 21
f1 ( x ) C12

f 2 ( x ) C 21
R1 :
1) Probabilidades de incidência a priori iguais:
R2 :
2) Custos de classificação incorreta iguais:
R1 :
R2 :
f1 ( x )  2

f 2 ( x ) 1
f1 ( x )  2

f 2 ( x ) 1
3) Custos de classificação incorreta iguais e prioris iguais:
R1 :
R2 :
f1 ( x)
1
f 2 ( x)
f1 ( x)
1
f 2 ( x)
Comentários



Quando as probabilidades a priori são
desconhecidas considera-se, em geral, prioris
iguais.
Quando a razão entre os custos de classificação
incorreta é desconhecida, toma-se, em geral, custos
de classificação incorreta iguais.
Quando ambas as razões são desconhecidas,
tomam-se custos e prioris iguais.
Exemplo





Um pesquisador dispõe de dados suficientes para
estimar as funções de densidade f1(x) e f2(x), às
populações 1 e 2, respectivamente.
Suponha C21=5 unidades e C12=10 unidades.
Além disso, sabe-se que cerca de 20% de todos os
objetos pertencem a 2.
Suponha que uma nova observação x0 resultou em
f1(x0)=0.3 e f2(x0)=0.4.
Usando a regra do CECI mínimo, em qual das duas
populações você classificaria esta nova
observação?
Exemplo - solução
R1 :
R2 :
como
f1 ( x 0 )
10 0,2
 
 0,5
f 2 ( x 0 ) 5 0,8
f1 ( x 0 )
 0,5
f2 (x0 )
f1 ( x 0 )
f2 (x0 )
 0,75  0,5, então classificamos x 0 em  1.
Observações




Outros critérios diferentes do critério do CECI mínimo
podem ser usados para derivar procedimentos ótimos de
classificação.
Por exemplo, pode-se ignorar os custos de classificação
incorreta e escolher R1 e R2 que minimizam a probabilidade
total de classificação incorreta
(PTCI= 1 p21
+ 2 p 12).
Matematicamente, o problema aqui é equivalente ao
problema de minimização do custo esperado de
classificação (CECI) quando os custos C21 e C 12 são
iguais.
Conseqüentemente, as regiões ótimas são
R1 :
R2 :
f1 ( x )  2

f 2 ( x ) 1
f1 ( x )  2

f 2 ( x ) 1
Probabilidade a posteriori de classificação incorreta

Podemos também alocar uma nova observação x0 à população com
maior probabilidade de incidência a posteriori P(i|x0) em que
P( 1 | x 0 ) 
P( 2 | x 0 ) 
1P(observar x 0 |  1 )
P(observar x 0 )
 2 P(observar x 0 |  2 )
P(observar x 0 )
 f (x )
 1 f1 ( x10 )1 20f 2 ( x0 ) e
 f (x )
 1 f1 ( x20 )2 20f 2 ( x0 )
Classificamos x0 em 1 se P(1 | x0 )  P( 2 | x0 )
Comentários

A regra obtida usando probabilidades a
posteriori de classificação é a mesma regra
quando consideram-se custos de classificação
incorreta iguais, mas tem a vantagem na
identificação de designações menos óbvias.
Duas populações normais


Suponha agora que f1(x) e f2(x), sejam
densidades normais p-variadas com vetores de
média μ1 e μ2 e matrizes de covariância 1 e 2.
Caso 1: 1=2=.


f1 ( x)
 1

 exp- ( x   1 )T  1 ( x   1 )  ( x   2 )T  1 ( x   2 ) 
f 2 ( x)
 2

Populações normais, covariâncias
iguais

Nesse caso, as regiões de classificação são
dadas por:
R1 :
R1 :




f1 ( x)
 1
 C 
 exp- ( x   1 )T  1 ( x   1 )  ( x   2 )T  1 ( x   2 )   12 2
f 2 ( x)
 2
 C211
f1 ( x)
 1
 C 
 exp- ( x   1 )T  1 ( x   1 )  ( x   2 )T  1 ( x   2 )   12 2
f 2 ( x)
 2
 C211
Populações normais, covariâncias iguais

Aplicando a função log na base e, em ambos os
lados da desigualdade obtida obtém-se a
seguinte regra de classificação simplificada:
 C12 2 
1
T 1
.
R1 : (  1   2 )  x 0  (  1   2 )  (  1   2 )  ln
2
 C211 
T
1
Comparando a regra do CECI mínimo e essa regra com
o método de Fisher observe que os procedimentos
serão equivalentes de os custos e probabilidades de
incidência a priori forem iguais.
Função discriminante linear no
R


No R está disponível no pacote MASS a
função lda (linear discriminant analysis).
Exemplo no R
Download

ANÁLISE DISCRIMINANTE