ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008 INTRODUÇÃO Técnicas multivariadas que dizem respeito à “separação” de conjuntos distintos de objetos (ou observações) e à alocação de novos objetos (observações a grupos previamente definidos. Principais objetivos: Descrever gráfica e algebricamente os aspectos que diferenciam os grupos de objetos (observações). Determinar “discriminantes” entre grupos. (discriminação). Alocar objetos em classes previamente definidas. A ênfase aqui está na derivação de uma regra que pode ser usada para designar de forma ótima um novo objeto às classes existentes. MÉTODO DE FISHER Considere duas classes (populações) 1 e 2. Os objetos ou observações são ordinariamente separados ou classificados com base nas medidas associadas à variável X de dimensão px1. Os valores observados de X diferem de uma classe para outra. Se os valores de X não forem muito diferentes dos objetos em 1 e 2, as classes serão indistinguíveis e novos objetos poderiam ser designados aleatoriamente a qualquer uma das classes. MÉTODO DE FISHER Estas duas populações podem ser descritas pelas respectivas funções de densidade de probabilidade f1(x) e f2(x), e conseqüentemente, podemos falar na designação de observações às populações. A idéia de Fisher foi transformar as observações multivariadas X em observações univariadas Y tal que as Y 's obtidas a partir das populações 1 e 2 fossem o mais “separadas” possíveis. Fisher sugeriu tomar combinações lineares das componentes de X para criar as variáveis Y 's. Método de Fisher Suponhaπ i uma populaçãocarcaterizada por um vetoraleatórioX tal que E[ X | π i ] e Var( X | π i ) i , i 1,2. i Seja a um vetorem R p de constantesfixadas e defina Y a T X . Então,temos que sob a i - ésima populaçãovale: E[Y | π i ] iY a T e Var(Y | π i ) a T i a T , i 1,2. i Finalmente, começaremos que as matrizes de covariânciassão iguaisnas duas populaçõestal que 1 2 . Fisher selecionou a tal que a distância quadrada entre 1Y e 2Y relativa à variabilidade dos Y's seja a maior possível. Isto é, selecionou a tal que a razão: 1Y 2Y 2 Var(Y ) a T ( ) 1 T a a 2 2 seja máxima. Método de Fisher Fazendo , temos entãoo problemade maximizar 1 a razão (a T ) 2 a a T 2 , cuja solução,via desigualda de de Cauchy- Schwarzé dada por : a 1 , cujo valormáximo é dado por T -1. Fazendoa 1 1 , temos Y 1 1 1 X queé conhecidacomo a função T 2 2 discriminante linearde Fisher. Função discriminante linear de Fisher Podemos usar a função discriminante linear de Fisher como um esquema de classificação. A saber, defina Y0=(1- 2)TΣ-1x0 como o valor da função para uma nova observação x0 e considere o ponto médio entre as duas médias populacionais, dado por 1 1 m 1Y 2Y T 1 2 1 2 2 2 1 Função discriminante linear de Fisher Subtraindo m dos valores esperados de Y0 condicionados a cada uma das duas populações obtemos: E[Y0 | 1 ] m 1 T 2 1 1 1 1 2 T 1 1 2 2 pois é positivadefinida. 0, 1 1 2 T 1 1 2 2 e 1 2 E[Y0 | 2 ] m 1 1 T 1 2 T 2 2 1 1 1 1 2 T 1 1 2 2 2 0, Função discriminante linear de Fisher Assim, se Y0 provém da população 1 esperamos que ele seja superior ao ponto médio m e, caso contrário, esperamos que ele seja inferior ao ponto médio m. Desse modo a regra de classificação é dada por Alocar a nova observação x0 em 1 , se y 0 m 0 2 , se y 0 m 0 Porém 1, 2, e Σ são geralmente desconhecidos. Portanto, a regra acima não pode ser implementada a menos que a e m possam ser estimados a partir das observações amostrais. Estimação Suponha que tenhamos amostras de tamanhos n1 e n2 de 1 e 2, respectivamente. Sejam X1 e X2 as matrizes de dados de ordens n1 x p e n2 x p. A partir dessas matrizes, calculamos os vetores de médias amostrais e as matrizes de covariância amostrais. Notação: Seja X i , i 1,2 matriz de ordem ni p tal que X (i ) 1(i ) X X i 2 , com X (ki ) a k - ésima observaçãoda populaçãoπ i (i ) X ni (i ) tal que X (ki ) X k(i1) , X k(i2) , , X kp com X kj(i ) - a observaçãoda j - ésima variável(j 1,2,.., p) da k - ésima observação(k 1,2,..., n i ) da i - ésima população. Notação 1 Xi ni ni X (ki ) , i 1,2 k 1 ni T 1 (i ) (i ) Si X k X i X k X i , i 1,2. ni 1 k 1 Como estamos supondo covariâncias iguais nas duas populações, o estimador não tendencioso para a matriz Σ de covariância populacional é dado por: (n1 1) S1 (n2 1) S 2 S n1 n2 2 Estimação Dadas as amostras, observamos os valores x1 , x2 e S Substituímos então esses valores na regra anterior tal que a regra estimada é alocar a nova observação x0 em ˆ 0 1 , se y 0 m 1 ˆ , com m ( x1 x2 ) S 1 ( x1 x2 ). ˆ 0 2 2 , se y 0 m Informações adicionais (a T ) 2 Seja 2 o valor máximo da razão populacional : a T a 2 é chamado distância quadrada entre as duas populações. O máximo da razão amostral é D2= d'S-1d, em que D2 é a distância quadrada amostral e d é a diferença entre os vetores de média amostrais. Para duas populações a “separação” máxima relativa que pode ser obtida considerando-se todos os compostos lineares das observações multivariadas é igual a distância D. Teste de separação • A distância quadrada D2 pode ser usada para testar a diferença entre médias para as duas populações via teste T2 de Hotelling da seguinte forma sob a suposição de normalidade. n1n2 D2 n1 n2 2 Sob H 0 a hipótesenulade que as médias das duas populaçõessão iguais, n 1 n2 p 1 2 ~ F p ,n1 n2 p 1 p (n1 n2 2) Se a hipótese nula é rejeitada, podemos concluir que a diferença entre as duas populações é significativa. Comentários Separação significativa entre populações não implica necessariamente em “boa” regra de classificação. A eficácia de um procedimento de classificação pode ser avaliada independentemente de qualquer teste de separação. Por outro lado, se a separação não é significativa, a busca por uma regra “boa” de classificação será provavelmente infrutífera. Classificação em uma de duas populações Regras de classificação são geralmente desenvolvidas a partir de amostras de “aprendizado”, isto é amostras para as quais sabe-se de qual das duas populações provém o objeto. As medidas características dos objetos selecionados aleatoriamente são, então, examinadas pelas suas diferenças para os dois grupos. Na prática: o conjunto de todos os resultados amostrais é dividido em duas regiões R1 e R2 tal que se uma nova observação ´cair em R1 ela será alocada na população 1 e, se cair em R2, ela será alocada na população 2. Classificação em uma de duas populações Deve ficar claro que as regras de classificação geralmente não fornecem um método de designação livre de erro. Isto ocorre porque pode não existir uma distinção entre as medidas características das duas populações, isto é, os grupos podem de alguma forma sobreporse. É, então, possível classificar incorretamente uma observação proveniente da população 1 na população 2 e vice-versa. Um bom procedimento de classificação deveria resultar em poucas classificações incorretas. Em outras palavras, as chances, ou probabilidades de classificação incorreta devem ser pequenas. Outro aspecto da classificação é o custo que pode-se estar sujeito devido a uma classificação incorreta. Suponha que classificar um objeto de 1 em 2 represente um erro mais sério do que classificar um objeto de 2 em 1. Um procedimento de classificação ótimo deve sempre que possível levar em conta os custos associados à classificação incorreta. Custo de classificação incorreta Sejam f1(x) e f2(x), as densidades de probabilidade associadas às populações 1 e 2. Um objeto, caracterizado pelas medidas dadas pelo vetor x, deve ser designado de forma ótima a 1 ou a 2. Seja R a coleção de todas as possíveis observações x. Sejam R1 o conjunto de valores no espaço amostral para os quais classificamos o objeto em 1 e, R2 o conjunto dos valores restantes para os quais classificamos o objeto em 2. Como todo objeto deve ser classificado em uma, e somente uma, das duas populações segue que os conjuntos R1 e R2 devem ser mutuamente exclusivos e exaustivos tal que R1 R2= e R1UR2=R. A probabilidade condicional, p21, de classificar um objeto de 1 em 2 é: p 21 f ( x)d x 1 R2 Custo de classificação incorreta Similarmente, a probabilidade condicional, p12, de classificar um objeto de 2 em 1 é: p12 f 2 ( x)d x R1 Sejam 1 a probabilidade a priori de um objeto pertencer a 1 e, 2 a probabilidade a priori de um objeto pertencer a 2. A probabilidade total de classificação incorreta é então dada por: PTCI= 1 p21 + 2 p12 As regras de classificação são freqüentemente avaliadas em termos de suas probabilidades de classificação incorreta, mas este critério não leva em consideração os custos de classificação. Custo de classificação incorreta Observação proveniente de: Alocada em 1 Alocada em 2 1 0 C21 2 C12 0 Para qualquer regra de classificação, o custo esperado de classificação incorreta (CECI) é dado por: CECI=C21 1 p21 + C12 2 p12 Uma regra de classificação razoável deve ter um CECI tão pequeno quanto possível. Regras de alocação ótimas Sugere-se que uma regra de classificação adequada poderia ser determinada pela minimização do custo esperado de classificação incorreta (CECI). Em outras palavras, as regiões R1 e R2 devem ser escolhidas tal que o CECI seja minimizado Resultado: As regiões R1 e R2 que minimizam o CECI são definidas pelos valores de x para os quais as seguintes desigualdades valem: R1 : R2 : f1 ( x) C12 2 f 2 ( x) C211 f1 ( x) C12 2 f 2 ( x) C211 Regras de alocação ótimas A implementação dessa regra requer o cálculo da razão das funções de densidade em x0 (nova observação); a razão entre os custos de classificação incorreta C12 e C21 e, a razão das probabilidades de incidência a priori, 1 e 2. Casos especiais: f1 ( x ) C12 f 2 ( x ) C 21 f1 ( x ) C12 f 2 ( x ) C 21 R1 : 1) Probabilidades de incidência a priori iguais: R2 : 2) Custos de classificação incorreta iguais: R1 : R2 : f1 ( x ) 2 f 2 ( x ) 1 f1 ( x ) 2 f 2 ( x ) 1 3) Custos de classificação incorreta iguais e prioris iguais: R1 : R2 : f1 ( x) 1 f 2 ( x) f1 ( x) 1 f 2 ( x) Comentários Quando as probabilidades a priori são desconhecidas considera-se, em geral, prioris iguais. Quando a razão entre os custos de classificação incorreta é desconhecida, toma-se, em geral, custos de classificação incorreta iguais. Quando ambas as razões são desconhecidas, tomam-se custos e prioris iguais. Exemplo Um pesquisador dispõe de dados suficientes para estimar as funções de densidade f1(x) e f2(x), às populações 1 e 2, respectivamente. Suponha C21=5 unidades e C12=10 unidades. Além disso, sabe-se que cerca de 20% de todos os objetos pertencem a 2. Suponha que uma nova observação x0 resultou em f1(x0)=0.3 e f2(x0)=0.4. Usando a regra do CECI mínimo, em qual das duas populações você classificaria esta nova observação? Exemplo - solução R1 : R2 : como f1 ( x 0 ) 10 0,2 0,5 f 2 ( x 0 ) 5 0,8 f1 ( x 0 ) 0,5 f2 (x0 ) f1 ( x 0 ) f2 (x0 ) 0,75 0,5, então classificamos x 0 em 1. Observações Outros critérios diferentes do critério do CECI mínimo podem ser usados para derivar procedimentos ótimos de classificação. Por exemplo, pode-se ignorar os custos de classificação incorreta e escolher R1 e R2 que minimizam a probabilidade total de classificação incorreta (PTCI= 1 p21 + 2 p 12). Matematicamente, o problema aqui é equivalente ao problema de minimização do custo esperado de classificação (CECI) quando os custos C21 e C 12 são iguais. Conseqüentemente, as regiões ótimas são R1 : R2 : f1 ( x ) 2 f 2 ( x ) 1 f1 ( x ) 2 f 2 ( x ) 1 Probabilidade a posteriori de classificação incorreta Podemos também alocar uma nova observação x0 à população com maior probabilidade de incidência a posteriori P(i|x0) em que P( 1 | x 0 ) P( 2 | x 0 ) 1P(observar x 0 | 1 ) P(observar x 0 ) 2 P(observar x 0 | 2 ) P(observar x 0 ) f (x ) 1 f1 ( x10 )1 20f 2 ( x0 ) e f (x ) 1 f1 ( x20 )2 20f 2 ( x0 ) Classificamos x0 em 1 se P(1 | x0 ) P( 2 | x0 ) Comentários A regra obtida usando probabilidades a posteriori de classificação é a mesma regra quando consideram-se custos de classificação incorreta iguais, mas tem a vantagem na identificação de designações menos óbvias. Duas populações normais Suponha agora que f1(x) e f2(x), sejam densidades normais p-variadas com vetores de média μ1 e μ2 e matrizes de covariância 1 e 2. Caso 1: 1=2=. f1 ( x) 1 exp- ( x 1 )T 1 ( x 1 ) ( x 2 )T 1 ( x 2 ) f 2 ( x) 2 Populações normais, covariâncias iguais Nesse caso, as regiões de classificação são dadas por: R1 : R1 : f1 ( x) 1 C exp- ( x 1 )T 1 ( x 1 ) ( x 2 )T 1 ( x 2 ) 12 2 f 2 ( x) 2 C211 f1 ( x) 1 C exp- ( x 1 )T 1 ( x 1 ) ( x 2 )T 1 ( x 2 ) 12 2 f 2 ( x) 2 C211 Populações normais, covariâncias iguais Aplicando a função log na base e, em ambos os lados da desigualdade obtida obtém-se a seguinte regra de classificação simplificada: C12 2 1 T 1 . R1 : ( 1 2 ) x 0 ( 1 2 ) ( 1 2 ) ln 2 C211 T 1 Comparando a regra do CECI mínimo e essa regra com o método de Fisher observe que os procedimentos serão equivalentes de os custos e probabilidades de incidência a priori forem iguais. Função discriminante linear no R No R está disponível no pacote MASS a função lda (linear discriminant analysis). Exemplo no R