ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS Carlos A. A. Varella Segundo KHATTREE & NAIK (2000) é uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes. A discriminação ou separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se procurar características capazes de serem utilizadas para alocar objetos em diferentes grupos previamente definidos. A classificação ou alocação pode ser definida como um conjunto de regras que serão usadas para alocar novos objetos (JOHNSON & WICHERN, 1999). A função que separa objetos pode também servir para alocar, e, o inverso, regras que alocam objetos podem ser usadas para separar. Normalmente, discriminação e classificação se sobrepõem na análise, e a distinção entre separação e alocação é confusa. Segundo REGAZZI (2000), o problema da discriminação entre dois ou mais grupos, visando posterior classificação, foi inicialmente abordado por Fisher (1936). Funções matemáticas capazes de classificar um indivíduo X em uma de várias populações i; Com base em medidas de um número p de características, buscando minimizar a probabilidade de má classificação, isto é, minimizar a probabilidade de classificar erroneamente um indivíduo em uma população i, quando realmente pertence a população j. Regiões de alocação são conjunto de valores separados por uma fronteira definida por uma função discriminante qualquer. Função Linear Função Quadrática Uma boa regra de classificação deve resultar em pequenos erros; Deve haver pouca probabilidade de má classificação; Segundo JOHNSON & WICHERN (1999) para que isso ocorra a regra de classificação deve considerar as probabilidades a priori e os custos de má classificação. As regras de classificação devem considerar se as variâncias das populações são iguais ou não; Quando as variâncias são iguais as funções discriminantes são lineares; Quando são diferentes as funções discriminantes são quadráticas; Redes neurais e lógica fuzzy geram planos não-lineares de separação. É uma combinação linear de características originais que se caracteriza por produzir separação máxima entre duas populações Demonstra-se que a função linear do vetor aleatório X que produz separação máxima entre duas populações é dada por: D X L ' X 1 2 ' 1 X L X = = = = vetor discriminante; vetor aleatório de características das populações; vetor de médias p-variado; matriz comum de covariâncias das populações 1 e 2; O valor da função discriminante de Fisher para uma dada observação é: ' 1 Dxo 1 2 xo O ponto médio entre as duas médias populacionais univariadas µ1 e µ1 é: 1 m 1 2 ' 1 1 2 2 1 m D1 D2 2 A regra de classificação baseada na função discriminante de Fisher é: Alocar xo em 1 se D xo 1 2 ' xo m 1 Alocar xo em 2 se Dxo 1 2 ' xo < m 1 nS121c2 Assumimos que as populações 1 e 2 têm a mesma matriz de covariâncias . n1 1 n2 1 Sc S1 S2 n1 1 n2 1 n1 1 n2 1 Sc n1 n2 S1 S2 = estimativa da matriz comum de covariâncias ; = número de observações da população 1; = número de observações da população 2; = estimativa matriz de covariâncias da população 1; = estimativa matriz de covariâncias da população 2; É obtida substituindo-se os parâmetros µ1, µ2 e pelas respectivas quantidades amostrais: x2 ' ˆ D x L x x x1 1 Sc ' x S 2 1 c x D x = função discriminante linear amostral de Fisher; Lˆ ' x1 x2 = estimativa do vetor disriminante; = média amostral da população 1; = média amostral da população 2. Vamos considerar os dados de duas raças de insetos (Quadro 1), apresentados por HOEL (1966) e citado por REGAZZI (2000). Número médio de cerdas primordiais (X1) e número médio de cerdas distais (X2) em duas raças de insetos Raça A Raça B X1 X2 X1 X2 6,36 5,24 6,00 4,88 5,92 5,12 5,60 4,64 5,92 5,36 5,64 4,96 6,44 5,64 5,76 4,80 6,40 5,16 5,96 5,08 6,56 5,56 5,72 5,04 6,64 5,36 5,64 4,96 6,68 4,96 5,44 4,88 6,72 5,48 5,04 4,44 6,76 5,60 4,56 4,04 6,72 5,08 5,48 4,20 5,76 4,80 Raça A, características 1 e 2 x A1 6,46545 A x A2 5,32364 Raça B, características 1 e 2 xB1 5,55000 B x 4 , 72667 B2 Raça A 0,091287 0,011258 SA 0,011258 0,052625 Raça B 0,160327 0,107418 SB 0,107418 0,111661 Assumindo-se que: A B 11 1 12 1 Sc S1 S2 11 1 12 1 n1 1 n2 1 0,12745 0,06162 Sc 0 , 06162 0 , 08354 A matriz inversa é calculada com MATLAB Função: inv(sc) 12,1960015 S 8,995464 1 c 8,995964 18,604583 O vetor discriminante é dado por: Lˆ ' X A X B ' SC1 6,46545 5,55000 0,91545 XA XB 5,32364 4,72667 0,59697 ' X A X B 0,91545 0,59697 12,1960015 S 8,995464 1 c 8,995964 18,604583 ˆ ' 1 ˆ L L' X A X B SC ' 5,794819 2,871023 12,1960015 8.995964 0,91545 0,59697 8,995464 18,6004583 Lˆ ' X A X B ' SC1 5,794819 2,871023 𝐿′ = 5,794819 2,871023 ' ˆ D X L X 𝑋1 𝐷 𝑋 = 5,794819 2,871023 ∙ 𝑋2 𝐷 𝑋 = 5,794819 ∙ 𝑋1 2,871023 ∙ 𝑋2 Ponto médio da Raça A 1 mˆ Dx A DxB 2 Dx A Lˆ ' x A 5,794819 6,46545 2,871023 5 , 32364 DxA 52,750405 Ponto médio da Raça B DxB Lˆ ' xB 5,794819 5,55000 2,871023 4 , 72667 DxB 45,731624 Ponto médio das populações 1 ˆ 52,750405 45,731624 49,241 m 2 ˆ 49,241 m Tendo-se um novo indivíduo Xo. Alocar em Raça A se Dxo 49,241 Alocar em Raça B se Dxo < 49,241 ˆ 49,241 m Determina se será usada a matriz comum ou não na análise discriminante. Se for pool=yes, o SAS usa a matriz comum para calcular as distâncias entre grupos e o resultado é uma função discriminante linear. Se pool=no, o SAS usa as matrizes de covariância de cada grupo individualmente para o cálculo das distâncias. Neste caso obtemos funções discriminantes quadráticas. O padrão do SAS é POOL=YES.