ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS
PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS
Carlos A. A. Varella

Segundo KHATTREE & NAIK (2000) é uma
técnica da estatística multivariada que
estuda a separação de objetos de uma
população em duas ou mais classes.

A discriminação ou separação é a primeira
etapa, sendo a parte exploratória da análise e
consiste em se procurar características
capazes de serem utilizadas para alocar
objetos em diferentes grupos previamente
definidos.

A classificação ou alocação pode ser definida
como um conjunto de regras que serão
usadas para alocar novos objetos (JOHNSON
& WICHERN, 1999).


A função que separa objetos pode também
servir para alocar, e, o inverso, regras que
alocam objetos podem ser usadas para
separar.
Normalmente, discriminação e classificação
se sobrepõem na análise, e a distinção entre
separação e alocação é confusa.



Segundo REGAZZI (2000) o problema da
discriminação entre dois ou mais grupos, visando
posterior classificação, foi inicialmente abordado
por Fisher (1936).
Funções matemáticas capazes de classificar um
indivíduo X em uma de várias populações i;
Com base em medidas de um número p de
características, buscando minimizar a
probabilidade de má classificação, isto é,
minimizar a probabilidade de classificar
erroneamente um indivíduo em uma população
i, quando realmente pertence a população j.

Regiões de alocação são conjunto de valores
separados por uma fronteira definida por
uma função discriminante qualquer.
Função Linear
Função Quadrática



Funções discriminantes podem ser modelos
estatísticos, de redes neurais ou lógica fuzzy.
Os parâmetros são ajustados a partir de
amostras de treinamento.
O modelo de Fisher é estatístico.



Uma boa regra de classificação deve resultar
em pequenos erros;
Deve haver pouca probabilidade de má
classificação;
Segundo JOHNSON & WICHERN (1999) para
que isso ocorra a regra de classificação deve
considerar as probabilidades a priori e os
custos de má classificação.




As regras de classificação devem considerar
se as variâncias das populações são iguais ou
não;
variâncias de populações iguais gera funções
discriminantes lineares;
variâncias de populações diferentes gera
funções discriminantes quadráticas;
Redes e Fuzzy geram planos não-lineares de
separação.

É uma combinação linear de características
originais que se caracteriza por produzir
separação máxima entre duas populações

Demonstra-se que a função linear do vetor
aleatório X que produz separação máxima
entre duas populações é dada por:
D X   L ' X  1  2  '  1  X
L
X


=
=
=
=
vetor discriminante;
vetor aleatório de características das populações;
vetor de médias p-variado;
matriz comum de covariâncias das populações 1 e 2;

O valor da função discriminante de Fisher
para uma dada observação é:
'
1
Dxo   1  2     xo
O ponto médio entre as duas médias
populacionais univariadas µ1 e µ1 é:
1
m  1  2 '  1  1  2 
2
1
m  D1   D2 
2

A regra de classificação baseada na função
discriminante de Fisher é:
Alocar xo em 1 se D xo   1   2 '   xo  m
1
Alocar xo em 2 se Dxo   1  2 '   xo < m
1
nS121c2

Assumimos que as populações 1 e 2 têm a
mesma matriz de covariâncias .




n1  1
n2  1
Sc  
 S1  
 S2


 n1  1  n2  1
 n1  1  n2  1
Sc
n1
n2
S1
S2
= estimativa da matriz comum de covariâncias ;
= número de observações da população 1;
= número de observações da população 2;
= estimativa matriz de covariâncias da população 1;
= estimativa matriz de covariâncias da população 2;

É obtida substituindo-se os parâmetros µ1, µ2
e  pelas respectivas quantidades amostrais:
x2
'
ˆ


D x  L  x  x
x1
1
Sc
'

 x S
2
1
c
x
D x  = função discriminante linear amostral de Fisher;
Lˆ '
x1
x2
=
estimativa do vetor disriminante;
=
média amostral da população 1;
=
média amostral da população 2.

Vamos considerar os dados de duas raças de
insetos (Quadro 1), apresentados por HOEL
(1966) e citado por REGAZZI (2000).
Número médio de cerdas primordiais (X1) e número médio de cerdas distais (X2)
em duas raças de insetos
Raça A
Raça B
X1
X2
X1
X2
6,36
5,24
6,00
4,88
5,92
5,12
5,60
4,64
5,92
5,36
5,64
4,96
6,44
5,64
5,76
4,80
6,40
5,16
5,96
5,08
6,56
5,56
5,72
5,04
6,64
5,36
5,64
4,96
6,68
4,96
5,44
4,88
6,72
5,48
5,04
4,44
6,76
5,60
4,56
4,04
6,72
5,08
5,48
4,20
5,76
4,80

Raça A
 x A1  6,46545 
A     

 x A2  5,32364 

Raça B
 xB1  5,55000 
B     

 xB 2  4,72667 

Raça A
0,091287 0,011258 
SA  

0,011258 0,052625 

Raça B
0,160327 0,107418 
SB  

0,107418 0,111661 

Assumindo-se que:
 A  B  




11  1
12  1
Sc  
 S1  
 S2


 11  1  12  1
 n1  1  n2  1
0,12745 0,06162
Sc  

0
,
06162
0
,
08354




A matriz inversa é calculada com MATLAB
Função: inv(sc)
12,1960015
S 
 8,995464
1
c
 8,995964 

18,604583 

A função discriminante linear amostral de
Fisher é:
Dx  5,794819 x1  2,871023 x2

Ponto médio da Raça A
1
mˆ  Dx A   DxB 
2
Dx A   Lˆ ' x A  5,794819
6,46545 
2,871023   

5
,
32364


DxA   52,750405

Ponto médio da Raça B
DxB   Lˆ ' xB  5,794819
5,55000 
2,871023   

4
,
72667


DxB   45,731624

Ponto médio das populações
1
ˆ   52,750405  45,731624   49,241
m
2
ˆ  49,241
m


Tendo-se um novo indivíduo Xo.
Alocar em Raça A se
Dxo   49,241

Alocar em Raça B se
Dxo  < 49,241
ˆ  49,241
m

Usando o programa computacional MATLAB,
classificar um novo indivíduo que apresenta
número médio de cerdas primordiais e distais
de 6,21 e 5,31, respectivamente.
Download

Análise discriminante de Fisher