Algumas conclusões
A visão unificada das variantes não-lineares da Análise em Componentes Principais (ACP)
abordadas nesta dissertação, conseguida através de funções spline polinomiais, é a principal derivação que resulta deste trabalho.
Mostrou-se que as classes de transformações oferecidas pela CATPCA são casos particulares de funções spline polinomiais:
Transformações lineares: obtêm-se considerando splines de grau 1, sem nós interiores,
o que resulta, como pretendido, num vulgar polinómio de grau 1. A solução óptima da
minimização da função perda com este tipo de transformações para todas as variáveis, é
equivalente à solução proveniente duma ACP clássica.
Transformações seccionalmente constantes: obtêm-se considerando splines de grau 0,
com o número máximo de nós interiores, o que resulta, como pretendido, numa função
em escada. A solução óptima da minimização da função perda com este tipo de transformações para todas as variáveis, é equivalente à solução proveniente duma Análise de
Correspondências Múltiplas (HOMALS no SPSS).
Os dois casos particulares anteriores são os limites: contemplam valores extremos
para o número de nós interiores e os segmentos polinomiais que constituem esses splines
têm grau mínimo. As transformações lineares são por isso as mais rígidas, pois só permitem transformar a variável/vector num vector colinear, ou seja, a distância entre os
valores da variável transformada é proporcional à distância entre os valores originais. As
transformações seccionalmente constantes são as mais livres, pois permitem actuar em
subconjuntos de componentes do vector/variável sem qualquer restrição. Conclui-se que
as ideias fundamentais das variantes não-lineares da ACP são:
1. enfraquecer a rigidez das transformações lineares;
2. restringir a liberdade das transformações seccionalmente constantes.
Os resultados obtidos no capítulo 5 permitem relacionar o diagnóstico do modelo
obtido via CATPCA com o diagnóstico do modelo obtido via ACP linear. Esta relação é
99
100
Algumas conclusões
proveitosa porque permite algum conforto aos utilizadores da ACP linear, nomeadamente
na interpretação do output. Outra derivação importante é que com algumas precauções
(nomeadamente quando há variáveis tratadas como Multiple), o utilizador pode recorrer
à CATPCA apenas para transformar de forma óptima a matriz dos dados, usando depois
a matriz transformada em análises em que se sinta mais familiarizado, nomeadamente a
ACP linear.
Conclui-se que as transformações spline podem ser interpretadas como a melhor forma
de linearizar relações entre variáveis. Este conclusão é consequência do capítulo 4, onde se
mostrou a potência dos splines como ferramenta de interpolação, e do capítulo 5, onde se
mostrou o seu enquadramento no algoritmo de minimização da perda. Assim, conclui-se
que todas as vantagens que decorreriam da realização duma ACP linear sobre as variáveis
linearizadas são também obtidas via transformações spline. Os splines têm obviamente
a grande vantagem de o seu poder de linearização não estar limitado a determinado tipo
de relações não-lineares.
Considerações finais
Os problemas estudados durante a elaboração deste trabalho permitem a elaboração de
algumas questões em aberto.
Uma questão que não é discutida nesta dissertação, prende-se com a análise crítica
das opções dos responsáveis pela implementação dos splines na CATPCA e consequentes
propostas de melhorias. O uso duma matriz indicatriz e a consequente necessidade de
discretizar as variáveis, ainda que com opções de discretização pouco severas, é a opção
mais estranha numa lógica de capacitar os algoritmos anteriores (HOMALS e PRINCALS)
para lidarem com variáveis ”contínuas”. A própria designação escolhida para o algoritmo,
CATegorial Principal Components Analysis, não é certamente a ideal. Com a agravante
de que o recurso à discretização não será aceite com passividade em certas áreas do
conhecimento. Pensa-se que da PRINCALS para a CATPCA se deveria ter recorrido
às chamadas matrizes pseudo-indicatrizes como forma de armazenar a codificação via
splines. Note-se que esta alternativa fora já avançada por Van Rijckevorsel em 1987
[DeL88], mas ainda não foi usada no design dos algoritmos. Espera-se obter, a curto
prazo, resultados mais concretos sobre este assunto.
Outra questão importante diz respeito à aplicação da CATPCA a bases de dados não
provenientes de simulação. Pela natureza essencialmente teórica desta dissertação, não
se dedicou muita atenção a este aspecto, no entanto, importa divulgar, com exemplos, as
vantagens dos splines em problemas de redução da dimensão. A verdade é que estes são
escassos na literatura. Qual será a área do conhecimento em que as suas potencialidades
mais se relevam ? Psicometria ? Econometria ?
Download

Algumas conclusões