Algumas conclusões A visão unificada das variantes não-lineares da Análise em Componentes Principais (ACP) abordadas nesta dissertação, conseguida através de funções spline polinomiais, é a principal derivação que resulta deste trabalho. Mostrou-se que as classes de transformações oferecidas pela CATPCA são casos particulares de funções spline polinomiais: Transformações lineares: obtêm-se considerando splines de grau 1, sem nós interiores, o que resulta, como pretendido, num vulgar polinómio de grau 1. A solução óptima da minimização da função perda com este tipo de transformações para todas as variáveis, é equivalente à solução proveniente duma ACP clássica. Transformações seccionalmente constantes: obtêm-se considerando splines de grau 0, com o número máximo de nós interiores, o que resulta, como pretendido, numa função em escada. A solução óptima da minimização da função perda com este tipo de transformações para todas as variáveis, é equivalente à solução proveniente duma Análise de Correspondências Múltiplas (HOMALS no SPSS). Os dois casos particulares anteriores são os limites: contemplam valores extremos para o número de nós interiores e os segmentos polinomiais que constituem esses splines têm grau mínimo. As transformações lineares são por isso as mais rígidas, pois só permitem transformar a variável/vector num vector colinear, ou seja, a distância entre os valores da variável transformada é proporcional à distância entre os valores originais. As transformações seccionalmente constantes são as mais livres, pois permitem actuar em subconjuntos de componentes do vector/variável sem qualquer restrição. Conclui-se que as ideias fundamentais das variantes não-lineares da ACP são: 1. enfraquecer a rigidez das transformações lineares; 2. restringir a liberdade das transformações seccionalmente constantes. Os resultados obtidos no capítulo 5 permitem relacionar o diagnóstico do modelo obtido via CATPCA com o diagnóstico do modelo obtido via ACP linear. Esta relação é 99 100 Algumas conclusões proveitosa porque permite algum conforto aos utilizadores da ACP linear, nomeadamente na interpretação do output. Outra derivação importante é que com algumas precauções (nomeadamente quando há variáveis tratadas como Multiple), o utilizador pode recorrer à CATPCA apenas para transformar de forma óptima a matriz dos dados, usando depois a matriz transformada em análises em que se sinta mais familiarizado, nomeadamente a ACP linear. Conclui-se que as transformações spline podem ser interpretadas como a melhor forma de linearizar relações entre variáveis. Este conclusão é consequência do capítulo 4, onde se mostrou a potência dos splines como ferramenta de interpolação, e do capítulo 5, onde se mostrou o seu enquadramento no algoritmo de minimização da perda. Assim, conclui-se que todas as vantagens que decorreriam da realização duma ACP linear sobre as variáveis linearizadas são também obtidas via transformações spline. Os splines têm obviamente a grande vantagem de o seu poder de linearização não estar limitado a determinado tipo de relações não-lineares. Considerações finais Os problemas estudados durante a elaboração deste trabalho permitem a elaboração de algumas questões em aberto. Uma questão que não é discutida nesta dissertação, prende-se com a análise crítica das opções dos responsáveis pela implementação dos splines na CATPCA e consequentes propostas de melhorias. O uso duma matriz indicatriz e a consequente necessidade de discretizar as variáveis, ainda que com opções de discretização pouco severas, é a opção mais estranha numa lógica de capacitar os algoritmos anteriores (HOMALS e PRINCALS) para lidarem com variáveis ”contínuas”. A própria designação escolhida para o algoritmo, CATegorial Principal Components Analysis, não é certamente a ideal. Com a agravante de que o recurso à discretização não será aceite com passividade em certas áreas do conhecimento. Pensa-se que da PRINCALS para a CATPCA se deveria ter recorrido às chamadas matrizes pseudo-indicatrizes como forma de armazenar a codificação via splines. Note-se que esta alternativa fora já avançada por Van Rijckevorsel em 1987 [DeL88], mas ainda não foi usada no design dos algoritmos. Espera-se obter, a curto prazo, resultados mais concretos sobre este assunto. Outra questão importante diz respeito à aplicação da CATPCA a bases de dados não provenientes de simulação. Pela natureza essencialmente teórica desta dissertação, não se dedicou muita atenção a este aspecto, no entanto, importa divulgar, com exemplos, as vantagens dos splines em problemas de redução da dimensão. A verdade é que estes são escassos na literatura. Qual será a área do conhecimento em que as suas potencialidades mais se relevam ? Psicometria ? Econometria ?