ANÁLISE DE AGRUPAMENTOS INTERPRETAÇÃO DOS USADA COMO RESULTADOS DA AUXILIAR NA ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA – UM EXEMPLO PRÁTICO Pedro Vicente da Silva Neto, Maria Cristina Falcão Raposo1 Palavras chave: Análise de Correspondência Múltipla, Análise de Agrupamentos, Ensino Superior 1- Introdução Atualmente, as autarquias federais de Ensino Superior no Brasil recebem recursos orçamentários de custeio e capital (OCC), a partir de um modelo matemático com forte componente definido em função da quantidade de aluno equivalente, conceito definido pelo TCU (DECISÃO Nº 408/2002-PLENÁRIO e ACÓRDÃOS N° 1043/2006 e N° 2167/2006 – PLENÁRIO TRIBUNAL DE CONTAS DA UNIÃO ). Estes valores recebidos são administrados de forma centralizada, sendo uma pequena parcela distribuída de forma descentralizada. No caso da Universidade Federal de Pernambuco (UFPE) a descentralização dos recursos referidos é realizada em níveis de unidades ou centros acadêmicos e seus respectivos departamentos. Em 2010 foram distribuídos os recursos entre 68 departamentos e para esta distribuição foram usados como dados básicos em nível de departamento, três variáveis: Z=∑ Produção Científica (publicação de artigos, trabalhos publicados em Congressos, livros e capítulos de livros)/N° de docentes; X=∑ (Carga Horária ministrada na graduação e na pós-graduação)/N° de docentes e Y=∑ (Carga Horária x N° de Alunos)/ N° de docentes. Essas variáveis caracterizam as semelhanças e diferenças entre departamentos e serão usadas para exemplificar o uso da Análise de Agrupamento como auxiliar na interpretação dos resultados da Análise de Correspondência Múltipla (ACM). 1 Departamento de Estatística da Universidade Federal de Pernambuco; e-mail: [email protected] 2- Método Com a demanda crescente de informações faz-se necessário cada vez mais o uso de técnicas analíticas para interpretação das inter-relações dos dados. A Análise Multivariada dispõe de uma diversidade de técnicas que analisam simultaneamente todas as variáveis na interpretação do conjunto de dados e que podem ser utilizados para explicar diversos fenômenos. As técnicas de Análise de Correspondência Múltipla (ACM) e de Análise de Agrupamentos (Cluster Analysis) são classificadas como técnicas de interdependência por analisar mutuamente um conjunto de variáveis e serão usadas para analisar as variáveis utilizadas na distribuição de recursos descentralizados de OCC na UFPE Segundo Alves (2007), os princípios geométricos da ACM permitem representar dentro do Espaço Euclidiano as distâncias entre os pontos linha e/ou coluna resultante da associação entre as variáveis da tabela de contingência. Na ACM as variáveis devem ser de natureza discreta ou categórica. O gráfico resultante permite a visualização das relações mais importantes desse conjunto de variáveis. De acordo com Mingoti (2005), a Análise de Agrupamentos tem por objetivo agrupar elementos da amostra em grupos, e segundo Hair et al (2007), situar as observações homogêneas em grupos, sendo os grupos heterogêneos entre eles. 3- Resultados O resultado da análise descritiva dos dados, apresentados na Tabela 1 revela a existência de grande dispersão dos valores, com coeficientes de variação desde 40 % para a variável X=carga horária ministrada a 65% para a variável Z=produção por docente, o que reflete as diferenças entre departamentos. Tabela 1 - Medidas descritivas das variáveis estudadas Variável Min. Max. Média D.P. C.V. X 71,6 421,5 210,4 84,1 40,0 Y 1255,6 23404,0 9531,6 5760,0 60,4 Z 0 6,5 2,0 1,3 65,0 Para usar a ACM foram definidos quatro intervalos para cada uma das três variáveis e, portanto definidas as seguintes categorias: X1 = 0|--100, X2 = 100 |-- 200, X3 = 200 |-- 300, X4 = 300 |-- ; Y1 = 1000 |-- 3000, Y2 = 3000 |-- 6000, Y3 = 6000 |-- 12000, Y4 = 12000 |--; Z1 = 0 |-- 1, Z2 = 1 |-- 2, Z3 = 2 |-- 3, Z4 = 3 |--. Com o objetivo de averiguar a associação das variáveis com 100% de explicação foram calculados os Autovalores e o percentual de explicação cumulativo. Os valores apresentados na Tabela 2 revelam que para haver total explicação das variáveis pela ACM seria preciso uma disposição gráfica com nove dimensões, o que não é possível. Tabela 2- Autovalores e percentagem de explicação N° de Dimensões 1 2 3 4 5 6 7 8 9 Autovalores % Explicação % Acumulada 0,546779 18,23 18,23 0,496082 16,54 34,76 0,423454 14,12 48,88 0,362728 12,09 60,97 0,313808 10,46 71,43 0,279214 9,31 80,74 0,264657 8,82 89,56 0,184027 6,13 95,69 0,129250 4,31 100 Daí surge à necessidade de outra técnica para auxiliar na interpretação destes dados – a Análise de Agrupamentos cujo dendrograma encontra-se inserido a seguir na Figura 1 a qual sugere uma quantidade mínima de três grupos. . Figura 1 – Dendrograma dos Dados Básicos dos Departamentos da UFPE O resultado da análise de agrupamentos resultou na definição de três grupos e, os valores apresentados na Tabela 3 ilustram as diferenças entre grupos, destacando-se as grandes diferenças na variável Y. Tabela 3 - Valores médios das variáveis por grupo Grupo 1 2 3 Quantidade de deptos 29 12 27 Valores médios X 217,4 183,4 215,0 Y 4618,9 19615,4 10326,5 Z 2,2 1,3 2,1 A partir da definição dos grupos como resultado da análise de agrupamento e o gráfico gerado pela ACM foi então construída a Figura 2 de onde se pode perceber uma possível relação entre o número de docentes e sua produtividade, respectiva carga horária e quantidade de alunos. Pode-se notar que o grupo que contem as categorias (Z3;Y3;X4;Y2;X3) revelam que os departamentos cujos docentes tem maior carga horária apresentam conseqüentemente uma menor produtividade, e por outro lado, no grupo que possui as categorias (Z2;X2;Y4) os professores que apresentam maior produtividade possuem menor carga horária Devido a pequena quantidade de departamentos que constituem as categorias Z1 e Z4, não foi possível agrupá-los usando a ACM. Figura 2 – Sobreposição Gráfica da Análise de Correspondência Múltipla com a Análise de Agrupamentos 4- Conclusão A técnica de ACM é uma técnica útil para disponibilizar associação entre variáveis categóricas, mas analisando apenas o resultado gráfico da técnica de Análise de Correspondência Múltipla, pode-se eventualmente concluir, de forma equivocada, em razão do baixo teor de explicação em dimensão bidimensional. A combinação de outra técnica multivariada, no caso a análise de agrupamentos melhorou, de forma significativa a interpretação gráfica da ACM. Vale a pena destacar que os resultados na análise de agrupamentos foi semelhante quando se usou as variáveis como variáveis contínuas e como variáveis categóricas. Deve-se salientar que esta combinação de métodos, uma vez que resultem melhorias para análise, trará benefícios para as pesquisas que possuem certas particularidades de dados e seus respectivos objetivos. 5- Referências Bibliográficas ALVES, L. B. Tratamento de Dados Multivariados por Análises de Correspondência e de Agrupamentos em dados de idosos de São José dos Campos. Dissertação de Mestrado – Instituto Tecnológico de Aeronáutica – Curso de Engenharia Aeronáutica e Mecânica, pp. 110. HAIR, J. F. Jr. Análise Multivariada de Dados. Porto Alegre: Editora Bookman, 2005. MINGOTI, Sueli Aparecida. Análise de Dados Através de Métodos de Estatística Multivariada: Uma abordagem Aplicada. Belo Horizonte: Editora UFMG, 2005. OLEG, Nenadic; GREENACRE, Michael. Computation of Multiple Correspondence Analysis, with code in R.