Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Autoria: Elizabeth de Oliveira Carpenter, Gerson Lachtermacher Resumo O artigo se propõe a apresentar um estudo que com a finalidade de descobrir conhecimento implícito nos dados de alunos de pós-graduação lato sensu de uma Instituição de Ensino Superior (IES), formando uma base de conhecimento que pudesse determinar quais são as características do aluno que mais impactam positivamente / negativamente em seu desempenho no curso. Tais dados foram obtidos do sistema acadêmico e referem-se à formação acadêmica do aluno, função organizacional e setor da economia em que trabalha. Para cumprir este objetivo, foi utilizada a metodologia de mineração de dados (Data Mining), com o apoio do software Weka, de domínio público, e da técnica de Descoberta de Regras de Associação. A utilização da técnica e do software escolhidos se mostrou eficiente na determinação dos fatores críticos que afetam o desempenho dos alunos nestes cursos, em algumas situações, contrapondo-se ao senso comum existente na comunidade acadêmica da IES. 1. Introdução Atualmente vivemos em um momento de turbulência organizacional no qual o conhecimento do negócio, passou a ter papel fundamental para sobrevivência das organizações nesse ambiente competitivo. A empresa que detém conhecimento sobre seus processos, seus clientes, seus prospects e o mercado em que atua, tem grande vantagem competitiva. Diariamente, vários conjuntos de dados são gerados nas organizações. Esta é a memória da empresa e a importância do tratamento e do sincronismo destas informações tornou-se fundamental como ferramenta estratégica/competitiva. No entanto, a maioria das empresas tem um grande volume de dados primários e pouco conhecimento sobre eles. Na Instituição de Ensino Superior (IES) em questão, a realidade não é diferente. A aplicação da metodologia de descoberta de conhecimento realizada, a partir da preparação dos dados históricos da IES, extraiu valiosas informações das bases de dados existentes. Estes conhecimentos irão agora impactar estratégias de marketing da IES. Em qualquer processo de descoberta de conhecimento útil a partir de grandes massas de dados primários, as organizações não podem abrir mão do uso intensivo de ferramentas tecnológicas. No entanto, se mal empregada, a tecnologia pode ser tão devastadora para uma organização quanto sua falta. Dados do mundo real tendem a ser incompletos, sujos e inconsistentes e sem dados de boa qualidade, o processo de descoberta do conhecimento é pobre. Neste caso, de nada adiantará a tecnologia utilizada que nenhum conhecimento útil será revelado. Algumas preocupações, quanto aos dados a serem utilizados, devem ser consideradas em um processo de descoberta do conhecimento. Dentre elas devemos citar a qualidade dos dados, sua acessibilidade, localização e representatividade e o relacionamento entre as diversas informações da base de dados. 1 O objetivo principal do estudo é a verificação da relação entre o desempenho do aluno no curso realizado na IES e seus atributos relacionados à sua vida acadêmica na graduação e à sua experiência profissional. A finalidade é determinar quais destes fatores são mais críticos na análise de desempenho do aluno. Desta forma, a partir de dados históricos dos alunos, foi possível gerar uma base de conhecimento que permita aos coordenadores acadêmicos traçar o perfil do aluno com desempenho EXCELENTE, MUITO BOM, BOM e REGULAR nos cursos oferecidos pela IES. Atualmente o processo de seleção de novos alunos para os cursos lato sensu da IES acontece de forma subjetiva, através de análise curricular dos candidatos e entrevistas com a coordenação acadêmica. Este estudo visa apoiar os futuros processos de seleção de duas formas: - Identificar os possíveis melhores candidatos (futuros alunos) para as vagas existentes nos cursos lato sensu oferecidos pela IES. - Apoiar à coordenação acadêmica no processo de acompanhamento acadêmico dos alunos, à medida que durante o processo de seleção já pode ser identificado o possível desempenho do candidato quando este virar aluno. Alem de auxiliar futuros processos de seleção de candidatos o estudo também servirá para melhor direcionar estratégias de marketing e da área comercial da IES visando buscar os melhores candidatos para as vagas existentes nos cursos oferecidos. Para atingir o objetivo principal, foi utilizada uma técnica de mineração de dados chamada Descoberta de Regras de Associação e o software utilizado foi um software de domínio público chamado Weka. 2. Revisão Bibliográfica Com a finalidade de atingir o objetivo proposto neste estudo, foi feita uma revisão Bibliográfica envolvendo os principais temas em estudo. Estão resumidos a seguir: o processo de descoberta de conhecimento (KDD – Knowledge Data Discovery); a organização e preparação de dados; o procedimento de mineração de dados (data mining) e a técnica de descoberta de regras de associação e suas ferramentas. Processo de Descoberta de Conhecimento (KDD - Knowledge Data Discovery) Nos últimos anos, houve uma produção em larga escala de dados operacionais nas organizações, porém tais dados, mesmo que armazenados em meios digitais, são inviáveis de serem analisados através de métodos estatísticos tradicionais. Neste cenário, surgiu a necessidade da exploração destes dados de forma sistêmica com o objetivo de obtenção de conhecimento. A exploração da informação contida implicitamente nestes dados depende de algumas técnicas de Mineração de Dados (Data Mining) como, por exemplo, Descoberta de Regras de Associação, Clusterização, dentre outras. Porém, de nada adianta investir em tecnologia utilizando técnicas de Data Mining para geração de conhecimento se os dados não estiverem “limpos”, organizados e principalmente serem confiáveis. O processo capaz de descobrir conhecimento em grandes massas de dados chama-se KDD Knowledge Data Discovery. No entanto, somente a partir da organização, limpeza e consolidação dos dados existentes será possível estabelecer esse processo de maneira a identificar requisitos relevantes e conhecimento útil. As etapas deste processo, segundo Han 2 & Kamber (2001), são: a seleção de dados; a preparação de dados; a mineração de dados; e a descoberta de conhecimento. O processo de KDD começa pela definição do problema a ser estudado com o objetivo de selecionar apenas os dados realmente relevantes, chamados de dados-alvo. Após essa seleção, ocorre a etapa de preparação dos dados, que engloba as fases de limpeza, pré-processamento e transformação dos dados (codificação e enriquecimento) com o objetivo de adequar os formatos dos dados facilitando o uso das técnicas de mineração. Após os dados devidamente preparados e transformados em formato próprio a ser lido pelas ferramntas de mineração, são utilizadas técnicas capazes de gerar padrões que serão interpretados gerando finalmente o conhecimento. Organização/Preparação de Dados A etapa de organização/preparação dos dados é apenas uma etapa do processo de KDD, porém é uma das fases mais importantes. De acordo com PYLE (1999), a etapa de préprocessamento dos dados está subdividida nas 3 (três) fases descritas abaixo. Todas as técnicas de pré-processamento utilizadas neste estudo estão descritas e detalhes no item 3 (metodologia) deste trabalho. a) Descoberta/Acesso dos Dados b) Auditoria /Caracterização dos Dados c) Construção da Base de Dados a. Limpeza da Base de Dados b. Integração de Dados c. Transformação dos Dados d. Enriquecendo os Dados e. Procura de Viés Amostral f. Determinando a Estrutura dos Dados Mineração de Dados (Data Mining) A mineração de dados (Data Mining) é um conjunto de técnicas utilizadas para exploração e análise de grandes quantidades de dados. Esta área do conhecimento é uma fusão das áreas de computação, inteligência artificial e estatística que, por meios automáticos ou semiautomáticos, tem como objetivo descobrir, de forma eficiente, informações válidas e não óbvias em grandes bases de dados. Estas técnicas têm como características relevantes a escalabilidade e tempo de processamento. Segundo Westphal & Blaxton (1998), uma das principais razões para o surgimento da necessidade de utilização dessa técnica foi o da dificuldade em analisar imenso volume de dados. Assim, nasceu um processo de descoberta de conhecimento chamado KDD, do qual a técnica de Data Mining é uma etapa. É nessa importante etapa que ocorre a estruturação de tendências, regras relevantes e padrões descobertos nos dados analisados em forma de algum modelo estatístico-matemático. Algumas técnicas e diversas ferramentas de mineração de dados são utilizadas para este fim e a escolha da técnica correta e da melhor ferramenta a serem utilizadas depende de cada situação. De um modo geral, cada técnica requer um algoritmo diferente e cada um extrai um tipo diferente de conhecimento do banco de dados. É importante destacar que os processos de Data Mining têm escopo bem mais amplo que os de operações OLAP simples (On Line Analytical Process) porque promovem associações, 3 classificações, agrupamentos e outros tipos de análise. Coelho (2003) diferencia os conceitos de consulta e análise dos dados. As técnicas de data mining analisam os dados e não simplesmente consultam os dados como as operações OLAP básicas. A análise, além de permitir a recuperação dos dados como ocorre com a consulta, permite também obter conhecimento implícito através da modelagem dos dados que pode estar relacionada, por exemplo, com medidas de similaridade e correlação. Han & Kamber (2001) classificam as técnicas de data mining em Análises Descritivas e Análises Preditivas. O primeiro tipo caracteriza as propriedades gerais da base de dados ou descobre quaisquer aspectos/relações importantes presentes nos dados (exemplos: técnica de descoberta de regras de associação e técnica de clusterização). O segundo tipo realiza inferências na base de dados com o objetivo de prever valores para uma determinada variável (exemplos: técnica de classificação e de previsão). Westphal & Blaxton (1998) classificam os métodos para análise de dados em Métodos Visuais e Métodos Não Visuais. Alguns deles estão listados abaixo, no entanto, neste artigo será mencionada apenas a técnica de Descoberta de Regras de Associação, que foi a técnica escolhida para ser aplicada no estudo. - Métodos Visuais o Clusterização ou Segmentação (análise de grupos) - Métodos Não Visuais o Regras de Associação (análise de similaridade) o Redes Neurais o Algoritmos Genéticos Técnica de Descoberta de Regras de Associação A mineração de dados através do método de regras de associação tem por objetivo descobrir padrões freqüentes, relações interessantes ou ainda relações de correlação entre atributos de registros de grandes bases que podem ser bancos de dados transacionais ou relacionais (HAN & KAMBER, 2001). Trata-se de um método não supervisionado (Arbex Et al, 2004) e um exemplo de aplicação deste método é o Market Basket Analysis relacionais (HAN & KAMBER, 2001). Como os sistemas de Data Minig são capazes de gerar milhões de padrões, são necessários alguns recursos para medir a relevância destes padrões descobertos, já que nem todos os padrões são relevantes e potencialmente úteis. No caso de Regras de Associação do tipo “Se X então Y”, duas medidas são utilizadas para medir a qualidade da regra: suporte e confiança. (HAN & KAMBER, 2001). O suporte indica a freqüência em que dois ou mais itens aparecem juntos em um banco de dados (HAN & KAMBER, 2001) e pode ser definido matematicamente como: nº de registros em que aparecem X e Y Suporte( X ⇒ Y ) = nº total de registros A Confiança indica a força de uma regra, significando qual é a freqüência de transações que contêm X e Y, considerando somente as transações que contêm X (HAN & KAMBER, 2001) e pode ser definida como: 4 Confiança( X ⇒ Y ) = nº de registros em que aparecem X e Y nº de registros em que aparece X Em uma regra de associação, os parâmetros Suporte e Confiança precisam satisfazer um limite mínimo para que a mesma seja interessante avaliando, assim, a qualidade da regra. Normalmente estes limites mínimos de Suporte e Confiança são baixos e altos respectivamente e são definidos antes da extração das regras (HAN & KAMBER, 2001). Para extração destas regras, primeiramente são descobertos os conjuntos de itens freqüentes, ou seja, são descobertos todos os conjuntos de itens com freqüência que atenda ao suporte mínimo especificado. Atendido o suporte mínimo, as regras devem obedecer também a confiança mínima estabelecida. Esses valores mínimos previamente determinados servem para limitar a quantidade de regras extraídas e são definidos antes da extração. As regras que obedecem ao suporte e confiança mínimo são chamadas de regras fortes (HAN & KAMBER, 2001). Estas descobertas além de identificar relações muito estreitas entre os atributos em um banco de dados, também indicam quais relações são mais úteis, ou seja, quais associações são factíveis de gerar uma ação por parte dos tomadores de decisão. Dentre as possíveis ações que podem ser desenvolvidas estão uma campanha de marketing mais efetiva e/ou criação de algumas estratégias tais como: a redefinição de layout da loja com realocação dos produtos encorajando a venda cruzada (marketing cruzado), elaboração de projetos de catálogo de produtos, marketing direcionado e definição de perfil com segmentação de clientes através de seus hábitos de compras. O algoritmo mais utilizado em regras de associação chama-se Apriori (utilizado neste estudo) e o seu funcionamento está descrito em Han & Kamber(2001). Ferramentas para Mineração de Dados (Data Mining) Em se tratando de ferramentas que apóiam a etapa de mineração de dados existem várias com este objetivo. De acordo com o estudo desenvolvido por Dias (2002), alguns parâmetros devem ser considerados na escolha da ferramenta mais adequada. Dentre eles quais sistemas operacionais a versão do software pode ser obtida, custo do software, habilidade de acesso a uma variedade de fontes de dados, formato do arquivo de entrada, capacidade de processamento com relação ao tamanho do banco de dados, técnicas de mineração de dados disponíveis, variedade de atributos que a ferramenta pode manipular. Dias (2002) apresenta algumas ferramentas para mineração de dados e uma metodologia bastante simples e interessante para avaliação e seleção do software mais adequado levando em conta os critérios de desempenho computacional, de usabilidade e de suporte de atividades principais de uma organização ou sistema. A metodologia apresentada por Dias (2002) para dar suporte na escolha da ferramenta de mineração de dados adequada, apesar de bastante interessante, não foi aplicada neste trabalho em função da principal restrição para escolha desta ferramenta ter sido a utilização de ferramentas de domínio público. Os custos elevados das ferramentas para este fim impossibilitam sua utilização por instituições de ensino, empresas de pequeno e médio porte e principalmente por estudantes. Sendo assim, será feita uma breve descrição da ferramenta Weka escolhida para ser utilizada neste trabalho em função de ser o software de domínio público mais utilizado no momento. 5 Software Weka (Waikato Environment for Knowledge Analysis) A ferramenta Weka foi desenvolvida pela Universidade de Waikato na Nova Zelândia. Está implementado na linguagem Java. É composto por um conjunto de algoritmos de diversas técnicas de Mineração de Dados e tem a vantagem de poder ser executada a partir de diferentes plataformas. É um software de domínio público disponível em http://www.cs.waikato.ac.nz/ml/weka/ . (WITTEN & FRANK, 2000) O Weka tem por objetivo reunir as implementações dos algoritmos de mineração, dentre eles o Apriori, e foi utilizado neste estudo para descoberta de regras de associação relevantes. O Algoritmo Apriori na ferramenta Weka trabalha apenas com valores nominais. Este software também inclui um pacote que contém algoritmos de Clusterização e Classificação. (WITTEN & FRANK, 2000) O pacote Weka (na versão utilizada neste estudo) trabalha com um formato próprio chamado ARFF (Attribute-Relation File Format). Isto significa dizer que antes de trabalhar os dados, é necessário converter os dados de entrada para este formato. Detalhes desta transformação dos dados podem ser encontrados em Oliveira (2005). 3. Metodologia A metodologia, utilizada neste estudo, abordará todas as etapas do processo de KDD, da seleção dos dados até a fase de Mineração dos Dados (Data Mining) descrevendo a utilização da ferramenta Weka para obtenção dos padrões. Todos os dados históricos da IES foram levantados desde sua fundação. Os dados mais antigos estavam em papel (fichas físicas dos alunos) e os mais recentes estavam incompletos em função de falhas em processos de migração de dados entre os sistemas para controle acadêmico utilizados no passado e o sistema para controle acadêmico atual. Tendo em vista estes problemas detectados na base de dados foram realizadas auditorias nos registros comparando-os com os valores históricos através da documentação física do aluno, o que levou primeiramente à necessidade de reparação da base de dados. 3.1 Descoberta/Acesso dos Dados - Selecionando os Dados-Alvo Selecionar somente os dados relevantes é importante porque diminui o espaço de busca do algoritmo minerador aumentando sua performance. (PYLE, 1999). A seleção dos dados relevantes foi feita através do conhecimento gerencial da IES e tendo em vista possíveis relações entre os atributos e a performance dos alunos da IES. Os dados mais antigos foram considerados irrelevantes, tendo em vista a provável alteração do perfil do corpo discente da IES ao longo dos anos. Sendo assim, foram considerados relevantes somente os dados dos alunos que ingressaram na IES a partir de 1999. Deste universo, foram selecionados somente os alunos com o curso concluído ou que já tivessem cursado aproximadamente 80% da carga horária total do curso até 31/01/2005 (data de corte), uma vez que o objetivo do estudo é identificar possíveis relações de atributos com a performance destes alunos. Estes dados estão localizados na base de dados do sistema de controle acadêmico atual e totalizavam 2.134 registros. 6 Após a seleção das bases de dados, foram escolhidos os atributos úteis para mineração, de acordo com o conteúdo das tabelas existentes e disponíveis. Inicialmente, a seleção de alguns atributos de identificação foi necessária para possibilitar a junção dos registros entre as tabelas do banco de dados relacional com o objetivo de criação do arquivo final (flat) de trabalho, no entanto, a lista abaixo relaciona apenas os atributos, por categoria, considerados relevantes. Estes atributos tiveram que ser discretizados para utilização do algoritmo minerador utilizado (Apriori). Dados Profissionais e Formação Acadêmica do Aluno: Nome da Empresa em que trabalha (Texto, 70) Cargo Ocupado (Texto, 70) Instituição em que fez a graduação (Texto, 70) Formação da Graduação (Texto, 70) Dados Acadêmicos dentro da IES Curso realizado na IES (Texto, 70) Notas obtidas pelos alunos nas disciplinas (Número, Decimal) Carga horária total cursada e aprovada (Número, Inteiro) Durante o procedimento de seleção dos dados, algumas questões referentes à acessibilidade da base tiveram que ser consideradas como as barreiras legais, questões políticas, formatos e conectividade dos dados. - Barreiras Legais → Foi expressamente proibida a identificação dos alunos da IES de forma que o direito à privacidade fosse plenamente respeitado. O sigilo visa resguardar o aluno e não os dados em si. O contexto da proteção constitucional é o mesmo tanto no âmbito convencional quanto nos meios eletrônicos de armazenamento de dados. - Razões Políticas → A empresa não autorizou a divulgação da sua razão social devido à preocupação com vazamento de informações estratégicas, bem como não autorizou também a divulgação dos nomes das Empresas em que os alunos trabalhavam. - Diferentes Formatos de Dados → Uma parte dos dados localizados estava em papel, havendo a necessidade de verificação destes dados de forma manual e visual. Posteriormente, estes dados, sendo considerados irrelevantes para o estudo, não foram aproveitados. Os dados utilizados estavam na base de dados do sistema acadêmico atual e as tabelas necessárias do banco de dados, que continham os atributos selecionados, foram exportadas para a ferramenta de banco de dados Microsoft Access. Com a utilização desta ferramenta, o arquivo final de trabalho foi gerado. A ferramenta de banco de dados Microsoft Access foi amplamente utilizada para identificação dos problemas da base de dados, principalmente missing values, outliers, integridade e inconsistência nos dados. Os problemas eram identificados mediante execução de queries formuladas e as correções foram feitas via o software identificado como o sistema de controle acadêmico atual e posteriormente gerada novamente a base de dados final de trabalho. Esse procedimento foi repetido até que a base de dados foi considerada íntegra. Os dados foram todos consolidados em Microsoft Excel e posteriormente convertidos para o formato ARFF, aceito pelo WEKA. - Problemas de Conectividade → Os dados devem estar disponíveis e conectados para o sistema que será usado para mineração. Mais adiante será detalhado todo o processo de 7 pré-processamento e limpeza de dados até a fase de preparação do arquivo final em formato (ARRF) aceito pelo software de mineração escolhido (WEKA). - Acesso Restrito → Houve restrição da IES somente quanto à divulgação dos nomes dos alunos identificando-os quanto ao seu desempenho no curso, resguardando o direito dos envolvidos à privacidade. No entanto, esse atributo foi irrelevante para o estudo, não causando o menor impacto nos resultados a ausência desta informação. 3.2 Pré-processamento e Limpeza dos Dados Nesta fase ocorre a auditoria e caracterização dos dados. De acordo com PYLE (1999), o objetivo desta fase é garantir que os dados acessíveis tenham as características necessárias para o processo de modelagem, auditando, por exemplo, questões relacionadas com a qualidade do dado e que estão descritas abaixo. - Poluição dos Dados Valores faltantes (Missing Values) - Na base de dados do sistema de controle acadêmico atual existiam muitos valores faltantes (missing values). Segue abaixo uma listagem com os atributos considerados relevantes para estudo e percentual de missing values em ordem decrescente que existiam na base de dados. i) ii) iii) iv) Formação na Graduação – 68% Instituição em que fez a graduação – 32% Cargo Ocupado – 14% Empresa em que trabalha – 12% A maioria destes missing values, tem como causa neste estudo, falhas no processo de migração. Todos os demais atributos não apresentaram este problema. O procedimento utilizado para correção da base de dados foi de preencher criteriosamente os valores faltantes com os valores corretos. Os registros incompletos dos alunos foram identificados e preenchidos manualmente tomando por base a documentação física do aluno. Esse preenchimento foi feito com os dados reais para que não fosse provocado nenhum viés tendencioso, já que em alguns atributos os percentuais de missing values eram bastante elevados. O resultado deste trabalho após recuperação dos dados está apresentado abaixo através das novas taxas que representam o percentual de missing values presentes nas bases de dados do sistema de controle acadêmico atual. i) ii) iii) iv) Formação na Graduação – 7,40% Instituição em que fez a graduação – 14,10% Cargo Ocupado – 9% Empresa em que trabalha – 6% - Inconsistência nos Dados Existiam inconsistências nos atributos “Cargo que o aluno ocupa”, “Empresa em que o aluno trabalha”, visto que a mesma empresa e o mesmo cargo estavam representados com diferentes formatos de texto na mesma base de dados. A justificativa para essa inconsistência está ligada ao fato do campo de entrada destes atributos no sistema de controle acadêmico atual ser campo de texto para livre digitação pelos usuários. Foram encontradas no arquivo final (2.134 registros) mais de 1.000 (mil) variações de nomes de cargos ocupados pelos alunos. Por exemplo, dois cargos com as maiores quantidades de variações em sua 8 nomenclatura foram o de Gerente (273 variações) e Analistas (164 variações). Também foram encontradas mais de 1.000 (mil) variações de nomes de empresas em que os alunos trabalham. Inconsistências como estas acima mencionadas dificultam o uso das técnicas de modelagem. Para eliminar este problema foi necessária uma análise bem profunda destes dados com o objetivo de eliminar estas inconsistências através de agrupamento destes dados diminuindo a granularidade existente. - Integridade Um percentual de 33% dos registros da base de dados do sistema de controle acadêmico atual apresentava problemas de integridade quanto às disciplinas cursadas. Foi feita uma profunda verificação analisando a documentação física de cada aluno individualmente e os registros dos alunos foram corrigidos. Essa falta de integridade resultou de falhas de processos de migração anteriores. Foi feito um trabalho de correção da base de dados e o resultado deste processo foi que a base de dados passou a refletir integralmente a documentação real de cada aluno. 3.3 Transformação dos Dados / Construção da Base de Dados Além da limpeza dos dados, ações de transformações foram necessárias para construção da base de dados final. - Categorização dos Atributos Alguns atributos necessitaram de discretização, através de agrupamento, diminuindo a granularidade existente, ou seja, foram transformados em variáveis categóricas para favorecer a performance dos algoritmos de mineração de dados e principalmente para facilitar o entendimento dos resultados obtidos. Categorização do atributo “Empresa em que trabalha” → Em relação às variações nos nomes das empresas em que o aluno trabalha, foram analisadas individualmente cada nome de empresa e categorizando-a manualmente. Este procedimento foi feito diretamente no arquivo de trabalho (base de dados final) a ser manipulado pelo software de mineração. As empresas foram categorizadas pela sua área de atuação de acordo com as 8 (oito) categorias:Comércio e/ou Indústria; Comunicação, Publicidade e/ou Marketing; Consultoria; Energia e/ou Petróleo; Financeira, Seguradora ou Previdência; Serviços; Tecnologia; Telecomunicações. Categorização do atributo “Cargo em que trabalha” → Em relação a este atributo também foi feito um trabalho manual de classificação nas classes: Alta Gerência; Gerência; Supervisão; Consultoria e Assessoria; Operacional. Categorização do atributo “Formação na Graduação” → Em relação ao atributo “Formação na Graduação” também foi feito um trabalho manual de classificação dos valores, seguindo a classificação do CNPq como: Ciências Exatas ou Tecnológicas; Ciências Humanas ou Biomédicas; Ciências Sociais Aplicadas. Categorização do atributo “Instituição em que fez a Graduação” → Em relação ao atributo “Instituição em que fez a Graduação” foi feito um trabalho manual de classificação dos valores de acordo com as 4 categorias: Faculdades Isoladas Privadas; Universidades e Centros Universitários Privados; IES Públicas; IES Religiosas. 9 - Enriquecimento dos Dados Os dados foram enriquecidos através do estabelecimento de um índice que representa a performance dos alunos ao longo do curso contabilizado a partir das notas obtidas nas disciplinas cursadas. A seguir são descritos os passos para obtenção desse índice de performance. 1º Passo: As notas dos alunos nas disciplinas foram convertidas para conceito de acordo com a escala abaixo estabelecida pela própria IES. Conceito A ⇒ atribuído para notas ≥ 9,0 Conceito B ⇒ atribuído para notas ≥ 8,0 e ≤ 8,9 Conceito C ⇒ atribuído para notas ≥ 7,0 e ≤ 7,9 Conceito D ⇒ atribuído para notas ≤ 6,9 Obs:. O conceito D atribui o status de reprovação na disciplina. 2º Passo: Quantificadas por aluno as notas com conceitos A, B, C e D. 3º Passo: Calculado o percentual de disciplinas com conceitos A, B, C e D. Esse passo se fez necessário em função das grades curriculares dos cursos possuírem cargas horárias e quantidades de disciplinas diferentes em diversos momentos do tempo no período analizado. 4º Passo: A atribuição do índice de performance foi feita da seguinte forma: Desempenho EXCELENTE ⇒ Alunos com 80% das notas com conceito A. Desempenho MUITO BOM ⇒ Alunos com 90% das notas entre os conceitos A e B. Desempenho BOM ⇒ Alunos com 90% das notas entre os conceitos A, B e C. Desempenho REGULAR ⇒ Demais alunos não classificados nas categorias anteriores. Tanto a fase de Transformação dos Dados quanto à fase de Enriquecimento dos Dados não são obrigatórias no processo de KDD, porém quando efetivadas, os resultados obtidos são mais intuitivos, pois melhora a compreensão do conhecimento descoberto. O tempo de processamento do algoritmo minerador também fica reduzido quando a codificação dos dados é executada, pois diminui o espaço de busca. (PYLE, 1999) - Base de Dados Final Após a conclusão das etapas anteriores, foi construída, então, uma tabela única com os atributos relevantes acrescidos do índice de performance estabelecido a fim de enriquecer os dados. As linhas da tabela representam as ocorrências e as colunas representam os atributos dos objetos estudados (alunos). Vale ressaltar mais uma vez o quanto a fase de preparação dos dados é importante no processo de KDD. Foi também a fase mais longa deste trabalho, com duração de aproximadamente 4 (quatro) meses. A seguir relação de atributos que determinaram a estrutura da base de dados final: Tipo da Empresa em que trabalha; Cargo Ocupado; Formação da Graduação; Instituição em que fez a graduação; Curso realizado na IES (Finanças e Gestão de Negócios); Desempenho. Após a construção e consolidação da base de dados, totalizando 2.134 registros foram selecionados apenas os registros referentes aos cursos de Finanças representando 36% da base de dados total. Os dados foram convertidos/transformados para o formato ARFF, aceito pelo software de mineração de dados utilizado chamado WEKA. 10 3.4 Mineração de Dados (Data Mining) Considerando que os dados foram discretizados e de acordo com o estudo de Dias (2002), a técnica de Descoberta de Regras de Associação, que implementa a tarefa de Associação entre atributos, é uma das técnicas mais indicadas para trabalharem com variáveis categóricas. Esta técnica foi aplicada sobre os dados da IES através da utilização do algoritmo “Apriori” software WEKA - utilizando como entrada os conjuntos de dados obtidos a partir das fases anteriores. Para utilização adequada do software, além da parametrização dos valores de suporte e confiança, é necessária também a parametrização de alguns valores que estão apresentados abaixo. As descrições de cada um destes campos podem ser encontradas no Help existente no próprio software. car = True classIndex = -1 delta = 0,05 lowerBoundMinSupport = 0,05 metricType = Confidence minMetric = 0,40 numRules = 200 removeAllMissingCols = False significanceLevel = -1,0 upperBoundMinSupport = 1,0 4. Descoberta de Conhecimento Após a parametrização do software, conforme item 3.4, todas as regras de associação foram geradas utilizando os dados do curso de Finanças totalizando uma quantidade de 188 regras. A inspeção das regras foi feita de forma bastante objetiva, selecionando para serem apresentadas somente as regras de maior interesse na busca por novos conhecimentos, sendo definidos os valores de suporte e confiança em 1% e 40%, respectivamente. No entanto, foram testados outros pares de suporte e confiança, mas que não se mostraram satisfatórios em termos de quantidade de regras e pertinência (descoberta de regras novas). A seguir um exemplo, de regra gerada pelo software WEKA: Empresa=Comercio-Industria Cargo=Supervisao Desempenho=BOM 8 conf:(0.89) Graduacao=Ciencias_Sociais 9 ==> A Confiança da regra está representada entre parênteses. O número precedendo o símbolo ==> indica o Suporte da regra. O número posterior ao mesmo símbolo corresponde ao número de itens para os quais o conseqüente da regra (após o símbolo ==>) se aplica. O algoritmo Apriori ordena as regras de acordo com o parâmetro de Confiança da regra em ordem decrescente. Sempre com o objetivo principal em mente, foi feita uma inspeção sobre as regras para verificar se os indicadores de desempenho do aluno (EXCELENTE, MUITO BOM, BOM, REGULAR) apresentam associação quando determinados atributos são relacionados entre si. Desta forma, a partir da análise de todas as regras geradas, foram inspecionadas, as seguintes associações: - Estudo da relação Cargo x Desempenho Estudo da relação Graduação x Desempenho Estudo da relação Instituição Graduação x Desempenho 11 - Estudo da relação Empresa x Desempenho Estudo da relação Cargo e Graduação x Desempenho Estudo da relação Cargo e Empresa x Desempenho Estudo da relação Instituição Graduação e Cargo x Desempenho Estudo da relação Instituição Graduação e Graduação x Desempenho Estudo da relação Graduação e Empresa x Desempenho Estudo da relação Instituição Graduação e Empresa x Desempenho Estudo da relação Cargo e Instituição Graduação e Graduação x Desempenho Estudo da relação Cargo e Empresa e Instituição Graduação x Desempenho Estudo da relação Cargo e Empresa e Graduação x Desempenho Estudo da relação Cargo e Empresa e Graduação e Instituição Graduação x Desempenho Em função de limitação de espaço para a apresentação neste artigo das 188 regras de associação geradas para o curso de Finanças, a tabela a seguir apresenta somente algumas destas regras e as demais poderão ser encontradas em Oliveira (2005). Regra Se o Cargo do aluno é Consultor-Assessor (75), então o seu Desempenho é MUITO BOM (35) Se o Cargo do aluno é Gerencial (134), então seu Desempenho é BOM (57) Se o Cargo do aluno é Supervisão (59), então seu Desempenho é BOM (24) Se o Cargo do aluno é Operacional (400), então seu Desempenho é BOM (163) Se a Graduação é na área de Ciências Sociais (514), então seu Desempenho é BOM (224) Se a Graduação é na área de Ciências Exatas ou Tecnológicas (195), então seu Desempenho é MUITO BOM (82) Se o aluno fez a graduação em Universidade Privada (106), então seu Desempenho é BOM (57) Se o aluno fez a graduação em Privada-Isolada (94), então seu Desempenho é BOM (46) Se o aluno fez a graduação em Instituição Pública (337), então seu Desempenho é MUITO BOM (141) Se o aluno fez a graduação em Instituição Religiosa (158), então seu Desempenho é BOM (65) Se o aluno fez a Graduação na área de Ciências Sociais e possui um Cargo de Consultoria-Assessoria (42), então seu Desempenho foi MUITO BOM (20) Se o aluno fez a Graduação na área de Ciências Exatas ou Tecnológicas e possui um Cargo Gerencial (36), então seu Desempenho foi MUITO BOM (15) Se o aluno fez a Graduação na área de Ciências Exatas ou Tecnológicas e possui um Cargo Operacional (99), então seu Desempenho foi MUITO BOM (41) Se o aluno fez a Graduação em uma Instituição Religiosa e possui um Cargo de Consultoria-Assessoria (23), então seu Desempenho foi MUITO BOM (13) Se o Cargo do aluno é Gerencial e a Instituição em que cursou a Graduação é Pública (49), então seu Desempenho foi MUITO BOM (21) Se o Cargo do aluno é Operacional e a Instituição em que fez a Graduação é Pública (200), então seu Desempenho foi MUITO BOM (83) Se o aluno fez a Graduação na área de Ciências Sociais em uma Confiança 47% 43% 41% 41% 44% 42% 54% 49% 42% 41% 48% 42% 41% 57% 43% 42% 41% 12 Instituição Publica (194), então seu Desempenho foi MUITO BOM (80) Se o Cargo do aluno é Operacional e a Graduação é na área de Ciências Sociais em Instituição Pública (123), então seu Desempenho foi MUITO BOM (40) Se o Cargo do aluno é Gerencial e a Graduação é na área de Ciências Exatas ou Tecnológicas em Instituição Pública (22), então seu Desempenho foi MUITO BOM (11) Se o Cargo do aluno é Operacional e a Graduação é na área de Ciência Exatas ou Tecnológicas em Instituição Pública (63), então seu Desempenho é MUITO BOM (29) Se o Cargo do aluno é Operacional e a Graduação é na área de Ciência Exatas ou Tecnológicas (27) em Instituição Religiosa, então seu Desempenho é BOM (13) Se o aluno fez a Graduação na área de Ciências Exatas ou Tecnológicas em uma Instituição Privada-Isolada (26), então o seu Desempenho foi BOM (11) Se o Cargo do aluno é Gerencial e a Graduação é na área de Ciências Sociais em Instituição Privada Isolada (25), seu Desempenho foi BOM (15) Tabela 1. Regras de Associação geradas a partir do software Weka 40% 50% 46% 48% 42% 60% Observando as regras geradas para o Curso de Finanças, estando algumas delas apresentadas acima, fica muito claro que os alunos que exercem cargos de consultoria ou assessoria possuem desempenho superior (MUITO BOM) no curso quando comparados com alunos que exercem função gerencial, de supervisão ou operacional (BOM). Essa afirmativa foi verificada, inclusive, quando foram analisadas conjuntamente as informações referentes ao cargo, a graduação e a instituição em que fez a graduação, mesmo que estes atributos sugerissem desempenho inferior quando analisados individualmente. Possivelmente podemos interpretar por estas regras que para os alunos que desempenham cargos de consultoriaassessoria, a experiência profissional adquirida, provavelmente em diversas empresas e ramos de atuação, passa a ter maior influência no desempenho. Já os gerentes e supervisores, como ocupam mais o tempo com atividades administrativas e de comando, se afastam das atividades mais técnicas não desenvolvendo seus conhecimentos específicos na área de finanças, apresentando desempenho (BOM) inferior neste tipo de curso. Os alunos que exercem cargos operacionais também possuem desempenho BOM no Curso de Finanças, contrariando o “senso comum” de que estes alunos teriam desempenho similar aos consultores ou assessores. No entanto, dependendo do tipo de associação feita com os dados da base, o desempenho destes alunos aumenta para MUITO BOM. A exemplo, pode-se citar a associação feita entre cargo ocupado, a graduação e a instituição em que o aluno cursou a graduação. Se o aluno fez a graduação na área de ciências exatas ou tecnológicas em instituição pública, o desempenho é alavancado para MUITO BOM, apesar do cargo do aluno ser gerencial ou operacional. Mas se a graduação foi cursada em instituições religiosas, por exemplo, o rendimento do aluno continua BOM. Essa afirmativa confirma o “senso comum” de que os alunos graduados em instituições públicas têm melhor desempenho quando comparados com os alunos oriundos de universidades privadas, faculdades privadas-isoladas e religiosas. Essa constatação pode ter alguma relação com o fato de os processos de seleção em instituições públicas serem mais concorridos filtrando os alunos com melhor preparo e provavelmente criando um ambiente de nível intelectual mais alto nestas instituições. 13 Para dar maior veracidade a informação acima, quando as informações referentes a graduação cursada pelo aluno, a instituição em que fez a graduação e o cargo que ocupa são analisadas conjuntamente, o atributo de maior peso é a instituição em que fez a graduação. A instituição pública geralmente alavanca o desempenho para cima, mesmo que os estudos individuais dos atributos graduação e cargo assumam valores que impliquem em desempenho inferior. É interessante constatar que os alunos oriundos de universidades privadas, faculdades privadas-isoladas e instituições religiosas não se diferenciam quanto ao seu desempenho (BOM), contrariando o “senso comum” de que os alunos oriundos de instituições religiosas apresentariam um desempenho superior às outras duas. Apesar da instituição em que o aluno cursou a graduação ter maior peso para análise do desempenho do aluno, quando comparada com os outros atributos, fica bastante claro, a partir da análise das regras, que a formação acadêmica em ciências exatas ou tecnológicas também influencia bastante o desempenho do aluno no Curso de Finanças, principalmente quando comparada somente com a experiência profissional (cargo que ocupa). A afirmação acima pode ser explicada porque os alunos graduados na área de ciências exatas ou tecnológicas possuem formação com base em matemática e aperfeiçoam o raciocínio lógico e capacidade analítica que são importantes para o Curso de Finanças. A exceção fica somente por conta dos alunos que assumem cargos de consultoria ou assessoria que apresentam desempenho MUITO BOM independente se a graduação é na área de ciências sociais, exatas ou tecnológicas. Mais uma vez o cargo em consultoria ou assessoria provando o quanto a experiência profissional adquirida neste cargo agrega no desempenho do aluno. No entanto, mesmo que a graduação cursada tenha sido na área de ciências exatas ou tecnológicas, se o aluno estudou em instituição religiosa, seu desempenho passa a ser BOM e não MUITO BOM. Conclui-se pela análise destes resultados, que tanto a instituição pública como a formação em ciências exatas ou tecnológicas, melhoram o desempenho do aluno do curso de Finanças para MUITO BOM, no entanto, o maior peso fica por conta da instituição em que o aluno cursou a graduação. Já os ramos de atuação das empresas em que os alunos do curso de Finanças trabalham apresentam pequeno impacto no desempenho quando essa informação está associada a outros atributos da base de dados. Em função disso, as regras de associação geradas que envolviam o atributo “empresa” não foram citadas neste artigo. Os resultados obtidos no estudo, apesar da confiança na maioria das regras ficar em torno de 50%, além de ferramenta de apoio nos processos de seleção, permitiram levantar hipóteses para discussão no âmbito da comunidade acadêmica e de avaliação dos novos alunos dos cursos de pós-graduação lato sensu da IES. Este estudo possibilitou validações e descobertas interessantes, ainda que passíveis de uma análise mais acurada pelos coordenadores acadêmicos da IES, no sentido de melhor extrair as razões e formular as hipóteses para avaliação do conhecimento gerado. 5. Conclusões Este estudo teve por finalidade descobrir o conhecimento implícito em um banco de dados de alunos do sistema acadêmico de uma instituição de ensino superior (IES). Para isso foi 14 necessário analisar/minerar alguns dados destes alunos, associando-os com o desempenho obtido por eles. Desta forma, foi possível determinar os fatores que mais afetam o desempenho dos alunos, sendo este classificado em: EXCELENTE, MUITO BOM, BOM e REGULAR. Para cumprir este objetivo foi utilizado um software específico, de domínio público, para mineração de dados (Data Mining) chamado Weka. No entanto, um passo anterior foi necessário e extremamente importante que foi a etapa de pré-processamento dos dados, sendo indispensável em função da poluição nos dados e da própria natureza semântica dos atributos envolvidos na análise, o que levou a um grande esforço na fase de preparação de dados. Posteriormente a esta fase, através da aplicação deste software e da metodologia de data mining chamada Descoberta de Regras de Associação, foi possível, então, obter uma série de conhecimentos novos. Vale ressaltar que muitos desses novos conhecimentos são contrários ao que era considerado como senso comum na IES. Outros conhecimentos confirmaram o que já era conhecido com a inteligência do negócio da IES obtidos através da experiência e observação dos coordenadores de curso durante anos. Deste ponto de vista, este processo serviu para validar a inteligência do negócio da IES, corrigindo alguns conhecimentos e adicionando outros ainda não percebidos e portanto confirmando a validade do estudo. A finalidade do estudo de formar uma base de conhecimento para auxiliar, por exemplo, em futuros processos de seleção dos cursos de pós-graduação lato sensu, apoiar à coordenação acadêmica no processo de acompanhamento acadêmico dos alunos e melhor direcionar estratégias de marketing foi atingido. O conceito da análise dos dados através das técnicas de mineração de dados é, apesar de ensinado, ainda pouco difundido em aplicações diretas em instituições de ensino. Sendo assim, esse estudo e as sugestões para futuros trabalhos visam contribuir para o universo que faz uso da informação e da tecnologia de informação que, a cada dia, mudam as relações de competitividade também no setor educacional. 6. Pesquisas Futuras Durante deste estudo, novas e interessantes questões puderam ser formuladas ficando aqui como sugestões para pesquisas futuras. - Incorporar a este estudo novos atributos constantes na base de dados, como por exemplo, sexo, estado civil e idade dos alunos. - Repetir o experimento utilizando bases de dados de outros cursos da IES. - Aplicar esta mesma técnica de descoberta de regras de associação em outras bases de dados como a financeira, por exemplo, visando encontrar relações que caracterizem o aluno inadimplente ou ainda descobrir se existe alguma associação entre o desempenho dos alunos e o fato deles pagarem o próprio curso ou não. - Adaptar o estudo para estudar dados dos candidatos referentes aos processos seletivos dos cursos da IES. - Utilizar outras técnicas (exemplo: árvore de decisão) e outros softwares para mineração de dados (exemplo: MineSet) com o objetivo de verificar se os resultados se repetem ou se podem gerar novos conhecimentos. 15 - Elaborar modelo de predição de performance dos alunos utilizando técnicas de inteligência artificial. 7. Referências Bibliográficas ARBEX, Eduardo C., SABOREDO, Alexandre P, MIRANDA, Dhalila (2004) “Implementação e Estudo de Caso do Algoritmo Apriori para Mineração de Dados”. Associação Educacional Dom Bosco, Resende – RJ COELHO, Paulo (2003) “Estudo Comparativo de Ferramentas de Previsão Baseadas em Árvores”. Faculdade Ibmec, RJ. DIAS, Maria M. (2002) “Estudo e Análise de Técnicas e Ferramentas de Mineração de Dados”. Universidade Federal de Santa Catarina, SC HAN, Jiawei, KAMBER, Micheline (2001) Data mining : Concepts and Techniques. San Diego. Academic Press. OLIVEIRA, Elizabeth (2005) “Determinação dos Fatores Críticos na Análise de Desempenho do Corpo Discente de Cursos de Pós-graduação Lato Sensu Utilizando Metodologia Data Mining”. Faculdades Ibmec, RJ. PYLE, Dorian (1999) Data Preparation for Data Mining. San Diego. Morgan Kaufmann. WESTPHAL, Christopher, BLAXTON, Teresa (1998) Data Mining Solutions: Methods and Tools for Solving Real-World Problems. New York. John Wiley & Sons. WITTEN, Ian, FRANK, Eibe (2000) Data Mining: Pratical Machine Learning Tools and Techniques with Java Implementations. San Diego. Morgan Kaufmann Publishers. 16