Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados
Autoria: Elizabeth de Oliveira Carpenter, Gerson Lachtermacher
Resumo
O artigo se propõe a apresentar um estudo que com a finalidade de descobrir conhecimento
implícito nos dados de alunos de pós-graduação lato sensu de uma Instituição de Ensino
Superior (IES), formando uma base de conhecimento que pudesse determinar quais são as
características do aluno que mais impactam positivamente / negativamente em seu
desempenho no curso. Tais dados foram obtidos do sistema acadêmico e referem-se à
formação acadêmica do aluno, função organizacional e setor da economia em que trabalha.
Para cumprir este objetivo, foi utilizada a metodologia de mineração de dados (Data Mining),
com o apoio do software Weka, de domínio público, e da técnica de Descoberta de Regras de
Associação. A utilização da técnica e do software escolhidos se mostrou eficiente na
determinação dos fatores críticos que afetam o desempenho dos alunos nestes cursos, em
algumas situações, contrapondo-se ao senso comum existente na comunidade acadêmica da
IES.
1.
Introdução
Atualmente vivemos em um momento de turbulência organizacional no qual o conhecimento
do negócio, passou a ter papel fundamental para sobrevivência das organizações nesse
ambiente competitivo. A empresa que detém conhecimento sobre seus processos, seus clientes,
seus prospects e o mercado em que atua, tem grande vantagem competitiva.
Diariamente, vários conjuntos de dados são gerados nas organizações. Esta é a memória da
empresa e a importância do tratamento e do sincronismo destas informações tornou-se
fundamental como ferramenta estratégica/competitiva. No entanto, a maioria das empresas
tem um grande volume de dados primários e pouco conhecimento sobre eles.
Na Instituição de Ensino Superior (IES) em questão, a realidade não é diferente. A aplicação
da metodologia de descoberta de conhecimento realizada, a partir da preparação dos dados
históricos da IES, extraiu valiosas informações das bases de dados existentes. Estes
conhecimentos irão agora impactar estratégias de marketing da IES.
Em qualquer processo de descoberta de conhecimento útil a partir de grandes massas de dados
primários, as organizações não podem abrir mão do uso intensivo de ferramentas tecnológicas.
No entanto, se mal empregada, a tecnologia pode ser tão devastadora para uma organização
quanto sua falta. Dados do mundo real tendem a ser incompletos, sujos e inconsistentes e sem
dados de boa qualidade, o processo de descoberta do conhecimento é pobre. Neste caso, de
nada adiantará a tecnologia utilizada que nenhum conhecimento útil será revelado.
Algumas preocupações, quanto aos dados a serem utilizados, devem ser consideradas em um
processo de descoberta do conhecimento. Dentre elas devemos citar a qualidade dos dados,
sua acessibilidade, localização e representatividade e o relacionamento entre as diversas
informações da base de dados.
1
O objetivo principal do estudo é a verificação da relação entre o desempenho do aluno no
curso realizado na IES e seus atributos relacionados à sua vida acadêmica na graduação e à
sua experiência profissional. A finalidade é determinar quais destes fatores são mais críticos
na análise de desempenho do aluno. Desta forma, a partir de dados históricos dos alunos, foi
possível gerar uma base de conhecimento que permita aos coordenadores acadêmicos traçar o
perfil do aluno com desempenho EXCELENTE, MUITO BOM, BOM e REGULAR nos
cursos oferecidos pela IES.
Atualmente o processo de seleção de novos alunos para os cursos lato sensu da IES acontece
de forma subjetiva, através de análise curricular dos candidatos e entrevistas com a
coordenação acadêmica. Este estudo visa apoiar os futuros processos de seleção de duas
formas:
- Identificar os possíveis melhores candidatos (futuros alunos) para as vagas existentes
nos cursos lato sensu oferecidos pela IES.
- Apoiar à coordenação acadêmica no processo de acompanhamento acadêmico dos
alunos, à medida que durante o processo de seleção já pode ser identificado o possível
desempenho do candidato quando este virar aluno.
Alem de auxiliar futuros processos de seleção de candidatos o estudo também servirá para
melhor direcionar estratégias de marketing e da área comercial da IES visando buscar os
melhores candidatos para as vagas existentes nos cursos oferecidos.
Para atingir o objetivo principal, foi utilizada uma técnica de mineração de dados chamada
Descoberta de Regras de Associação e o software utilizado foi um software de domínio
público chamado Weka.
2.
Revisão Bibliográfica
Com a finalidade de atingir o objetivo proposto neste estudo, foi feita uma revisão
Bibliográfica envolvendo os principais temas em estudo. Estão resumidos a seguir: o processo
de descoberta de conhecimento (KDD – Knowledge Data Discovery); a organização e
preparação de dados; o procedimento de mineração de dados (data mining) e a técnica de
descoberta de regras de associação e suas ferramentas.
Processo de Descoberta de Conhecimento (KDD - Knowledge Data Discovery)
Nos últimos anos, houve uma produção em larga escala de dados operacionais nas
organizações, porém tais dados, mesmo que armazenados em meios digitais, são inviáveis de
serem analisados através de métodos estatísticos tradicionais. Neste cenário, surgiu a
necessidade da exploração destes dados de forma sistêmica com o objetivo de obtenção de
conhecimento. A exploração da informação contida implicitamente nestes dados depende de
algumas técnicas de Mineração de Dados (Data Mining) como, por exemplo, Descoberta de
Regras de Associação, Clusterização, dentre outras. Porém, de nada adianta investir em
tecnologia utilizando técnicas de Data Mining para geração de conhecimento se os dados não
estiverem “limpos”, organizados e principalmente serem confiáveis.
O processo capaz de descobrir conhecimento em grandes massas de dados chama-se KDD Knowledge Data Discovery. No entanto, somente a partir da organização, limpeza e
consolidação dos dados existentes será possível estabelecer esse processo de maneira a
identificar requisitos relevantes e conhecimento útil. As etapas deste processo, segundo Han
2
& Kamber (2001), são: a seleção de dados; a preparação de dados; a mineração de dados; e a
descoberta de conhecimento.
O processo de KDD começa pela definição do problema a ser estudado com o objetivo de
selecionar apenas os dados realmente relevantes, chamados de dados-alvo. Após essa seleção,
ocorre a etapa de preparação dos dados, que engloba as fases de limpeza, pré-processamento e
transformação dos dados (codificação e enriquecimento) com o objetivo de adequar os
formatos dos dados facilitando o uso das técnicas de mineração. Após os dados devidamente
preparados e transformados em formato próprio a ser lido pelas ferramntas de mineração, são
utilizadas técnicas capazes de gerar padrões que serão interpretados gerando finalmente o
conhecimento.
Organização/Preparação de Dados
A etapa de organização/preparação dos dados é apenas uma etapa do processo de KDD,
porém é uma das fases mais importantes. De acordo com PYLE (1999), a etapa de préprocessamento dos dados está subdividida nas 3 (três) fases descritas abaixo. Todas as
técnicas de pré-processamento utilizadas neste estudo estão descritas e detalhes no item 3
(metodologia) deste trabalho.
a) Descoberta/Acesso dos Dados
b) Auditoria /Caracterização dos Dados
c) Construção da Base de Dados
a. Limpeza da Base de Dados
b. Integração de Dados
c. Transformação dos Dados
d. Enriquecendo os Dados
e. Procura de Viés Amostral
f. Determinando a Estrutura dos Dados
Mineração de Dados (Data Mining)
A mineração de dados (Data Mining) é um conjunto de técnicas utilizadas para exploração e
análise de grandes quantidades de dados. Esta área do conhecimento é uma fusão das áreas de
computação, inteligência artificial e estatística que, por meios automáticos ou semiautomáticos, tem como objetivo descobrir, de forma eficiente, informações válidas e não
óbvias em grandes bases de dados. Estas técnicas têm como características relevantes a
escalabilidade e tempo de processamento.
Segundo Westphal & Blaxton (1998), uma das principais razões para o surgimento da
necessidade de utilização dessa técnica foi o da dificuldade em analisar imenso volume de
dados. Assim, nasceu um processo de descoberta de conhecimento chamado KDD, do qual a
técnica de Data Mining é uma etapa. É nessa importante etapa que ocorre a estruturação de
tendências, regras relevantes e padrões descobertos nos dados analisados em forma de algum
modelo estatístico-matemático. Algumas técnicas e diversas ferramentas de mineração de
dados são utilizadas para este fim e a escolha da técnica correta e da melhor ferramenta a
serem utilizadas depende de cada situação. De um modo geral, cada técnica requer um
algoritmo diferente e cada um extrai um tipo diferente de conhecimento do banco de dados.
É importante destacar que os processos de Data Mining têm escopo bem mais amplo que os
de operações OLAP simples (On Line Analytical Process) porque promovem associações,
3
classificações, agrupamentos e outros tipos de análise. Coelho (2003) diferencia os conceitos
de consulta e análise dos dados. As técnicas de data mining analisam os dados e não
simplesmente consultam os dados como as operações OLAP básicas. A análise, além de
permitir a recuperação dos dados como ocorre com a consulta, permite também obter
conhecimento implícito através da modelagem dos dados que pode estar relacionada, por
exemplo, com medidas de similaridade e correlação.
Han & Kamber (2001) classificam as técnicas de data mining em Análises Descritivas e
Análises Preditivas. O primeiro tipo caracteriza as propriedades gerais da base de dados ou
descobre quaisquer aspectos/relações importantes presentes nos dados (exemplos: técnica de
descoberta de regras de associação e técnica de clusterização). O segundo tipo realiza
inferências na base de dados com o objetivo de prever valores para uma determinada variável
(exemplos: técnica de classificação e de previsão).
Westphal & Blaxton (1998) classificam os métodos para análise de dados em Métodos
Visuais e Métodos Não Visuais. Alguns deles estão listados abaixo, no entanto, neste artigo
será mencionada apenas a técnica de Descoberta de Regras de Associação, que foi a técnica
escolhida para ser aplicada no estudo.
- Métodos Visuais
o Clusterização ou Segmentação (análise de grupos)
- Métodos Não Visuais
o Regras de Associação (análise de similaridade)
o Redes Neurais
o Algoritmos Genéticos
Técnica de Descoberta de Regras de Associação
A mineração de dados através do método de regras de associação tem por objetivo descobrir
padrões freqüentes, relações interessantes ou ainda relações de correlação entre atributos de
registros de grandes bases que podem ser bancos de dados transacionais ou relacionais (HAN
& KAMBER, 2001). Trata-se de um método não supervisionado (Arbex Et al, 2004) e um
exemplo de aplicação deste método é o Market Basket Analysis relacionais (HAN &
KAMBER, 2001).
Como os sistemas de Data Minig são capazes de gerar milhões de padrões, são necessários
alguns recursos para medir a relevância destes padrões descobertos, já que nem todos os
padrões são relevantes e potencialmente úteis. No caso de Regras de Associação do tipo “Se X
então Y”, duas medidas são utilizadas para medir a qualidade da regra: suporte e confiança.
(HAN & KAMBER, 2001). O suporte indica a freqüência em que dois ou mais itens
aparecem juntos em um banco de dados (HAN & KAMBER, 2001) e pode ser definido
matematicamente como:
nº de registros em que aparecem X e Y
Suporte( X ⇒ Y ) =
nº total de registros
A Confiança indica a força de uma regra, significando qual é a freqüência de transações que
contêm X e Y, considerando somente as transações que contêm X (HAN & KAMBER, 2001)
e pode ser definida como:
4
Confiança( X ⇒ Y ) =
nº de registros em que aparecem X e Y
nº de registros em que aparece X
Em uma regra de associação, os parâmetros Suporte e Confiança precisam satisfazer um
limite mínimo para que a mesma seja interessante avaliando, assim, a qualidade da regra.
Normalmente estes limites mínimos de Suporte e Confiança são baixos e altos
respectivamente e são definidos antes da extração das regras (HAN & KAMBER, 2001).
Para extração destas regras, primeiramente são descobertos os conjuntos de itens freqüentes,
ou seja, são descobertos todos os conjuntos de itens com freqüência que atenda ao suporte
mínimo especificado. Atendido o suporte mínimo, as regras devem obedecer também a
confiança mínima estabelecida. Esses valores mínimos previamente determinados servem
para limitar a quantidade de regras extraídas e são definidos antes da extração. As regras que
obedecem ao suporte e confiança mínimo são chamadas de regras fortes (HAN & KAMBER,
2001).
Estas descobertas além de identificar relações muito estreitas entre os atributos em um banco
de dados, também indicam quais relações são mais úteis, ou seja, quais associações são
factíveis de gerar uma ação por parte dos tomadores de decisão. Dentre as possíveis ações que
podem ser desenvolvidas estão uma campanha de marketing mais efetiva e/ou criação de
algumas estratégias tais como: a redefinição de layout da loja com realocação dos produtos
encorajando a venda cruzada (marketing cruzado), elaboração de projetos de catálogo de
produtos, marketing direcionado e definição de perfil com segmentação de clientes através de
seus hábitos de compras. O algoritmo mais utilizado em regras de associação chama-se
Apriori (utilizado neste estudo) e o seu funcionamento está descrito em Han & Kamber(2001).
Ferramentas para Mineração de Dados (Data Mining)
Em se tratando de ferramentas que apóiam a etapa de mineração de dados existem várias com
este objetivo. De acordo com o estudo desenvolvido por Dias (2002), alguns parâmetros
devem ser considerados na escolha da ferramenta mais adequada. Dentre eles quais sistemas
operacionais a versão do software pode ser obtida, custo do software, habilidade de acesso a
uma variedade de fontes de dados, formato do arquivo de entrada, capacidade de
processamento com relação ao tamanho do banco de dados, técnicas de mineração de dados
disponíveis, variedade de atributos que a ferramenta pode manipular. Dias (2002) apresenta
algumas ferramentas para mineração de dados e uma metodologia bastante simples e
interessante para avaliação e seleção do software mais adequado levando em conta os critérios
de desempenho computacional, de usabilidade e de suporte de atividades principais de uma
organização ou sistema.
A metodologia apresentada por Dias (2002) para dar suporte na escolha da ferramenta de
mineração de dados adequada, apesar de bastante interessante, não foi aplicada neste trabalho
em função da principal restrição para escolha desta ferramenta ter sido a utilização de
ferramentas de domínio público. Os custos elevados das ferramentas para este fim
impossibilitam sua utilização por instituições de ensino, empresas de pequeno e médio porte e
principalmente por estudantes.
Sendo assim, será feita uma breve descrição da ferramenta Weka escolhida para ser utilizada
neste trabalho em função de ser o software de domínio público mais utilizado no momento.
5
Software Weka (Waikato Environment for Knowledge Analysis)
A ferramenta Weka foi desenvolvida pela Universidade de Waikato na Nova Zelândia. Está
implementado na linguagem Java. É composto por um conjunto de algoritmos de diversas
técnicas de Mineração de Dados e tem a vantagem de poder ser executada a partir de
diferentes plataformas. É um software de domínio público disponível em
http://www.cs.waikato.ac.nz/ml/weka/ . (WITTEN & FRANK, 2000)
O Weka tem por objetivo reunir as implementações dos algoritmos de mineração, dentre eles
o Apriori, e foi utilizado neste estudo para descoberta de regras de associação relevantes. O
Algoritmo Apriori na ferramenta Weka trabalha apenas com valores nominais. Este software
também inclui um pacote que contém algoritmos de Clusterização e Classificação. (WITTEN
& FRANK, 2000)
O pacote Weka (na versão utilizada neste estudo) trabalha com um formato próprio chamado
ARFF (Attribute-Relation File Format). Isto significa dizer que antes de trabalhar os dados, é
necessário converter os dados de entrada para este formato. Detalhes desta transformação dos
dados podem ser encontrados em Oliveira (2005).
3.
Metodologia
A metodologia, utilizada neste estudo, abordará todas as etapas do processo de KDD, da
seleção dos dados até a fase de Mineração dos Dados (Data Mining) descrevendo a utilização
da ferramenta Weka para obtenção dos padrões. Todos os dados históricos da IES foram
levantados desde sua fundação. Os dados mais antigos estavam em papel (fichas físicas dos
alunos) e os mais recentes estavam incompletos em função de falhas em processos de
migração de dados entre os sistemas para controle acadêmico utilizados no passado e o
sistema para controle acadêmico atual. Tendo em vista estes problemas detectados na base de
dados foram realizadas auditorias nos registros comparando-os com os valores históricos
através da documentação física do aluno, o que levou primeiramente à necessidade de
reparação da base de dados.
3.1
Descoberta/Acesso dos Dados - Selecionando os Dados-Alvo
Selecionar somente os dados relevantes é importante porque diminui o espaço de busca do
algoritmo minerador aumentando sua performance. (PYLE, 1999). A seleção dos dados
relevantes foi feita através do conhecimento gerencial da IES e tendo em vista possíveis
relações entre os atributos e a performance dos alunos da IES.
Os dados mais antigos foram considerados irrelevantes, tendo em vista a provável alteração
do perfil do corpo discente da IES ao longo dos anos. Sendo assim, foram considerados
relevantes somente os dados dos alunos que ingressaram na IES a partir de 1999. Deste
universo, foram selecionados somente os alunos com o curso concluído ou que já tivessem
cursado aproximadamente 80% da carga horária total do curso até 31/01/2005 (data de corte),
uma vez que o objetivo do estudo é identificar possíveis relações de atributos com a
performance destes alunos. Estes dados estão localizados na base de dados do sistema de
controle acadêmico atual e totalizavam 2.134 registros.
6
Após a seleção das bases de dados, foram escolhidos os atributos úteis para mineração, de
acordo com o conteúdo das tabelas existentes e disponíveis. Inicialmente, a seleção de alguns
atributos de identificação foi necessária para possibilitar a junção dos registros entre as tabelas
do banco de dados relacional com o objetivo de criação do arquivo final (flat) de trabalho, no
entanto, a lista abaixo relaciona apenas os atributos, por categoria, considerados relevantes.
Estes atributos tiveram que ser discretizados para utilização do algoritmo minerador utilizado
(Apriori).
Dados Profissionais e Formação Acadêmica do Aluno:
Nome da Empresa em que trabalha (Texto, 70)
Cargo Ocupado (Texto, 70)
Instituição em que fez a graduação (Texto, 70)
Formação da Graduação (Texto, 70)
Dados Acadêmicos dentro da IES
Curso realizado na IES (Texto, 70)
Notas obtidas pelos alunos nas disciplinas (Número, Decimal)
Carga horária total cursada e aprovada (Número, Inteiro)
Durante o procedimento de seleção dos dados, algumas questões referentes à acessibilidade da
base tiveram que ser consideradas como as barreiras legais, questões políticas, formatos e
conectividade dos dados.
-
Barreiras Legais → Foi expressamente proibida a identificação dos alunos da IES de
forma que o direito à privacidade fosse plenamente respeitado. O sigilo visa resguardar o
aluno e não os dados em si. O contexto da proteção constitucional é o mesmo tanto no
âmbito convencional quanto nos meios eletrônicos de armazenamento de dados.
-
Razões Políticas → A empresa não autorizou a divulgação da sua razão social devido à
preocupação com vazamento de informações estratégicas, bem como não autorizou
também a divulgação dos nomes das Empresas em que os alunos trabalhavam.
-
Diferentes Formatos de Dados → Uma parte dos dados localizados estava em papel,
havendo a necessidade de verificação destes dados de forma manual e visual.
Posteriormente, estes dados, sendo considerados irrelevantes para o estudo, não foram
aproveitados. Os dados utilizados estavam na base de dados do sistema acadêmico atual e
as tabelas necessárias do banco de dados, que continham os atributos selecionados, foram
exportadas para a ferramenta de banco de dados Microsoft Access. Com a utilização
desta ferramenta, o arquivo final de trabalho foi gerado. A ferramenta de banco de dados
Microsoft Access foi amplamente utilizada para identificação dos problemas da base de
dados, principalmente missing values, outliers, integridade e inconsistência nos dados. Os
problemas eram identificados mediante execução de queries formuladas e as correções
foram feitas via o software identificado como o sistema de controle acadêmico atual e
posteriormente gerada novamente a base de dados final de trabalho. Esse procedimento
foi repetido até que a base de dados foi considerada íntegra. Os dados foram todos
consolidados em Microsoft Excel e posteriormente convertidos para o formato ARFF,
aceito pelo WEKA.
-
Problemas de Conectividade → Os dados devem estar disponíveis e conectados para o
sistema que será usado para mineração. Mais adiante será detalhado todo o processo de
7
pré-processamento e limpeza de dados até a fase de preparação do arquivo final em
formato (ARRF) aceito pelo software de mineração escolhido (WEKA).
-
Acesso Restrito → Houve restrição da IES somente quanto à divulgação dos nomes dos
alunos identificando-os quanto ao seu desempenho no curso, resguardando o direito dos
envolvidos à privacidade. No entanto, esse atributo foi irrelevante para o estudo, não
causando o menor impacto nos resultados a ausência desta informação.
3.2
Pré-processamento e Limpeza dos Dados
Nesta fase ocorre a auditoria e caracterização dos dados. De acordo com PYLE (1999), o
objetivo desta fase é garantir que os dados acessíveis tenham as características necessárias
para o processo de modelagem, auditando, por exemplo, questões relacionadas com a
qualidade do dado e que estão descritas abaixo.
- Poluição dos Dados
Valores faltantes (Missing Values) - Na base de dados do sistema de controle acadêmico atual
existiam muitos valores faltantes (missing values). Segue abaixo uma listagem com os
atributos considerados relevantes para estudo e percentual de missing values em ordem
decrescente que existiam na base de dados.
i)
ii)
iii)
iv)
Formação na Graduação – 68%
Instituição em que fez a graduação – 32%
Cargo Ocupado – 14%
Empresa em que trabalha – 12%
A maioria destes missing values, tem como causa neste estudo, falhas no processo de
migração. Todos os demais atributos não apresentaram este problema. O procedimento
utilizado para correção da base de dados foi de preencher criteriosamente os valores faltantes
com os valores corretos. Os registros incompletos dos alunos foram identificados e
preenchidos manualmente tomando por base a documentação física do aluno. Esse
preenchimento foi feito com os dados reais para que não fosse provocado nenhum viés
tendencioso, já que em alguns atributos os percentuais de missing values eram bastante
elevados. O resultado deste trabalho após recuperação dos dados está apresentado abaixo
através das novas taxas que representam o percentual de missing values presentes nas bases de
dados do sistema de controle acadêmico atual.
i)
ii)
iii)
iv)
Formação na Graduação – 7,40%
Instituição em que fez a graduação – 14,10%
Cargo Ocupado – 9%
Empresa em que trabalha – 6%
- Inconsistência nos Dados
Existiam inconsistências nos atributos “Cargo que o aluno ocupa”, “Empresa em que o aluno
trabalha”, visto que a mesma empresa e o mesmo cargo estavam representados com
diferentes formatos de texto na mesma base de dados. A justificativa para essa inconsistência
está ligada ao fato do campo de entrada destes atributos no sistema de controle acadêmico
atual ser campo de texto para livre digitação pelos usuários. Foram encontradas no arquivo
final (2.134 registros) mais de 1.000 (mil) variações de nomes de cargos ocupados pelos
alunos. Por exemplo, dois cargos com as maiores quantidades de variações em sua
8
nomenclatura foram o de Gerente (273 variações) e Analistas (164 variações). Também
foram encontradas mais de 1.000 (mil) variações de nomes de empresas em que os alunos
trabalham.
Inconsistências como estas acima mencionadas dificultam o uso das técnicas de modelagem.
Para eliminar este problema foi necessária uma análise bem profunda destes dados com o
objetivo de eliminar estas inconsistências através de agrupamento destes dados diminuindo a
granularidade existente.
- Integridade
Um percentual de 33% dos registros da base de dados do sistema de controle acadêmico atual
apresentava problemas de integridade quanto às disciplinas cursadas. Foi feita uma profunda
verificação analisando a documentação física de cada aluno individualmente e os registros dos
alunos foram corrigidos. Essa falta de integridade resultou de falhas de processos de migração
anteriores. Foi feito um trabalho de correção da base de dados e o resultado deste processo foi
que a base de dados passou a refletir integralmente a documentação real de cada aluno.
3.3
Transformação dos Dados / Construção da Base de Dados
Além da limpeza dos dados, ações de transformações foram necessárias para construção da
base de dados final.
- Categorização dos Atributos
Alguns atributos necessitaram de discretização, através de agrupamento, diminuindo a
granularidade existente, ou seja, foram transformados em variáveis categóricas para favorecer
a performance dos algoritmos de mineração de dados e principalmente para facilitar o
entendimento dos resultados obtidos.
Categorização do atributo “Empresa em que trabalha” → Em relação às variações nos
nomes das empresas em que o aluno trabalha, foram analisadas individualmente cada
nome de empresa e categorizando-a manualmente. Este procedimento foi feito
diretamente no arquivo de trabalho (base de dados final) a ser manipulado pelo software
de mineração. As empresas foram categorizadas pela sua área de atuação de acordo com
as 8 (oito) categorias:Comércio e/ou Indústria; Comunicação, Publicidade e/ou Marketing;
Consultoria; Energia e/ou Petróleo; Financeira, Seguradora ou Previdência; Serviços;
Tecnologia; Telecomunicações.
Categorização do atributo “Cargo em que trabalha” → Em relação a este atributo
também foi feito um trabalho manual de classificação nas classes: Alta Gerência;
Gerência; Supervisão; Consultoria e Assessoria; Operacional.
Categorização do atributo “Formação na Graduação” → Em relação ao atributo
“Formação na Graduação” também foi feito um trabalho manual de classificação dos
valores, seguindo a classificação do CNPq como: Ciências Exatas ou Tecnológicas;
Ciências Humanas ou Biomédicas; Ciências Sociais Aplicadas.
Categorização do atributo “Instituição em que fez a Graduação” → Em relação ao
atributo “Instituição em que fez a Graduação” foi feito um trabalho manual de
classificação dos valores de acordo com as 4 categorias: Faculdades Isoladas Privadas;
Universidades e Centros Universitários Privados; IES Públicas; IES Religiosas.
9
- Enriquecimento dos Dados
Os dados foram enriquecidos através do estabelecimento de um índice que representa a
performance dos alunos ao longo do curso contabilizado a partir das notas obtidas nas
disciplinas cursadas. A seguir são descritos os passos para obtenção desse índice de
performance.
1º Passo: As notas dos alunos nas disciplinas foram convertidas para conceito de acordo com
a escala abaixo estabelecida pela própria IES.
Conceito A ⇒ atribuído para notas ≥ 9,0
Conceito B ⇒ atribuído para notas ≥ 8,0 e ≤ 8,9
Conceito C ⇒ atribuído para notas ≥ 7,0 e ≤ 7,9
Conceito D ⇒ atribuído para notas ≤ 6,9
Obs:. O conceito D atribui o status de reprovação na disciplina.
2º Passo: Quantificadas por aluno as notas com conceitos A, B, C e D.
3º Passo: Calculado o percentual de disciplinas com conceitos A, B, C e D. Esse passo se fez
necessário em função das grades curriculares dos cursos possuírem cargas horárias e
quantidades de disciplinas diferentes em diversos momentos do tempo no período analizado.
4º Passo: A atribuição do índice de performance foi feita da seguinte forma:
Desempenho EXCELENTE ⇒ Alunos com 80% das notas com conceito A.
Desempenho MUITO BOM ⇒ Alunos com 90% das notas entre os conceitos A e B.
Desempenho BOM ⇒ Alunos com 90% das notas entre os conceitos A, B e C.
Desempenho REGULAR ⇒ Demais alunos não classificados nas categorias anteriores.
Tanto a fase de Transformação dos Dados quanto à fase de Enriquecimento dos Dados não
são obrigatórias no processo de KDD, porém quando efetivadas, os resultados obtidos são
mais intuitivos, pois melhora a compreensão do conhecimento descoberto. O tempo de
processamento do algoritmo minerador também fica reduzido quando a codificação dos dados
é executada, pois diminui o espaço de busca. (PYLE, 1999)
- Base de Dados Final
Após a conclusão das etapas anteriores, foi construída, então, uma tabela única com os
atributos relevantes acrescidos do índice de performance estabelecido a fim de enriquecer os
dados. As linhas da tabela representam as ocorrências e as colunas representam os atributos
dos objetos estudados (alunos). Vale ressaltar mais uma vez o quanto a fase de preparação dos
dados é importante no processo de KDD. Foi também a fase mais longa deste trabalho, com
duração de aproximadamente 4 (quatro) meses. A seguir relação de atributos que
determinaram a estrutura da base de dados final: Tipo da Empresa em que trabalha; Cargo
Ocupado; Formação da Graduação; Instituição em que fez a graduação; Curso realizado na
IES (Finanças e Gestão de Negócios); Desempenho.
Após a construção e consolidação da base de dados, totalizando 2.134 registros foram
selecionados apenas os registros referentes aos cursos de Finanças representando 36% da base
de dados total. Os dados foram convertidos/transformados para o formato ARFF, aceito pelo
software de mineração de dados utilizado chamado WEKA.
10
3.4
Mineração de Dados (Data Mining)
Considerando que os dados foram discretizados e de acordo com o estudo de Dias (2002), a
técnica de Descoberta de Regras de Associação, que implementa a tarefa de Associação entre
atributos, é uma das técnicas mais indicadas para trabalharem com variáveis categóricas. Esta
técnica foi aplicada sobre os dados da IES através da utilização do algoritmo “Apriori” software WEKA - utilizando como entrada os conjuntos de dados obtidos a partir das fases
anteriores. Para utilização adequada do software, além da parametrização dos valores de
suporte e confiança, é necessária também a parametrização de alguns valores que estão
apresentados abaixo. As descrições de cada um destes campos podem ser encontradas no Help
existente no próprio software.
car = True
classIndex = -1
delta = 0,05
lowerBoundMinSupport = 0,05
metricType = Confidence
minMetric = 0,40
numRules = 200
removeAllMissingCols = False
significanceLevel = -1,0
upperBoundMinSupport = 1,0
4.
Descoberta de Conhecimento
Após a parametrização do software, conforme item 3.4, todas as regras de associação foram
geradas utilizando os dados do curso de Finanças totalizando uma quantidade de 188 regras.
A inspeção das regras foi feita de forma bastante objetiva, selecionando para serem
apresentadas somente as regras de maior interesse na busca por novos conhecimentos, sendo
definidos os valores de suporte e confiança em 1% e 40%, respectivamente. No entanto,
foram testados outros pares de suporte e confiança, mas que não se mostraram satisfatórios
em termos de quantidade de regras e pertinência (descoberta de regras novas). A seguir um
exemplo, de regra gerada pelo software WEKA:
Empresa=Comercio-Industria Cargo=Supervisao
Desempenho=BOM 8 conf:(0.89)
Graduacao=Ciencias_Sociais
9
==>
A Confiança da regra está representada entre parênteses. O número precedendo o símbolo ==>
indica o Suporte da regra. O número posterior ao mesmo símbolo corresponde ao número de
itens para os quais o conseqüente da regra (após o símbolo ==>) se aplica. O algoritmo Apriori
ordena as regras de acordo com o parâmetro de Confiança da regra em ordem decrescente.
Sempre com o objetivo principal em mente, foi feita uma inspeção sobre as regras para
verificar se os indicadores de desempenho do aluno (EXCELENTE, MUITO BOM, BOM,
REGULAR) apresentam associação quando determinados atributos são relacionados entre si.
Desta forma, a partir da análise de todas as regras geradas, foram inspecionadas, as seguintes
associações:
-
Estudo da relação Cargo x Desempenho
Estudo da relação Graduação x Desempenho
Estudo da relação Instituição Graduação x Desempenho
11
-
Estudo da relação Empresa x Desempenho
Estudo da relação Cargo e Graduação x Desempenho
Estudo da relação Cargo e Empresa x Desempenho
Estudo da relação Instituição Graduação e Cargo x Desempenho
Estudo da relação Instituição Graduação e Graduação x Desempenho
Estudo da relação Graduação e Empresa x Desempenho
Estudo da relação Instituição Graduação e Empresa x Desempenho
Estudo da relação Cargo e Instituição Graduação e Graduação x Desempenho
Estudo da relação Cargo e Empresa e Instituição Graduação x Desempenho
Estudo da relação Cargo e Empresa e Graduação x Desempenho
Estudo da relação Cargo e Empresa e Graduação e Instituição Graduação x
Desempenho
Em função de limitação de espaço para a apresentação neste artigo das 188 regras de
associação geradas para o curso de Finanças, a tabela a seguir apresenta somente algumas
destas regras e as demais poderão ser encontradas em Oliveira (2005).
Regra
Se o Cargo do aluno é Consultor-Assessor (75), então o seu Desempenho
é MUITO BOM (35)
Se o Cargo do aluno é Gerencial (134), então seu Desempenho é BOM
(57)
Se o Cargo do aluno é Supervisão (59), então seu Desempenho é BOM
(24)
Se o Cargo do aluno é Operacional (400), então seu Desempenho é
BOM (163)
Se a Graduação é na área de Ciências Sociais (514), então seu
Desempenho é BOM (224)
Se a Graduação é na área de Ciências Exatas ou Tecnológicas (195),
então seu Desempenho é MUITO BOM (82)
Se o aluno fez a graduação em Universidade Privada (106), então seu
Desempenho é BOM (57)
Se o aluno fez a graduação em Privada-Isolada (94), então seu
Desempenho é BOM (46)
Se o aluno fez a graduação em Instituição Pública (337), então seu
Desempenho é MUITO BOM (141)
Se o aluno fez a graduação em Instituição Religiosa (158), então seu
Desempenho é BOM (65)
Se o aluno fez a Graduação na área de Ciências Sociais e possui um
Cargo de Consultoria-Assessoria (42), então seu Desempenho foi
MUITO BOM (20)
Se o aluno fez a Graduação na área de Ciências Exatas ou Tecnológicas
e possui um Cargo Gerencial (36), então seu Desempenho foi MUITO
BOM (15)
Se o aluno fez a Graduação na área de Ciências Exatas ou Tecnológicas
e possui um Cargo Operacional (99), então seu Desempenho foi MUITO
BOM (41)
Se o aluno fez a Graduação em uma Instituição Religiosa e possui um
Cargo de Consultoria-Assessoria (23), então seu Desempenho foi
MUITO BOM (13)
Se o Cargo do aluno é Gerencial e a Instituição em que cursou a
Graduação é Pública (49), então seu Desempenho foi MUITO BOM (21)
Se o Cargo do aluno é Operacional e a Instituição em que fez a
Graduação é Pública (200), então seu Desempenho foi MUITO BOM
(83)
Se o aluno fez a Graduação na área de Ciências Sociais em uma
Confiança
47%
43%
41%
41%
44%
42%
54%
49%
42%
41%
48%
42%
41%
57%
43%
42%
41%
12
Instituição Publica (194), então seu Desempenho foi MUITO BOM (80)
Se o Cargo do aluno é Operacional e a Graduação é na área de Ciências
Sociais em Instituição Pública (123), então seu Desempenho foi MUITO
BOM (40)
Se o Cargo do aluno é Gerencial e a Graduação é na área de Ciências
Exatas ou Tecnológicas em Instituição Pública (22), então seu
Desempenho foi MUITO BOM (11)
Se o Cargo do aluno é Operacional e a Graduação é na área de Ciência
Exatas ou Tecnológicas em Instituição Pública (63), então seu
Desempenho é MUITO BOM (29)
Se o Cargo do aluno é Operacional e a Graduação é na área de Ciência
Exatas ou Tecnológicas (27) em Instituição Religiosa, então seu
Desempenho é BOM (13)
Se o aluno fez a Graduação na área de Ciências Exatas ou Tecnológicas
em uma Instituição Privada-Isolada (26), então o seu Desempenho foi
BOM (11)
Se o Cargo do aluno é Gerencial e a Graduação é na área de Ciências
Sociais em Instituição Privada Isolada (25), seu Desempenho foi BOM
(15)
Tabela 1. Regras de Associação geradas a partir do software Weka
40%
50%
46%
48%
42%
60%
Observando as regras geradas para o Curso de Finanças, estando algumas delas apresentadas
acima, fica muito claro que os alunos que exercem cargos de consultoria ou assessoria
possuem desempenho superior (MUITO BOM) no curso quando comparados com alunos que
exercem função gerencial, de supervisão ou operacional (BOM). Essa afirmativa foi
verificada, inclusive, quando foram analisadas conjuntamente as informações referentes ao
cargo, a graduação e a instituição em que fez a graduação, mesmo que estes atributos
sugerissem desempenho inferior quando analisados individualmente. Possivelmente podemos
interpretar por estas regras que para os alunos que desempenham cargos de consultoriaassessoria, a experiência profissional adquirida, provavelmente em diversas empresas e ramos
de atuação, passa a ter maior influência no desempenho.
Já os gerentes e supervisores, como ocupam mais o tempo com atividades administrativas e de
comando, se afastam das atividades mais técnicas não desenvolvendo seus conhecimentos
específicos na área de finanças, apresentando desempenho (BOM) inferior neste tipo de curso.
Os alunos que exercem cargos operacionais também possuem desempenho BOM no Curso de
Finanças, contrariando o “senso comum” de que estes alunos teriam desempenho similar aos
consultores ou assessores. No entanto, dependendo do tipo de associação feita com os dados
da base, o desempenho destes alunos aumenta para MUITO BOM. A exemplo, pode-se citar a
associação feita entre cargo ocupado, a graduação e a instituição em que o aluno cursou a
graduação. Se o aluno fez a graduação na área de ciências exatas ou tecnológicas em
instituição pública, o desempenho é alavancado para MUITO BOM, apesar do cargo do aluno
ser gerencial ou operacional. Mas se a graduação foi cursada em instituições religiosas, por
exemplo, o rendimento do aluno continua BOM.
Essa afirmativa confirma o “senso comum” de que os alunos graduados em instituições
públicas têm melhor desempenho quando comparados com os alunos oriundos de
universidades privadas, faculdades privadas-isoladas e religiosas. Essa constatação pode ter
alguma relação com o fato de os processos de seleção em instituições públicas serem mais
concorridos filtrando os alunos com melhor preparo e provavelmente criando um ambiente de
nível intelectual mais alto nestas instituições.
13
Para dar maior veracidade a informação acima, quando as informações referentes a graduação
cursada pelo aluno, a instituição em que fez a graduação e o cargo que ocupa são analisadas
conjuntamente, o atributo de maior peso é a instituição em que fez a graduação. A instituição
pública geralmente alavanca o desempenho para cima, mesmo que os estudos individuais dos
atributos graduação e cargo assumam valores que impliquem em desempenho inferior.
É interessante constatar que os alunos oriundos de universidades privadas, faculdades
privadas-isoladas e instituições religiosas não se diferenciam quanto ao seu desempenho
(BOM), contrariando o “senso comum” de que os alunos oriundos de instituições religiosas
apresentariam um desempenho superior às outras duas.
Apesar da instituição em que o aluno cursou a graduação ter maior peso para análise do
desempenho do aluno, quando comparada com os outros atributos, fica bastante claro, a partir
da análise das regras, que a formação acadêmica em ciências exatas ou tecnológicas também
influencia bastante o desempenho do aluno no Curso de Finanças, principalmente quando
comparada somente com a experiência profissional (cargo que ocupa).
A afirmação acima pode ser explicada porque os alunos graduados na área de ciências exatas
ou tecnológicas possuem formação com base em matemática e aperfeiçoam o raciocínio
lógico e capacidade analítica que são importantes para o Curso de Finanças. A exceção fica
somente por conta dos alunos que assumem cargos de consultoria ou assessoria que
apresentam desempenho MUITO BOM independente se a graduação é na área de ciências
sociais, exatas ou tecnológicas. Mais uma vez o cargo em consultoria ou assessoria provando
o quanto a experiência profissional adquirida neste cargo agrega no desempenho do aluno. No
entanto, mesmo que a graduação cursada tenha sido na área de ciências exatas ou tecnológicas,
se o aluno estudou em instituição religiosa, seu desempenho passa a ser BOM e não MUITO
BOM.
Conclui-se pela análise destes resultados, que tanto a instituição pública como a formação em
ciências exatas ou tecnológicas, melhoram o desempenho do aluno do curso de Finanças para
MUITO BOM, no entanto, o maior peso fica por conta da instituição em que o aluno cursou a
graduação.
Já os ramos de atuação das empresas em que os alunos do curso de Finanças trabalham
apresentam pequeno impacto no desempenho quando essa informação está associada a outros
atributos da base de dados. Em função disso, as regras de associação geradas que envolviam o
atributo “empresa” não foram citadas neste artigo.
Os resultados obtidos no estudo, apesar da confiança na maioria das regras ficar em torno de
50%, além de ferramenta de apoio nos processos de seleção, permitiram levantar hipóteses
para discussão no âmbito da comunidade acadêmica e de avaliação dos novos alunos dos
cursos de pós-graduação lato sensu da IES. Este estudo possibilitou validações e descobertas
interessantes, ainda que passíveis de uma análise mais acurada pelos coordenadores
acadêmicos da IES, no sentido de melhor extrair as razões e formular as hipóteses para
avaliação do conhecimento gerado.
5.
Conclusões
Este estudo teve por finalidade descobrir o conhecimento implícito em um banco de dados de
alunos do sistema acadêmico de uma instituição de ensino superior (IES). Para isso foi
14
necessário analisar/minerar alguns dados destes alunos, associando-os com o desempenho
obtido por eles. Desta forma, foi possível determinar os fatores que mais afetam o
desempenho dos alunos, sendo este classificado em: EXCELENTE, MUITO BOM, BOM e
REGULAR.
Para cumprir este objetivo foi utilizado um software específico, de domínio público, para
mineração de dados (Data Mining) chamado Weka. No entanto, um passo anterior foi
necessário e extremamente importante que foi a etapa de pré-processamento dos dados, sendo
indispensável em função da poluição nos dados e da própria natureza semântica dos atributos
envolvidos na análise, o que levou a um grande esforço na fase de preparação de dados.
Posteriormente a esta fase, através da aplicação deste software e da metodologia de data
mining chamada Descoberta de Regras de Associação, foi possível, então, obter uma série de
conhecimentos novos.
Vale ressaltar que muitos desses novos conhecimentos são contrários ao que era considerado
como senso comum na IES. Outros conhecimentos confirmaram o que já era conhecido com a
inteligência do negócio da IES obtidos através da experiência e observação dos coordenadores
de curso durante anos. Deste ponto de vista, este processo serviu para validar a inteligência do
negócio da IES, corrigindo alguns conhecimentos e adicionando outros ainda não percebidos
e portanto confirmando a validade do estudo.
A finalidade do estudo de formar uma base de conhecimento para auxiliar, por exemplo, em
futuros processos de seleção dos cursos de pós-graduação lato sensu, apoiar à coordenação
acadêmica no processo de acompanhamento acadêmico dos alunos e melhor direcionar
estratégias de marketing foi atingido.
O conceito da análise dos dados através das técnicas de mineração de dados é, apesar de
ensinado, ainda pouco difundido em aplicações diretas em instituições de ensino. Sendo assim,
esse estudo e as sugestões para futuros trabalhos visam contribuir para o universo que faz uso
da informação e da tecnologia de informação que, a cada dia, mudam as relações de
competitividade também no setor educacional.
6.
Pesquisas Futuras
Durante deste estudo, novas e interessantes questões puderam ser formuladas ficando aqui
como sugestões para pesquisas futuras.
- Incorporar a este estudo novos atributos constantes na base de dados, como por exemplo,
sexo, estado civil e idade dos alunos.
- Repetir o experimento utilizando bases de dados de outros cursos da IES.
- Aplicar esta mesma técnica de descoberta de regras de associação em outras bases de dados
como a financeira, por exemplo, visando encontrar relações que caracterizem o aluno
inadimplente ou ainda descobrir se existe alguma associação entre o desempenho dos alunos e
o fato deles pagarem o próprio curso ou não.
- Adaptar o estudo para estudar dados dos candidatos referentes aos processos seletivos dos
cursos da IES.
- Utilizar outras técnicas (exemplo: árvore de decisão) e outros softwares para mineração de
dados (exemplo: MineSet) com o objetivo de verificar se os resultados se repetem ou se
podem gerar novos conhecimentos.
15
- Elaborar modelo de predição de performance dos alunos utilizando técnicas de inteligência
artificial.
7.
Referências Bibliográficas
ARBEX, Eduardo C., SABOREDO, Alexandre P, MIRANDA, Dhalila (2004)
“Implementação e Estudo de Caso do Algoritmo Apriori para Mineração de Dados”.
Associação Educacional Dom Bosco, Resende – RJ
COELHO, Paulo (2003) “Estudo Comparativo de Ferramentas de Previsão Baseadas em
Árvores”. Faculdade Ibmec, RJ.
DIAS, Maria M. (2002) “Estudo e Análise de Técnicas e Ferramentas de Mineração de
Dados”. Universidade Federal de Santa Catarina, SC
HAN, Jiawei, KAMBER, Micheline (2001) Data mining : Concepts and Techniques. San
Diego. Academic Press.
OLIVEIRA, Elizabeth (2005) “Determinação dos Fatores Críticos na Análise de
Desempenho do Corpo Discente de Cursos de Pós-graduação Lato Sensu Utilizando
Metodologia Data Mining”. Faculdades Ibmec, RJ.
PYLE, Dorian (1999) Data Preparation for Data Mining. San Diego. Morgan Kaufmann.
WESTPHAL, Christopher, BLAXTON, Teresa (1998) Data Mining Solutions: Methods
and Tools for Solving Real-World Problems. New York. John Wiley & Sons.
WITTEN, Ian, FRANK, Eibe (2000) Data Mining: Pratical Machine Learning Tools and
Techniques with Java Implementations. San Diego. Morgan Kaufmann Publishers.
16
Download

1 Determinação dos Fatores Críticos na Análise de