UNIVERSIDADE ESTADUAL DE GOIÁS
UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
CLEON XAVIER PEREIRA JÚNIOR
MINERAÇÃO DE DADOS:
TRATAMENTO DE DADOS PARA DESCOBERTA DE PADRÕES NA UNIVERSIDADE
Anápolis
Dezembro, 2012
UNIVERSIDADE ESTADUAL DE GOIÁS
UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
CLEON XAVIER PEREIRA JÚNIOR
MINERAÇÃO DE DADOS:
TRATAMENTO DE DADOS PARA DESCOBERTA DE PADRÕES NA UNIVERSIDADE
Trabalho de conclusão de curso apresentado ao Departamento de Sistemas de Informação da
Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade Estadual de Goiás,
como requisito parcial para obtenção de grau de Bacharel em Sistemas de Informação.
FICHA CATALOGRÁFICA
JÚNIOR, Cleon Xavier Pereira.
Mineração de Dados: Tratamento de dados para descoberta de padrões na Universidade.
Anápolis 2012.
(UEG / UnUCET, Bacharelado em Sistemas de Informação, 2012).
Monografia.Universidade Estadual de Goiás, Unidade Universitária de Ciências Exatas e
Tecnológicas. Departamento de Sistemas de Informação.
1. Mineração de Dados 2. Banco de Dados
3. Data Mining
REFERÊNCIA BIBLIOGRÁFICA
JÚNIOR, Cleon Xavier Pereira. Mineração de Dados: Tratamento de dados para descoberta de
padrões na Universidade. Anápolis, 2012. Monografia – Curso de Sistemas de Informação,
UnUCET, Universidade Estadual de Goiás.
CESSÃO DE DIREITOS
NOME DO AUTOR: Cleon Xavier Pereira Júnior
TÍTULO DO TRABALHO: Mineração de Dados: Tratamento de Dados para Descoberta de
Padrões na Universidade
GRAU/ANO: Graduação /2012.
É concedida à Universidade Estadual de Goiás permissão para reproduzir cópias deste
trabalho, emprestar ou vender tais cópias para propósitos acadêmicos e científicos. O autor
reserva outros direitos de publicação e nenhuma parte deste trabalho pode ser reproduzida
sem a autorização por escrito do autor.
Cleon Xavier Pereira Júnior
Rua Dr. Adalberto P. da Silva Qd. 07 Lt. 21 Bairro Dom Pedro II
CEP 75140-010 – Cidade – GO – Brasil
Dedico este trabalho a minha avó materna, Laura,
uma guerreira que, na sua fragilidade adquirida pela
idade e doenças, me ensinou muito o que realmente
fazia sentido na vida. Se eu não posso ter seu sorriso
neste momento, ao menos, esta homenagem quero
deixar.
AGRADECIMENTOS
Em primeiro lugar agradeço à Deus. Por muitas vezes fraquejei na fé, mas ao final
Ele foi minha fortaleza e à Ele devo minha vida. Aos meus pais e irmão que me incentivaram
durante toda esta caminhada, não deixando que eu desistisse, me incentivando e transmitindo
a segurança de uma verdadeira família.
Ofereço também à minha segunda mãe, que tive a opção de escolher, Ednamar.
Durante toda minha vida esteve ao meu lado, um alicerce essencial para sustentar toda minha
família. Aos meus colegas de trabalho e classe que não acrescentaram somente em termos
técnicos, mas também no modo de viver.
Quero agradecer também aos professores que passaram pela minha vida, desde o
ensinamento das primeiras letras até os algoritmos mais complexos. Neste momento gostaria
de enfatizar meu agradecimento ao professor Ms, Ly Freitas Filho, por me orientar durante
este trabalho e nunca negar conhecimento.
A todas as pessoas que passaram pela minha vida e me acrescentaram algum
conhecimento, ficam aqui meu sentimento de gratidão.
Lista de Ilustrações
Figura 1: Etapas do processo até o KDD (Fayyad et al, 1996) ................................................ 20
Figura 2: A relação do Data Mining com o Data Warehouse (Carvalho 2001). ...................... 22
Figura 3: Modelo referente as fases do CRISP-DM (SPSS, 2000). ........................................ 28
Figura 4: MER do banco de dados para a mineração ............................................................... 35
Figura 5: MR do Banco de Dados para MD. ............................................................................ 37
Figura 6: Tela inicial do Software WEKA. .............................................................................. 39
Figura 7: Tela de exploração dos dados do Software WEKA. ................................................. 39
Figura 8: Esquema de dados separados por vírgula (.CSV). .................................................... 40
Figura 9: Técnica de associação pelo software WEKA. .......................................................... 41
Figura 10: Esquema de associações gerado pelo Software WEKA ......................................... 44
Lista de Tabelas
Tabela 1: Comparativo entre rede pública e privada na Prova Brasil de 2011 ........................ 18
Tabela 2: Resultado de 5 tuplas na busca realizada para a mineração de dados ...................... 38
Lista de Gráficos
Gráfico 1: Relação de dados após efetuar a limpeza ................................................................ 36
Gráfico 2: Relação da origem dos estudantes graduados baseado na massa de dados. ............ 42
Gráfico 3: Relação do sexo dos estudantes graduados baseado na massa de dados. ............... 43
Gráfico 4: Relação de tempo de formação dos graduados baseado na massa de dados. .......... 43
Gráfico 5: Relação de graduados com o tempo de permanência no curso. .............................. 45
Gráfico 6: Relação da origem do graduado com a idade que ingressou na UnUCET / UEG. . 45
Gráfico 7: Comparativo de dados dos graduados em cursos de licenciatura ........................... 46
Gráfico 8: Comparativo de dados dos graduados em cursos de bacharel ................................ 46
Gráfico 9: Relação de cursos com sexo masculino. ................................................................. 47
Gráfico 10: Comparativo geral de egressos do sexo feminino. ................................................ 48
Lista de Siglas e Abreviaturas
BD
CRISP-DM
CSV
DM
DW
ENEM
IA
INEP
KDD
MD
MEC
PrG
SAS
SGBD
SQL
SEMMA
UEG
UnUCET
WEKA
Banco de Dados
Cross-Industry Standard Process for Data Mining
Comma-separated values
Data Mining
Data Warehouse
Exame Nacional do Ensino Médio
Inteligência Artificial
Instituto Nacional de Estudos e Pesquisas Educacionais
Anísio Teixeira
Knowledge Discovery in Database
Mineração de Dados
Ministério da Educação
Pró-reitoria de Graduação
Sistema de Avaliação Seriado
Sistema Gerenciador de Banco de Dados
Structured Query Language
Sample, Explore, Modify, Model, Assess
Universidade Estadual de Goiás
Unidade Universitária de Ciências Exatas e Tecnológicas
Waikato Environment for Knowledge Analysis
RESUMO
No Brasil são constantes as discussões sobre o ensino básico e superior. O país
sofre críticas diárias sobre a qualidade da Educação que oferece de forma gratuita à
população. Os dados de exames efetuados com a estudantes do nível médio mostram que esta
educação pública anda bem abaixo do nível da educação privada. Em contrapartida, o ensino
superior público possui uma grande procura e uma maior aceitação pela população como um
todo. E é nesta fase da vida que surgem outras preocupações, como tempo de formação,
escolha de cursos, perfis dos estudantes e outros.
O constante crescimento do armazenamento de dados em todas as partes do
mundo e a necessidade de descoberta de padrões para tomadas de decisões fazem com que a
área de ciência da computação que estuda as técnicas de Mineração de Dados (MD) esteja em
foco e em constante estudo. O presente trabalho tem a preocupação de unir as técnicas de MD
juntamente com os registros de graduados da Unidade Universitária de Ciências Exatas e
Tecnológicas (UnUCET) da Universidade Estadual de Goiás (UEG), no intuito de formar
alguns padrões que envolvem os perfis destes graduados. Há um foco na modalidade dos
cursos, sexo, rede de ensino que o estudante teve origem e idade. Para a realização da
pesquisa, o trabalho adotou uma metodologia já conhecida no campo de MD, o CRISP-DM.
Através desta linha de trabalho, a pesquisa iniciou na coleta de dados e, posteriormente,
houve uma analise destes perfis e, em seguida, a formação de padrões. Durante o trabalho foi
estudado técnicas de mineração de dados, ferramentas e algoritmos que dão suporte à técnica.
Ao final da pesquisa foram encontrados padrões relacionados aos dados dos graduados
fornecidos pela UEG para análise, sendo que os resultados abriram um leque de opções para
futuros trabalhos que, ao final, poderão colaborar para a Educação do país.
Palavras-chave: Mineração de Dados, Banco de Dados, UEG, UnUCET, ensino
superior, CRISP-DM, educação, padrões, metodologia, técnicas, ferramentas.
ABSTRACT
The discussion about elementary and high school in Brazil is constantly in
evidence. The country is daily criticized for the public and non charged education its offer to
the population. The numbers obtained from the exams taken by high school students have
showed that the public education is in a lower level compared to the private system. On the
other hand, public colleges and universities have a high number of students enrolled in its
courses and are better accepted by the Brazilian citizen, once other worries as course duration,
courses choice, students profiles appear. The constant increase of data storage everywhere in
the world and the need for discover decision taking patterns make the information technology
field, which studies Data Mining (DM), be in evidence and constantly studied. This essay is
due to reunite the DM techniques with the Unidade Universitária de Ciências Exatas e
Tecnológicas (UnUCET) under graduates, a department which belongs to the Universidade
Estadual de Goiás (UEG), trying to form some patterns that involve these students profiles.
There is also focus on the type of course, gender, education system that the student came from
and its age. A well known DM methodology was used to do the research, the CRISP-DM.
With this material, the process began by collecting the information, adjusting it and finally
creating the pattern formats about the graduates. During the process, a data mining, tools and
algorithms to support the technique was possible to be studied. When concluding the research,
patterns related to the graduates’ information, provided by UEG to be analyzed, were found.
The results showed other options for future essays and research to be worked due to
collaborate to the education system in the country.
Keyword: Data Mining, Database, UEG, UnUCET, University, CRISP-DM,
education, standards, methodology, techincs, tools.
SUMÁRIO
INTRODUÇÃO ........................................................................................................................ 14
1. REFERENCIAL TEÓRICO ................................................................................................. 17
1.1 O ENSINO BÁSICO, VESTIBULAR E AS COTAS DEDICADAS AO ENSINO PÚBLICO ............. 17
1.2 MINERAÇÃO DE DADOS ................................................................................................... 19
1.2.1 Mineração de Dados: Origem .................................................................................. 19
1.2.2 O processo para a Formação do KDD ..................................................................... 20
1.2.3 A Importância do Data Warehouse para a MD ....................................................... 21
1.2.4 A Necessidade de IA para o Desenvolvimento da MD ........................................... 22
1.2.5 Algoritmos para MD................................................................................................ 23
1.2.5.1 Algoritmos de Árvores de Decisão para o Trabalho com MD ..................... 23
1.2.5.2 Algoritmos Apriori para MD ........................................................................ 23
1.2.6 As Técnicas da MD ................................................................................................. 24
1.2.6.1 Classificação ................................................................................................. 24
1.2.6.2 Agrupamentos (Clustering) .......................................................................... 25
1.2.6.3 Associação .................................................................................................... 25
1.2.7 Metodologias e Processos para a MD...................................................................... 26
1.2.7.1 CRISP-DM ................................................................................................... 26
1.2.7.2 SEMMA ....................................................................................................... 28
1.2.8 Ferramentas para MD .............................................................................................. 29
1.2.8.1 Clementine .................................................................................................... 29
1.2.8.2 WEKA .......................................................................................................... 30
2. METODOLOGIA ................................................................................................................. 31
2.1 AMBIENTE DE ESTUDO..................................................................................................... 31
2.2 TIPOS DA PESQUISA ......................................................................................................... 31
2.3 UNIVERSO, AMOSTRA E SUJEITO DA PESQUISA ................................................................ 32
2.4 COLETA DOS DADOS ........................................................................................................ 32
2.5 DO ENTENDIMENTO DO NEGÓCIO À MODELAGEM DOS DADOS ....................................... 33
2.5.1 Entendimento do Negócio ....................................................................................... 33
2.5.2 Entendimento dos Dados ......................................................................................... 34
2.5.3 Preparação dos Dados.............................................................................................. 35
2.5.4 Modelagem dos Dados ............................................................................................ 38
3. RESULTADOS E AVALIAÇÕES ...................................................................................... 42
3.1 RESULTADOS ................................................................................................................... 42
3.2 DISCUSSÃO DOS RESULTADOS ......................................................................................... 48
CONCLUSÕES E TRABALHOS FUTUROS ........................................................................ 50
REFERÊNCIAS ....................................................................................................................... 52
APÊNDICE .............................................................................................................................. 54
APÊNDICE A – CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSÃO DE CURSO ... 54
APÊNDICE B – PÔSTER APRESENTADO NO IV SIMPÓSIO DE TECNOLOGIA DA
INFORMAÇÃO E IV SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE
SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2012 ..................................................... 55
APÊNDICE C – SCRIPTS PARA CRIAÇÃO DE TABELAS ............................................................ 56
APÊNDICE D – SCRIPTS DE MANIPULAÇÃO E SELEÇÃO ......................................................... 57
APÊNDICE E – ALGORITMO APRIORI, ALGORITMO APRIORI_GEN 3 FUNÇÃO GENRULES ...... 59
INTRODUÇÃO
Atualmente, nota-se um crescimento explosivo de dados gerados pela
humanidade, que trabalhados de forma individual, não geram nenhum conhecimento. Já estes
números tratados como um todo, tornam impossíveis de serem analisados apenas com
algumas planilhas e o raciocínio humano. Percebe-se também que, com o passar dos anos, os
computadores tendem a aumentar a capacidade de armazenamento, tornando cada vez mais
abstrato a análise dos dados por métodos tradicionais.
Desta forma, em um contexto mundial, as técnicas e aplicações estão em evolução
para que, através de um grande volume de dados, possam ser encontrados padrões ou
comportamentos incomuns que auxiliem nas definições de estratégias de negócios. A isso
damos o nome de Mineração de Dados (MD), cujo termo original, oriundo do inglês, é Data
Mining (DM).
Os ramos governamentais, corporativos e científicos oferecem grande volume de
dados, diariamente. E é a partir dessas informações que se tem maior aplicação de mineração
de dados.
No meio universitário tem-se como uma das movimentações a entrada e a
posterior graduação dos estudantes, sendo que a forma de ingresso, principalmente em
instituições públicas, pode ser por programas seriados ou processo seletivo comum. Também
se trabalha com cotas, onde uma porcentagem das vagas é destinada para alunos de escolas
públicas, negros, índios, entre outros.
Nas listas divulgadas pelas universidades estão disponíveis somente a relação de
alunos que vieram de escola pública e privada. Não oferece o estudos e as aplicações que
auxiliam na descoberta da relação do nível de desistência relacionado a esses dois grupos, o
tempo médio de formação, as áreas que os alunos de escola pública sobressaem mais que nas
instituições particulares, entre outros. Informações deste tipo não são possíveis de serem
analisadas somente por observações superficiais, sendo que os seus resultados podem ser
tomados de base para algumas mudanças na educação tanto básica quanto superior.
A Universidade Estadual de Goiás (UEG) possui 41 instalações por todo o estado
de Goiás, sendo que a maior e a que possui mais entrada de alunos é a Unidade Universitária
de Ciências Exatas e Tecnológicas (UEG / UnUCET). Localizada em Anápolis, a unidade
possui 10 cursos (Arquitetura e Urbanismo, Ciências Biológicas, Química – Modalidade
Licenciatura, Engenharia Agrícola, Engenharia Civil, Farmácia, Matemática, Química
14
Industrial, Sistemas de Informação e Física). A partir dessas informações, o presente trabalho
teve uma preocupação em encontrar padrões relacionados a estudantes acadêmicos, através de
técnicas de MD, utilizando um universo de graduados.
Para que houvesse uma boa mineração, houve a necessidade de ter um grande
volume dos dados. A UEG / UNUCET, por possuir a maior quantidade de cursos se
comparado às outras unidades do Estado, foi selecionada para a prática do trabalho, sendo que
as técnicas aplicadas e os resultados poderão ser utilizados em outras instituições.
A UEG / UnUCET possui dois processos seletivos por ano, sendo que no inicio e
meio do ano podem entrar novos alunos que realizam o Sistema de Avaliação Seriado (SAS)
ou alunos que fizeram o vestibular comum. Além disso, há a concorrência universal ou por
cotas, sendo que os cotistas podem ser por raça, portador de necessidade especial ou oriundo
de instituições de ensino médio pública.
Muitas são as críticas quanto ao ensino básico brasileiro. Mas, ao entrar em uma
universidade, como a UEG / UnUCET, é possível notar um rendimento diferente de alunos
que possuem ensinos médios de origens distintas (Pública ou privada)? O ensino básico
influencia na escolha do ensino superior?
Os objetivos específicos da pesquisa foram: Escolher a melhor ferramenta, técnica
e algoritmo para uma boa MD e preocupar em dominar o assunto de forma a não ter eventuais
erros por falta de entendimento do conteúdo. Estabelecer, após a mineração de dados um
levantamento dos padrões encontrados e discutir os resultados.
A divisão da pesquisa ocorreu em capítulos de forma sequencial, sendo que cada
um está diretamente conectado ao anterior. A seguir, sua composição:
O primeiro capítulo deste trabalho traz o referencial teórico que serve de
composição para o desenvolvimento do trabalho. Nele são discutidos visões de diferentes
autores sobre assuntos envolvendo MD, tecnologias e a educação do Brasil. Nesta primeira
fase é possível criar opiniões e tomar algumas decisões para sobressair no desenvolvimento e
conclusão da pesquisa. São abordadas questões sobre a educação básica do Brasil
comparando o ensino médio público e o privado. Após apresentar algumas opiniões, o é
introduzida a parte técnica do trabalho, que é a MD. Foram especificadas as fases do KDD,
passando pela MD e gerando o conhecimento de acordo com o autor Fayadd. Também foram
levantados e discutidos técnicas, metodologias e foi encerrado com a especificação de
algumas ferramentas para aplicação da técnica.
Na segunda parte do trabalho, trata-se da metodologia empregada no trabalho. O
capítulo discute a coleta dos dados, o universo estudado, sujeitos da pesquisa e amostra. Em
15
seguida, é apresentada a preocupação em explicar como foi executada a coleta de dados e
inicia-se então o processo de tratamento dos dados de forma detalhada. Após a coleta, os
dados passam por uma avaliação juntamente com o entendimento do negócio, a limpeza,
finalizando com a modelagem. Nesta fase o estudo das ferramentas, técnicas, metodologias e
outros assuntos que foram apresentados no capítulo um, tiveram grande utilidade.
O terceiro capítulo atenta-se com os resultados da pesquisa e respectivamente as
avaliações iniciais que surgiram pelos resultados gerados. Ele é composto de vários gráficos
que mostram os padrões gerados através da MD executada no capítulo anterior. Os resultados
demonstrados são decorrentes de pesquisas no BD e de regras geradas pelo software WEKA.
Ao final deste trabalho há uma conclusão relatando se o objetivo inicial da
pesquisa foi ou não atingido, qual a contribuição do trabalho para a pesquisa e quais trabalhos
futuros podem surgir a partir desta pesquisa.
16
1. REFERENCIAL TEÓRICO
O século XXI é marcado pelas grandes evoluções e mudanças à nível mundial e
na área de tecnologia. Tanto o software quanto o hardware vem evoluindo para que haja um
maior processamento de informações em um menor tempo. Sendo assim, a todo momento
surgem novas ferramentas para auxiliar as empresas a saírem na frente no mercado. A MD é o
campo da ciência da computação usada principalmente nas estratégias de marketing e
conquista de mercado, procurando padrões que criam caminhos para, por exemplo, elaborar
uma estratégia de aumento de vendas e melhor satisfação dos clientes.
São várias as áreas que se usam a MD, inclusive a área de educação, para concluir
suposições e formar padrões. Este capítulo tem por necessidade discutir diferentes visões de
processos para a MD, técnicas e metodologias aplicadas. Também é intenção esclarecer sobre
o uso das cotas em vestibulares de universidades públicas do país. Todas as informações
citadas abaixo são referentes a conclusões de pesquisadores da área de informática e afins que
são necessárias para o complemento do conteúdo.
1.1 O Ensino Básico, Vestibular e as Cotas Dedicadas ao Ensino Público
A reserva de vagas seria justamente a busca de uma justiça proporcional, no
sentido de que institui, na prática, a igualdade de competição entre
estudantes de escolas públicas que terão suas vagas reservadas para
concorrerem entre si e estudantes de escolas privadas que também terão suas
próprias
vagas,
compensando,
assim,
a
desproporcionalidade
da
concorrência entre escolas privadas e públicas (SANTANA, 2010).
Se partirmos da constituição brasileira, a explicação do sistema de cotas para
ingresso no nível superior das universidades públicas é baseado no artigo 5º da Constituição,
com os seguintes termos “todos são iguais perante a lei sem distinção de qualquer
natureza...”(BRASIL, 1988). Mas a justificativa dos vestibulandos de ensino médio de origem
pública é que estão em desvantagem quando vão disputar uma vaga com os de origem
privada, ferindo os princípios de igualdade.
Um dos exemplos dessa diferença foi apresentada no Exame Nacional do Ensino
Médio (Enem). Trata-se de uma prova para alunos que estão no 3º ano do ensino médio, e
serve de avaliação individual e da escola. Todos os resultados referentes ao mesmo são
17
divulgados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
(INEP). No resultado do Enem em 2010, entre as 100 melhores escolas do país, apenas 13
eram da rede pública de educação. Nas 100 piores classificadas, nenhuma é da rede privada.
Todos os resultados referentes ao mesmo são divulgados pelo Instituto Nacional de Estudos e
Pesquisas Educacionais Anísio Teixeira (INEP).
No Brasil atualmente é utilizado a Prova Brasil para avaliar o desenvolvimento da
educação no país.
A Prova Brasil e o Sistema Nacional de Avaliação da Educação Básica
(Saeb) são avaliações para diagnóstico, em larga escala, desenvolvidas pelo
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
(Inep/MEC). Têm o objetivo de avaliar a qualidade do ensino oferecido pelo
sistema educacional brasileiro a partir de testes padronizados e questionários
socioeconômicos. (MEC, 2011).
No ano de 2011 houve uma avaliação e o resultado geral trouxe uma diferença
entre o ensino público e o privado, sendo que o ensino privado saiu na frente mais uma vez. A
seguir, há uma tabela com as notas da Prova Brasil das disciplinas de matemática e português
de 2011.
Rede privada
Rede pública
Matemática Português Matemática Português Matemática Português
1º a 5º
1º a 5º
6º a 9º
6º a 9º
ensino
ensino
anos
anos
anos
anos
médio
Médio
242,81
222,7
298,42
282,25
332,89
312,75
204,58
185,69
244,84
238,77
265,38
261,38
Tabela 1: Comparativo entre rede pública e privada na Prova Brasil de 2011
Para muitos pesquisadores, os fatores socioeconômicos estão totalmente ligados
aos resultados e a diferença existente, porém isso é um fator que não será discutido neste
trabalho.
Sabe-se que os alunos de escolas públicas podem disputar o vestibular no sistema
universal e ainda possuem a prioridade de disputarem somente entre si. Sendo assim, as
universidades brasileiras abrem portas para que os estudantes sintam-se a vontade em
participar ou não do sistema de cotas e sintam como parte do cidadão brasileiro em que a
constituição tenta estabelecer uma igualdade entre todos.
18
1.2 Mineração de Dados
A técnica de encontrar padrões através de dados, cujo termo é originado do inglês
e pode ser utilizado aqui no Brasil como extração de dados ou simplesmente mineração de
dados, possui uma boa definição pelos autores do livro Sistema de Banco de Dados:
O termo extração de dados refere-se a busca de informações relevantes, ou à
descoberta de conhecimento, a partir de um grande volume de dados. Assim
como a descoberta de conhecimento no ramo da inteligência artificial, a
extração de dados tenta descobrir automaticamente regras e modelos
estatísticos a partir dos dados. (SILBERSHATZ; KORTH; SUDARSHAN,
1999, p. 706).
Para alguns autores, a Mineração de Dados é uma ferramenta utilizada após a
limpeza e seleção de dados para gerar padrões consistentes. Após esta etapa que vão se tornar
conhecimento de acordo com as avaliações do usuário, a essa etapa se dá o nome de
Knowledge Discovery in Databases (KDD) ou Descoberta de Conhecimento em Banco de
Dados. Já outros autores, como o da citação anterior considera o KDD como uma etapa que
faz parte da mineração de dados, ou seja, somente com os padrões não se chega a lugar
algum, sendo necessário também a formação do conhecimento para obter alguma utilidade.
Em ambos os casos tratam das etapas de forma equivalente. (Mais adiante serão discutidos
estas etapas).
De forma resumida pode-se considerar a MD como "...o processo não-trivial de
identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente
compreensíveis" (FAYYAD et al, 1996).
1.2.1 Mineração de Dados: Origem
Não se sabe ao certo em que ano surgiu a técnica que trabalha os dados para
formar padrões, somente é relatado que foi um campo essencial para estudar os dados que
eram considerados lixos.
19
Sferra e Correa cita em uma publicação que “...Data Mining é uma tecnologia que
emergiu da intersecção de três áreas: estatística clássica, Inteligência Artificial e aprendizado
de máquina, sendo a primeira a mais antiga delas...”(CORRÊA; SFERRA, 2003).
Portanto, a MD é uma ferramenta que explora não só a área de tecnologia, mas
também a área de estatística, e para que a mesma ocorra é necessário que se cumpra alguns
requisitos. Mais adiante serão estudados as etapas para a formação da MD.
1.2.2 O processo para a Formação do KDD
De acordo com Fayyad, o processo geral de tratamento dos dados que passa pela
MD e encaminha até a formação do conhecimento (considerado como KDD). Ele é dividido
em cinco etapas, iniciando por seleção dos dados, vindo em seguida o pré-processamento,
transformação, Mineração de Dados e, por último, a interpretação dos resultados para a
formação de um conhecimento. Esta última fase é feita pelo usuário que analisa os dados,
podendo ser vista com mais detalhes na figura (Figura 1).
A MD, visto como parte de um processo de um KDD, pode ser dividida também
em duas partes. A primeira destinada a preparação de dados (até a etapa dos Dados préprocessados) e, na segunda, a mineração dos dados (dos dados transformados até se tornarem
padrões).
Figura 1: Etapas do processo até o KDD (FAYYAD et al, 1996)
Após todas as análises, cabe ao indivíduo que receber as informações dos padrões
interpretar essas informações e tomar decisões. No começo, o que era um amontoado de
20
dados sem nenhuma funcionalidade, servindo apenas para armazenamento de informações
básicas, agora são padrões possíveis para serem interpretados.
1.2.3 A Importância do Data Warehouse para a MD
Data Warehouse é uma coleção de dados orientados por assuntos,
integrados, variáveis com o tempo e não voláteis, para dar suporte ao
processo de tomada de decisão; trata-se de um processo em andamento que
aglutina dados de fontes heterogêneas, incluindo dados históricos. (INMON,
1992).
O Data Warehouse (DW), também conhecido no Brasil como armazém de dados,
surge como um gigante banco de dados composto de várias fontes de diferentes locais para
um determinado interesse. Após essa junção e centralização de maneira consistente é que se
inicia o processo de mineração, utilizando as ferramentas corretas para conseguir bons
resultados. Grandes empresas tem a necessidade de utilizar o DW por possuir uma grande
quantidade de dados. Dados sem nenhum estudo em cima se tornam apenas “lixos
eletrônicos”.
O estudo de DW se torna útil para esta pesquisa, pois a base de dados tem como
origem o armazém de dados da UEG.
Para o aprendizado ocorrer, uma série de informações de diferentes formatos
e fontes precisa ser organizada de maneira consistente na grande memória
empresarial denominada Data Warehouse. Após isto, métodos de análise
estatística e de Inteligência Artificial (IA) precisam ser aplicadas sobre esses
dados e relações novas e úteis à empresa devem ser descobertas, ou seja, os
dados devem ser minerados.(CARVALHO, 2001).
21
Figura 2: A relação do Data Mining com o Data Warehouse (CARVALHO, 2001).
1.2.4 A Necessidade de IA para o Desenvolvimento da MD
Encontrado em constante desenvolvimento, o método conhecido como
Inteligência Artificial é um dos ramos da ciência da computação que tenta atingir ou até
mesmo melhorar a capacidade humana de realizar funções que envolvam métodos
inteligentes. Resumindo, pode-se dizer que a IA trabalha na ideia de desenvolver para
computadores algumas técnicas que o ser humano saiba realizar com maior eficiência e
eficácia.
Um dos ramos da inteligência artificial que mais se aplica no DM são as Redes
Neurais Artificiais (RNAs), as mesmas têm a função de imitar o comportamento dos
neurônios humanos.
As RNAs possibilitam a criação de estruturas para generalização de padrões
através de variadas entradas, produzindo uma ou mais saídas que poderão
representar uma ação ou objeto do mundo real (padrão) como resposta aos
diferentes dados apresentados na entrada (MELO et al, 2011).
Os algoritmos de redes neurais são utilizados para encontrar padrões
principalmente quando se usa as técnicas de clusterização e classificação (as mesmas serão
discutidas logo abaixo).
22
1.2.5 Algoritmos para MD
Para a realização da MD existem alguns algoritmos que auxiliam no trabalho e
funcionam de acordo com a técnica escolhida. Para cada situação, existe uma técnica e um
algoritmo que satisfaça. A seguir foram detalhados dois tipos de algoritmos que são muito
usados durante a MD
.
1.2.5.1 Algoritmos de Árvores de Decisão para o Trabalho com MD
Estudado em Estrutura de Dados (matéria da área de Ciência da Computação), as
árvores de decisão são bastante utilizadas ao trabalhar com a MD, pois através delas podemos
formar padrões essenciais para tomadas de decisões importantes.
Uma árvore de decisão é essencialmente uma série de declarações if-elses,
que quando aplicados a um registro de uma base de dados , resultam na
classificação daquele registro. O mais interessante sobre o programa de
árvores de decisão não é a sua construção a partir de classificação de um
conjunto de treinamento, e sim a sua habilidade de aprendizado.
(CARACIOLO, 2009).
Como explicado por Caraciolo, os algoritmos de árvores de decisão possuem uma
simples construção e trazem excelentes resultados usando variáveis lógicas no seu decorrer
para alcançar os padrões. A maioria das tarefas executadas no processo de MD utilizam os
algoritmos de árvores de decisão e o mesmo será mais detalhado no momento da decisão e
aplicação.
1.2.5.2 Algoritmos Apriori para MD
Este algoritmo foi proposto em 1994 pela equipe de pesquisa do Projeto
QUEST da IBM que originou o software Intelligent Miner. Trata-se de um
algoritmo
que
resolve
o
problema
da
mineração
de
itemsets
frequentes.(AMO, 2012).
23
O algoritmo é muito usado pela técnica de associação (será explicado melhor no
tópico 1.2.6.3), principalmente por gerentes de supermercados ou estrategistas que desejam
procurar hábitos frequentes de seus clientes.
O algoritmo funciona da seguinte forma: São dados como entrada um banco de
dados de transação T e um nível mínimo de suporte M. Pede-se como saída, todos os itemsets
frequentes com relação a T e M. Ele utiliza recursividade durante seu processo e o software
weka (será falado no item 1.2.8.2) possui suporte ao algoritmo.
Um exemplo de frequência e que poderia ser descoberto pelo algoritmo apriori,
seria a análise do carrinho de compras de um supermercado. Poderia ser avaliado por exemplo
que 75% das pessoas que levam pão e margarina, também levam leite.
1.2.6 As Técnicas da MD
Quaisquer metodologias de MD necessitam basicamente das mesmas áreas de
pesquisa para a sua atuação. São elas a ciência da computação (com o uso de métodos
envolvendo inteligência artificial, árvores de decisão e banco de dados) e a matemática (com
o uso de estatística, teoria dos conjuntos e outros).
As variadas técnicas utilizadas para concluir a MD e entrar no processo de KDD,
a seguir, serão citadas as principais e que dão uma visão mais global sobre o assunto.
1.2.6.1 Classificação
A classificação é uma das técnicas mais conhecidas na MD e também um dos
métodos mais utilizados pelo ser humano. De forma natural as pessoas estão sempre buscando
estímulos passados para classificar o presente em um grupo já existente e possuir um
entendimento e uma resposta imediata. Por exemplo, ao visualizar um objeto qualquer, como
um computador, costumamos desconsiderar os detalhes (modelo, sistema operacional, cor,
etc.) e o associar com algo genérico e entendido pelo nosso cérebro. Por mais diferente que
seja o objeto, pode-se causar um choque inicial, mas logo em seguida ele entra para a classe já
pré-estabelecida.
Na MD o processo de classificação é muito utilizado para obter os perfis de
clientes de banco. Por exemplo, deseja-se saber qual o tipo de cliente que utiliza com maior
frequência a poupança bancária. Através de classificadores pode-se chegar a alguns resultados
24
do tipo “jovens que ainda não possuem rendas fixas preferem a poupança como método de
aplicação de seu dinheiro”. Neste caso a classe seria a poupança, e através deste resultado
poderia aplicar uma estratégia de marketing em cima do público alvo.
Resumindo, a classificação “...corresponde a encontrar uma função que associa
um caso a uma classe dentro de diversas classes discretas de classificação.” (AZEVEDO;
SANTOS, 2005)
1.2.6.2 Agrupamentos (Clustering)
O método de agrupamento ou clusterização consiste em criar grupos e desta forma
classificar nestes grupos os elementos de maior similaridade.
De uma forma geral, obter a solução para um problema de clusterização
corresponde ao processo de agrupar os elementos (objetos) de uma base de
dados (conjunto) de tal forma que os grupos formados, ou clusters,
representem uma configuração em que cada elemento possua uma maior
similaridade com qualquer elemento do mesmo cluster do que com
elementos de outros clusters (DIAS; OCHI; SOARES, 2004).
Existem dois principais problemas na classificação de clusterização. O primeiro, e
mais simples, consiste em conhecer a quantidade e os tipos de grupos e desta forma
estabelecer a que grupo já pré-estabelecido o elemento pertence. O segundo problema se torna
mais complexo por consistir em uma massa de dados onde não se tem os grupos(clusters) e
deseja classificar os elementos de forma a ficar no mesmo grupo aqueles de maior
similaridade e entre os grupos os mais discrepantes.
1.2.6.3 Associação
Muito utilizado em supermercados, sistemas médicos e outros, a técnica de
associação preocupa-se em pegar dois ou mais objetos e descobrir uma relação que até então
era implícita. Através da tarefa de associação podemos dizer, por exemplo, que “80% dos
clientes que compram pão, também levam leite”. O método de associação vem servindo para
organizar melhor as prateleiras dos supermercados, criar kits de produtos que possuem o
25
mesmo interesse daquele público-alvo, relacionar sintomas para chegar a algumas conclusões
médicas, etc.
Uma regra de associação caracteriza o quanto a presença de um conjunto de
itens nos registros de uma base de dados implica na presença de algum outro
conjunto distinto de itens nos mesmos registros (AGRAWAL; SRIKANT,
1994).
1.2.7 Metodologias e Processos para a MD
Como já dito, para a realização de uma mineração de dados é necessário que
sejam efetuados alguns passos. Na intenção de minimizar os erros e inconsistências, foi
desenvolvida uma metodologia principal nomeada CRISP-DM.
Sabe-se que metodologia é o caminho, conjunto de métodos, para chegar a um
determinado fim. Por este motivo, muitos confundem outro processo para a realização da
mineração de dados, denominado SEMMA, como uma metodologia.
Segundo a SAS (Empresa de mineração e criadora do SEMMA), ocorre um mauentendimento quando se interpreta o SEMMA como uma metodologia.
SEMMA não é uma metodologia de mineração de dados, mas sim uma
organização lógica do conjunto de ferramentas funcionais utilizados pela
SAS Enterprise Miner para a realização de tarefas essenciais de mineração
de dados. (SAS, 2012, Tradução nossa).
A seguir, um detalhamento da metodologia CRISP-DM e do processo aplicado
pela SAS, denominado SEMMA.
1.2.7.1 CRISP-DM
Acrônimo de Cross-Industry Standard Process for Data Mining (Processo Padrão
Interindustriais para Mineração de Dados), o CRISP-DM surgiu como um projeto por volta de
1996 e teve sua primeira versão lançada em 1999, elaborada a partir dos conhecimentos
adquiridos nos projetos de MD.
Na documentação da versão 1.0, o CRISP-DM foi dividido em seis fases:
26

Business Understanding (Entendimento do negócio): Esta é a fase
inicial do processo e sua preocupação é o entendimento dos objetivos do projeto e os
requisitos de uma perspectiva do negócio para em seguida converter este conhecimento em
um problema de mineração de dados.

Data Understanding (Entendimento dos dados): A segunda fase do
processo e serve para familiarização com os dados que serão trabalhados. Nesta fase podem
ser levantados hipóteses e problemas.

Data Preparation (Preparação dos dados): A fase em questão é
responsável por cobrir todas as atividades necessárias para obter uma massa de dados que será
modelada posteriormente por alguma ferramenta.

Modeling (Modelagem): Como já dito, existem várias técnicas e
algoritmos que podem ser utilizados para a realização de uma MD. Na fase de modelagem é
que são realizadas as aplicações dos mesmos. Nesta etapa deve ter uma preocupação com a
utilização das técnicas corretas. Se necessário, deve voltar à fase anterior.

Evaluation (Avaliação): Nesta fase são criados os modelos de alta
qualidade que serão desenvolvidos posteriormente. Antes de prosseguir com a criação, é
necessário que volte às etapas anteriores para haver uma certeza do que está sendo proposto
realmente foi cumprido até então.

Deployment (Desenvolvimento ou Implantação): O modelo criado na
fase anterior pode, ou não, ser o último estágio da MD. Por mais simples que seja a finalidade
do modelo, às vezes é necessário que se organize o conhecimento adquirido de forma que
fique bem claro para o usuário que for utilizá-lo. Em muitos casos a fase de implantação é de
responsabilidade do usuário ou cliente de aplicação.
27
.
Figura 3: Modelo referente as fases do CRISP-DM (SPSS, 2000).
Segundo os autores da metodologia, “[...] CRISP-DM é sucesso porque é
totalmente baseado na prática, na experiência do mundo real de como as pessoas conduzem
projetos de mineração de dados.” (CRISP-DM, 2000, Tradução nossa).
Todas as seis fases ditas anteriormente são divididas em tarefas e cada tarefa
possui saídas. O CRISP-DM é usado desde o entendimento do negócio até a fase de
implantação, sendo que seguido à risca pode trazer resultado consistente ao negócio.
1.2.7.2 SEMMA
Acrônimo de Sample, Explore, Modify, Model, Assess (Extrair, Explorar,
Modificar, Modelar, Avaliar), a metodologia SEMMA foi desenvolvida pela empresa de
mineração SAS, na intenção de facilitar o processo de mineração de dados.
O processo todo é dividido em cinco fases. A seguir serão detalhados os nomes e
cada e o que ocorre em cada fase

Sample (Extrair amostra): Inicio do processo de mineração. Consiste
na extração de uma amostra de dados que serão trabalhados para futuramente encontrar
padrões. Fase opcional do processo.
28

Explore (Explorar): A segunda fase consiste na exploração dos dados
a procura de tendências imprevistas ou anomalias, consiste no entendimento dos dados que
serão trabalhados.

Modify
(modificar):
Nesta
fase
os
dados
são
modificados
(manipulados) através de criações, seleções e transformações, para obter o formato adequado
dos dados que serão inseridos no modelo.

Model (Modelar): A etapa de modelagem do processo consiste em
trabalhar os dados através de um software de forma a encontrar combinações úteis e
confiáveis.

Assess (Avaliar): A última fase do processo consiste em avaliar os
dados e resultados do modelo, comparando com outros modelos e outras amostras.
1.2.8 Ferramentas para MD
Atualmente estão disponíveis no mercado várias ferramentas para a execução do
processo de MD. Atualmente elas já trazem opções para selecionar as técnicas e tarefas a
serem aplicadas, como livres e proprietárias, simples e complexas.
O grande crescimento desse mercado possibilita que profissionais de outras áreas
também possam executar a técnica de MD, ou seja, o processo já não se torna tão técnico
como era no principio.
A seguir algumas ferramentas existentes no mercado e uma breve descrição de
cada uma delas.
1.2.8.1 Clementine
Clementine é um software que usa a metodologia CRISP-DM em seu processo de
mineração de dados. Segundo a IBM “Clementine é amplamente considerada como a bancada
líder de mineração de dados, pois oferece o máximo de retorno sobre o investimento, no
montante mínimo de tempo...” (IBM, 2007, Tradução nossa).
O diferencial do Clementine é que ele suporta todo o processo de mineração de
dados para que haja um ganho de tempo. Software ágil e conecta em quase todos os bancos de
dados existentes.
29
1.2.8.2 WEKA
Atualmente na versão 3.6.8, o software WEKA é uma ferramenta livre que
trabalha com vários algoritmos de mineração de dados e aceita importação de arquivos em
diferentes formatos.
Acrônimo de Waikato Environment Knowledge Analysis, o WEKA foi criado na
universidade de Waikato com o intuito de facilitar a execução da mineração de dados. Por ser
uma ferramenta livre, o software é muito adotado por estudantes universitários, pesquisadores
e outros que desejam encontrar padrões em seus dados.
O pacote WEKA possui código aberto e é escrito na linguagem de programação
JAVA, sendo que está disponível na web para download o software e o pacote com os
códigos para quem deseja aprimorar ou até mesmo adaptar à sua necessidade.
30
2. METODOLOGIA
Como já dito, a metodologia é um conceito que engloba todos os métodos,
técnicas e tarefas envolvidas em um trabalho, traçando uma linha para chegar a um objetivo.
O trabalho em questão seguiu algumas métricas para a sua contemplação.
A seguir serão apresentados os tipos da pesquisa, ambiente de estudo, universo da
pesquisa e outros. O capítulo segue alguns conceitos propostos no livro de Vergara (2007), a
fim de resolver de modo mais ágil o propósito da pesquisa.
2.1 Ambiente de Estudo
A pesquisa teve inicio com a preocupação dos ingressantes nas universidades e as
dificuldades que poderiam passar devido ao ensino básico que tiveram. Por ser um assunto
muito extenso e envolver um grande universo, houve uma necessidade de encontrar um
ambiente que proporcionasse a pesquisa.
Na intenção de facilitar a obtenção dos dados para a realização do trabalho, foi
selecionado um dos pólos universitários da UEG, a UnUCET. A escolha levou em
consideração o número de cursos existentes e quantidade de ingressantes e egressos que
passam por este polo todo semestre.
A UnUCET é o maior campus da UEG, possui dez cursos ativos, sendo que
variam entre exatas e biológicas (Levando em consideração que o curso de Arquitetura e
Urbanismo pode ser encaixado na área de exatas.).
2.2 Tipos da Pesquisa
A pesquisa foi dividida em dois critérios básicos, como proposto por Vergara
(2007): Quanto as meios e quanto aos fins.
Quanto aos fins a pesquisa foi classificada como metodológica. A classificação
Metodológica existe através de métodos e técnicas, que foram traçadas num caminho para a
realização de uma mineração de dados à procura de descobertas no âmbito acadêmico. A
pesquisa realizou alguns passos para que houvesse sucesso em seus resultados.
Quanto aos meios a pesquisa foi classificada como de campo e bibliográfica. A
fase no campo foi realizada através de reuniões com a PrG à procura de dados de exacadêmicos da UEG / UnUCET, para que houvesse como utilizar informações reais e concluir
31
em resultados plausíveis. Também foi realizada pelo trabalho em cima dos dados adquiridos
através da PrG.
A classificação Bibliográfica é com base em livros e artigos de autores que já
estudaram sobre o assunto, sejam eles voltados para a educação ou voltados para a MD.
2.3 Universo, Amostra e Sujeito da Pesquisa
O universo da pesquisa de campo foram os cursos da UnUCET/UEG e os
discentes que já obtiveram matrículas nos mesmos e houve conclusão no curso.
Inicialmente, foram repassados um total de 2.180 discentes que existiam no banco
de dados da UEG/UnUCET e que haviam concluído um dos cursos da mesma instituição. Ao
executar as limpezas necessárias dos dados que não iriam trazer benefícios a pesquisa,
restaram 1.582 alunos, somando um percentual de 72,56% em relação aos dados iniciais.
O trabalho teve como base a origem dos alunos, sendo ela pública ou privada.
2.4 Coleta dos Dados
A coleta da massa principal de dados ocorreu primeiramente através de uma
reunião juntamente com uma coordenadora da PrG, professora Brandina. A mesma solicitou
que houvesse um documento formal junto ao diretor da unidade que haveria o estudo e o
coordenador do curso de bacharel em Sistemas de Informação. Após conseguir a parte
burocrática, foi solicitado ao núcleo de Tecnologia da Informação que disponibilizasse os
dados dos egressos da UEG / UnUCET.
No segundo semestre do ano de 2012 os dados solicitados chegaram ao meu email em formato xls1. Ao receber os dados, houve a necessidade de procurar outras
informações para complementá-lo.
Os dados iniciais vieram contendo o nome do curso, turno, ano e semestre de
ingresso, forma de ingresso, ano e semestre de término, identificador do aluno, sexo e o
colégio que cursou o ensino médio.
Havia uma necessidade de outros dados, como por exemplo, o tipo do curso,
turno, origem da escola de ensino médio, tempo de duração de um curso, entre outros. Os
dados referentes aos cursos da UEG / UnUCET foram adquiridos no site da unidade e os
1
Xls é o formato padrão de arquivo usado pelo excel, software pertencente ao pacote office da Microsoft.
32
dados referentes a origem da escola foram levantados através de pesquisas em várias páginas
da web, sendo que não foi possível encontrar de todas as escolas.
2.5 Do Entendimento do Negócio à Modelagem dos Dados
No capítulo 1, ao referir às metodologias existentes relacionadas à mineração de
dados, houve um enfoque maior em cima do CRISP-DM. Diante de todas as pesquisas
realizadas, foi concluído que a metodologia seria a que mais iria encaixar ao projeto, pois a
mesma inicia-se com o entendimento do negócio e finaliza já na implantação dos resultados.
Por este motivo, os tópicos em diante seguiram a estrutura do CRISP-DM e procuraram
deixar claro o passo a passo para se realizar a mineração.
2.5.1 Entendimento do Negócio
De acordo com a metodologia CRISP-DM, a primeira etapa para começar uma
mineração de dados é entender a proposta, o que procura encontrar com os dados em mãos.
Para o entendimento do negócio foram realizadas pesquisas em cima dos
problemas da educação básica do Brasil. A primeira dúvida que havia era se realmente os
alunos de ensino médio público obtinham índices menores se avaliados com o ensino médio
privado. Pesquisados o ENEM, SAEB e Prova Brasil, foram encontrados uma discrepância
entre as duas origens.
Sabendo que havia uma diferença considerável no ensino básico, veio o
questionamento se ao entrar em um curso de nível superior em uma instituição pública, os
alunos que tiveram origem pública apresentaria alguma dificuldade, refletindo no tempo para
a conclusão do curso, se em cursos da área de exatas haveria uma dificuldade maior que
cursos da área de biológicas, ou se ao entrar no nível superior não seria encontrado nenhuma
diferença.
Na primeira fase também é levantado os riscos do projeto, custos e benefícios. Se
relacionado aos custos, foram usados somente ferramentas livres e o trabalho a nível
acadêmico, ou seja, não há um custo quanto ao serviço prestado. Havia um risco de chegar ao
final do projeto e não encontrar nenhum padrão, sendo que a pesquisa ficaria somente a nível
de aplicação em outras áreas. Os benefícios podem vir com um planejamento dos docentes
para nivelamento dos alunos.
33
O computador usado para a realização de todo o processo possuía um processador
Intel Core 2 duo, 4 GB de memória RAM e 500 GB de HD, sendo que não houve dificuldades
quanto ao hardware. No decorrer do trabalho o software será especificado.
2.5.2 Entendimento dos Dados
A segunda fase proposta pelo CRISP-DM está relacionada aos dados. Avaliar se
os dados estão de acordo com o negócio, se com os dados que possui atualmente é possível
realizar o negócio proposto na fase anterior, ou se há a necessidade de voltar a primeira fase e
rever as regras de negócio.
A fase atual é dividida em cinco tarefas inferiores. Coletar os dados iniciais,
descrever os dados, explorar os dados e verificar a qualidade dos dados.
A coleta de dados foi explicada no tópico anterior, houve uma integração de dados
que estavam no site da unidade pesquisada juntamente com os dados fornecidos pela PrG. O
problema encontrado nesta etapa foi anexar a origem através do nome das escolas. Foi feito
uma busca no site do MEC, importado para uma tabela e então relacionado a origem que
informava no MEC com o nome da escola que continha na planilha.
Ao ampliar os dados a procura de um estudo, foi encontrado que não havia
somente alunos que entraram pelo processo seletivo normal, mas também haviam estudantes
transferidos e portadores de diploma. Inicialmente os problemas encontrados foram esse,
todos possíveis de resolver se fosse realizado um tratamento de dados com eficiência.
Foi desenvolvido um Modelo de Entidade e Relacionamento (MER) da forma que
poderia distribuir os dados depois de um tratamento. A seguir o MER do BD.
34
Figura 4: MER do banco de dados para a mineração
2.5.3 Preparação dos Dados
A terceira fase do CRISP-DM sugere a preparação dos dados. Nesta fase há uma
preocupação em realizar uma filtragem a procura de campos vazios, uma seleção em busca de
dados inúteis, entre outros.
Na metodologia CRISP-DM, a etapa de preparação dos dados é dividida em
seleção, limpeza, construção, integração e formatação dos dados.
Seguindo as etapas sugeridas pelo CRISP-DM e aplicando no projeto, a primeira
etapa realizada foi a seleção dos dados, ou seja, união de todas as fontes de coletas de dados
em um banco de dados, criando primeiramente uma tabela com nome “geral” e uma tabela
com nome “escola”. Os dados foram inseridos nas tabelas e posteriormente unindo as tabelas
através dos campos em comum.
Após a inserção e seleção dos dados, foram realizadas duas etapas que resultaram
na retirada de dados irrelevantes e a limpeza dos inconsistentes. Os passos para este
tratamento estão a seguir:

Retirada de dados irrelevantes para a pesquisa:
Foram retirados os cursos que já não existiam na UEG / UnUCET como
tecnologia de processamento de dados e as habilitações do curso de farmácia, que não era
curso superior de graduação.
35
Também foram retirados os dados de alunos que entraram na universidade de
alguma forma diferente de graduação ou sistema de avaliação seriado. Por exemplo, ingressos
por transferência ou portador de diploma.

Limpeza de dados inconsistentes
Ao fazer uma busca no BD na tabela geral, tiveram dados vazios no campo que
informava a escola de ensino médio. Foi feito um script em que onde o campo estivesse vazio,
deveria ser excluído a tupla, pois haveria problemas mais a frente.
Ao relacionar a tabela geral com a tabela escola, não foi possível encontrar todas
as escolas. Os motivos para tal problema pode ter sido por erro de cadastro no nome da escola
ou a escola não ter participado do ENEM 2011. Por não encontrar estas escolas, foram
retiradas estas tuplas também do banco de dados.
Ao realizar todas as limpezas necessárias, restaram apenas 69,08% se relacionado
aos dados iniciais. Segue gráfico relacionando os dados inconsistentes, irrelevantes e o
restante.
Gráfico 1: Relação de dados após efetuar a limpeza
Os dados irrelevantes e inconsistentes somaram pouco mais de 30% da massa
total, porém esta retirada foi necessária para que houvesse a MD posteriormente.
Após a limpeza houve a transformação dos dados utilizando algumas técnicas já
conhecidas na área, através de scripts criados na linguagem SQL. Por exemplo, utilizou-se a
técnica de redução de domínio, utilizando a redução numérica. Onde havia ano e semestre de
inicio e ano e semestre de fim da graduação, foi substituído por duração que o estudante teve
36
no curso. Também foi utilizada a técnica de generalização, substituindo os nomes das escolas
de ensino médio por pública ou privada.
Após a limpeza dos dados, o modelo relacional (MR), referente ao MER descrito
anteriormente, foi definido e foram criadas três tabelas de acordo com este MR. A seguir o
MR gerado para criação das tabelas no BD.
Figura 5: MR do Banco de Dados para MD.
Alguns dados já existentes no banco de dados através da tabela primária criada e
que recebeu a carga de dados fornecida através da planilha, foram inseridos nas tabelas de
aluno, curso e escola, ligando suas chaves primárias com as estrangeiras de forma correta. Os
outros dados que foram recolhidos no site da unidade, foram inseridos posteriormente,
completando todos os dados necessários para formar o BD para a mineração.
Logicamente se fossem gerados todos os campos das tabelas em uma seleção
única e jogados para a mineração, não encontraria nenhum padrão. Neste momento teve-se
uma preocupação em selecionar os dados de forma correta que alguma técnica ou algoritmo
de MD conseguisse interpretar de modo a retornar padrões.
Como Sistema Gerenciador de Banco de Dados (SGBD) foi utilizado o
PostgreSQL, ou simplesmente Postgres. O gerenciador possui o pgAdmin integrado, sendo
que aceita entradas de scripts na linguagem SQL e aceita o uso de algumas funções próprias.
A opção por usar o Postgres se deu por ser uma ferramenta livre e também houve
uma tendência pelo motivo de ser bem utilizado atualmente dentre as ferramentas livres para
37
gerenciamento e possuir uma grande aceitação dentre as pessoas que utilizam, ou seja, é um
excelente custo x beneficio.
Durante todo o processo de mineração de dados, houve necessidade de usar o
SGBD, sendo que houve a etapa de criação das tabelas, importação dos registros, atualização
e deleção dos dados, criação de consultas e cópia dos resultados para a realização da
mineração. Alguns dos scripts usados no SGBD foram informados no apêndice A e B.
As rotinas de exploração e seleção de dados ficaram muito ligadas à etapa
seguinte que se preocupa com a modelagem dos dados. Por várias vezes foi necessário voltar
a estas rotinas para que houvesse uma nova seleção na intenção de que, quando houvesse a
MD, tivesse um retorno de padrões úteis à pesquisa.
2.5.4 Modelagem dos Dados
Nesta etapa a metodologia CRISP-DM se preocupa em modelar os dados
encaminhando para a descoberta dos padrões. Como já dito, é nesta etapa que se deve atentar
as ferramentas que irão auxiliar, juntamente com as técnicas que serão aplicadas. Algumas
vezes é necessário retornar a etapa anterior para tratar a forma de retorno dos dados.
Durante a construção do modelo que iria auxiliar na MD foi que houve a
preocupação de quais campos realmente seriam úteis para a mineração, como seria feito a
busca destes campos e quais técnicas e ferramentas, diante das estudadas, serviriam de apoio.
Os campos selecionados, a princípio, foram os que relacionavam a origem
(pública ou privada), o sexo (masculino ou feminino), tempo de formação (tempo normal ou
excedeu o tempo), o tipo do curso (integral, matutino e noturno), a modalidade (Bacharel ou
noturno) e a idade (maiores de 18 anos ou menores e iguais a 18 anos). Através de uma
consulta usando algumas técnicas de transformação de dados. O resultado gerado ficou
esquematizado como representado na tabela 2, sendo que esta tabela possui uma restrição de
dados, apontando apenas cinco registros.
tempo_duracao
sexo
Origem
idade
modalidade
tipo
atrasado
M
PUBLICA
>18
BACHAREL
INTEGRAL
normal
F
PRIVADA
>18
BACHAREL
INTEGRAL
normal
F
PUBLICA
>18
BACHAREL
NOTURNO
normal
F
PRIVADA
>18
LICENCIATURA
INTEGRAL
normal
F
PRIVADA
<=18
BACHAREL
INTEGRAL
Tabela 2: Resultado de 5 tuplas na busca realizada para a mineração de dados
38
A preocupação seguinte foi qual técnica e ferramenta seria utilizada. A primeira
escolha foi a ferramenta. Por ser uma ferramenta livre e de código aberto, houve uma opção
pela ferramenta WEKA. A mesma oferece suporte para vários algoritmos e técnicas e aceitam
que passem parâmetros de configuração antes de procurar os padrões.
A instalação da ferramenta é bem simples. Ao abri-lo, a tela inicial da versão 3.7.7
(Versão para desenvolvedores, não estável) é a seguinte:
Figura 6: Tela inicial do Software WEKA.
A tela inicial do software WEKA possui quatro opções, para o
trabalho foi necessário utilizar apenas a opção explorer. Sendo assim, ao clicar nesta opção, a
ferramenta abre outra tela onde há a importação dos dados e a utilização das técnicas e tarefas.
A figura 7 representa a tela onde há a exploração dos dados, já com o arquivo importado.
Figura 7: Tela de exploração dos dados do Software WEKA.
39
O software WEKA possui uma entrada padrão de dados no formato .arff, porém
aceita outras entradas, inclusive .csv2. O formato padrão exige uma edição dos dados pois
possui algumas preferências. O software também aceita conexão direta com o BD.
Para evitar conexão no banco de dados e uma complexidade maior, o retorno da
consulta foi copiado para um editor de texto comum e através das ferramentas de suporte, foi
possível trocar os espaços entre os campos por vírgula o transformando legível ao formato
.csv. A figura a seguir representa alguns dos dados gerados já em formato .csv.
Figura 8: Esquema de dados separados por vírgula (.CSV).
A aba associate do software WEKA relaciona as técnicas de associação e nela
possui os algoritmos mais eficientes para gerar as regras encontradas. Por padrão já vem com
uma configuração, e a única alteração feita foi quanto a quantidade de regras a serem
retornadas, mudando de 10 para 200. A figura 9 mostra a aba com a nova configuração e a
parte inicial dos resultados.
A escolha desta ferramenta e do algoritmo em questão não significa que são os
melhores, ou que produzem os resultados mais excelentes. O conceito de MD é bem amplo e
cada caso deve ser estudado individualmente.
2
CSV (Comma Separated Values) é um formato muito utilizado, onde os dados são separados por vírgula.
40
Figura 9: Técnica de associação pelo software WEKA.
O retorno de informações pelo software WEKA através do algoritmo Apriori, e as
avaliações realizadas posteriormente, foram levadas a uma avaliação e através deles e de
outros padrões realizados foi que houve a possibilidade de chegar a resultados e a conclusão
desta pesquisa.
41
3. RESULTADOS E AVALIAÇÕES
O software WEKA, através de associação e utilizando o algoritmo Apriori, trouxe
mais de 100 regras encontradas e resultados de fácil interpretação. Cabe ao usuário que está
avaliando gerar um conhecimento em cima dos resultados. A seguir haverá uma discussão em
cima dos resultados gerados e após isto uma avaliação através de gráficos e tabelas.
3.1 Resultados
Atualmente a UnUCET / UEG possui a maioria dos acadêmicos em período
integral, considerando que o curso de licenciatura em Ciências Biológicas se classifique como
tal. Desconsiderando a quantidade de alunos que entraram nestes anos e a quantidade de
desistências, podemos obter alguns gráficos básicos da massa de dados. A seguir alguns
esquemas gráficos:
Gráfico 2: Relação da origem dos estudantes graduados baseado na massa de dados.
O gráfico 2 demonstra que dentre os 1.506 dados restantes após a mineração, 601
cursaram o ensino médio em uma escola pública enquanto que 905 vieram de escolas
privadas.
42
Gráfico 3: Relação do sexo dos estudantes graduados baseado na massa de dados.
O gráfico 3 trouxe a relação dos sexos. Sendo que da massa restante, 742 eram do
sexo masculino e 764 do sexo feminino. Estas relações foram solicitadas para auxiliar na
técnica de associação.
Gráfico 4: Relação de tempo de formação dos graduados baseado na massa de dados.
O gráfico 4 contém a relação do tempo de formação. Dos estudantes que
graduaram da massa de dados, 991 foram no tempo normal e 515 houve atraso na graduação.
43
Os outros dados são do horário das aulas do curso e modalidade. Quanto ao
horário das aulas do curso em relação à massa e as modalidades dos mesmos, bacharel ou
licenciatura, relacionando a massa total. Dentre essas relações, dos 1.506 dados, 1.292
possuíam suas atividades em tempo integral, 66 no turno matutino e 148 do turno noturno. E
quanto à modalidade, 1.054 foram cursos são do tipo bacharel e 452 são de licenciatura.
Os outros resultados vieram em forma de regras pelo software WEKA. O software
retorna todas as possíveis associações de acordo com o tamanho da massa e os dados
inseridos nela. É possível estabelecer a quantidade de associações máximas que deseja
retornar. Sendo assim, foi configurado para vim no máximo 200 associações. Com as
configurações, Deste modo, foram retornadas 163 associações. Algumas associações foram
desconsideradas, focando apenas nas que eram relacionadas em tempo de duração e origem
dos estudantes.
A seguir exemplos de associações de acordo com o Software WEKA.
Figura 10: Esquema de associações gerado pelo Software WEKA
Por exemplo, dos 331 graduados que tiveram origem privada e atrasaram para a
formação, 171 eram do sexo masculino e fizeram curso integral. A análise agora seria para
encontrar padrões que trariam utilidade para a pesquisa.
O fundamento principal deste trabalho seria procurar padrões no banco de dados
da UnUCET / UEG que se relacionasse a origem dos estudantes. A relação básica e principal,
de acordo com os dados em mãos, seria uma associação da origem do graduado com o tempo
que manteve no curso de graduação para saber se havia uma diferença grande dos que vieram
de ensino público com os que vieram de ensino privado no tempo da formação.
44
O gráfico 5 foi definido com os resultados dos dados fornecidos. A diferença entre
oriundos de escola pública e privada não foi tão grande se levarmos em consideração a
porcentagem. No tópico de avaliações serão discutidos os resultados.
Gráfico 5: Relação de graduados com o tempo de permanência no curso.
Um dado curioso que foi despertado ainda nas relações básicas, é que os
graduados dos cursos da UnUCET / UEG de origem privada em sua maioria entraram mais
cedo na universidade que os de origem pública. O gráfico 6 mostra uma relação que quase
48% dos estudantes de escola privada entraram com idade inferior ou igual a 18 anos
Gráfico 6: Relação da origem do graduado com a idade que ingressou na UnUCET / UEG.
45
Notou-se que, no geral, havia um maior número de graduados de origem privada
(gráfico 2), porém na modalidade de licenciatura a realidade é contrária. O gráfico 7
demonstra que o maior número de graduados em cursos desta modalidade são do sexo
feminino, de origem pública e entraram na faculdade com mais de 18 anos.
Gráfico 7: Comparativo de dados dos graduados em cursos de licenciatura
Gráfico 8: Comparativo de dados dos graduados em cursos de bacharel
46
Ao fazer um estudo dos cursos da modalidade bacharel, notou-se uma realidade
contrária da encontrada no gráfico 7. Os cursos desta modalidade na UnUCET / UEG formam
mais de 60% de estudantes que tiveram origem privada, aproximadamente 55% dos
estudantes são do sexo masculino e entram na faculdade com mais de 18 anos. No gráfico 8
demonstra estas e mais algumas comparações em relação aos cursos da modalidade bacharel.
Foi solicitado um levantamento de dados relacionando o sexo com os cursos, a
procura de padrões. Sendo assim, foram gerados os gráficos 9 e 10, onde os mesmos expõe o
sexo masculino com relação aos cursos e o sexo feminino, respectivimaente.
Gráfico 9: Relação de cursos com sexo masculino.
O gráfico 9 é representado pelo grupo do sexo masculino e apresenta o que já foi
dito anteriormente, a procura do sexo masculino em sua maioria são por cursos bacharelados.
Já o gráfico 10 é representado pelo sexo feminino e demonstra um alto nível de
formação em tempo normal, chegando a possuir mais de 70%. A maioria também é de origem
privada e possui mais de 18 anos.
47
Gráfico 10: Comparativo geral de egressos do sexo feminino.
3.2 Discussão dos Resultados
Como resultado inicial, conclui-se que a maioria dos graduados da UnUCET /
UEG é de cursos da modalidade bacharel, sendo que estes também ofertam a maior
quantidade de vagas por semestre para esta unidade. Também foi levantado que os estudantes
de origem pública possuem uma pequena vantagem em relação ao tempo de formação normal
se comparado aos que tiveram origem privada. Por outro lado, deu-se que a grande maioria
dos graduados teve origem privada, ou seja, podemos concluir que apesar de ter um índice de
demora maior que os de origem pública na formação, os estudantes de origem privada no
geral conseguem manter em maior número na formação. O reflexo desta maioria pode ser pela
quantidade de estudantes de origem privada que entrou na unidade ser maior que os de origem
pública, ou o número de desistentes de origem pública no decorrer dos cursos ser maior que
os de origem privada.
Ao expandir mais um pouco o gráfico, notou-se que os perfis que prevaleciam nos
graduados em cursos de licenciatura eram de estudantes do sexo feminino, idade superior a 18
anos e origem pública (gráfico 7). Enquanto que os graduados em cursos bacharéis tinham o
seguinte perfil prevalecendo: Estudantes do sexo masculino com idade maior que 18 anos
(porém uma diferença quase equilibrada com os que tinham até 18 anos) e de origem privada.
Com esta expansão conclui-se que talvez a diferença encontrada no tempo de formação entre
48
estudantes de origem pública e privada esteja ligada não somente a origem, mas também a
escolha do curso. Os gráficos mostram que mais de 60% dos graduados em cursos bacharéis
são de origem privada, e que estes não apresentam índice tão alto de formação em tempo
normal como os cursos de licenciatura. Sendo assim, os alunos de origem privada podem
apresentar um percentual maior no tempo de formação com atraso que os de origem pública
pela escolha do curso e não somente pela origem dos cursos.
É possível avaliar que a conclusão do perfil geral ficou bem próxima da conclusão
dos que formaram em cursos bacharéis, por estes serem a maioria na UnUCET / UEG. Ou
seja, não pode ser afirmado que a maioria dos estudantes de escola pública, que mantiveram
na faculdade, formaram dentro do período normal, mas sim que a maioria dos estudantes de
escola pública tenderam a formar em cursos de licenciatura, que por consequência os
graduados deste curso tem um índice maior de formação no tempo regular se comparado aos
bacharéis, onde a maioria são de origem privada.
Não é possível avaliar nada com relação a desistências por não ter informações
precisas de quantos estudantes foram matriculados neste período, quantos vieram de escolas
públicas e quantos vieram de escolas privadas, sendo que seria de grande valia para uma
avaliação maior entre estudantes de origem pública e privada, a idade que possui maior
número de desistências, cursos, etc.
Houve outros padrões que foram irrelevantes para a pesquisa. O próximo capítulo
será discutido as conclusões que podem ser retiradas dos padrões encontrados aqui e a
contribuição da pesquisa para a sociedade. Também serão propostos trabalhos futuros a partir
destas informações.
49
CONCLUSÕES E TRABALHOS FUTUROS
A área da Educação no Brasil é um assunto que gera muitas discussões e
polêmicas, uma vez que as redes pública e privada de ensino básico e superior se confrontam
tentando mostrar uma superioridade qualidade de ensino. São vários os aspectos
argumentados, sendo infraestrutura, salário de professores, disciplina e outros.
O presente trabalho não pôde abordar todos os problemas da educação brasileira e
levantar dados que cobrissem esta pesquisa. Mas houve uma abordagem do ensino médio
público e privado como introdução e base do trabalho, e posteriormente um estudo dos dados
de graduados da UnUCET / UEG, que como foi falado no decorrer do trabalho, é a maior
unidade existente atualmente na UEG.
Analisando o trabalho como um todo, pode concluir que a pesquisa atingiu um
objetivo parcial e positivo, já que os dados estudados não cobriam toda a gama de alunos que
passaram pela UnUCET / UEG dentro dos dez anos. Porém não se tornou um trabalho sem
conteúdo, uma vez que os dados trabalhados geraram padrões dos perfis dos graduados dos
anos de existência da unidade.
A pesquisa traz como contribuição uma aplicação prática da técnica de MD em
dados de uma unidade universitária, mostrando que é possível gerar padrões em cima de
registros de estudantes e que estes padrões podem trazer informações úteis para as
universidades e a educação brasileira.
Também pode ser visto como contribuição da pesquisa, o levantamento de dados
e a formação de padrões de graduados de uma unidade da UEG, sendo que com estes padrões
podem ser levantados alguns questionamentos que darão abertura para o surgimento de novos
trabalhos, sendo eles a nível acadêmico ou não.
O problema atual é a grande quantidade de institutos de nível superior no país,
sendo que há uma variação gigante da abordagem de educação. O ideal seria estudar os
institutos que são titulados universidades, pois estes possuem uma maior proximidade em
seus cursos e métodos de educar.
O presente trabalho preocupou em expor a realidade das universidades públicas e
levantar os dados de uma unidade com tal perfil. Para uma contribuição à educação, o
trabalho poderia ser utilizado trocando a amostragem de dados por registros de estudantes que
tiveram sua graduação em uma universidade privada, sendo assim, ao final poderia chocar os
resultados e ter conclusões a mais a respeito da educação.
50
Através destes resultados, a pesquisa abre portas para estudar os motivos que
levam estudantes de origem pública optar em sua maioria por cursos de licenciatura, enquanto
que os de origem privada tendem a procurar cursos bacharéis. Também pode ser estudado os
motivos do número de mulheres exceder tanto no número de homens graduados em cursos de
licenciatura. É suposição e também foi mostrado nos padrões que os cursos da modalidade
bacharel tendem a demorar mais para graduar que os da modalidade licenciatura. Sendo
assim, seria interessante saber se há realmente uma dificuldade maior na formação em cursos
bacharéis ou se a dificuldade fica na área escolhida (Exatas, biológicas ou humanas), ou
ainda, se não há dificuldade alguma com relação à escolha.
O trabalho encerra-se aqui, deixando algumas propostas para pesquisas futuras.
Seria de grande valia que não houvesse um esquecimento destes padrões levantados e que
futuramente fosse uma base e bastante útil para um próximo trabalho.
51
REFERÊNCIAS
AMARAL, F. C. N. Data Mining: técnicas e aplicações para o marketing direto. São
Paulo, Berkeley Brasil 2001.
AMO,
Sandra
Curso
de
Data
Mining.
2012.
Disponível
em
<http://www.deamo.prof.ufu.br/arquivos/Aula2.pdf> . Acesso em 01 de novembro de 2012.
AZEVEDO S. Carla; SANTOS, M. Filipe Data Mining – Descoberta de Conhecimento em
Bases de Dados. Editora FCA. Lisboa, Portugal, 2005
BERNARDES, Rodrigo Aplicação do Processo de Mineração de Dados para Auxílio à
Gestão do Pronto-Socorro de Clínica Médica do Hospital Universitário de Brasília.
Brasilia,
2007.
Disponível
em
<
http://monografias.cic.unb.br/dspace/bitstream/123456789/120/1/RODRIGO_BERNARDES_
MONOGRAFIA.pdf> Acesso em 03 de Agosto de 2012.
BRASIL. Constituição (1988). Artigo 5º, São Paulo, v. 59, out./dez. 1995.
CARACIOLO, M. P. Introdução a Árvores de decisão para classificação e mineração de
dados. 2009. Disponível em <http://aimotion.blogspot.com.br/2009/04/artigo-introducaoarvores-de-decisao.html>. Acesso em 10 de junho de 2012
CARVALHO, Luiz Alfredo Vidal de Datamining: A mineração de dados no marketing,
medicina, economia, engenharia e administração. São Paulo: Érica, 2001.
CORRÊA, A. M. C. J..; SFERRA H. H. Conceitos e aplicações de Data Mining, Revista de
Ciência & Tecnologia. V. 11, n 22, pp. 19-34, jul./dez. 2003. Disponível em <
http://www.unimep.br/phpg/editora/revistaspdf/rct22art02.pdf>. Acesso em 06 de abril de
2012
DIAS, C. R.; SOARES, S. S. F.; OCHI, L. S. Clusterização em Mineração de Dados.
Disponível em < http://www.ic.uff.br/~satoru/conteudo/artigos/ERI-Minicurso-SATORU.pdf
>. Acesso em 08 de junho de 2012
FAYYAD, Usama; PIATETSKI-SHAPIRO, G.; SMYTH, P. The KDD Process for
Extracting Useful Knowledge from Volumes. of Data. In: Communications of the ACM,
pp.27-34, Nov.1996
IBM Clementine 11.1- Data Mining. 2007. Disponivel em <http://www304.ibm.com/partnerworld/gsd/solutiondetails.do?solution=10387&expand=true&lc=en>
Acesso em 03 de outubro de 2012
INMON, W. H. Como construir o Data Warehouse. 2ª ed.- Rio de Janeiro: Campus, 1997.
INSTITUTO NACIONAL DE ESTUDO E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA, ENEM, Notas Médias por Escolas dos Concluintes do Ensino Médio. 2010.
Disponível em: <http://sistemasenem2.inep.gov.br/enemMediasEscola/>. Acesso em 05 de
junho de 2012
52
KORTH, H. F.; SILBERSHATZ, A.; SUDARSHAN, S. Sistema de Banco de Dados. Rio de
Janeiro: Elsevier, p. 706, 1999.
MEC
(Ministério
da
Educação)
Prova
Brasil.
2011.
Disponível
em
<http://portal.mec.gov.br/index.php?option=com_content&view=article&id=210&Itemid=32
5 >. Acesso em 15 de outubro de 2012.
MELO, Francisco Ramos; et al. Sistemas Inteligentes na Organização de Conteúdos
Didáticos
Personalizados.
Disponível
em:
http://sare.unianhanguera.edu.br/index.php/rcext/article/viewPDFInterstitial/407/406> .
Acesso em 08 de fevereiro de 2012.
<
SANTANA, R. S. A constitucionalidade do sistema de cotas nas universidades públicas.
2010. Disponível em < http://www.jurisway.org.br/v2/dhall.asp?id_dh=3829>. Acesso em 08
de abril de 2012
SAS
SAS
Enterprise
Miner,
2012.
Disponível
em
<http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html
>. Acesso em 10 de outubro de 2012.
SPSS
CRISP-DM
1.0.
2000.
Disponível
em
<ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/User
Manual/CRISP-DM.pdf> Acesso em 01 de outubro de 2012
UNIVERSIDADE ESTADUAL DE GOIÁS, Pró-reitora de Graduação. UEG em números.
2011. Disponível em < http://www.ueg.br/conteudo/654>. Acesso em 10 de abril de 2012.
VERGARA, Sylvia Constant. Projetos e Relatórios de Pesquisa em Administração. São
Paulo: Editora Atlas, 2007.
53
APÊNDICE
Apêndice A – Cronograma de Atividades do Trabalho de Conclusão de Curso
N.º
Cronograma de execução do Trabalho de Curso.
ATIVIDADES
Ano/Mês/Quinzena
Fev
Mar
1º 2º 1º
1
2
3
4
5
6
7
8
9
10
Inicio do TC
X
Definição do tema
X X
Entrega do termo de aceite
X
Elaboração do pré-projeto
X
Revisão do pré-projeto
13
14
15
16
17
18
1º
2º
X
Confecção do Pôster
2º
X
X
X
X
Jul
Ago
1º
2º 1º
2º
1º
2º
1º
2º
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2º
Dez
1º 2º
X
X
X
X
X
X
19 Correções e considerações
20 Entrega das correções e Mídias
Nov
1º
X
Revisões e considerações finais
Banca de avaliação do trabalho
entregue
Out
2º
Entrega do Pôster
Entrega do TC
S et
1º
X
Levantamento dos Dados
Banca de avaliação do trabalho
entregue
Aplicação das ferramentas para
fazer as conclusões
1º
Jun
X
Entrevista com o setor de TI
Pesquisa de referências
bibliográficas
Entrega da primeira parte do TC ao
orientador
Mai
X
Entrevista com a PrG-UEG
11 Entrega da primeira parte do TC
12
2º
Abr
X
X
X
X
54
Apêndice B – PÔSTER APRESENTADO NO IV SIMPÓSIO DE TECNOLOGIA DA
INFORMAÇÃO E IV SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE
SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2012
55
Apêndice C – Scripts para Criação de Tabelas
CREATE TABLE turno
(id SERIAL NOT NULL PRIMARY KEY,
tipo VARCHAR(30) NOT NULL).
CREATE TABLE curso
(id SERIAL NOT NULL PRIMARY KEY,
id_turno INT REFERENCES turno(id),
nome VARCHAR(200) NOT NULL,
modalidade VARCHAR(20),
tempo_min INT);
CREATE TABLE aluno
(id SERIAL NOT NULL PRIMARY KEY,
id_curso INT REFERENCES curso(id),
codigo VARCHAR(20) NOT NULL,
ano_nascimento INT,
sexo VARCHAR(1),
escola VARCHAR(200),
origem VARCHAR(50),
ano_inicio VARCHAR(6),
sem_inicio varchar(2),
ano_fim VARCHAR(6),
sem_fim varchar(2),
duracao INT);
CREATE TABLE geral
(id SERIAL NOT NULL PRIMARY KEY,
curso VARCHAR(200),
turno VARCHAR(50),
ano_ingresso VARCHAR(6),
forma_ingresso VARCHAR(50),
ano_termino VARCHAR(6),
duracao INT,
codigo VARCHAR(10),
ano_nascimento VARCHAR(4),
sexo VARCHAR(1),
escola VARCHAR(200));
CREATE TABLE escola
(id SERIAL NOT NULL PRIMARY KEY,
nome VARCHAR(200),
origem VARCHAR(50));
56
Apêndice D – Scripts de Manipulação e Seleção
DELETE FROM geral g WHERE g.escola = '';
DELETE FROM geral g where g.forma_ingresso like 'Transfer%';
DELETE FROM geral g where g.forma_ingresso like 'Graduado';
DELETE FROM geral g where g.forma_ingresso like 'Programa%';
UPDATE
geral
SET origem = 'PUBLICA'
where geral.escola IN(
SELECT geral.escola FROM geral WHERE geral.escola ILIKE '%estadu%' or geral.escola ILIKE
'%municip%'
or geral.escola ILIKE '%feder%' or geral.escola ILIKE '%militar%');
UPDATE geral
set origem = b.origem
from escola b
where GERAL.escola = b.nome and
geral.origem is null;
insert into aluno(
id_curso,
codigo,
ano_nascimento,
sexo,
escola,
origem,
ano_inicio,
sem_inicio,
ano_fim,
sem_fim)
select cast(curso as int),
codigo,
cast(ano_nascimento as int),
sexo,
escola,
origem,
substring(ano_ingresso,1,4),
substring(ano_ingresso,5,1),
substring(ano_termino,1,4),
substring(ano_termino,5,1)
from geral;
57
select case when duracao <= tempo_min then 'normal' else 'atrasado'
end as tempo_duracao,
a.sexo,
a.origem,
case
when(cast (ano_inicio as int) - a.ano_nascimento < 18 or cast
(ano_inicio as int) - a.ano_nascimento = 18) then '<=18' else '>18'
end as idade,
c.modalidade,
t.tipo
FROM aluno a,
curso c,
turno t
where a.id_curso = c.id and
c.id_turno = t.id;
58
Apêndice E – Algoritmo Apriori, Algoritmo Apriori_Gen 3 Função Genrules
%INICIALIZAÇÃO
arquivo = 'dados4.txt'
minsup = 0.0; maxsup = 100; minconf = 0.0%
k = 1; Natributos = 50; NL = 0;
%LEITURA DO ARQUIVO
arq = fopen(arquivo,'rt');
i = 1;
linha = str2num(fgetl(arq));
for j = 1:Natributos,
Sup(j) = linha(j);end;
while ~feof(arq)
i = i + 1;
linha = str2num(fgetl(arq));
for j = 1:Natributos,
Sup(j) = Sup(j) + linha(j); %Cálculo do Suporte Geral
end;
end;
st = fclose(arq);
Npesquisadores = i
fator = 100/Npesquisadores;
Sup = Sup*fator;
%Passo (1)--> L = {1-itemset}
%===================================
Nlarges = 0;
for col=1:Natributos
if Sup(col) >= minsup & Sup(col) < maxsup,
Nlarges = Nlarges + 1;
L(Nlarges,1) = col;
L(Nlarges,2) = Sup(col);
end; %if
end; %for col
clear Sup
%Passo (2) --> Laço geral para obter L
%===================================
while Nlarges(k) > 1,
k = k + 1;
%Passo 3 --> Chamar a função apriori_gen para obter c
%======================================
apriori_gen;
for i = 1:Ncandid
soma = 0;
%LEITURA DO ARQUIVO
arq = fopen(arquivo,'rt');
for j = 1:Npesquisadores
linha = str2num(fgetl(arq));
for w = 1:k
if linha(c(i,w)) == 1
adic = 1;
else
adic = 0;
break;
end; %if
end; %for w
soma = soma + adic;
end; %for j
st = fclose(arq);
c(i,k+1) = soma*fator; %c recebe a coluna de Suporte
59
end; %for i
%Passo 9 - OBTER L(k)
%====================
j = 0;
clear large
for i = 1:Ncandid
if c(i,k+1)>= minsup & c(i,k+1)< maxsup
j = j + 1;
large(j,:) = c(i,:);
end; %if
end; %for i
Nlarges(k) = j;
if Nlarges(k) > 0
L(1:Nlarges(k),1:k+1,k) = large;
NL = k;
end;
end; %while
%Chamar a função genrules para extrair as regras genrules
'FIM DO ALGORITMO APRIORI APRIORI_GEN'
'INICIO DA FUNÇÃO APRIORI_GEN'
%OBTER OS CANDIDATOS E PODA (join step e prune step)
Ncandid = 0;
if k==2,
for fixo = 1:Nlarges-1
for varia = (fixo+1):Nlarges
ss = 1;
item(ss) = L(fixo,1);
ss = ss + 1;
item(ss) = L(varia,1);
Ncandid = Ncandid + 1;
c(Ncandid,:) = item;
end; %for varia
end; %for fixo
else %para k>2
for i=1:(k-1)
flag(i) = 1;
end; %for i
for fixo = 1:(Nlarges(k-1)-1)
for ss = 1:(k-1)
item_ant(ss) = L(fixo,ss,k-1);
end; %for ss
if item_ant(ss) < Natributos
for i = 2:(k-1)
test(i-1) = item_ant(i);
end; %for i
for varia = (item_ant(ss)+1):Natributos
test(i) = varia;
pert = 0;
for j = (fixo+1):Nlarges(k-1) %Procura em L
for w=1:(k-1)
if test(w) == L(j,w,k-1)
pert(w) = 1;
else
pert(w) = 0;
end; %if
end; %for w
if pert == flag
break;
60
end; %if
end; %for j
if pert == flag %item pertence a L
item = item_ant;
item(k) = varia; %novo componente
Ncandid = Ncandid + 1;
c(Ncandid,:) = item;
end; %if
end; %for varia
end; %if
end; %for fixo
end; %else
'FIM DA FUNÇÃO APRIORI_GEN'
FUNÇÃO GENRULES
%ESTRAÇÃO DE REGRAS A --> B
if NL < 2,
NL
'Não há Regras.'
else
'Extraindo Regras...'
Nregras = 0;
for k = NL:-1:2
for i = 1:Nlarges(k)
itemset = L(i,:,k);
m = k - 1;
while m > 0
a = itemset(1:m);
b = itemset(m+1:k);
tamb = 0;
for w = m+1:k
tamb = tamb + 1;
end;
for j = 1:Nlarges(m)
if L(j,1:m,m) == a
break;
end;
end; %for j
sup_a = L(j,m+1,m);
conf = (itemset(k+1)/sup_a)*100;
if conf >= minconf
Nregras = Nregras + 1;
A(Nregras,1:m) = a;
%antecedente da regra
B(Nregras,1:tamb) = b;
%consequente da regra
S(Nregras) = itemset(k+1); %suporte da regra
C(Nregras) = conf;
%confiança da regra
m = m - 1;
%próximo subset
else
break; %não precisa avaliar subsets
end; %if conf
end; %while
end; %for i
end; %for k
clear L
Nregras
if Nregras > 0,
A
B
format bank;
61
'Suporte = ',S'
'Confiança = ',C'
end; %if Nregras
end; %if NL
'FIM DA FUNÇÃO GENRULES’
62
Download

CLEON XAVIER PEREIRA JÚNIOR - UnUCET