UNIVERSIDADE DO EXTREMO SUL CATARINENSE - UNESC
CURSO DE PÓS-GRADUAÇÃO ESPECIALIZAÇÃO EM MBA GERENCIAMENTO
EM BANCO DE DADOS
ANNE MARIE SCOSS
A CLUSTERIZAÇÃO E CLASSIFICAÇÃO NO PROCESSO DE DATA
MINING PARA ANÁLISE DO DESEMPENHO DOCENTE NO ENSINO
DE GRADUAÇÃO
CRICIÚMA, AGOSTO DE 2006
ANNE MARIE SCOSS
A CLUSTERIZAÇÃO E CLASSIFICAÇÃO NO PROCESSO DE DATA
MINING PARA ANÁLISE DO DESEMPENHO DOCENTE NO ENSINO
DE GRADUAÇÃO
Monografia apresentada à Diretoria de Pósgraduação da Universidade do Extremo Sul
Catarinense- UNESC, para a obtenção do título
de especialista em MBA Gerenciamento em
Banco de Dados.
Orientadora: Profª. MSc. Merisandra Côrtes de
Mattos
CRICIÚMA, AGOSTO DE 2006
À minha família, amigos e colegas de
trabalho.
AGRADECIMENTOS
Expresso meu sentimento de gratidão as pessoas importantes para a
conclusão deste trabalho:
Aos meus pais, Marcelo de Morais Scoss e Janete Maria Minotto Scoss,
pelo carinho, apoio e compreensão.
A orientadora Profª. M.Sc. Merisandra Côrtes de Mattos, pela dedicação,
paciência e grande incentivo na realização desta monografia.
A UNESC, a Diretoria de Pós-Graduação e aos colegas da Comissão de
Avaliação Institucional da Unesc (COMAVI), em especial os professores Sandra
Regina da Silva Fabris, Heliete Rocha dos Santos e José dos Passos Fernandes
pela compreensão e apoio durante o processo que durou este trabalho.
Aos colegas da Diretoria da Informática, Franco Espíndola de Bom e
Fabrízio Colombo pela ajuda junto a base de avaliação e a tecnologia Java.
Aos meus amigos e @migos espalhados pelo país, que sempre me
apoiaram e torceram pelo sucesso desta empreitada, em busca do conhecimento.
E, finalmente, gostaria também de agradecer aos novos e inesquecíveis
amigos que fiz durante a Pós-Graduação, Eliana Lorenzi dos Santos, Reginaldo
José da Rosa e Eroni Américo.
“Estamos afogados em informação, mas
morrendo de fome por conhecimento”.
John Naisbett
RESUMO
Esta pesquisa apresenta a análise do desempenho docente, por área de
conhecimento, no contexto da Avaliação Institucional do Ensino de Graduação de
2005 da Universidade do Extremo Sul Catarinense (UNESC). Na realização desta
análise empregou-se a descoberta de conhecimento em base de dados no que se
refere ao processo de data mining. Inicialmente aplicou-se a tarefa de clusterização,
por meio do algoritmo de particionamento k-means. Posteriormente, o conhecimento
descoberto foi submetido a tarefa de classificação pelo método de regras ZeroR. No
processo de data mining utilizou-se a ferramenta de código aberto Waikato
Environment for Knowledge Analysis (WEKA), desenvolvida em Java e
disponibilizada gratuitamente na internet.
.
Palavras-chave: Data mining; Clusterização; Algoritmo k-means; Classificação;
Algoritmo ZeroR; WEKA; Avaliação institucional.
.
LISTA DE ILUSTRAÇÕES
Figura 1 – Etapas do processo operacional do KDD ................................................25
Figura 2 – Classificação de registros........................ ................................................29
Figura 3 – Exemplo de árvore de clusters no método hierárquico.............................42
Figura 4 – Tela do WEKA Explorer executando o método k-means..........................57
Figura 5 – Resultado da aplicação da tarefa de clusterização...................................60
Figura 6 – Resultado da aplicação da tarefa de classificação...................................62
LISTA DE TABELAS
Tabela 1 - Tarefas de Data mining e Exemplos de Uso ...........................................30
Tabela 2 - Comparativo das Ferramentas de Data mining .......................................37
LISTA DE ABREVIATURAS E SIGLAS
ABESC - Associação Brasileira das Escolas Católicas
ABRUEM - Associação Brasileira das Universidades Estaduais e Municipais
ACE - Avaliação das Condições de Ensino
ACG - Avaliação dos Cursos de Graduação (ACG)
ANDIFES - Associação Nacional dos Dirigentes das Instituições Federais de Ensino
Superior
ANUP - Associação das Universidades Particulares
AVALIES - Avaliação das Instituições de Educação Superior
CEA - Comissão Especial de Avaliação
CEE-SC – Conselho Estadual de Educação de Santa Catarina
COMAVI - Comissão de Avaliação Institucional da UNESC
CONAES - Comissão Nacional de Avaliação de Ensino Superior
CPA - Comissão Própria de Avaliação Institucional
ENADE - Avaliação Nacional de Desempenho do Estudante
ENC - Exame Nacional de Cursos
FECEA - Faculdade Estadual de Ciências Econômicas de Apucarana
IA - Inteligência Artificial
IES - Instituição de Ensino Superior
IME - Instituto Militar de Engenharia
JVM - Java Virtual Machine
KDD - Knowledge Discovery in Databases
KDD-NMS - Knowledge Discovery and Data mining in Network Management System
MEC - Ministério da Educação e do Desporto
PAIUB - Programa de Avaliação Institucional das Universidades Brasileiras
PAIUNESC - Programa de Avaliação Institucional da UNESC
PUCMGMT - Grupo de Gerência de Redes
PUC-RIO - Pontifícia Universidade Católica do Rio de Janeiro
SESU - Secretaria de Educação Superior
SINAES - Sistema Nacional de Avaliação da Educação Superior
UNESC - Universidade do Extremo Sul Catarinense
UNISUL - Universidade do Sul de Santa Catarina
WEKA - Waikato Environment for Knowledge Analysis
SUMÁRIO
1 INTRODUÇÃO .......................................................................................................13
1.1
Objetivo Geral.................................................................................................14
1.2
Objetivos Específicos ....................................................................................15
1.3
Justificativa.....................................................................................................15
1.4
Estrutura do Trabalho ....................................................................................16
2 CONHECIMENTO..................................................................................................18
3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS.............................22
3.1 Etapas do KDD ..................................................................................................23
4 DATA MINING .......................................................................................................26
4.1 Metodologias para Data mining .......................................................................26
4.2 Tarefas de Data mining .....................................................................................27
4.2.1 Associação .....................................................................................................27
4.2.2 Clusterização ..................................................................................................28
4.2.3 Classificação ..................................................................................................28
4.2.4 Estimativa .......................................................................................................29
4.2.5 Previsão ..........................................................................................................30
4.3 Métodos de Data mining ...................................................................................31
4.3
Exemplos da Utilização..................................................................................31
4.4.1 Inteligência obtida pela aplicação de data mining em base de teses
francesas no Brasil .........................................................................................32
4.4.2 KDD-NMS: Um Sistema de Descoberta de Conhecimento e Mineração em
Bases de Dados de Sistemas de Gerência de Redes ..................................32
4.4.3 Avaliação Institucional: uma relação entre avaliação docente e discente –
um estudo de caso..........................................................................................33
4.4.4 Descobertas de Padrões usando Técnicas de Extração de Conhecimento
..........................................................................................................................33
4.4.5 Utilização de Técnicas de Mineração de Dados na Análise das
Informações de Uma Universidade................................................................33
4.4.6 Data mining em Saúde Bucal por meio da Técnica de Clusterização e do
Algoritmo K-means .........................................................................................34
4.4
Ferramentas de Data mining .........................................................................34
4.5.1 WEKA ..............................................................................................................37
5 A TAREFA DE CLUSTERIZAÇÃO EM DATA MINING.........................................40
5.1 Métodos de Particionamento para Clusterização...........................................42
5.1.1 O Algoritmo K-means.....................................................................................43
6 A TAREFA DE CLASSIFICAÇÃO .........................................................................45
6.1 Classificação por meio de Regras ...................................................................46
6.1.1 Algoritmo ZeroR .............................................................................................47
7 AVALIAÇÃO INSTITUCIONAL .............................................................................48
7.1 Avaliação Institucional segundo o SINAES ....................................................50
7.2 Avaliação Institucional na Unesc.....................................................................52
8 APLICANDO DATA MINING NA AVALIAÇÃO DO ENSINO DE GRADUAÇÃO .54
8.1 Metodologia .......................................................................................................56
8.2 Resultados obtidos ...........................................................................................58
8.2.1 Clusterização ..................................................................................................59
8.2.2 Classificação ..................................................................................................61
9 CONCLUSÃO ........................................................................................................64
REFERÊNCIAS.........................................................................................................66
Referências Complementares ................................................................................71
APÊNDICES .............................................................................................................72
APÊNDICE A - RESULTADOS DA CLUSTERIZAÇÃO...........................................73
APÊNDICE B - RESULTADOS DA CLASSIFICAÇÃO ............................................79
APÊNDICE C – RESULTADOS DOS CLUSTERS POR ÁREA...............................84
ANEXO .....................................................................................................................85
ANEXO A – RELAÇÃO DOS CURSOS DE GRADUAÇÃO.....................................86
13
1 INTRODUÇÃO
Tem sido possível constatar um crescente acúmulo de informações nas
bases de dados das empresas. Essas informações, quando bem utilizadas, servem
de apoio para as tomadas de decisões, pois indicam padrões e convergências. A
grande quantidade de informações que são armazenadas em base de dados
mostram a inviabilidade de se fazer qualquer análise de forma manual, devido ao
tempo, recursos humanos e financeiros que seriam despendidos.
Com a Avaliação Institucional da Universidade do Extremo Sul
Catarinense (UNESC) também ocorre essa dificuldade com relação a sua base de
dados que contém muitas informações, uma vez que a Instituição preocupa-se em
realizar uma avaliação sistemática e diagnóstica na busca da qualidade de seu
ensino e serviços, gerando um banco de dados muito rico em informações.
Devido as exigências definidas pela Lei Federal 10.861/20041, as
atividades de ordem burocrática, inerentes a qualquer setor/departamento
institucional e o número limitado de pessoas envolvidas na avaliação, originam
dificuldades na análise mais aprofundada dos resultados obtidos, uma vez que essa
modalidade de avaliação é aplicada nos cursos de graduação, com a participação de
todos os alunos e professores.
Entendendo o quanto esse processo avaliativo é importante, pois,
segundo Belloni (2000, p. 41), a avaliação institucional é “um processo sistemático
de busca de subsídios para melhoria e aperfeiçoamento da qualidade da instituição
1
Lei nº 10.861 de 14 de abril de 2004 - Institui o Sistema Nacional de Avaliação da Educação Superior SINAES
14
em face de sua missão científica e social”, buscou-se, com esta pesquisa, uma
alternativa para que fosse possível realizar uma análise mais detalhada dos
resultados obtidos pela avaliação institucional da Unesc, com o intuito de contribuir
com a mesma e com sua missão institucional que é "Promover o desenvolvimento
regional para melhorar a qualidade do ambiente de vida". Reconhecendo sua
relevância para uma Instituição de Ensino Superior (IES), entendeu-se que só é
possível realizar ou propor melhorias quando ocorre a aquisição de conhecimento
sobre a realidade acadêmica em que se está inserido.
Uma forma de aquisição desse conhecimento seria com o apoio da
aplicação do instrumento de avaliação institucional, onde é possível, até certo ponto,
verificar junto aos principais sujeitos envolvidos (docentes e discentes) o que ocorre
no processo de ensino-aprendizagem. A outra, seria por meio da aplicação, sobre os
resultados obtidos pela avaliação, de uma técnica que reúne conhecimentos
oriundos das áreas de banco de dados, inteligência artificial, aprendizado de
máquina e estatística, denominada data mining.
Desse modo, esta pesquisa compreendeu a descoberta de conhecimento
por meio do processo de data mining, empregando-se as tarefas de Clusterização e
Classificação na base de dados da avaliação do ensino de graduação de 2005 com
o objetivo de analisar o perfil do desempenho docente, por área.
1.1 Objetivo Geral
Aplicar as tarefas de clusterização e classificação no processo de data
mining para análise por área do perfil do desempenho docente no contexto da
Avaliação Institucional do Ensino de Graduação da UNESC.
15
1.2 Objetivos Específicos
Os objetivos específicos desta pesquisa consistem em:
a) compreender o processo de descoberta do conhecimento e data
mining;
b) aplicar a tarefa de clusterização e o método k-means;
c) aplicar, no resultado obtido, a tarefa de classificação e o método
ZeroR;
d) analisar os resultados obtidos com a aplicação dessas tarefas.
1.3 Justificativa
A Avaliação Institucional na UNESC, implantada a partir de 1995, possui
caráter pedagógico, cujo objetivo é buscar subsidiar os gestores da Instituição com
dados quantitativos e qualitativos, como ferramenta de apoio as tomadas de decisão
(UNESC, 2003, p.13). Para trabalhar essa modalidade de avaliação na Instituição
existe a Comissão de Avaliação Institucional da UNESC (COMAVI), cujo papel
principal é de coordenar a execução de todo o processo avaliativo da UNESC, que
vem sendo construído coletivamente (COMAVI, 2003, p. 28).
Uma das avaliações desenvolvidas pela COMAVI é a do Ensino de
Graduação. Atualmente esse processo é informatizado, o que agiliza sobremaneira o
processamento e coleta dos dados, bem como sua tabulação, pois é automática.
Uma vez que o acadêmico ou o professor realizem sua avaliação acessando o link
na Internet previamente disponibilizado durante o período determinado para se
realizar a avaliação, o dado é armazenado diretamente no banco de dados.
16
A análise desses dados obtidos é importante, pois seu resultado permite
conhecer a realidade da IES nos aspectos referentes ao ensino-aprendizagem dos
cursos de graduação da Universidade.
No sentido de aprofundar mais esse conhecimento, a presente pesquisa
realizou o processo de data mining, que segundo Gonçalves (1999, p. 14), tem sido
descrito como a descoberta do conhecimento desconhecido e implícito em uma base
de dados.
Na realização deste processo de data mining aplicou-se primeiramente a
tarefa de clusterização, pois segundo Serra (2002) agrupa as informações
disponíveis em conjuntos definidos e homogêneos baseando-se em atributos
específicos, podendo ser aplicada a itens não numéricos.
Serra (2002) ainda
esclarece que os resultados provenientes da clusterização podem ser utilizados para
outras tarefas, como por exemplo, a classificação, visto que um cluster é um grupo
menor e por tanto mais fácil de ser trabalhado por meio dos algoritmos de
classificação.
1.4 Estrutura do Trabalho
A presente pesquisa é composta por nove Capítulos, sendo que o
Capítulo 1, a introdução, reflete de forma geral o trabalho, bem como seus objetivos
geral e específicos e a justificativa para a realização da mesma.
O Capítulo 2 apresenta o conceito de conhecimento, um breve resumo
dos seus níveis e a sua relação com a descoberta do conhecimento em bases de
dados.
No Capítulo 3 é abordado o Knowledge Discovery in Databases (KDD) e
17
suas etapas, enquanto o Capítulo 4 aborda o processo de data mining, suas
metodologias, tarefas, métodos e a ferramenta WEKA, bem como um levantamento
sobre algumas pesquisas que utilizaram esta tecnologia.
O Capítulo 5 trata mais especificamente sobre a tarefa de clusterização e
o algoritmo k-means, enquanto o Capítulo 6 refere-se a tarefa de classificação e o
algoritmo ZeroR. Estas tarefas e métodos foram empregadas no desenvolvimento
desta pesquisa.
A Avaliação Institucional é apresentada no Capítulo 7, tendo-se um breve
histórico do contexto nacional, do SINAES e da avaliação do ensino de graduação
da UNESC, no que se refere ao docente.
No Capítulo 8 é abordado o desenvolvimento da pesquisa, os resultados
obtidos.
Finalmente, no Capítulo 9 tem-se a conclusão da pesquisa bem como a
indicação de trabalhos futuros.
18
2 CONHECIMENTO
A palavra conhecimento, segundo Luft (1987, p.139), significa a “ação ou
efeito de conhecer”.
Também pode advir de experiências ou vivências que possam
proporcionar conhecimento sobre um ou mais fatores relacionados a aspectos
pessoais, sociais ou profissionais.
Outra definição aponta que o conhecimento é a relação que se forma
entre aquele que conhece ou deseja conhecer algo (objeto) e o objeto que será
conhecido ou que se possibilita conhecer (ROSAS, 2003).
Ainda segundo Rosas (2003), na Grécia Antiga já existiam diversas visões
e métodos de conhecimento como os de Sócrates, que era baseado na ironia2 e na
maiêutica3; os de Platão, que afirmava que a ciência era baseada na opinião; e os
de Aristóteles, que entendia ser a ciência baseada na observação (experiência).
Rezende (2003, p. 4) esclarece que a condição base que impele em
direção a ação do desenvolvimento é o conhecimento, mas antes de se realizar
qualquer vínculo entre conhecimento e as tecnologias de registro e processamento,
é importante efetuar uma distinção entre dado, informação e conhecimento:
a) dado: é considerado o elemento puro, que pode ser quantificado em
determinada situação. Na maioria das vezes ele é usado em ambiente
2
A palavra ironia, no dia-a-dia, quer dizer deboche, escárnio, sarcasmo, entre outros. Quando se refere a ironia
socrática seu sentindo é completamente diferente, pois no grego ironia significa interrogação, sendo que Sócrates
interrogava seus discípulos quanto ao que imaginavam saber. Pode-se citar as perguntas “O que é o bem?” e “O
que é a justiça?” como exemplos de alguns dos questionamentos feitos por Sócrates.
< http://www.filosofiavirtual.pro.br/socrates.htm>.
3
Processo pedagógico indutivo que, a partir de caso particular, leva o aluno a generalizar e conceituar por meio
de perguntas sucessivas (LUFT, 1987, p. 355).
19
funcional, podendo ser armazenado, escolhido e recuperado em uma
base de dados ou em outra forma de registro documental. O dado
sozinho não oferece nenhuma base para a compreensão de uma
situação. Um exemplo de dado seria o faturamento de vendas e o valor
do dólar em um determinado dia;
b) informação: quando um conjunto de dados é analisado e interpretado,
ele se transforma em informação. Pode-se citar como exemplo a
análise do faturamento de vendas de determinada empresa que
possua filial na região A e outra na região B. Se a filial da região A tem
previsão de faturamento de R$ 300,00 e seu faturamento de fato foi de
R$ 500,00 e a filial da região B teve o faturamento previsto de R$
2.000,00 e faturou na realidade R$ 1.000,00, pode-se concluir que o
desempenho da filial A foi superior a B;
c) conhecimento: baseado em uma informação, é possível realizar
tomadas de decisões importantes. Essa ação é realizada a partir do
conhecimento que se obteve da informação recebida. O exemplo que
se pode apresentar seria o de um empresário, ao receber a informação
sobre os faturamentos de suas filiais da região A e B, começar a
desenvolver e traçar objetivos e ações para que as dificuldades
encontradas na filial B possam ser superadas.
Ainda tratando do conhecimento, com o objetivo de refletir brevemente,
Mattar (2005, p. 2) indica que o mesmo pode ser dividido nos seguintes níveis:
a) conhecimento popular ou empírico: também denominado de bom
senso ou senso comum, é o conhecimento que se adquire e
desenvolve no dia-a-dia. O exemplo que se pode apontar é o chá
20
preparado pelas avós, quando se está doente. Esse é um tipo de
conhecimento que é passado ao longo das gerações;
b) conhecimento religioso ou teológico: baseia-se na fé, ou seja, devese crer no que a religião ensina mesmo que a ciência comprove o
inverso. Neste tipo de conhecimento o exemplo que pode ser citado é o
de determinadas passagens registradas em livros sagrados ou
religiosos e que a ciência vem mostrando haver controvérsias em
alguns dos seus textos. Essas contestações apontadas pelos cientistas
muitas vezes não são aceitas pelas religiões;
c) conhecimento filosófico: o saber filosófico procura separar-se dos
mitos, da retórica, dos sofismas4, das tragédias e dos poetas,
estabelecendo
a
liberdade
do
pensamento.
Seu
raciocínio
é
considerado mais abstrato e valorativo em contrapartida aos métodos
científicos, embora essa distinção não esteja muito clara, pois os
primeiros cientistas também foram os primeiros filósofos. Aqui pode-se
citar Galileu Galilei5 que a partir de uma luneta astronômica fez análise
sobre a Via Láctea, os Satélites de Júpiter, as manchas do Sol, entre
outros;
d) conhecimento científico: assim como o filosófico, esse conhecimento
é racional, com o desejo de desvendar a realidade de uma forma
sistemática. O exemplo deste conhecimento seria a descoberta da
vacina para determinada enfermidade.
4
5
Sofisma significa argumentação falsa com aparência de verdadeira. (LUFT, 1897, 519)
“Galileu Galilei foi um notável físico, matemático e astrônomo italiano. É considerado um dos maiores gênios
da história da humanidade, como Leonardo da Vinci, Isaac Newton e Albert Einstein, tendo seu QI estimado em
cerca de 240” < http://pt.wikipedia.org/wiki/Galileu >.
21
Analisando o conceito de conhecimento e seus diferentes tipos, pode-se
observar que, embora todo o conhecimento reflita um determinado padrão de
informações, não é todo padrão que pode ser entendido como conhecimento. O
padrão deve ser previsível para tornar-se conhecimento, sendo que ele também
pode ser apresentado em forma documental, cujos registros vão se acumulando com
o decorrer do tempo, tornando complexo seu manuseio e recuperação (GARCIA;
VAREJÃO; FERRAZ, 2003, p. 85).
Garcia, Varejão e Ferraz (2003, p. 85) também esclarecem que a fim de se
ter uma alternativa com o objetivo de resolver a dificuldade apresentada pelo
complexo manuseio e recuperação de registros, a Inteligência Artificial (IA) dispõe
dos sistemas baseados em conhecimento que tem-se mostrado um recurso
eficiente, uma vez que permite também sua disponibilização a diferentes pessoas e
instituições.
Também utilizando recursos de IA, o KDD possibilita a extração do
conhecimento em base de dados, cujo grande volume de informações não tornava
mais viável sua análise manual.
No próximo capítulo será abordado como é possível adquirir o
conhecimento em base de dados, cujos registros podem apresentar terabytes de
informações.
22
3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
Com o avanço da tecnologia, tem-se vivido na chamada “Era da
Informação”. Anualmente milhares de informações são acumuladas em bancos de
dados de empresas, instituições e organizações em todo o mundo. Essas
informações, que são ponto chave para a instituição no sentido de dar-lhe subsídios
para as tomadas de decisões apontando tendências e padrões, estão, na grande
maioria das vezes, implícitas no meio dos dados armazenados (FIGUEIRA, 1998
apud GONÇALVES, 1999, p.3).
Ainda citando Gonçalves (1999, p.4) ele aponta também que, devido a
essa quantidade expressiva de dados, a habilidade técnica e a capacidade humana
já não conseguem realizar a contento as interpretações das informações
armazenadas.
Frente a esses novos acontecimentos surgiu uma área inovadora para
atender a necessidade de analisar essas informações armazenadas, cujo processo
envolve banco de dados, inteligência artificial e estatística, denominada Knowledge
Discovery in Databases (KDD) ou Descoberta de Conhecimento em Base de Dados
(DCBD). Esse termo foi formalizado em 1989 e refere-se ao conceito de buscar o
conhecimento em dados (HERDT, 2001, p. 6).
Fayyad et al (1996, p. 40) propôs a definição “KDD is the nontrivial
process of
identifying valid, novel, potentially useful, and ultimateand ly
understandable patterns in data”6, e que foi aceita por diversos pesquisadores.
Goldschmidt e Passos (2005, p. 5) esclarecem que há diversas atividades
6
KDD é o processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados (Tradução: OLIVEIRA, 2000)
23
relacionadas ao KDD, sendo que esse se originou de várias áreas, podendo-se
destacar:
estatística,
inteligência
computacional,
aprendizado
de
máquina,
reconhecimento de padrões e banco de dados.
As atividades do KDD, mencionadas no parágrafo anterior, podem ser
ordenadas em três grandes grupos (GOLDSCHMIDT; PASSOS, 2005, p. 6):
a) desenvolvimento tecnológico: engloba os aspectos referentes as
iniciativas
de
concepção,
refinamento
e
desenvolvimento
de
algoritmos, ferramentas e tecnologias que possam ser empregadas em
bases de dados, na busca por novos conhecimentos;
b) execução de KDD: consiste, efetivamente, no que se refere a busca
do conhecimento na base de dados;
c) aplicação dos resultados: implica na utilização das informações úteis
obtidas dos resultados alcançados pelo processo de KDD.
Goldschimidt e Passos (2005, pág.15) também indicam que o ponto de
partida do processo de KDD deve ser a análise da base de dados onde se quer
extrair o conhecimento. A partir dessa apreciação é possível, junto aos especialistas
da área em que se irá analisar os dados, determinar os objetivos que devem ser
alcançados neste processo e que deverão nortear todo o procedimento.
No próximo subitem serão abordadas as etapas que compõe o processo
de KDD.
3.1 Etapas do KDD
KDD é caracterizado como um processo interativo contendo várias etapas
operacionais, representadas na Figura 1, como a seleção; pré-processamento;
24
transformação; data mining; interpretação e avaliação (FAYYAD et al,1996, p. 42).
Estas etapas consistem em:
a) seleção de dados: é realizada uma identificação de quais
informações realmente se vai trabalhar na base de dados
(GOLDSCHMIDT; PASSOS, 2005, p. 26);
b) pré-processamento: neste processo realiza-se uma avaliação da
base de dados que será trabalhada, verificando as inconsistências
das informações ali armazenadas, como por exemplo: dados
duplicados, faltantes, impossíveis de serem analisados, entre
outros (OLIVEIRA, 2000, p. 16);
c) transformação: também conhecida como etapa de organização.
Para essa etapa é necessário o acompanhamento de especialista
na área, tornando assim o processo mais confiável e preciso, pois
ocorre a alocação dos dados de maneira mais eficiente (OLIVEIRA,
2000, p. 18);
d) data mining: realiza-se a busca por informações efetivamente
úteis, aplicando-se algoritmos para extrair o conhecimento da base
de dados. Segundo Goldschimidt e Passos (2005, p.51) muitas
vezes esta etapa é considerada como sinônimo do processo de
KDD;
e) interpretação e avaliação: consiste no tratamento (visualização,
análise e interpretação) do conhecimento minerado. De forma
geral, nesta etapa é que o especialista do domínio de aplicação e o
engenheiro do conhecimento analisam os resultados abstraídos
(GOLDSCHIMIDT; PASSOS, 2005, p.55).
25
Figura 1. Etapas do processo operacional do KDD
Fonte: FAYYAD, U. et al (1996, p. 41)
A etapa de data mining, por ser muito importante e o foco do presente
estudo, será tratada de forma mais detalhada no próximo capítulo.
26
4 DATA MINING
Segundo Han e Kamber (2001, p. 33) “Data mining é o processo de
descoberta de conhecimento interessante a partir de grandes quantidades de dados
armazenados tanto em bancos de dados, Data Warehouses, ou outro repositório de
informação”.
Seifert (2004, p. 2) afirma que cada vez mais o uso de data mining tem-se
tornado corriqueira, tanto em setores públicos quanto privados. Os exemplos que se
podem citar de instituições que vem utilizando data mining com o objetivo de
minimizar seus custos, pesquisa e incrementar as vendas são as que trabalham com
seguros, operações bancárias, medicina, entre outros.
Navega (2002, p. 1) esclarece que nesta etapa são aplicados algoritmos
diversos, que processam os dados na base, em busca de informações relevantes.
Ele ainda aponta que, apesar dos algoritmos serem capazes de identificar dados
válidos e novos, ainda não existe uma solução para determinar padrões valiosos.
Nesse sentido a participação de especialistas é fundamental para completar o
processo de extração do conhecimento, determinar e conduzir a exploração da
base.
Objetivando compreender um pouco mais a etapa de data mining, a
próxima seção aborda as metodologias para o mesmo.
4.1 Metodologias para Data mining
Conforme Carvalho (2001, pág. 17), data mining pode ser realizada por
27
meio de três diferentes metodologias, tendo-se:
a) descoberta
não
supervisionada
de
relações:
há
pouco
conhecimento do que se quer encontrar e existe busca por novas
relações;
b) testagem da hipótese: baseia-se na busca por relações que podem
ou não comprovar uma hipótese, podendo validá-la ou não;
c) modelagem matemática de dados: esta forma é realizada por meio
do conhecimento, que irá validar os dados obtidos.
Independente da metodologia escolhida, ela necessitará da utilização de
tarefas já existentes e que possibilitam resolver o problema estudado. Para tanto é
importante identificar as tarefas que são mais indicadas à aplicação que se deseja
realizar.
4.2 Tarefas de Data mining
Embora os autores que versam sobre esse tema definam mais tarefas,
serão apresentados a seguir as que foram consideradas mais pertinentes a este
estudo, que são: associação; clusterização; classificação, estimativa e previsão.
4.2.1 Associação
Essa tarefa baseia-se na ação de encontrar um grupo de itens afins, ou
seja, que ocorram concomitantemente e de forma repetida em uma base de dados
(GOLDSCHIMIDT; PASSOS, 2005, pág.59).
Pode-se utilizar, para expressar essas afinidades na forma de regras, o
28
seguinte exemplo, onde 72% de todos os registros que contém os itens A, B, e C
também contêm D e E. Esse percentual de ocorrências simula o fator de confiança
da regra, sendo usado habitualmente para suprimir padrões inexpressivos
(GIMENES, 2000).
4.2.2 Clusterização
Também chamada de agrupamento, essa tarefa é utilizada para
particionar os registros de uma base de dados em clusters (subconjuntos) de forma
a permitir que os dados de um cluster possam usufruir um grupo de propriedades
comuns, mas que os diferenciem dos dados de outros clusters (GOLDSCHIMIDT;
PASSOS, 2005, pág.74).
Dias (2001, p. 10), apresenta exemplos de aplicação da tarefa de
clusterização, tais como: agrupar clientes por região do país; agrupar clientes com
comportamento de compra similar e agrupar seções de usuários Web para prever
comportamento futuro de usuário.
4.2.3 Classificação
Considerada uma das tarefas mais importantes e populares, a
classificação consiste em, basicamente, buscar por uma função que permita integrar
corretamente cada registro de dado de um conjunto de informações a um único
rótulo de um conjunto de classes, conforme pode-se observar na Figura 2
(GOLDSCHIMIDT; PASSOS, 2005, pág.65).
29
Figura 2: Classificação de registros
Fonte: GOLDSCHIMIDT, R.; PASSOS, E. (2005, p.67).
Como aplicação de classificação, podem ser apresentados alguns
exemplos, tais como: elucidar pedidos fraudulentos de seguros; fazer uma
classificação - utilizando uma escala de baixo, médio e alto risco - para pedidos de
créditos; a partir do histórico de uma classe de pacientes, identificar o tipo de
tratamento que é mais indicado a um paciente (DIAS, 2001, p. 9).
4.2.4 Estimativa
A estimação ou regressão é similar a tarefa de classificação, porém
restringe-se a atributos numéricos. Ela busca por funções, sejam lineares ou não,
que possam mapear registros de um banco de dados (GOLDSCHIMIDT; PASSOS,
2005, p. 71).
Barreto (2004a) informa que esta técnica pode ser utilizada nas seguintes
situações, analisando cadastros ou formulários previamente preenchidos:
a)
estimar a inclinação à inadimplência de um cliente que solicite
empréstimo;
b)
estimar, a partir de bens pessoais (com durabilidade de ao menos
30
três anos), a renda média de uma família;
c)
estimar o tempo provável de vida dos clientes de uma seguradora.
4.2.5 Previsão
Como o próprio nome esclarece, esta tarefa relaciona-se a previsão de
um valor para uma determinada variável, baseando seu juízo nos dados históricos
armazenados (BARRETO, 2004a).
Na Tabela 1 é possível ter-se uma visão geral das tarefas que o data
mining executa, analisando suas descrições e exemplos de uso, possibilitando assim
averiguar qual ou quais se adequam ao problema proposto.
Tabela 1. Tarefas de Data mining e Exemplos de Uso
Tarefa
Classificação
Estimativa
(ou Regressão)
Associação
Segmentação
(ou
Clusterização)
Descrição
Constrói um modelo de algum tipo que possa
ser aplicado a dados não classificados a fim
de categorizá-los em classes, o objetivo é
descobrir um relacionamento entre um
atributo meta (cujo valor será previsto) e um
conjunto de atributos de previsão
Usada para definir um valor para alguma
variável contínua desconhecida
Usada para determinar quais itens tendem a
ser adquiridos juntos em uma mesma
transação
Processo de partição de uma população
heterogênea em vários subgrupos ou grupos
mais homogêneos
Fonte: DIAS, M (2002, p. 1717)
Exemplos
Classificar pedidos de crédito;
Esclarecer
pedidos
de
seguros
fraudulentos;
Identificar a melhor forma de tratamento
de um paciente.
Estimar o número de filhos ou a renda
total de uma família;
Estimar o valor em tempo de vida de um
cliente;
Estimar a probabilidade de que um
paciente morrerá baseando-se nos
resultados de diagnósticos médicos;
Prever a demanda de um consumidor
para um novo produto.
Determinar que produtos costumam ser
colocados juntos em um carrinho de
supermercado.
Agrupar clientes por região do país;
Agrupar clientes com comportamento de
compra similar;
Agrupar seções de usuários Web para
prever comportamento futuro de usuário.
Neste Capítulo tratou-se de data mining, bem como as metodologias e
tarefas relacionadas a este processo. A seguir são apresentados alguns métodos de
data mining.
31
4.3 Métodos de Data mining
Cada tarefa de data mining possui um número relativo de métodos para a
extração do conhecimento da base da base de dados (OLIVEIRA, 2001, p.50).
Método, em data mining, consiste em um ou mais algoritmos
implementados nas ferramentas acadêmicas ou comerciais para mineração, com o
objetivo de descobrir conhecimento a partir da base de dados que se está
explorando.
Oliveira (2000, p.20) especifica que a escolha do método não é uma ação
comum, uma vez que é importante ponderar aspectos tais como: o objetivo da ação
a ser realizada, o tamanho da base, a precisão requerida, entre outros.
Pode-se citar como métodos mais conhecidos: redes neurais, algoritmos
genéticos, regras, indução de árvore de decisão, lógica nebulosa, entre outros.
Neste trabalho têm-se as tarefas de clusterização e classificação, que
estão descritas nos Capítulos 5 e 6, onde foram aplicados os seguintes métodos:
particionamento k-means e o baseado em regras ZeroR.
4.3 Exemplos da Utilização
Data mining, quando utilizado de acordo com as definições previamente
informadas de cada tarefa e método pode proporcionar resultados valiosos para as
instituições que o aplicam.
Nas próximas seções serão abordados, resumidamente, alguns exemplos
da aplicação de data mining.
32
4.4.1 Inteligência obtida pela aplicação de data mining em base de teses
francesas no Brasil
A pesquisa do artigo publicado por Quoniam et al (2001), que versa sobre
o uso de data mining na base de dados de teses francesas DocThèses analisando o
tema Brasil, no período de 1969 a 1999, pode ser citada como exemplo.
Segundo o artigo, verificou-se que os resultados obtidos com o uso da
técnica de data mining integrada com softwares especialistas ofereceu subsídios
para
os
processos
decisórios,
como
a
consolidação,
o
investimento
e
desenvolvimento de ações, bem como políticas.
4.4.2 KDD-NMS: Um Sistema de Descoberta de Conhecimento e Mineração em
Bases de Dados de Sistemas de Gerência de Redes
De autoria de Flávia Pereira de Carvalho, Aguinaldo Fagundes Junior,
Jorge Guedes Silveira e Marcelo Cunha de Azambuja, data mining foi tema de
pesquisa com o objetivo de estudar e criar um sistema de descoberta de
conhecimento e mineração em bases de dados de sistemas de gerência de redes,
Knowledge Discovery and Data mining in Network Management System (KDD-NMS).
Este trabalho se propõe a dar continuidade a outras pesquisas e projetos
já desenvolvidos pelo Grupo de Gerência de Redes (PUCMGMT) do Laboratório
MetroPoa da PUCRS. Dessa forma, desenvolveram funcionalidades de descoberta
de conhecimento e data mining na base de dados do sistema FreeNMS
(CARVALHO et al, 2003).
33
4.4.3 Avaliação Institucional: uma relação entre avaliação docente e discente –
um estudo de caso
Dentre as referências pesquisadas, pode-se também destacar a
dissertação de mestrado de Rosângela Norvila Valério em 2004. O objetivo principal
desse trabalho foi avaliar o desempenho docente relacionando com a avaliação
discente da Faculdade Estadual de Ciências Econômicas de Apucarana (FECEA),
no ano de 2001. Com o auxílio de um questionário, os acadêmicos se autoavaliaram, avaliaram seus cursos de graduação e os professores. Já os docentes
também se auto-avaliaram, avaliaram os cursos e os discentes. Nos resultados
obtidos por curso, pela Avaliação Institucional, utilizou-se técnicas estatísticas
multivariadas como: análise de Clusters, análise Fatorial e Coeficiente Alfa de
Crombach (VALERIO, 2004).
4.4.4 Descobertas de Padrões usando Técnicas de Extração de Conhecimento
Estudo proposto por Cledjalma Ferreira Neves em 2004, como trabalho de
Estágio Supervisionado apresentado ao curso de Sistemas de Informação do Centro
Universitário Luterano de Palmas, em Tocantins. Essa pesquisa se propôs a
identificar o melhor algoritmo entre ZEROR, ONER e J48, utilizando conceitos de
descoberta de conhecimento em uma base de dados referente a pacientes de
Diabetes Mellitus tipo Dois da região norte do município de Palmas (NEVES, 2004).
4.4.5 Utilização de Técnicas de Mineração de Dados na Análise das
Informações de Uma Universidade
A dissertação de mestrado de Rudiney Herdt de 2001, envolveu data
mining e avaliação institucional. Essa pesquisa foi aplicada à Universidade do Sul de
34
Santa Catarina (UNISUL) e buscou encontrar um padrão de comportamento nos
dados resultantes da pesquisa realizada anualmente com os alunos. Na análise
utilizou-se uma ferramenta estatística e duas tarefas de mineração: clusterização e
regras de associação (HERDT, 2001).
4.4.6 Data mining em Saúde Bucal por meio da Técnica de Clusterização e do
Algoritmo K-means
Esta pesquisa desenvolvida por Tarcísio Cardoso Selinger como trabalho
de conclusão do curso de Ciência da Computação da UNESC em 2003 aplica a
técnica de clusterização por meio do método K-means.
Essa pesquisa consistiu em analisar a incidência de cárie dental em
crianças de escolas públicas, de 6 a 12 anos, das capitais: Curitiba, Florianópolis e
Porto Alegre. Para tanto, foi utilizada a base de dados disponível no site do
DATASUS, do governo federal brasileiro.
Finalizando esta seção no que se refere aos trabalhos correlatos, a seguir
será apresentado algumas ferramentas de data mining.
4.4 Ferramentas de Data mining
A área de descoberta de conhecimento em base de dados vem crescendo
consideravelmente devido a sua ampla aplicação nos mais diversos domínios,
Assim, isso vem despertando o interesse em se desenvolver várias ferramentas,
tanto de cunho comercial quanto acadêmico (REZENDE et al , 2003, p. 329).
Ao analisar algumas ferramentas, foi possível perceber a existência de
variações nas características que cada uma apresenta, sendo que as comerciais
35
muitas vezes têm implementado a maioria das tarefas de data mining.
Algumas das ferramentas disponíveis são: Oracle Data mining; Bramining;
Intelligent Miner for Data; WizRule; WEKA; dentre outras.
a) Oracle Data mining: todas as atividades de descoberta do
conhecimento ocorrem no próprio ambiente que gerencia o banco de
dados da Oracle fazendo com que ele proporcione uma plataforma
simples, integrada, segura e escalável. Essa sua integração é o
aspecto de destaque deste software, pois faz com que não seja
necessária, ao contrário de outras ferramentas, a extração prévia dos
dados para serem processados pelo KDD (GOLDSCHIMIDT; PASSOS,
2005, p. 129). Outra informações podem ser encontradas no site da
Oracle: www.oracle.com;
b) Bramining: resultado de três dissertações de mestrado realizadas na
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) e no
Instituto Militar de Engenharia (IME), essa ferramenta disponibiliza
ambiente para que seja processado o KDD (GOLDSCHIMIDT;
PASSOS, 2005, p. 127). Maiores detalhes sobre a ferramenta podem
ser pesquisadas no site da Graal Corp: www.graal-corp.com.br;
c) Intelligent Miner for Data: também conhecida como DB2 Intelligent
Miner for Data, essa ferramenta foi desenvolvida pela IBM, possuindo
versões para sistemas operacionais, tais como: Windows, AIX, OS/390,
OS/340 e Solaris. Não sendo dependente do sistema IBM, o DB2 pode
ser rodado junto a outros Sistemas de Gerenciamento de Banco de
Dados (SGBD) relacionais. O pacote do DB2 possibilita o uso de
algoritmos de data mining, seja de forma individual ou combinada, para
36
resolver problemas de KDD (GOLDSCHIMIDT; PASSOS, 2005, p.
125).
Outras informações podem ser encontradas no site da IBM:
www.ibm.com;
d) WizRule: esse software de origem israelense, foi desenvolvido com o
objetivo de analisar e descrever grupos de dados, identificando
prováveis erros dentre os analisados. Utilizado em aplicações que
envolvem detecção de desvios7, a ferramenta abstrai fórmulas e
regras, revelando os registros da base que não atendem a descoberta
do conhecimento (GOLDSCHIMIDT; PASSOS, 2005, p. 127). Pode-se
realizar o download e obter informações do WizRule no site da WizSoft:
www.wisoft.com;
e) WEKA: esta ferramenta de KDD tem implementado algoritmos de
preparação de dados, data mining e de validação de resultados. Seu
código é aberto e encontra-se disponível na internet. A ferramenta
permite a visualização gráfica dos resultados em árvores de decisão,
diagramas de dispersão, histogramas e apresenta modelos para a
construção de redes neurais (GOLDSCHIMIDT; PASSOS, 2005, p.
127)
(SILVA,
2004,
p.
14).
Maiores
informações
em
www.cs.waikato.ac.nz.
Na Tabela 2 tem-se uma visão geral das ferramentas de data mining,
analisando-se as tarefas que estão implementadas, bem como a sua disponibilidade
comercial ou não.
7
Processo de detecção de desvios tem como objetivo encontrar informações fora dos parâmetros normais, ou
seja, casos anômalos (ESTIVALET, 2000)
37
Ferramenta
Tabela 2. Comparativo das Ferramentas de Data mining
Tarefas
Oracle Data mining
Bramining
Intelligent Miner for
Data
WizRule
WEKA
Classificação, Regressão, Associação,
Clusterização e Mineração de Textos
Classificação, Regras de Associação,
Regressão, Sumarização
Classificação, Regras de Associação,
Seqüenciais, Clusterização, Sumarização
Sumarização, Classificação, Detecção de
Desvios
Classificação, Regressão, Regras de
Associação, Clusterização
Fonte: GOLDSCHIMIDT, R.; PASSOS, E. (2005)
Plataforma
Gratuidade
Windows
Não
Windows
Não
Linux e Windows
Não
Windows
Sim
Linux, Macintosh
e Windows
Sim
No desenvolvimento desta pesquisa utilizou-se a ferramenta de data
mining WEKA, que será abordada a seguir.
4.5.1 WEKA
Waikato Environment for Knowledge Alalysis (WEKA) é uma ferramenta
de código aberto, disponível na internet8, desenvolvida em linguagem Java pelo
curso de Ciência da Computação da Universidade de Waikato na Nova Zelândia.
Essa ferramenta possui implementadas as seguintes tarefas e métodos (Witten;
Frank, 2000) (MORATE; 2004):
a)
tarefas: pré-processamento de dados e aplicação de filtros,
clusterização, classificação, associação, seleção de atributos e
visualização de dados;
b)
métodos: bayes, functions, lazy, meta, trees, rules, cobweb,
farthestfirst, makedensity based clusterer, simple k-means, apriori,
predictive apriori, tertius, entre outros.
Segundo Goldschimidt e Passos (2005) e Morate (2004) o WEKA pode
ser utilizado de diversas formas, uma vez que possui quatro diferentes interfaces
8
http://www.cs.waikato.ac.nz/ml/WEKA/
38
implementadas, sendo elas:
a) simple client: proporciona um local para inserir comandos. Apesar de
possuir uma aparência simples, permite realizar qualquer operação
suportada pela WEKA;
b) explorer: nela é possível aplicar as tarefas e métodos sobre a base
de dados;
c) experimenter: consiste em aplicar um ou vários métodos de
classificação sobre uma grande quantidade de dados, além de ter
condições de realizar comparações estatísticas;
d) knowledge-flow: é considerada a interface que apresenta de forma
mais
explicita
o
funcionamento
da
ferramenta,
tendo
sua
representação de forma gráfica.
Morate (2004) também esclarece que a WEKA suporta os seguintes
atributos:
e) numeric : representa números reais;
f) integer: representa números inteiros;
g) date: representa unidades te tempo (dd Dia; MM Mês; yyyy Ano, HH
Horas; mm Minutos; ss Segundos);
h) string: representa cadeia de textos. Não é utilizado no processo de
data mining, mas sim como identificador das instâncias.
i) enumerado: consiste em representar entre chaves, separando por
vírgula, valores que pode ser tomados como atributos, como por
exemplo, @attribute periodo {M,V,N,I }.
A WEKA suporta arquivos ARFF, CSV e C45, mas só no arquivo ARFF é
que ele consegue executar o processo de data mining.
39
Nesta pesquisa utilizou-se a ferramenta WEKA para a clusterização, por
meio do método de particionamento k-means, e a classificação, por meio de regras
com o método ZeroR, com o objetivo de delinear por área o perfil do desempenho
docente no contexto da avaliação do ensino de graduação da Unesc. O fator
determinante na escolha da ferramenta deveu-se ao fato de a mesma possuir as
tarefas e métodos definidos para a pesquisa, bem como sua disponibilização ser de
acesso público.
40
5 A TAREFA DE CLUSTERIZAÇÃO EM DATA MINING
A tarefa de clusterização, de uma forma geral, é o processo cuja ação é
agrupar dados de um conjunto de elementos de forma que os grupos formados a
partir desse agrupamento, denominados clusters, apresentem a maior similaridade
possível dos dados no mesmo cluster (DIAS, 2004, p. 17).
Ochi, Dias e Soares (2004, p.3) abordam que a distância entre dois dados
é considerada como um importante critério para identificar sua similaridade, onde as
diferenças dos valores que cada atributo são trabalhadas, ou seja, maior é a
similaridade entre o par dos dados quanto menor for a distância entre eles.
Algumas medidas de distâncias bastante utilizadas são (OCHI; DIAS;
SOARES, 2004, p.3):
a)
distância euclidiana: considera a distância d entre dois dados Xi e
Xj no espaço p-dimensional:
b)
distância city-block: corresponde a soma das diferenças entre
todos os p atributos de dois dados Xi e Xj, não sendo indicada para
os casos em que existe uma correlação entre tais atributos:
Dias (2004, p. 17) aponta que a tarefa de clusterização tem sido abordada
com regularidade na literatura como a solução para diversos problemas práticos, nas
41
mais diferentes áreas do conhecimento. A Bioinformática, por exemplo, é uma das
áreas em que esta aplicação ocorre, sobretudo no que se refere a descoberta de
padrões de expressão gênica em microarrays9, aplicando-se também esta tarefa na
área de engenharia de software para particionar a estrutura modular de sistemas de
informação.
Na tarefa de clusterização métodos heurísticos10 são propostos para
fornecer soluções consideradas praticamente ideais na resolução de problemas.
Porém, em função da diversidade heterogênea das aplicações de clusterização, os
métodos heurísticos são desenvolvidos para classes de problemas específicos.
Assim, não há uma heurística genérica que forneça bons resultados para diferentes
aplicações de clusterização (OCHI; DIAS; SOARES, 2004, p. 5)
Fasulo (1999, p.4) esclarece que as heurísticas para solução de
problemas de clusterização podem ser classificadas, de forma geral, em:
a)
método de particionamento: consiste na divisão do conjunto dos
dados em k subconjuntos. Neste método para clusterização
incluem-se os algoritmos K-means e K-Medoid;
método hierárquico: os clusters vão formando de maneira gradativa
aglomerações ou divisões de dados/clusters, originando assim uma hierarquia entre
os mesmos. Essa hierarquia é habitualmente representada por meio de uma
estrutura em árvore, como é possível verificar na Figura 3 (DIAS, 2004, p.20).
9
Microarray do inglês, microarranjo, arranjo de clones de DNA imobilizados sobre uma lâmina de vidro para
análises de expressão gênica. A principal vantagem dos microarrays é a automatização. (Definição retirada da
obra Glossário de Biotecnologia, edição 2005.). Link consultado <http://www.cib.org.br/glossario.php>.
10
Método Heurístico: Método analítico que conduz à descoberta e à comprovação de verdades científicas, à
invenção e à solução de problemas. O método de tentativa e erro é um exemplo de um método heurístico
(GENNARI, 1999,p.158).
42
Figura 3. Exemplo de árvore de clusters no método hierárquico
Fonte: DIAS, C. (2004, p.21)
A presente pesquisa aplicou, primeiramente, na base de avaliação do
ensino de graduação da UNESC a tarefa de clusterização e posteriormente a tarefa
de classificação, a fim de realizar uma análise comparativa entre os resultados
apresentados na utilização destas tarefas.
Aurélio, Vellasco e Lopes (1999, p. 15) declaram que tendo-se criado os
clusters é possível aplicar um algoritmo de classificação neles, gerando-se dessa
forma regras. Na seção a seguir são abordados os métodos de particionamento.
5.1 Métodos de Particionamento para Clusterização
Como citado anteriormente, o método de particionamento consiste na
divisão do conjunto de dados dos dados em k subconjuntos (FASULO, 1999, p.4).
Neste método incluem-se os seguintes algoritmos(GOLDSCHIMIDT;
PASSOS, 2005):
a) K-means: consiste em definir um parâmetro de entrada k e dividir um
conjunto de n objetos em k clusters de forma que a similaridade
intracluster seja alta, porém intercluster seja baixa;
43
b) K-Medoid: consiste em localizar o objeto que estiver mais no centro do
cluster;
c) K-Modes: esse algoritmo é uma variação do K-means, mas usado
apenas para dados nominais;
d) K-Prototypes: este método é uma união dos algoritmos K-means e Kmodes e pode ser aplicado em bases que tenham tanto dados
numéricos quanto nominais.
5.1.1 O Algoritmo K-means
Berkhin (2002, p.15) afirma que o algoritmo k-means é um dos mais
populares, sendo utilizados em aplicações de âmbito científico e industrial.
A execução deste algoritmo parte do princípio de seleção aleatória de k
objetos, sendo que, num primeiro momento, cada um representa a média de um
cluster. Quanto aos objetos restantes, para eles é realizada a atribuição a um
cluster a que esses objetos tenham maior similaridade, sendo que esse processo
ocorre até que os centróides não sejam mais alterados (GOLDSCHIMIDT; PASSOS,
2005, p. 102).
O critério de agrupamento do k-means pode ser descrito como sendo:
, onde:
a) Xok é o centróide de Ck ;
b) d(X1, X0k ) é a distancia entre os pontos X1 e X0k .
Analisando o k-means Gama (2002, p.14) esclarece que:
44
a) há influência da configuração inicial na solução obtida;
b) não há prova de que todos os elementos ou objetos se dirijam para o
ponto previsto;
c) não existe qualquer garantia de convergência para a melhor solução,
pois são desconhecidos seus limites;
d) no caso do critério de mínimos-quadrados11, existe a tendência de
divisão de grupos com maior número de elementos, mesmo em
situações em que os grupos estejam bem definidos.
Atualmente são encontradas muitas variações do algoritmo k-means, mas
em geral essas variações referem-se a seleção das k médias iniciais, no cálculo de
similaridades ou na estratégia para o cálculo da média dos clusters .
Nesta pesquisa além da tarefa de clusterização e do método k-means
aplicou-se a tarefa de classificação, apresentada no Capítulo a seguir.
11
É uma técnica de otimização matemática que busca encontrar um melhor ajuste para um conjunto de dados.
Link consultado Wikipédia < http://pt.wikipedia.org/wiki/M%C3%A9todo_dos_m%C3%ADnimos_quadrados >
45
6 A TAREFA DE CLASSIFICAÇÃO
Conforme abordado anteriormente, a classificação compreende a
categorização12, pré-determinada, de registros de uma base de dados. A partir
dessa categorização é possível que se faça a previsão de comportamentos futuros
dos registros que serão armazenados (GOLDSCHIMIDT; PASSOS, 2005, p. 13).
Segundo Aurélio, Vellasco e Lopes (1999, p.14) a tarefa de classificação
é a mais estudada em data mining. Nela, cada tupla13 está relacionada a uma classe
entre um conjunto pré-definido de classes.
Goldschimidt e Passos (2005, p.68) relatam que não há um algoritmo de
classificação que se sobreponha aos demais na resolução de problemas. Desse
modo, ao empregar-se a tarefa de classificação para uma nova aplicação de data
mining, torna-se necessário experimentar os algoritmos disponíveis a fim de definir
aquele que melhor se adequa.
Alguns dos métodos utilizados são:
a) regras de classificação: identificam a partir de seus atributos aquele
ao qual pertence um elemento, considerando-se um conjunto prédefinido de classes (VICTOR; s/d; p.26);
b) árvores de decisão: são estruturas em formato de árvore, cujas
ramificações representam as decisões. A partir destas decisões são
geradas regras que classificam o conjunto de dados (QUITÉRIO et al,
2001, p. 7);
12
Categorização: Classificação por categorias (Dicionário Enciclopédico Ilustrado, 2006, p.576)
Tuplas: Formalmente falando, uma tupla é uma lista ordenada de valores, onde cada valor é do domínio
especificado pelo atributo definido no esquema de relação. Link consultado
<http://pt.wikipedia.org/wiki/Banco_de_dados_relacional#Registros_.28ou_tupla.29 >
13
46
c) redes bayesianas: são representações elaboradas a partir de
formalizações matemáticas, compondo esquemas simbólicos do
conhecimento (BARRETO, 2004b);
d) algoritmos genéticos: baseados no conceito de evolução, os
algoritmos genéticos usam processos de combinações genéticas,
mutações e seleção natural (QUITÉRIO et al, 2001, p. 7);
e) redes neurais: fundamentada em arquétipos matemáticos, possuem
estrutura semelhante a das redes neurais biológicas apresentando
atividades de aprendizado e generalização (BRAGA; CARVALHO;
LUDERMIR, 2003, p. 142).
6.1 Classificação por meio de Regras
Segundo Victor (s/d; p. 26) regras de classificação consistem na
identificação de qual classe pertence um elemento a partir de seus atributos. Além
disso, ele também permite encontrar a função para a realização dessa classificação.
Neste método incluem-se os seguintes algoritmos:
a) ZeroR: prediz qual o valor é mais freqüente nos dados de treinamento
(NEVES; 2004, p. 19);
b) OneR: discretiza atributos numéricos e utiliza a regra baseada num
único atributo (TAVARES, 2003);
c) Prism: contém um conjunto de regras apenas para atributos nominais
e sem valores faltantes (TAVARES, 2003).
Dentre esses algoritmos de classificação por meio de regras, esta
pesquisa consistiu no estudo e aplicação do ZeroR.
47
6.1.1 Algoritmo ZeroR
Segundo Witten e Frank (1999, p.283) o ZeroR é um algoritmo de
aprendizagem do WEKA, considerado primitivo, pois modela uma base de dados
com uma única regra, usando a previsão de média ou de moda14. Ele também
possibilita realizar uma comparação exata do seu ponto de partida, permitindo
mensurar a melhora relativa, caso haja.
Esse algoritmo tem como característica realizar uma predição do valor
nominal que teve mais ocorrência na base de dados, originando uma matriz de
confusão a fim de demonstrar o percentual de acerto para um determinado atributo
nominal (NEVES, 2004).
Tanto o algoritmo k-means quanto o ZeroR foram aplicados na base de
Avaliação do Ensino de Graduação, para delinear por área o perfil do desempenho
docente. Nesse sentido, no Capítulo 7, aborda-se o tema Avaliação Institucional,
bem como um breve histórico da mesma na Universidade do Extremo Sul
Catarinense (UNESC).
14
Cálculo estatístico que apresenta o valor que aparece com mais freqüência.
48
7 AVALIAÇÃO INSTITUCIONAL
A Avaliação Institucional tem estado, atualmente, em grande evidência no
Brasil. Isso se deve em função do Sistema Nacional de Avaliação da Educação
Superior (SINAES).
Antes de aprofundar o tema é importante fazer uma distinção com relação
a: (1) Avaliação Educacional e (2) Avaliação Institucional. Ambas são avaliações da
área da educação, mas a primeira preocupa-se em verificar o conhecimento auferido
pelo sujeito, seja em uma situação de aprendizado, seja no exercício profissional. Já
a segunda preocupa-se em avaliar a instituição como um todo, pois ela permite
realizar um diagnóstico da IES em seu caráter global, suas políticas e
especificidades, na busca da qualidade (LEITE, 2005, p. 33)
A avaliação institucional em educação tem compromisso social, pois busca
contribuir para o processo de desenvolvimento científico e social,
implicando o fortalecimento da cidadania. Esse compromisso se concretiza
na melhoria da qualidade de ensino (UNESC, 2003, p.19).
A Avaliação Institucional das IES no Brasil teve início em 1993, onde a
Secretaria de Educação Superior (SESU) do Ministério da Educação e do Desporto
(MEC), cujo papel nesse processo foi o de coordenação, articulação e agente
financiador, criou a Comissão Nacional de Avaliação das Universidades Brasileiras.
Essa comissão, com o objetivo de estabelecer diretrizes para o Programa de
Avaliação Institucional das Universidades Brasileiras (PAIUB), reuniu para o debate
varias entidades representativas das IES, entre elas: Associação Nacional dos
Dirigentes das Instituições Federais de Ensino Superior (ANDIFES); Associação
Brasileira das Universidades Estaduais e Municipais (ABRUEM); Associação das
Universidades Particulares (ANUP); Associação Brasileira das Escolas Católicas
49
(ABESC); Fóruns Nacionais de Pró-Reitores de Graduação, Pesquisa, Extensão,
Pós-Graduação, Planejamento e Administração (UNESC, 2003, p.21).
O edital que convidava as instituições de ensino superior brasileiras para
aderirem ao PAIUB, enviando seus projetos, foi publicado no final de 1993. Seu
objetivo era o aperfeiçoamento da qualidade do ensino, da pesquisa, da extensão e
da gestão acadêmica. Sua adesão, pelas universidades, era voluntária.
Segundo Leite (2005, p. 51), cada universidade que aderiu ao PAIUB e
teve seu projeto aprovado pelo SESU/MEC era responsável por controlar seu
processo avaliativo.
Ainda citando Leite (2005, p. 52), a autora aponta que, a partir da
aprovação dos projetos, 116 instituições, de caráter público e comunitário, 16
centros e escolas e 4 Centros Federais de Educação Tecnológica, receberam
recursos destinados a implantação e ações previstas no projeto. Depois a IES, por
meio de relatórios, realizava a prestação de contas ao MEC, onde informava como
foram aplicados os valores recebidos, bem como as ações executadas.
Após 1996, os recursos para a manutenção do PAIUB foram cortados,
sendo que o MEC gradualmente substituiu a concepção de avaliação proposta no
programa pela concepção anteriormente adotada, implantando o Exame Nacional de
Cursos (ENC) – popular PROVÃO, a Avaliação das Condições de Ensino (ACE) e o
Ranking Nacional das IES, sendo obrigatória a participação das instituições
(UNESC, 2003, p.22) (LEITE, 2005, p. 53).
Apesar dessa nova concepção entrar em vigor, muitas universidades,
inclusive a UNESC, deram continuidade ao processo de Avaliação Institucional,
mantendo os princípios do PAIUB, realizando avaliações internas e externas.
Em 2003 surge a proposta para uma nova forma de avaliação e regulação
50
da educação superior, que foi apresentada pela Comissão Especial de Avaliação
(CEA) e entregue ao então Ministro da Educação, Cristovam Buarque. Esse
documento elaborado pela CEA, após consultas junto a comunidade acadêmica15 e
a sociedade civil organizada, teve seu texto submetido a audiências públicas. À
partir desta ampla discussão surgiu o documento base do Sistema Nacional de
Avaliação da Educação Superior (SINAES), que será abordado no próximo item.
7.1 Avaliação Institucional segundo o SINAES
O SINAES foi instituído por meio da Lei Federal nº 10.861, de 14 de abril
de 2004 e pela Portaria 2.05116, de 9 de julho de 2004, que regulamenta a Lei.
O SINAES tem por finalidades a melhoria da qualidade da educação
superior, a orientação da expansão da sua oferta, o aumento permanente
da sua eficácia institucional e efetividade acadêmica e social e,
especialmente, a promoção do aprofundamento dos compromissos e
responsabilidades sociais das instituições de educação superior, por meio
da valorização de sua missão pública, da promoção dos valores
democráticos, do respeito à diferença e à diversidade, da afirmação da
autonomia e da identidade institucional (Art. 1, § 1º, da Lei 10.861/2004).
Visando a sua finalidade definida em legislação, o SINAES tem seus
princípios17 fundamentados nos seguintes pontos:
a) responsabilidade social com a qualidade da educação superior;
b) reconhecimento da diversidade do sistema;
c) respeito à identidade, missão e história das instituições;
d) globalidade, ou seja, a instituição deve ser avaliada baseando-se em
um conjunto de indicadores de qualidade e não de forma isolada;
e) continuidade do processo avaliativo.
15
Entende-se por comunidade acadêmica o conjunto formado pelo corpo docente, discente e técnicoadministrativo.
16
A Lei 10.861/04 e a Portaria 2.051/04 estão disponíveis no sitio do MEC <http://www.mec.gov.br>
17
“Roteiro de Auto-Avaliação Institucional”, p. 7 - <http://portal.mec.gov.br/arquivos/pdf/roteiro.pdf>
51
Baseado
nesses
princípios,
o
SINAES
é
composto
por
três
formas/processos de avaliação, que são aplicadas em diferentes momentos e o
resultado final desse conjunto é que permite avaliar a IES como um todo.
A composição dos três processos, a saber, são: Avaliação das Instituições
de Educação Superior (AVALIES); Avaliação dos Cursos de Graduação (ACG); e
Avaliação Nacional de Desempenho do Estudante (ENADE)18.
a) Avaliação das Instituições de Educação Superior (AVALIES): é
dividida em:
-
Auto-avaliação: coordenada pela Comissão Própria de
Avaliação Institucional (CPA);
-
Avaliação externa: por especialistas do MEC/CEE –
segundo diretrizes estabelecidas pela Comissão Nacional
de Avaliação de Ensino Superior (CONAES).
b) Avaliação dos Cursos de Graduação (ACG): avalia os cursos de
graduação, que incluem visitas in loco de comissões externas. Sua
periodicidade está relacionada ao processo de reconhecimento e
renovação deste a que os cursos estão sujeitos;
Avaliação Nacional de Desempenho do Estudante (ENADE): esse
exame é aplicado aos estudantes do final do primeiro e último ano do curso. Ele é
anual e o MEC, com base na orientação da CONAES, determina as áreas que
participarão do exame.
18
“Diretrizes para a Avaliação das Instituições de Educação Superior”, p13, disponível
<http://portal.mec.gov.br/arquivos/pdf/diretrizes.pdf>
52
7.2 Avaliação Institucional na Unesc
Desde 1995 a UNESC conta com uma Comissão de Avaliação
Institucional (COMAVI), cujo papel é o de:
a) coordenar o processo interno de execução da avaliação institucional
da Universidade, que é construído coletivamente;
b) realizar coleta de dados, tabulação, análise e devolução dos
resultados, por meio de relatórios específicos, com o objetivo de
aprimorar a qualidade dos serviços prestados por esta Universidade;
c) encaminhar à CPA da UNESC os relatórios elaborados a partir das
avaliações
aplicadas
junto
a
comunidade
interna
(discentes,
docentes, gestores e funcionários) da Instituição e comunidade
externa (sociedade civil organizada).
Uma das avaliações desenvolvidas pela COMAVI é a do Ensino de
Graduação, envolvendo a participação de todos os professores em atividade de
docência e acadêmicos de todas as fases da UNESC.
Consta como finalidades desse processo (UNESC, 2003, p. 34):
a) realizar diagnóstico educacional considerando as qualidades e
deficiências dos cursos da UNESC;
b) oferecer aos professores elementos que contribuam para a crítica e
autocrítica do seu fazer pedagógico;
c) fornecer elementos ao corpo discente, que contribua para a promoção
de atitude responsável no processo de aprendizagem;
53
d) contribuir para o desenvolvimento da reflexão permanente sobre o ato
educativo, buscando a qualidade de ensino.
No instrumento de pesquisa aplicado ao acadêmico, o mesmo se autoavalia como discente do curso, avalia a coordenação geral e, depois, avalia cada
disciplina a que está matriculado no semestre em que é aplicada a avaliação, bem
como seus professores.
Com relação aos professores, eles passam pelas mesmas duas primeiras
etapas descritas no parágrafo anterior, além de avaliarem as turmas em que estão
ministrando aula no período da pesquisa.
A ação seguinte após a conclusão da aplicação da avaliação é
encaminhamento aos professores do relatório contendo os resultados da avaliação
pelos alunos, por meio de envelope nominal e lacrado, para que os docentes
possam utilizar para fins de planejamento pedagógico.
Em seguida são elaborados os relatórios das avaliações geral da UNESC
e por cursos, que são enviados as entidades representativas da Instituição.
Entendendo que esta avaliação é fundamental para a Instituição e que a
aplicação do processo de data mining pode contribuir com o diagnóstico por área do
perfil do desempenho docente, o Capítulo 8 aborda o processo realizado para a
descoberta de conhecimento na base de dados da avaliação institucional do ensino
de graduação da UNESC, bem como os resultados obtidos.
54
8 APLICANDO DATA MINING NA AVALIAÇÃO DO ENSINO DE GRADUAÇÃO
No início desta pesquisa, quando a mesma ainda estava na fase do
projeto, pensou-se, num primeiro momento, em conhecer o perfil docente e discente
no contexto da avaliação do ensino de graduação. Portanto, seria necessário aplicar
uma tarefa e método de data mining na base de dados de avaliações realizadas em
2002, 2003 e 2005. Porém, com o decorrer do processo, percebeu-se a
impossibilidade de se realizar esta análise histórica, pois a escala que consta no
instrumento de pesquisa aplicado em 2003 e 2005 era diferente, não permitindo a
comparação dos resultados.
Outro aspecto que também não foi possível levar adiante refere-se ao
perfil docente e discente. Como houve atraso na disponibilização da base de dados,
devido ao grande volume de atividades que a Instituição está envolvida, foi preciso
optar por um dos perfis, devido ao curto espaço de tempo. Dessa forma, como o
perfil, por área, do desempenho docente permite realizar um estudo mais amplo, foi
ele o escolhido.
As questões que constaram do instrumento de pesquisa da avaliação
institucional do ensino de graduação, aplicada em 2005, realizada pelo discente
avaliando o docente, e que fizeram parte da análise, foram:
a) cumpre os horários previstos para as aulas / atividades (não chega
tarde e não sai cedo das aulas);
b) aproveita o tempo em sala de aula;
c) apresenta o conteúdo numa linguagem compreensível;
d) demonstra conhecer bem a disciplina que leciona;
55
e) demonstra estar atualizado(a) em relação ao conteúdo que ministra;
f) respeita os acadêmicos como pessoa e os trata com cordialidade e
educação;
g) controla a ordem disciplinar em sala de aula;
h) informa aos acadêmicos como será desenvolvida a disciplina;
i) estabelece relação entre teoria e prática, ou entre prática e teoria;
j) é receptivo(a) a críticas, sugestões e questionamentos, ou seja,
permite debate de diferentes opiniões;
k) responde as perguntas dos acadêmicos e esclarece as dúvidas em
sala de aula;
l) estimula a discussão de idéias e conteúdos;
m) estimula os acadêmicos a serem independentes na busca do
conhecimento;
n) define com clareza e objetividade os critérios de avaliação desta
disciplina;
o) os conteúdos das avaliações estão de acordo com os apresentados
nas aulas;
p) devolve os resultados das avaliações antes da próxima avaliação;
q) apresenta e discute os resultados das avaliações escritas, trabalhos,
etc.
A legenda utilizada para que pudessem responder a avaliação foi: (0) Não
sei avaliar; (1) Sempre/sim; (2) Muito/com freqüência; (3) Regular/frequentemente;
(4) Pouco/às vezes; (5) Nunca/não; (6) Não se aplica/não é meu professor.
Partindo
das
premissas
anteriores,
nas
próximas
seções
são
apresentadas a metodologia utilizada durante a execução desta pesquisa, bem
56
como os seus resultados.
8.1 Metodologia
Conforme os objetivos geral e específicos propostos no início deste
trabalho, num primeiro momento se estudou e buscou compreender como se dá o
processo de descoberta do conhecimento e data mining por meio de literatura
especializada e trabalhos acadêmicos já realizados.
No segundo momento, entrou-se em contato com a Diretoria de
Informática da IES, onde fica armazenada a base de dados da avaliação do ensino
de graduação da UNESC. A ela foi solicitada uma cópia da base que compõe a
avaliação do desempenho docente realizada pelos acadêmicos, onde os mesmos
avaliam os professores e as disciplinas que estão matriculados no semestre em que
ocorre a avaliação. Neste caso, foi realizado o processo de seleção dos dados,
conforme previsto nas etapas do KDD, pois para estudar o perfil do desempenho
docente entendeu-se que os seguintes dados da pesquisa eram desnecessários:
acadêmicos e professores avaliando a gestão do curso, auto-avaliação discente e
docente e os professores avaliando, de forma geral, as turmas em que ministram
aula.
A seguir realizou-se o pré-processamento e transformação, onde foi
executada a exclusão de dados considerados nulos (respostas em branco). Também
foi organizado o arquivo como um todo, para que fosse possível iniciar o processo
de data mining. Além disso, a base precisou ser readequada para conter a
informação referente as 4 grandes áreas em que estão organizados os cursos de
graduação da UNESC: Engenharia e Tecnologia; Saúde e Biológicas; Licenciatura; e
57
Sociais Aplicadas.
Dando continuidade, foi utilizada a ferramenta WEKA para realizar a etapa
de data mining, aplicando-se, na base da avaliação do professor pelos acadêmicos,
a tarefa de clusterização e o método k-means.
Ao dar início a aplicação da tarefa de clusterização, foi alterado, conforme
é possível observar na Figura 4, o valor de -N (número de clusters) para 4
(correspondente ao número de áreas de conhecimento da UNESC) e o de -S
(número de centróides iniciais) permaneceu o valor 10, default da ferramenta.
Figura 4. Tela do WEKA Explorer executando o método k-means
Após, foi aplicada a tarefa de classificação e o método ZeroR.
No
princípio desta pesquisa, pensou-se em aplicar a tarefa de classificação o método
ID3, mas devido a expressiva quantidade de registros que a base continha (36.672
instâncias), não foi possível realizar essa ação. Isto aconteceu em função da WEKA
58
utilizar tecnologia Java e possuir memória inicial do Java Virtual Machine19 (JVM)
alocada para 32M.
Mesmo conseguindo expandir a memória inicial de 32M para 128M por
meio da linha de código java –Xms32M –Xmx128M –jar weka.jar não foi possível
resolver o problema de Out of Memory. Nesse sentido, optou-se pelo algoritmo
ZeroR como alternativa para implementar o estudo.
Encerrando a parte relacionada ao processo de data mining da base da
avaliação docente pelo discente, foi realizada a análise dos resultados obtidos com a
aplicação destas tarefas, que encontra-se descrita a seguir.
8.2 Resultados obtidos
Na execução da etapa de data mining por meio das tarefas de
clusterização e classificação utilizaram-se os dados da avaliação discente do
desempenho docente, que contém 36.672 instâncias e 21 atributos.
A partir da análise visual dos resultados fornecidos pelos algoritmos kmeans e ZeroR, gerada pela ferramenta WEKA, foi possível visualizar e entender os
dados envolvendo cada questão da avaliação institucional, bem como realizar uma
análise por área, possibilitando assim delinear um perfil do desempenho docente,
apresentados nas seções a seguir.
19
Segundo a definição da Sun, JVM ou, em português, Máquina Virtual Java, pode ser entendido como "uma
máquina imaginária implementada via software ou hardware que executa instruções vindas de bytecodes" e
permite executar seu código em qualquer plataforma. Disponível em < http://java.sun.com/ >
59
8.2.1 Clusterização
Observando de forma geral os resultados obtidos pelo algoritmo k-means,
foi possível detectar, conforme a Figura 5, que a ferramenta, após ser criar os 4
clusters, apresentou como decorrência do processo de data mining as seguintes
respostas para cada cluster:
a) cluster 0: com 24% de instâncias;
b) cluster 1: com 38% de instâncias;
c) cluster 2: com 28% de instâncias;
d) cluster 3: com 11% de instâncias.
Considerando que as áreas de conhecimento da UNESC não contêm o
mesmo número de cursos agrupados (Anexo A), essa variação de instâncias por
cluster é justificada.
Outro aspecto que pode ser analisado na Figura 5, diz respeito a análise
da questão referente ao cumprimento dos horários previstos para as aulas /
atividades (questão a).
Nesta questão houve o maior resultado no indicador “Sim/Sempre”, com
63,83% dos discentes reconhecendo que seus professores cumprem o horário
acadêmico e 14,57% apontando que os educadores cumprem “Muito/ Com
freqüência”. Ao somar esses dois indicadores considerados positivos pela avaliação
tem-se um total de 78,40%. Os resultados das demais questões podem ser vistos no
Apêndice A.
60
Figura 5. Resultado da aplicação da tarefa de clusterização para a questão a
Dando continuidade, também é possível realizar a análise da tarefa de
clusterização observando as 17 questões que foram mineradas, onde pode-se
considerar que:
a)
área de Licenciatura: a ferramenta determinou que a 3ª fase do
curso de Educação Física, período noturno, era o centróide do cluster
0. Nele foi possível observar, juntamente com os dados do Apêndice
C, que houve o maior número de respostas no indicador “Regular/
Frequentemente”, seguida pela resposta “Muito/ Com freqüência”,
perfazendo um total de 76,47% e 23,53% respectivamente.
61
b)
área de Saúde e Biológicas: a ferramenta determinou que a 1ª fase
do curso de Medicina, período integral, era o centróide do cluster 1.
Neste caso também foi possível notar que o número de respostas foi
de 100% no indicador “Sempre/ Sim”.
c)
área de Sociais Aplicadas: a ferramenta determinou que a 4ª fase
do curso de Direito, período noturno, era o centróide do cluster 2.
Examinando os dados, percebeu-se que o indicador “Muito/ Com
freqüência” foi o que teve maior número de resultados, constituindo
um total de 76,47%.
d)
área de Engenharia e Tecnologia: a ferramenta determinou que a
2ª fase do curso de Engenharia Civil, período noturno, era o centróide
do cluster 3. Nele foi possível observar que o maior número de
respostas ocorreu no indicador “Pouco/ Às vezes”, seguido pela
resposta “Regular/ Frequentemente”, perfazendo um total de 58,82%
e 23,53% respectivamente.
8.2.2 Classificação
O método de classificação ZeroR é um algoritmo simples, cuja
característica principal é esboçar uma única regra a partir do item que se apresenta
o maior número de vezes na base de dados. Pode-se dizer que seu desempenho foi
regular, porém ele não é o mais indicado para realizar uma predição com acurácia e
detalhamento.
Uma vez que esse algoritmo foi aplicado após a clusterização da base de
62
dados, ele apresentou resultados, com algumas variações percentuais, de que o
indicador “Sempre/Sim” é o que teve maior número de incidências, conforme
exemplo da Figura 6.
Figura 6. Resultado da aplicação da tarefa de classificação para a questão a
Como é possível examinar na Figura 6, observando a matriz de confusão,
pode-se perceber que a predição do valor nominal, cujo indicador teve mais
ocorrência foi no “Sempre/Sim”, onde obteve-se um percentual de acerto de 63,83%.
Este percentual de acerto poderia ter sido maior, porém ocorreu a classificação
incorreta de 13264 instâncias (aproximadamente 36,17%). No Apêndice B está
63
descrito a análise, por questão, dos resultados fornecidos pelo ZeroR.
A partir dos dados descritos nos resultados obtidos pela aplicação da
tarefa de clusterização, por meio do algoritmo k-means, e da tarefa de classificação,
usando o algoritmo ZeroR, pode-se inferir que, num contexto geral, as áreas
possuem um perfil de desempenho docente favorável. Porém, tem-se a exceção da
área de Engenharia e Tecnologia, cujos indicadores que apontam fragilidade foram
os que mais apareceram durante o processo de data mining.
64
9 CONCLUSÃO
O uso de ferramentas de data mining para propiciar a descoberta de
conhecimento auxilia no processo de exploração dos dados contidos em uma base,
permitindo a geração de informações importantes para as tomadas de decisões.
Essa crescente utilização se deve ao fato de que o processo de data
mining pode ser aplicado, desde que observado os cuidados inerentes a sua
utilização, em várias áreas e instituições como: públicas, privadas, de ensino, da
saúde, entre outras.
Nesta pesquisa foi demonstrada a relevância do processo de data mining
na descoberta de conhecimento no que se refere a avaliação do ensino de
graduação da UNESC em 2005. Assim, teve-se o objetivo de analisar por área o
perfil do desempenho docente por meio da aplicação das tarefas de clusterização
pelo algoritmo k-means e classificação pelo algoritmo ZeroR.
Durante o processo percebeu-se a dificuldade de aplicar o processo de
data mining em uma base com grande quantidade de dados, principalmente quando
se tentou utilizar o algoritmo ID3. Como não foi possível dar prosseguimento a
pesquisa utilizando este método, buscou-se uma outra alternativa, conforme descrito
na seção 8.1, que permitiu dar continuidade ao trabalho.
Os resultados obtidos, tanto com a clusterização da base de dados,
quanto a sua posterior classificação, permitiram gerar um juízo sobre o desempenho
docente, por área de conhecimento, no contexto da avaliação institucional da
UNESC. Os dados apontaram que para a área de exatas precisa-se pensar ações
que minimizem os aspectos frágeis, mas isso não quer dizer que as áreas que
65
apresentaram um desempenho favorável devem ser descuidadas. Dessa forma,
sugere-se que as ações podem ser implementadas de forma global, conforme a área
de conhecimento, permitindo assim minimizar as fragilidades.
Entende-se que a pesquisa foi concluída de forma satisfatória, sendo que
seus objetivos geral e específicos foram atingidos de forma plena.
A fim de dar continuidade a esta pesquisa, alguns trabalhos podem ser
realizados, como por exemplo, a aplicação de outros algoritmos para análise dos
resultados, gerando-se, futuramente, um estudo comparativo.
Tem-se a intenção também, de aplicar a mesma metodologia do trabalho,
inclusive os mesmos algoritmos, para delinear o perfil discente desta avaliação
institucional do ensino de graduação aplicada em 2005. Ao final, será possível
correlacionar os dados do perfil discente com o do docente. Outra proposta seria
aplicar o processo de data mining nas avaliações realizadas pela COMAVI, tais
como: dos formandos e do egresso da graduação, entre outros.
66
REFERÊNCIAS
BARRETO, Alexandre Serra. Considerações prévias à utilização empírica do
Data-Mining.
In. SQL Magazine (versão digital). 2004a Disponível no link:
http://www.sqlmagazine.com.br/Colunistas/AlexandreBarreto/02_DataMining.asp.
Acessando em: 25 out 2005
__________. Extração de Conhecimento em Bases de Dados por Redes
Bayesianas. In. SQL Magazine (versão digital). 2004b. Disponível no link:
http://www.sqlmagazine.com.br/Colunistas/AlexandreBarreto/04_RedesBayesianas.a
sp . Acessando em: 25 out 2005
BELLONI. Isaura, A função social da avaliação institucional, In: SOBRINHO, José
Dias, RISTOFF, Dilvo, Universidade Desconstruída, 2000.
BERKHIN, P. Survey of Clustering Data mining Techniques. Accrue Software,
2002. Disponível no link: http://www.it.bond.edu.au/inft623/053/Downloads/
cluster_review.pdf. Acessado em 7 jun 2006.
BRAGA, Antônio de P; CARVALHO, André C.P.L.F; LUDERMIR, Teresa B. Redes
Neurais Artificiais. In: Sistemas Inteligentes: Fundamentação e Aplicações. Barueri,
SP: Manole, 2003. 525 p.
CARVALHO, Luís A. V. de. Data mining: a mineração de dados no marketing,
medicina, economia, engenharia e administração. São Paulo: Érica, 2001.
CARVALHO, Flávia P. de; FAGUNDES JUNIOR, Aguinaldo; SILVEIRA, Jorge G.;
AZAMBUJA, Marcelo C. de. KDD-NMS: Um Sistema de Descoberta de
Conhecimento e Mineração em Bases de Dados de Sistemas de Gerência de
Redes.
2003.
Disponivel
no
link:
http://www.rnp.br/_arquivo/wrnp2/2003/oscfa01a.pdf. Acessado em 26 mar 2006.
DIAS, Carlos Rodrigo. Algoritmos Evolutivos para o Problema de Clusterização
de Grafos Orientados: Desenvolvimento e Análise Experimental. Rio de Janeiro,
2004. Dissertação (Mestrado em Computação Aplicada e Automação) - Universidade
Federal Fluminense - Programa de Pós-Graduação em Computação Aplicada e
Automação. Área de concentração: Otimização e Inteligência Artificial. 2004.
DIAS, Madalena Maria. Um modelo de formalização do processo de
desenvolvimento de sistemas de descoberta de conhecimento em banco de
dados. – Florianópolis, 2001. Tese (Doutorado em Engenharia de Produção) Universidade Federal de Santa Catarina – Programa de Pós-graduação em
Engenharia de Produção, 2001. 212 p.
__________. Parâmetros na escolha de técnicas e ferramentas de mineração de
67
Dados. Acta Scientiarum, v. 24, n. 6, p. 1715-1725, 2002. Maringá.
Disponível no link: <http://www.ppg.uem.br/Docs/ctf/Tecnologia/2002/18_279_02_
Maria%20Dias_Parametros%20na%20escolha.pdf>. Acessado em 20 mar 2006.
DICIONÁRIO ENCICLOPÉDICO ILUSTRADO: VEJA LAROUSSE. V. 5. São Paulo:
Editora Abril, 2006.
ESTIVALET, Verônica Louroza. Um Estudo sobre Detecção de Desvios Aplicada
à
Área
da
Saúde.
2000.
Artigo
disponível
no
link
http://www.inf.ufrgs.br/pos/SemanaAcademica/Semana2000/VeronicaEstivalet.
Acessado em 20 jun 2006.
FASULO, D. An Analysis of Recent Work on Clustering Algorithms. Technical
Report, Dept. of Computer Science and Engineering, Univ. of Washington, 1999.
Disponível no link: http://citeseer.ist.psu.edu/cache/papers/cs/9073/http:zSzzSzwww.
cs.washington.eduzSzhomeszSzdfasulozSzclustering.pdf/fasulo99analysi.pdf.
Acessado em 7 jun 2006.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data
mining to Knowledge Discovery in Databases. 1996. in: The American Association for
Artificial
Intelligence.
AI
Magazine.
Disponível
no
link:
http://kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf. Acessado em:
02 jan 2006.
GAMA, J. Métodos de Agrupamento (Clustering). 2002 . Laboratório de Inteligência
Artificial e Ciência de Computadores. Universidade do Porto – Portugal. Disponivel
no link http://www.liacc.up.pt/p-index.html. Acessado em 10 jun 2006.
GIMENES, E. Data mining – Data Warehouse: A Importância da Mineração de
Dados em Tomada de Decisões. 2000. Monografia (Tecnólogo em Processamento
de Dados) − Faculdade de Tecnologia de Taquaritinga, Centro Estadual de
Educação
“Paula
Souza”,
Taquaritinga.
Disponível
em:
http://geocities.yahoo.com.br/dugimenes/. Acessado em: 22 mar 2006.
GARCIA; Ana C. B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de
Conhecimento. In: Sistemas Inteligentes: Fundamentação e Aplicações. Barueri,
SP: Manole, 2003. 525 p
GONÇALVES, Lóren P. F. Mineração de Dados em Supermercados: o caso do
supermercado “Tal”. – Porto Alegre, 1999. Dissertação (Mestrado em
Administração) - Universidade Federal do Rio Grande do Sul - Programa de Pósgraduação em Administração – Convênio UFRS/URCAMP , 1999. 36p.
HAN, Jiawei; KAMBER, Micheline. Data mining: Concepts and Techiniques. San
Diego: Academic Press, 2001.
HERDT, Rudiney M. Utilização de Técnicas de Mineração de Dados na Análise
das Informações de Uma Universidade. – Florianópolis, 2001. Dissertação
(Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina Programa de Pós-graduação em Engenharia de Produção, 2001. 93p.
68
KIMBAL, Ralph; MERZ, Richard. Data Warehouse: Construíndo o data
warehouse para WEB. Tradução Edson Furmankiewicz, Joana Figueiredo. Rio de
Janeiro:Campus, 2000. 367p.
LEITE, Denise. Reformas Universitárias: Avaliação Institucional Participativa.
Coleção Universitárias. Petrópolis, RJ: Vozes, 2005. 141 p.
LUFT, Celso Pedro. Pequeno Dicionário da Língua Portuguesa. 5ª Edição. São
Paulo: Editora Scipione, 1987. 583p.
MEC. Sistema Nacional de Avaliação (SINAES): Resumo da Proposta.
Documento na Integra. Brasília:MEC/SESu, 2003. Disponível no Link:
http://www.mec.gov.br/acs/asp/noticias/noticiasId.asp?Id=4. Acessado em 8 set
2003.
__________. Sistema Nacional de Avaliação da Educação Superior (SINAES):
Da concepção à regulamentação. 2ª ed., ampl. Brasília: INEP, 2004. 155p.
MACEDO, Sandré Granzotto. Desempenho Docente pela Avaliação Discente:
uma proposta metodológica para subsidiar a gestão universitária. –
Florianópolis, 2001. Tese (Doutorado em Engenharia de Produção) - Universidade
Federal de Santa Catarina - Programa de Pós-graduação em Engenharia de
Produção, 2001.
MATTAR NETO, João. Metodologia Cientifica na Era da Informática. 2ª edição
(revista e atualizada). São Paulo: Saraiva, 2005.
MORATE. Diego G. Manual de WEKA.Versão em Espanhol. Disponível no link:
http://metaemotion.com/diego.garcia.morate/download/weka.pdf. Acessado em 20
ago 2006.
NAVEGA, Sergio. Princípios Essenciais do Data mining. In: Anais do Infoimagem
2002, Cenadem, Novembro. Intelliwise Research and Training. Agosto de 2002. Link
disponível http://www.intelliwise.com/reports/i2002.pdf. Acessado em 20 out 2005.
NEVES, Cledjalma F. Descobertas de padrões usando Técnicas de Extração de
Conhecimento. Centro Universitário Luterano de Palmas – Tocantins. 2004.
Disponível no link: http://www.ulbra-to.br/ensino/43020/artigos/relatorios20042/Arquivos/Cledjalma_Estagio.pdf#search=%22zeroR%20WEKA%22. Acessado em
20 ago 2006.
OCHI, Luiz S.; DIAS, Carlos R.; SOARES, Stênio S. F. Clusterização em
Mineração de Dados. 2004. in: ERI RJ/ES - Escola Regional de Informática Rio de
Janeiro - Espírito Santo - IV : 2004 nov. : Vitória - ES, Rio das Ostras.
OLIVEIRA, C. J. S.. Classificação de imagens coletadas na web. 2001. 75f.
Dissertação (Mestrado em Ciência da Computação) – Curso de Pós-Graduação em
Ciência da Computação, Universidade Federal de Minas Gerais, Belo Horizonte.
Disponível
em:<
69
http://www.npdi.dcc.ufmg.br/orientacoes/orientacoes%20concluidas.htm>
em: 02 jun. 2006
Acesso
OLIVEIRA, Ivana C. Aplicação de Data mining na Busca de um Modelo de
Prevenção da Mortalidade Infantil. 2001. Dissertação (Mestrado em Engenharia de
Produção) - Universidade Federal de Santa Catarina - Programa de Pós-Graduação
em Engenharia de Produção, 2001.
OLIVEIRA, Robson B. T. O Processo de Extração de Conhecimento de Base de
Dados Apoiado por Agentes de Software. 2000. Dissertação (Mestrado em
Ciência da Computação e Matemática Computacional) − Instituto de Ciência da
Computação e Matemática Computacional, Universidade de São Paulo, São Carlos.
2000.
PALHARINI, Francisco de Assis. PAIUB 2000: Avaliar para Melhorar. Brasília:
MEC, 1999.
QUONIAM, Luc; TARAPANOFF, Kira; ARAUJO JÚNIOR, Rogério Henrique de;
ALVARES, Lilian. Inteligência obteve com a aplicação de exploração de minas
dos dados de analisar o Docthéses Francês em assuntos acerca de Brasil. Ci.
Inf., mayo/Atrás. 2001, vol.30, no.2, p.20-28.
QUITÉRIO, J.; MARTINS, N.; FERREIRA, P.; VIEIRA, P. Análise Comparativa de
Ferramentas
de
Data
mining
e
OLAP.
Disponível
em:
http://berlin.inesc.pt/cadeiras/atsi/trabalhos/g14.doc . Acessado em: 25 mar 2006.
REZENDE, Solange Oliveira (Coord.). Sistemas Inteligentes: Fundamentação e
Aplicações. Barueri, SP: Manole, 2003. 525 p.
ROSAS, Vanderlei de Barros. Afinal, o que é Conhecimento? Artigo publica na
internet.
Copyright
2003.
Disponível
no
link:
http://www.mundodosfilosofos.com.br/vanderlei22.htm. Acessado em 15 mar 2006.
TAVARES. Rui. Departamento de Informática. Universidade de Évora – Portugal.
Material de aula do Mestrado e Licenciatura da Engenharia de Informática
2003/2004. Disponível no link: http://www.di.uevora.pt/~rt/apr/p2.html. Acessado em
20 ago 2006.
SEIFERT, Jeffrey W. Data mining: An Overview . CRS Report for Congress. 2004.
Disponível no link: http://www.fas.org/irp/crs/RL31798.pdf. Acessando em 05 abr
2006.
SELINGER, Tarcísio C.Data mining em Saúde Bucal por meio da Técnica de
Clusterização e do Algoritmo K-means. Criciúma. 2004. Trabalho de Conclusão
de Curso (Bacharel em Ciência da Computação) - Universidade do Extremo Sul
Catarinense, 2004.
SILVA. Marcelino P. dos S. Mineração de Dados - Conceitos, Aplicações e
Experimentos com WEKA. 2004. Artigo. Universidade do Estado do Rio Grande do
Norte (UERN). Instituto Nacional de Pesquisas Espaciais (INPE). Disponível no link:
70
http://bibliotecadigital.sbc.org.br/download.php?paper=35. Acessado em 1 mar 2006.
SOUZA, Nilmar de. Ambiente de Apoio à Decisão para o Programa de Avaliação
Institucional: uma Aplicação na Universidade do Vale do Itajaí – UNIVALI –
Florianópolis, 2002. Dissertação (Mestrado em Engenharia de Produção) Universidade Federal de Santa Catarina - Programa de Pós-graduação em
Engenharia de Produção, 2002. 166p.
UNIVERSIDADE DO EXTREMO SUL CATARINENSE (UNESC). Avaliação
Institucional da UNESC: uma perspectiva histórica. Criciúma: UNESC, 2003.
90p.
VALÉRIO, Rosângela Norvila. Avaliação Institucional: uma relação entre
avaliação docente e discente – um estudo de caso. Florianópolis, 2004.
Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de
Santa Catarina - Programa de Pós-graduação em Engenharia de Produção, 2004.
95p.
VICTOR, André O. Conceitos e Técnicas de Mineração de Dados (Data mining).
Universidade Federal do Rio de Janeiro. Material de Power Point. s/d.
WITTEN, Ian H.; FRANK, Eibe. Data mining: Practical Machine Learning Tools
and Techniques with Java Implementation. Morgan Kaufmann Publishers. 2000.
71
Referências Complementares
BRAGA, B. R.; D’ALMEIDA JR, J.;BAIÃO, F.;MATTOSO, M. RT06 – IDSMINER:
DATA MINING de Modelos de Detecção de Intrusão. Relatório Técnico do Projeto
ClusterMiner.
Janeiro
de
2004.
Disponível
em
http://clusterminer.nacad.ufrj.br/TechReport/RT06.pdf. Acessado em 5 jul 2006.
FREITAS, Henrique M. R. de; MOSCAROLA, Jean. Análise de dados
quantitativos & qualitativos: casos aplicados usando Sphinx®. Porto Alegre:
Sphinx: Editora Sagra Luzzatto, 2000. 175p.
FREITAS, Henrique M. R. de; JANISSEK, Raquel. Análise Léxica e Análise de
Conteúdo: Técnicas complementares, seqüenciais e recorrentes para
exploração de dados qualitativos. Porto Alegre: Sphinx: Editora Sagra Luzzatto,
2000. 175p.
OLIVEIRA, Adelize G.de. Data Warehouse: Conceitos e Soluções. Florianópolis:
Editora Advanced, 1998. 96p.
VOOS, Jordelina Beatriz Anacleto. O Processo de Avaliação Institucional e a
Adaptação Estratégica na Universidade da Região de Joinville – UNIVILLE.
2004. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal
de Santa Catarina - Centro Tecnológico - Programa de Pós-graduação em
Engenharia de Produção. 2004, 216 p.
72
APÊNDICES
73
APÊNDICE A - RESULTADOS DA CLUSTERIZAÇÃO
A clusterização da base de dados por meio do algoritmo k-means obteve
os seguintes resultados para a análise de cada uma das questões do instrumento de
avaliação aplicada pela COMAVI.
Questão a) cumpre os horários previstos para as aulas / atividades (não chego
tarde e não saio cedo das aulas): 63,83% das respostas foram no indicador
“Sempre/Sim” e 14, 57% para “Muito/ Com freqüência”. Ao somar esses dois
indicadores que são considerados positivos pela avaliação, tem-se 78,40% dos
discentes afirmando que seus professores são pontuais, porém 8,55% dos
estudantes apontam que os professores cumprem os horários acadêmicos “Regular/
Frequentemente” e 7,76% entenderam que a questão não se aplicava aos
professores avaliados ou os educadores apontados não ministravam aulas para os
estudantes pesquisados20.
Questão b) aproveita o tempo em sala de aula: 55,37% das respostas foram no
indicador “Sempre/Sim” e 16,40% para “Muito/ Com freqüência”. Ao somar esses
dois indicadores, tem-se 71,87% dos discentes afirmando que seus professores
aproveitam o tempo, porém 10,20%
indicam que os professores aproveitam de
forma “Regular/ Frequentemente” e 4,87%, não souberam avaliar.
Questão c) apresenta o conteúdo numa linguagem compreensível: 60,99% das
respostas foram no indicador “Sempre/Sim” e 16,51% para “Muito/ Com freqüência”.
20
Esse resultado é possível uma vez que existem disciplinas onde dois ou mais professores ministram aula,
sendo que, conforme o caso, as turmas acabam sendo divididas, como ocorre no curso de Medicina. Como o
curso é modular, os estudantes estão matriculados em todo o modulo, mas no período da avaliação havia
disciplinas que eles ainda não tinham cursado. Neste caso, recomendou-se que os discentes responderem no
indicador “Não se aplica/ não é meu professor”.
74
Ao somar esses dois indicadores tem-se 77,50% dos discentes apontando que seus
professores apresentam o conteúdo das disciplinas em linguagem compreensível,
porém 7,55% indicam que os professores apresentam “Regular/ Frequentemente” e
7,51% não souberam avaliar.
Questão d) demonstra conhecer bem a disciplina que leciona: 59,91% das
respostas foram no indicador “Sempre/Sim” e 17,68% para “Muito/ Com freqüência”.
Ao somar esses dois indicadores tem-se 77,59% dos discentes afirmando que seus
professores demonstram domínio de conteúdo, porém 7,80% informam que seus
professores demonstram “Regular/ Frequentemente” e 7,53% entenderam que a
questão não se aplicava aos professores avaliados ou os educadores apontados
não ministravam aulas para os estudantes pesquisados.
Questão e) demonstra estar atualizado(a) em relação ao conteúdo que
ministra: 61,60% das respostas foram no indicador “Sempre/Sim” e 15,05% para
“Muito/ Com freqüência”. Ao somar esses dois indicadores que são considerados
positivos pela avaliação, tem-se 76,65% dos discentes afirmando que seus
professores demonstram-se atualizados, porém 7,53% apontam que os docentes
demonstram estarem atualizados “Regular/ Frequentemente” e 7,48% entenderam
que a questão não se aplicava aos professores avaliados ou os educadores
apontados não ministravam aulas para os estudantes pesquisados.
Questão f) respeita os acadêmicos como pessoa e os trata com cordialidade e
educação: 49,45% das respostas foram no indicador “Sempre/Sim” e 18,62% para
“Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 68,07% dos
75
discentes afirmando que seus professores os tratam com cordialidade e educação,
porém 13,92% apontam que os professores agem dessa forma “Regular/
Frequentemente” e 6,16% entendem que esse aspecto ocorre “Pouco/ Às vezes”.
Questão g) controla a ordem disciplinar em sala de aula: 58,13% das respostas
foram no indicador “Sempre/Sim” e 16,71% para “Muito/ Com freqüência. Ao somar
esses dois indicadores tem-se 74,84% dos discentes afirmando que seus
professores controlam a ordem disciplinar em sala de aula, porém 8,96% entendem
que os professores conseguem controlar “Regular/ Frequentemente” e 3,66%
conseguem “Pouco/ Às vezes”.
Questão h) informa aos acadêmicos como será desenvolvida a disciplina:
54,05% das respostas foram no indicador “Sempre/Sim” e 17,13% para “Muito/ Com
freqüência”. Ao somar esses dois tem-se 71,18% dos discentes afirmando que seus
professores informam, porém 11,02% apontam que os docentes prestam esse
esclarecimento de forma “Regular/ Frequentemente” e 5,43% que apresentam
“Pouco/ Às vezes”.
Questão i) estabelece relação entre teoria e prática, ou entre prática e teoria:
53,42% das respostas foram no indicador “Sempre/Sim” e 16,89% para “Muito/ Com
freqüência”. Ao somar esses dois indicadores tem-se 70,31% dos discentes
apontando que os docentes conseguem estabelecer a relação entre teoria e prática
e vice versa, porém 10,47% reconhecem que os professores conseguem
estabelecer de forma “Regular/ Frequentemente” e 5,20% que esse aspecto ocorre
“Pouco/ Às vezes”.
76
Questão j) é receptivo(a) a críticas, sugestões e questionamentos, ou seja,
permite debate de diferentes opiniões: 59,83% das respostas foram no indicador
“Sempre/Sim” e 16,41% para “Muito/ Com freqüência”. Ao somar esses dois
indicadores tem-se 76,24% dos discentes afirmando que seus educadores são
receptivos a críticas, sugestões e questionamentos. Para 8,70% os professores são
receptivos “Regular/ Frequentemente” e 3,87% entendem que esse aspecto ocorre
“Pouco/ Às vezes”.
Questão k) responde as perguntas dos acadêmicos e esclarece as dúvidas em
sala de aula: 50,39% das respostas foram no indicador “Sempre/Sim” e 16,91%
para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 67,30% dos
discentes afirmando que seus professores respondem os questionamentos
levantados em sala de aula e esclarecem as dúvidas, porém 12,77% reconhecem
que professores fazem isso de forma “Regular/ Frequentemente” e 6,49%“ entendem
que esse aspecto ocorre “Pouco/ Às vezes”.
Questão l) estimula a discussão de idéias e conteúdos: 51,94% das respostas
foram no indicador “Sempre/Sim” e 17,71% para “Muito/ Com freqüência”. Ao somar
esses dois indicadores tem-se 69,65% dos discentes afirmando que seus
professores estimulam as discussões de idéias e conteúdos, entretanto, para
11,64%,
os
docentes
promovem
essa
estimulação
de
forma
“Regular/
Frequentemente” e 5,53% entendem que esse aspecto ocorre “Pouco/ Às vezes”.
77
Questão m) estimula os acadêmicos a serem independentes na busca do
conhecimento: 52,74% das respostas foram no indicador “Sempre/Sim” e 18,25%
para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 70,99% dos
discentes afirmando que seus professores realizam esse estímulo, porém 11,81%
reconhecem que os educadores fazem de forma “Regular/ Frequentemente” e 5,21%
entendem que esse aspecto ocorre “Pouco/ Às vezes”.
Questão n) define com clareza e objetividade os critérios de avaliação desta
disciplina: 52,66% das respostas foram no indicador “Sempre/Sim” e 17,64% para
“Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 70,30% dos
discentes afirmando que seus professores definem com clareza e objetividade os
critérios de avaliação. Para 11,12% os docentes definem de forma “Regular/
Frequentemente” e 5,12% entendem que esse aspecto ocorre “Pouco/ Às vezes”.
Questão o) os conteúdos das avaliações estão de acordo com os
apresentados nas aulas: 58,79% das respostas foram no indicador “Sempre/Sim” e
16,28% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se
75,07% dos discentes afirmando que os conteúdos das avaliações são relativos aos
estudados em sala de aula. Entretanto 8,60% dos discentes entenderam que a
questão não se aplicava aos professores avaliados ou os educadores apontados
não ministravam aulas para os estudantes pesquisados.
Questão p) devolve os resultados das avaliações antes da próxima avaliação:
57,31% das respostas foram no indicador “Sempre/Sim” e 13,27% para “Muito/ Com
freqüência”. Ao somar esses dois indicadores tem-se 70,58% dos discentes
78
afirmando que seus professores devolvem os resultados com antecedência. Para
8,67% os docentes devolvem de forma “Regular/ Frequentemente” e 5,58% não
souberam avaliar.
Questão q) apresenta e discute os resultados das avaliações escritas,
trabalhos, etc: 52,22% das respostas foram no indicador “Sempre/Sim” e 15,17%
para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 67,39% dos
discentes afirmando que seus professores apresentam e discutem os resultados,
porém 10,57% reconhecem que os educadores realizam essa ação de forma
“Regular/ Frequentemente” e 5,39% entendem que esse aspecto ocorre “Pouco/ Às
vezes”.
79
APÊNDICE B - RESULTADOS DA CLASSIFICAÇÃO
A classificação da base de dados por meio do algoritmo ZeroR obteve os
seguintes resultados para a análise de cada uma das questões do instrumento de
avaliação aplicada pela COMAVI.
Questão a) cumpre os horários previstos para as aulas / atividades (não chego
tarde e não saio cedo das aulas): No resultado fornecido pelo algoritmo e
observando a matriz de confusão, pode-se perceber que a predição do valor
nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, onde obteve-se
um percentual de acerto de 63,83% para os atributos nominais. Ocorreu a
classificação incorreta de 13264 instâncias, o que fez com que o seu percentual
fosse reduzido.
Questão b) aproveita o tempo em sala de aula: Observando a matriz de confusão,
pode-se perceber que a predição do valor nominal, cujo indicador teve maior
ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 55,37% para
os atributos nominais. Ocorreu a classificação incorreta de 16.368 instâncias.
Questão c) apresenta o conteúdo numa linguagem compreensível: Observando
a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo
indicador teve mais ocorrência foi no “Sempre/Sim”, obteve-se um percentual de
acerto de 55,39% para os atributos nominais. Ocorreu a classificação incorreta de
18191 instâncias, o que fez com que o seu percentual fosse reduzido.
80
Questão d) demonstra conhecer bem a disciplina que leciona: Observando a
matriz de confusão, pode-se perceber que a predição do valor nominal, cujo
indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um
percentual de acerto de 60,99% para os atributos nominais. Ocorreu a classificação
incorreta de 14306 instâncias.
Questão e) demonstra estar atualizado(a) em relação ao conteúdo que
ministra: Observando a matriz de confusão, pode-se perceber que a predição do
valor nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, obteve-se
um percentual de acerto de 59,91% para os atributos nominais. Ocorreu a
classificação incorreta de 14702 instâncias.
Questão f) respeita os acadêmicos como pessoa e os trata com cordialidade e
educação: Observando a matriz de confusão, pode-se perceber que a predição do
valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”,
obteve-se um percentual de acerto de 61,60% para os atributos nominais. Ocorreu a
classificação incorreta de 14.083 instâncias.
Questão g) controla a ordem disciplinar em sala de aula: Observando a matriz
de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve
mais ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 49,45%
para os atributos nominais. Ocorreu a classificação incorreta de 18538 instâncias.
Questão h) informa aos acadêmicos como será desenvolvida a disciplina:
Observando a matriz de confusão, pode-se perceber que a predição do valor
81
nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”,
obteve-se um percentual de acerto de 58,13% para os atributos nominais. Ocorreu a
classificação incorreta de 15.353 instâncias, o que fez com que o seu percentual
fosse reduzido.
Questão i) estabelece relação entre teoria e prática, ou entre prática e teoria:
Observando a matriz de confusão, pode-se perceber que a predição do valor
nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”,
obteve-se um percentual de acerto de 54,05% para os atributos nominais. Ocorreu a
classificação incorreta de 16.852 instâncias.
Questão j) é receptivo(a) a críticas, sugestões e questionamentos, ou seja,
permite debate de diferentes opiniões: Observando a matriz de confusão, pode-se
perceber que a predição do valor nominal, cujo indicador teve maior número de
ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 53,42% para
os atributos nominais. Ocorreu a classificação incorreta de 17.081 instâncias.
Questão k) responde as perguntas dos acadêmicos e esclarece as dúvidas em
sala de aula: Observando a matriz de confusão, pode-se perceber que a predição
do valor nominal, cujo indicador que teve maior número de ocorrência foi no
“Sempre/Sim”, obteve-se um percentual de acerto de 59,83% para os atributos
nominais. Ocorreu a classificação incorreta de 14.729 instâncias.
Questão l) estimula a discussão de idéias e conteúdos: Observando a matriz de
confusão, pode-se perceber que a predição do valor nominal, cujo indicador que
82
teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de
acerto de 51,94% para os atributos nominais. Ocorreu a classificação incorreta de
17.626 instâncias.
Questão m) estimula os acadêmicos a serem independentes na busca do
conhecimento: Observando a matriz de confusão, pode-se perceber que a predição
do valor nominal, cujo indicador teve maior número de ocorrência foi no
“Sempre/Sim”, obteve-se um percentual de acerto de 52,75% para os atributos
nominais. Ocorreu a classificação incorreta de 17.329 instâncias.
Questão n) define com clareza e objetividade os critérios de avaliação desta
disciplina: Observando a matriz de confusão, pode-se perceber que a predição do
valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”,
obteve-se um percentual de acerto de 52,66% para os atributos nominais. Ocorreu a
classificação incorreta de 17.359 instâncias.
Questão o) os conteúdos das avaliações estão de acordo com os
apresentados nas aulas: Observando a matriz de confusão, pode-se perceber que
a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no
“Sempre/Sim”, obteve-se um percentual de acerto de 58,79% para os atributos
nominais. Ocorreu a classificação incorreta de 16.852 instâncias.
Questão p) devolve os resultados das avaliações antes da próxima avaliação:
Observando a matriz de confusão, pode-se perceber que a predição do valor
nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”,
83
obteve-se um percentual de acerto de 57,31% para os atributos nominais. Ocorreu a
classificação incorreta de 15.665 instâncias.
Questão q) apresenta e discute os resultados das avaliações escritas,
trabalhos, etc: Observando a matriz de confusão, pode-se perceber que a predição
do valor nominal, cujo indicador teve maior número de ocorrência foi no
“Sempre/Sim”, obteve-se um percentual de acerto de 52,22% para os atributos
nominais. Ocorreu a classificação incorreta de 17.522 instâncias.
84
APÊNDICE C – RESULTADOS DOS CLUSTERS POR ÁREA
Questão
Área/Cluster
Licenciatura
Saúde e
Biológicas
Sociais Aplicadas
Engenharia e
Tecnologia
a
b
c
d
e
f
2
3
2
3
2
3
1
1
1
1
1
1
1
1
1
1
6
2
6
2
6
2
2
2
2
3
0
3
6
3
4
4
4
4
(0) Não sei avaliar;
(1) Sempre/sim;
(2) Muito/com freqüência;
(3) Regular/frequentemente;
(4) Pouco/às vezes;
(5) Nunca/não;
(6) Não se aplica/não é meu professor.
g
h
i
j
k
Resultados dos clusters
3
3
3
3
3
l
m
n
o
p
q
3
3
3
2
3
3
1
1
1
1
1
1
1
2
2
2
2
2
6
2
2
4
4
4
4
4
3
0
4
85
ANEXO
86
ANEXO A – RELAÇÃO DOS CURSOS DE GRADUAÇÃO
Relação dos Cursos21 da Unesc que participaram da avaliação de 2005 e
que passaram pelo processo de data mining nesta pesquisa.
Área
Curso
Administração de Empresas (M)
Administração de Empresas (N)
Administração Comércio Exterior (N)
Artes Visuais – Bacharelado (N)
Ciências Contábeis (N)
Direito (M)
Sociais Aplicadas (SAPL)
Direito (N)
Economia (N)
Secretariado Executivo (N)
Tecnologia em Gestão de Marketing (N)
Tecnologia em Gestão de Pequeno e Médio Empreendimento (N)
Tecnologia em Gestão de Pessoas (N)
Arquitetura e Urbanismo (V)
Ciência da Computação (N)
Engenharia Ambiental (M)
Engenharia e Tecnologia (ENG_TEC) Engenharia Civil (N)
Engenharia de Agrimensura (N)
Engenharia de Materiais (M)
Tecnologia em Cerâmica (N)
Artes Visuais – Licenciatura (N)
Ciências Biológicas – Licenciatura (N)
Educação Física – Licenciatura (N)
Geografia (N)
Licenciatura (LINC)
História (N)
Letras – Habilitação Português/Inglês (N)
Letras – Habilitação Português/Espanhol (N)
Matemática (N)
Pedagogia (N)
Ciências Biológicas – Bacharelado (V)
Educação Física – Bacharelado (M)
Enfermagem (V)
Farmácia (I)
Saúde e Biológicas (SAL_BIO)
Fisioterapia (I)
Medicina (I)
Nutrição (I)
Psicologia (M)
21
A relação dos cursos de graduação ofertados pela UNESC estão disponíveis no site da IES <www.unesc.net>.
Os cursos conveniados com a Faculdade SATC/SENAI e os cursos Seqüenciais não fizeram parte da base DE
dados desta pesquisa.

Baixar

Imagem em PDF - Universidade do Extremo Sul Catarinense

Imagem em PDF - Universidade do Extremo Sul Catarinense

UNIVERSIDADE FEDERAL DE MATO GROSSO INSTITUTO

teste - Portal da Inovação da Rede NIT-NE

Aplicações datawarehousing, dataming e business

Web Mining

DATA MINING

Data warehouses - Universidade Castelo Branco

Data Mining

2.DataMining - SIT2011-1

Algumas Aplicações Práticas da Tecnologia Data Mining