UNIVERSIDADE DO EXTREMO SUL CATARINENSE - UNESC CURSO DE PÓS-GRADUAÇÃO ESPECIALIZAÇÃO EM MBA GERENCIAMENTO EM BANCO DE DADOS ANNE MARIE SCOSS A CLUSTERIZAÇÃO E CLASSIFICAÇÃO NO PROCESSO DE DATA MINING PARA ANÁLISE DO DESEMPENHO DOCENTE NO ENSINO DE GRADUAÇÃO CRICIÚMA, AGOSTO DE 2006 ANNE MARIE SCOSS A CLUSTERIZAÇÃO E CLASSIFICAÇÃO NO PROCESSO DE DATA MINING PARA ANÁLISE DO DESEMPENHO DOCENTE NO ENSINO DE GRADUAÇÃO Monografia apresentada à Diretoria de Pósgraduação da Universidade do Extremo Sul Catarinense- UNESC, para a obtenção do título de especialista em MBA Gerenciamento em Banco de Dados. Orientadora: Profª. MSc. Merisandra Côrtes de Mattos CRICIÚMA, AGOSTO DE 2006 À minha família, amigos e colegas de trabalho. AGRADECIMENTOS Expresso meu sentimento de gratidão as pessoas importantes para a conclusão deste trabalho: Aos meus pais, Marcelo de Morais Scoss e Janete Maria Minotto Scoss, pelo carinho, apoio e compreensão. A orientadora Profª. M.Sc. Merisandra Côrtes de Mattos, pela dedicação, paciência e grande incentivo na realização desta monografia. A UNESC, a Diretoria de Pós-Graduação e aos colegas da Comissão de Avaliação Institucional da Unesc (COMAVI), em especial os professores Sandra Regina da Silva Fabris, Heliete Rocha dos Santos e José dos Passos Fernandes pela compreensão e apoio durante o processo que durou este trabalho. Aos colegas da Diretoria da Informática, Franco Espíndola de Bom e Fabrízio Colombo pela ajuda junto a base de avaliação e a tecnologia Java. Aos meus amigos e @migos espalhados pelo país, que sempre me apoiaram e torceram pelo sucesso desta empreitada, em busca do conhecimento. E, finalmente, gostaria também de agradecer aos novos e inesquecíveis amigos que fiz durante a Pós-Graduação, Eliana Lorenzi dos Santos, Reginaldo José da Rosa e Eroni Américo. “Estamos afogados em informação, mas morrendo de fome por conhecimento”. John Naisbett RESUMO Esta pesquisa apresenta a análise do desempenho docente, por área de conhecimento, no contexto da Avaliação Institucional do Ensino de Graduação de 2005 da Universidade do Extremo Sul Catarinense (UNESC). Na realização desta análise empregou-se a descoberta de conhecimento em base de dados no que se refere ao processo de data mining. Inicialmente aplicou-se a tarefa de clusterização, por meio do algoritmo de particionamento k-means. Posteriormente, o conhecimento descoberto foi submetido a tarefa de classificação pelo método de regras ZeroR. No processo de data mining utilizou-se a ferramenta de código aberto Waikato Environment for Knowledge Analysis (WEKA), desenvolvida em Java e disponibilizada gratuitamente na internet. . Palavras-chave: Data mining; Clusterização; Algoritmo k-means; Classificação; Algoritmo ZeroR; WEKA; Avaliação institucional. . LISTA DE ILUSTRAÇÕES Figura 1 – Etapas do processo operacional do KDD ................................................25 Figura 2 – Classificação de registros........................ ................................................29 Figura 3 – Exemplo de árvore de clusters no método hierárquico.............................42 Figura 4 – Tela do WEKA Explorer executando o método k-means..........................57 Figura 5 – Resultado da aplicação da tarefa de clusterização...................................60 Figura 6 – Resultado da aplicação da tarefa de classificação...................................62 LISTA DE TABELAS Tabela 1 - Tarefas de Data mining e Exemplos de Uso ...........................................30 Tabela 2 - Comparativo das Ferramentas de Data mining .......................................37 LISTA DE ABREVIATURAS E SIGLAS ABESC - Associação Brasileira das Escolas Católicas ABRUEM - Associação Brasileira das Universidades Estaduais e Municipais ACE - Avaliação das Condições de Ensino ACG - Avaliação dos Cursos de Graduação (ACG) ANDIFES - Associação Nacional dos Dirigentes das Instituições Federais de Ensino Superior ANUP - Associação das Universidades Particulares AVALIES - Avaliação das Instituições de Educação Superior CEA - Comissão Especial de Avaliação CEE-SC – Conselho Estadual de Educação de Santa Catarina COMAVI - Comissão de Avaliação Institucional da UNESC CONAES - Comissão Nacional de Avaliação de Ensino Superior CPA - Comissão Própria de Avaliação Institucional ENADE - Avaliação Nacional de Desempenho do Estudante ENC - Exame Nacional de Cursos FECEA - Faculdade Estadual de Ciências Econômicas de Apucarana IA - Inteligência Artificial IES - Instituição de Ensino Superior IME - Instituto Militar de Engenharia JVM - Java Virtual Machine KDD - Knowledge Discovery in Databases KDD-NMS - Knowledge Discovery and Data mining in Network Management System MEC - Ministério da Educação e do Desporto PAIUB - Programa de Avaliação Institucional das Universidades Brasileiras PAIUNESC - Programa de Avaliação Institucional da UNESC PUCMGMT - Grupo de Gerência de Redes PUC-RIO - Pontifícia Universidade Católica do Rio de Janeiro SESU - Secretaria de Educação Superior SINAES - Sistema Nacional de Avaliação da Educação Superior UNESC - Universidade do Extremo Sul Catarinense UNISUL - Universidade do Sul de Santa Catarina WEKA - Waikato Environment for Knowledge Analysis SUMÁRIO 1 INTRODUÇÃO .......................................................................................................13 1.1 Objetivo Geral.................................................................................................14 1.2 Objetivos Específicos ....................................................................................15 1.3 Justificativa.....................................................................................................15 1.4 Estrutura do Trabalho ....................................................................................16 2 CONHECIMENTO..................................................................................................18 3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS.............................22 3.1 Etapas do KDD ..................................................................................................23 4 DATA MINING .......................................................................................................26 4.1 Metodologias para Data mining .......................................................................26 4.2 Tarefas de Data mining .....................................................................................27 4.2.1 Associação .....................................................................................................27 4.2.2 Clusterização ..................................................................................................28 4.2.3 Classificação ..................................................................................................28 4.2.4 Estimativa .......................................................................................................29 4.2.5 Previsão ..........................................................................................................30 4.3 Métodos de Data mining ...................................................................................31 4.3 Exemplos da Utilização..................................................................................31 4.4.1 Inteligência obtida pela aplicação de data mining em base de teses francesas no Brasil .........................................................................................32 4.4.2 KDD-NMS: Um Sistema de Descoberta de Conhecimento e Mineração em Bases de Dados de Sistemas de Gerência de Redes ..................................32 4.4.3 Avaliação Institucional: uma relação entre avaliação docente e discente – um estudo de caso..........................................................................................33 4.4.4 Descobertas de Padrões usando Técnicas de Extração de Conhecimento ..........................................................................................................................33 4.4.5 Utilização de Técnicas de Mineração de Dados na Análise das Informações de Uma Universidade................................................................33 4.4.6 Data mining em Saúde Bucal por meio da Técnica de Clusterização e do Algoritmo K-means .........................................................................................34 4.4 Ferramentas de Data mining .........................................................................34 4.5.1 WEKA ..............................................................................................................37 5 A TAREFA DE CLUSTERIZAÇÃO EM DATA MINING.........................................40 5.1 Métodos de Particionamento para Clusterização...........................................42 5.1.1 O Algoritmo K-means.....................................................................................43 6 A TAREFA DE CLASSIFICAÇÃO .........................................................................45 6.1 Classificação por meio de Regras ...................................................................46 6.1.1 Algoritmo ZeroR .............................................................................................47 7 AVALIAÇÃO INSTITUCIONAL .............................................................................48 7.1 Avaliação Institucional segundo o SINAES ....................................................50 7.2 Avaliação Institucional na Unesc.....................................................................52 8 APLICANDO DATA MINING NA AVALIAÇÃO DO ENSINO DE GRADUAÇÃO .54 8.1 Metodologia .......................................................................................................56 8.2 Resultados obtidos ...........................................................................................58 8.2.1 Clusterização ..................................................................................................59 8.2.2 Classificação ..................................................................................................61 9 CONCLUSÃO ........................................................................................................64 REFERÊNCIAS.........................................................................................................66 Referências Complementares ................................................................................71 APÊNDICES .............................................................................................................72 APÊNDICE A - RESULTADOS DA CLUSTERIZAÇÃO...........................................73 APÊNDICE B - RESULTADOS DA CLASSIFICAÇÃO ............................................79 APÊNDICE C – RESULTADOS DOS CLUSTERS POR ÁREA...............................84 ANEXO .....................................................................................................................85 ANEXO A – RELAÇÃO DOS CURSOS DE GRADUAÇÃO.....................................86 13 1 INTRODUÇÃO Tem sido possível constatar um crescente acúmulo de informações nas bases de dados das empresas. Essas informações, quando bem utilizadas, servem de apoio para as tomadas de decisões, pois indicam padrões e convergências. A grande quantidade de informações que são armazenadas em base de dados mostram a inviabilidade de se fazer qualquer análise de forma manual, devido ao tempo, recursos humanos e financeiros que seriam despendidos. Com a Avaliação Institucional da Universidade do Extremo Sul Catarinense (UNESC) também ocorre essa dificuldade com relação a sua base de dados que contém muitas informações, uma vez que a Instituição preocupa-se em realizar uma avaliação sistemática e diagnóstica na busca da qualidade de seu ensino e serviços, gerando um banco de dados muito rico em informações. Devido as exigências definidas pela Lei Federal 10.861/20041, as atividades de ordem burocrática, inerentes a qualquer setor/departamento institucional e o número limitado de pessoas envolvidas na avaliação, originam dificuldades na análise mais aprofundada dos resultados obtidos, uma vez que essa modalidade de avaliação é aplicada nos cursos de graduação, com a participação de todos os alunos e professores. Entendendo o quanto esse processo avaliativo é importante, pois, segundo Belloni (2000, p. 41), a avaliação institucional é “um processo sistemático de busca de subsídios para melhoria e aperfeiçoamento da qualidade da instituição 1 Lei nº 10.861 de 14 de abril de 2004 - Institui o Sistema Nacional de Avaliação da Educação Superior SINAES 14 em face de sua missão científica e social”, buscou-se, com esta pesquisa, uma alternativa para que fosse possível realizar uma análise mais detalhada dos resultados obtidos pela avaliação institucional da Unesc, com o intuito de contribuir com a mesma e com sua missão institucional que é "Promover o desenvolvimento regional para melhorar a qualidade do ambiente de vida". Reconhecendo sua relevância para uma Instituição de Ensino Superior (IES), entendeu-se que só é possível realizar ou propor melhorias quando ocorre a aquisição de conhecimento sobre a realidade acadêmica em que se está inserido. Uma forma de aquisição desse conhecimento seria com o apoio da aplicação do instrumento de avaliação institucional, onde é possível, até certo ponto, verificar junto aos principais sujeitos envolvidos (docentes e discentes) o que ocorre no processo de ensino-aprendizagem. A outra, seria por meio da aplicação, sobre os resultados obtidos pela avaliação, de uma técnica que reúne conhecimentos oriundos das áreas de banco de dados, inteligência artificial, aprendizado de máquina e estatística, denominada data mining. Desse modo, esta pesquisa compreendeu a descoberta de conhecimento por meio do processo de data mining, empregando-se as tarefas de Clusterização e Classificação na base de dados da avaliação do ensino de graduação de 2005 com o objetivo de analisar o perfil do desempenho docente, por área. 1.1 Objetivo Geral Aplicar as tarefas de clusterização e classificação no processo de data mining para análise por área do perfil do desempenho docente no contexto da Avaliação Institucional do Ensino de Graduação da UNESC. 15 1.2 Objetivos Específicos Os objetivos específicos desta pesquisa consistem em: a) compreender o processo de descoberta do conhecimento e data mining; b) aplicar a tarefa de clusterização e o método k-means; c) aplicar, no resultado obtido, a tarefa de classificação e o método ZeroR; d) analisar os resultados obtidos com a aplicação dessas tarefas. 1.3 Justificativa A Avaliação Institucional na UNESC, implantada a partir de 1995, possui caráter pedagógico, cujo objetivo é buscar subsidiar os gestores da Instituição com dados quantitativos e qualitativos, como ferramenta de apoio as tomadas de decisão (UNESC, 2003, p.13). Para trabalhar essa modalidade de avaliação na Instituição existe a Comissão de Avaliação Institucional da UNESC (COMAVI), cujo papel principal é de coordenar a execução de todo o processo avaliativo da UNESC, que vem sendo construído coletivamente (COMAVI, 2003, p. 28). Uma das avaliações desenvolvidas pela COMAVI é a do Ensino de Graduação. Atualmente esse processo é informatizado, o que agiliza sobremaneira o processamento e coleta dos dados, bem como sua tabulação, pois é automática. Uma vez que o acadêmico ou o professor realizem sua avaliação acessando o link na Internet previamente disponibilizado durante o período determinado para se realizar a avaliação, o dado é armazenado diretamente no banco de dados. 16 A análise desses dados obtidos é importante, pois seu resultado permite conhecer a realidade da IES nos aspectos referentes ao ensino-aprendizagem dos cursos de graduação da Universidade. No sentido de aprofundar mais esse conhecimento, a presente pesquisa realizou o processo de data mining, que segundo Gonçalves (1999, p. 14), tem sido descrito como a descoberta do conhecimento desconhecido e implícito em uma base de dados. Na realização deste processo de data mining aplicou-se primeiramente a tarefa de clusterização, pois segundo Serra (2002) agrupa as informações disponíveis em conjuntos definidos e homogêneos baseando-se em atributos específicos, podendo ser aplicada a itens não numéricos. Serra (2002) ainda esclarece que os resultados provenientes da clusterização podem ser utilizados para outras tarefas, como por exemplo, a classificação, visto que um cluster é um grupo menor e por tanto mais fácil de ser trabalhado por meio dos algoritmos de classificação. 1.4 Estrutura do Trabalho A presente pesquisa é composta por nove Capítulos, sendo que o Capítulo 1, a introdução, reflete de forma geral o trabalho, bem como seus objetivos geral e específicos e a justificativa para a realização da mesma. O Capítulo 2 apresenta o conceito de conhecimento, um breve resumo dos seus níveis e a sua relação com a descoberta do conhecimento em bases de dados. No Capítulo 3 é abordado o Knowledge Discovery in Databases (KDD) e 17 suas etapas, enquanto o Capítulo 4 aborda o processo de data mining, suas metodologias, tarefas, métodos e a ferramenta WEKA, bem como um levantamento sobre algumas pesquisas que utilizaram esta tecnologia. O Capítulo 5 trata mais especificamente sobre a tarefa de clusterização e o algoritmo k-means, enquanto o Capítulo 6 refere-se a tarefa de classificação e o algoritmo ZeroR. Estas tarefas e métodos foram empregadas no desenvolvimento desta pesquisa. A Avaliação Institucional é apresentada no Capítulo 7, tendo-se um breve histórico do contexto nacional, do SINAES e da avaliação do ensino de graduação da UNESC, no que se refere ao docente. No Capítulo 8 é abordado o desenvolvimento da pesquisa, os resultados obtidos. Finalmente, no Capítulo 9 tem-se a conclusão da pesquisa bem como a indicação de trabalhos futuros. 18 2 CONHECIMENTO A palavra conhecimento, segundo Luft (1987, p.139), significa a “ação ou efeito de conhecer”. Também pode advir de experiências ou vivências que possam proporcionar conhecimento sobre um ou mais fatores relacionados a aspectos pessoais, sociais ou profissionais. Outra definição aponta que o conhecimento é a relação que se forma entre aquele que conhece ou deseja conhecer algo (objeto) e o objeto que será conhecido ou que se possibilita conhecer (ROSAS, 2003). Ainda segundo Rosas (2003), na Grécia Antiga já existiam diversas visões e métodos de conhecimento como os de Sócrates, que era baseado na ironia2 e na maiêutica3; os de Platão, que afirmava que a ciência era baseada na opinião; e os de Aristóteles, que entendia ser a ciência baseada na observação (experiência). Rezende (2003, p. 4) esclarece que a condição base que impele em direção a ação do desenvolvimento é o conhecimento, mas antes de se realizar qualquer vínculo entre conhecimento e as tecnologias de registro e processamento, é importante efetuar uma distinção entre dado, informação e conhecimento: a) dado: é considerado o elemento puro, que pode ser quantificado em determinada situação. Na maioria das vezes ele é usado em ambiente 2 A palavra ironia, no dia-a-dia, quer dizer deboche, escárnio, sarcasmo, entre outros. Quando se refere a ironia socrática seu sentindo é completamente diferente, pois no grego ironia significa interrogação, sendo que Sócrates interrogava seus discípulos quanto ao que imaginavam saber. Pode-se citar as perguntas “O que é o bem?” e “O que é a justiça?” como exemplos de alguns dos questionamentos feitos por Sócrates. < http://www.filosofiavirtual.pro.br/socrates.htm>. 3 Processo pedagógico indutivo que, a partir de caso particular, leva o aluno a generalizar e conceituar por meio de perguntas sucessivas (LUFT, 1987, p. 355). 19 funcional, podendo ser armazenado, escolhido e recuperado em uma base de dados ou em outra forma de registro documental. O dado sozinho não oferece nenhuma base para a compreensão de uma situação. Um exemplo de dado seria o faturamento de vendas e o valor do dólar em um determinado dia; b) informação: quando um conjunto de dados é analisado e interpretado, ele se transforma em informação. Pode-se citar como exemplo a análise do faturamento de vendas de determinada empresa que possua filial na região A e outra na região B. Se a filial da região A tem previsão de faturamento de R$ 300,00 e seu faturamento de fato foi de R$ 500,00 e a filial da região B teve o faturamento previsto de R$ 2.000,00 e faturou na realidade R$ 1.000,00, pode-se concluir que o desempenho da filial A foi superior a B; c) conhecimento: baseado em uma informação, é possível realizar tomadas de decisões importantes. Essa ação é realizada a partir do conhecimento que se obteve da informação recebida. O exemplo que se pode apresentar seria o de um empresário, ao receber a informação sobre os faturamentos de suas filiais da região A e B, começar a desenvolver e traçar objetivos e ações para que as dificuldades encontradas na filial B possam ser superadas. Ainda tratando do conhecimento, com o objetivo de refletir brevemente, Mattar (2005, p. 2) indica que o mesmo pode ser dividido nos seguintes níveis: a) conhecimento popular ou empírico: também denominado de bom senso ou senso comum, é o conhecimento que se adquire e desenvolve no dia-a-dia. O exemplo que se pode apontar é o chá 20 preparado pelas avós, quando se está doente. Esse é um tipo de conhecimento que é passado ao longo das gerações; b) conhecimento religioso ou teológico: baseia-se na fé, ou seja, devese crer no que a religião ensina mesmo que a ciência comprove o inverso. Neste tipo de conhecimento o exemplo que pode ser citado é o de determinadas passagens registradas em livros sagrados ou religiosos e que a ciência vem mostrando haver controvérsias em alguns dos seus textos. Essas contestações apontadas pelos cientistas muitas vezes não são aceitas pelas religiões; c) conhecimento filosófico: o saber filosófico procura separar-se dos mitos, da retórica, dos sofismas4, das tragédias e dos poetas, estabelecendo a liberdade do pensamento. Seu raciocínio é considerado mais abstrato e valorativo em contrapartida aos métodos científicos, embora essa distinção não esteja muito clara, pois os primeiros cientistas também foram os primeiros filósofos. Aqui pode-se citar Galileu Galilei5 que a partir de uma luneta astronômica fez análise sobre a Via Láctea, os Satélites de Júpiter, as manchas do Sol, entre outros; d) conhecimento científico: assim como o filosófico, esse conhecimento é racional, com o desejo de desvendar a realidade de uma forma sistemática. O exemplo deste conhecimento seria a descoberta da vacina para determinada enfermidade. 4 5 Sofisma significa argumentação falsa com aparência de verdadeira. (LUFT, 1897, 519) “Galileu Galilei foi um notável físico, matemático e astrônomo italiano. É considerado um dos maiores gênios da história da humanidade, como Leonardo da Vinci, Isaac Newton e Albert Einstein, tendo seu QI estimado em cerca de 240” < http://pt.wikipedia.org/wiki/Galileu >. 21 Analisando o conceito de conhecimento e seus diferentes tipos, pode-se observar que, embora todo o conhecimento reflita um determinado padrão de informações, não é todo padrão que pode ser entendido como conhecimento. O padrão deve ser previsível para tornar-se conhecimento, sendo que ele também pode ser apresentado em forma documental, cujos registros vão se acumulando com o decorrer do tempo, tornando complexo seu manuseio e recuperação (GARCIA; VAREJÃO; FERRAZ, 2003, p. 85). Garcia, Varejão e Ferraz (2003, p. 85) também esclarecem que a fim de se ter uma alternativa com o objetivo de resolver a dificuldade apresentada pelo complexo manuseio e recuperação de registros, a Inteligência Artificial (IA) dispõe dos sistemas baseados em conhecimento que tem-se mostrado um recurso eficiente, uma vez que permite também sua disponibilização a diferentes pessoas e instituições. Também utilizando recursos de IA, o KDD possibilita a extração do conhecimento em base de dados, cujo grande volume de informações não tornava mais viável sua análise manual. No próximo capítulo será abordado como é possível adquirir o conhecimento em base de dados, cujos registros podem apresentar terabytes de informações. 22 3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS Com o avanço da tecnologia, tem-se vivido na chamada “Era da Informação”. Anualmente milhares de informações são acumuladas em bancos de dados de empresas, instituições e organizações em todo o mundo. Essas informações, que são ponto chave para a instituição no sentido de dar-lhe subsídios para as tomadas de decisões apontando tendências e padrões, estão, na grande maioria das vezes, implícitas no meio dos dados armazenados (FIGUEIRA, 1998 apud GONÇALVES, 1999, p.3). Ainda citando Gonçalves (1999, p.4) ele aponta também que, devido a essa quantidade expressiva de dados, a habilidade técnica e a capacidade humana já não conseguem realizar a contento as interpretações das informações armazenadas. Frente a esses novos acontecimentos surgiu uma área inovadora para atender a necessidade de analisar essas informações armazenadas, cujo processo envolve banco de dados, inteligência artificial e estatística, denominada Knowledge Discovery in Databases (KDD) ou Descoberta de Conhecimento em Base de Dados (DCBD). Esse termo foi formalizado em 1989 e refere-se ao conceito de buscar o conhecimento em dados (HERDT, 2001, p. 6). Fayyad et al (1996, p. 40) propôs a definição “KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimateand ly understandable patterns in data”6, e que foi aceita por diversos pesquisadores. Goldschmidt e Passos (2005, p. 5) esclarecem que há diversas atividades 6 KDD é o processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados (Tradução: OLIVEIRA, 2000) 23 relacionadas ao KDD, sendo que esse se originou de várias áreas, podendo-se destacar: estatística, inteligência computacional, aprendizado de máquina, reconhecimento de padrões e banco de dados. As atividades do KDD, mencionadas no parágrafo anterior, podem ser ordenadas em três grandes grupos (GOLDSCHMIDT; PASSOS, 2005, p. 6): a) desenvolvimento tecnológico: engloba os aspectos referentes as iniciativas de concepção, refinamento e desenvolvimento de algoritmos, ferramentas e tecnologias que possam ser empregadas em bases de dados, na busca por novos conhecimentos; b) execução de KDD: consiste, efetivamente, no que se refere a busca do conhecimento na base de dados; c) aplicação dos resultados: implica na utilização das informações úteis obtidas dos resultados alcançados pelo processo de KDD. Goldschimidt e Passos (2005, pág.15) também indicam que o ponto de partida do processo de KDD deve ser a análise da base de dados onde se quer extrair o conhecimento. A partir dessa apreciação é possível, junto aos especialistas da área em que se irá analisar os dados, determinar os objetivos que devem ser alcançados neste processo e que deverão nortear todo o procedimento. No próximo subitem serão abordadas as etapas que compõe o processo de KDD. 3.1 Etapas do KDD KDD é caracterizado como um processo interativo contendo várias etapas operacionais, representadas na Figura 1, como a seleção; pré-processamento; 24 transformação; data mining; interpretação e avaliação (FAYYAD et al,1996, p. 42). Estas etapas consistem em: a) seleção de dados: é realizada uma identificação de quais informações realmente se vai trabalhar na base de dados (GOLDSCHMIDT; PASSOS, 2005, p. 26); b) pré-processamento: neste processo realiza-se uma avaliação da base de dados que será trabalhada, verificando as inconsistências das informações ali armazenadas, como por exemplo: dados duplicados, faltantes, impossíveis de serem analisados, entre outros (OLIVEIRA, 2000, p. 16); c) transformação: também conhecida como etapa de organização. Para essa etapa é necessário o acompanhamento de especialista na área, tornando assim o processo mais confiável e preciso, pois ocorre a alocação dos dados de maneira mais eficiente (OLIVEIRA, 2000, p. 18); d) data mining: realiza-se a busca por informações efetivamente úteis, aplicando-se algoritmos para extrair o conhecimento da base de dados. Segundo Goldschimidt e Passos (2005, p.51) muitas vezes esta etapa é considerada como sinônimo do processo de KDD; e) interpretação e avaliação: consiste no tratamento (visualização, análise e interpretação) do conhecimento minerado. De forma geral, nesta etapa é que o especialista do domínio de aplicação e o engenheiro do conhecimento analisam os resultados abstraídos (GOLDSCHIMIDT; PASSOS, 2005, p.55). 25 Figura 1. Etapas do processo operacional do KDD Fonte: FAYYAD, U. et al (1996, p. 41) A etapa de data mining, por ser muito importante e o foco do presente estudo, será tratada de forma mais detalhada no próximo capítulo. 26 4 DATA MINING Segundo Han e Kamber (2001, p. 33) “Data mining é o processo de descoberta de conhecimento interessante a partir de grandes quantidades de dados armazenados tanto em bancos de dados, Data Warehouses, ou outro repositório de informação”. Seifert (2004, p. 2) afirma que cada vez mais o uso de data mining tem-se tornado corriqueira, tanto em setores públicos quanto privados. Os exemplos que se podem citar de instituições que vem utilizando data mining com o objetivo de minimizar seus custos, pesquisa e incrementar as vendas são as que trabalham com seguros, operações bancárias, medicina, entre outros. Navega (2002, p. 1) esclarece que nesta etapa são aplicados algoritmos diversos, que processam os dados na base, em busca de informações relevantes. Ele ainda aponta que, apesar dos algoritmos serem capazes de identificar dados válidos e novos, ainda não existe uma solução para determinar padrões valiosos. Nesse sentido a participação de especialistas é fundamental para completar o processo de extração do conhecimento, determinar e conduzir a exploração da base. Objetivando compreender um pouco mais a etapa de data mining, a próxima seção aborda as metodologias para o mesmo. 4.1 Metodologias para Data mining Conforme Carvalho (2001, pág. 17), data mining pode ser realizada por 27 meio de três diferentes metodologias, tendo-se: a) descoberta não supervisionada de relações: há pouco conhecimento do que se quer encontrar e existe busca por novas relações; b) testagem da hipótese: baseia-se na busca por relações que podem ou não comprovar uma hipótese, podendo validá-la ou não; c) modelagem matemática de dados: esta forma é realizada por meio do conhecimento, que irá validar os dados obtidos. Independente da metodologia escolhida, ela necessitará da utilização de tarefas já existentes e que possibilitam resolver o problema estudado. Para tanto é importante identificar as tarefas que são mais indicadas à aplicação que se deseja realizar. 4.2 Tarefas de Data mining Embora os autores que versam sobre esse tema definam mais tarefas, serão apresentados a seguir as que foram consideradas mais pertinentes a este estudo, que são: associação; clusterização; classificação, estimativa e previsão. 4.2.1 Associação Essa tarefa baseia-se na ação de encontrar um grupo de itens afins, ou seja, que ocorram concomitantemente e de forma repetida em uma base de dados (GOLDSCHIMIDT; PASSOS, 2005, pág.59). Pode-se utilizar, para expressar essas afinidades na forma de regras, o 28 seguinte exemplo, onde 72% de todos os registros que contém os itens A, B, e C também contêm D e E. Esse percentual de ocorrências simula o fator de confiança da regra, sendo usado habitualmente para suprimir padrões inexpressivos (GIMENES, 2000). 4.2.2 Clusterização Também chamada de agrupamento, essa tarefa é utilizada para particionar os registros de uma base de dados em clusters (subconjuntos) de forma a permitir que os dados de um cluster possam usufruir um grupo de propriedades comuns, mas que os diferenciem dos dados de outros clusters (GOLDSCHIMIDT; PASSOS, 2005, pág.74). Dias (2001, p. 10), apresenta exemplos de aplicação da tarefa de clusterização, tais como: agrupar clientes por região do país; agrupar clientes com comportamento de compra similar e agrupar seções de usuários Web para prever comportamento futuro de usuário. 4.2.3 Classificação Considerada uma das tarefas mais importantes e populares, a classificação consiste em, basicamente, buscar por uma função que permita integrar corretamente cada registro de dado de um conjunto de informações a um único rótulo de um conjunto de classes, conforme pode-se observar na Figura 2 (GOLDSCHIMIDT; PASSOS, 2005, pág.65). 29 Figura 2: Classificação de registros Fonte: GOLDSCHIMIDT, R.; PASSOS, E. (2005, p.67). Como aplicação de classificação, podem ser apresentados alguns exemplos, tais como: elucidar pedidos fraudulentos de seguros; fazer uma classificação - utilizando uma escala de baixo, médio e alto risco - para pedidos de créditos; a partir do histórico de uma classe de pacientes, identificar o tipo de tratamento que é mais indicado a um paciente (DIAS, 2001, p. 9). 4.2.4 Estimativa A estimação ou regressão é similar a tarefa de classificação, porém restringe-se a atributos numéricos. Ela busca por funções, sejam lineares ou não, que possam mapear registros de um banco de dados (GOLDSCHIMIDT; PASSOS, 2005, p. 71). Barreto (2004a) informa que esta técnica pode ser utilizada nas seguintes situações, analisando cadastros ou formulários previamente preenchidos: a) estimar a inclinação à inadimplência de um cliente que solicite empréstimo; b) estimar, a partir de bens pessoais (com durabilidade de ao menos 30 três anos), a renda média de uma família; c) estimar o tempo provável de vida dos clientes de uma seguradora. 4.2.5 Previsão Como o próprio nome esclarece, esta tarefa relaciona-se a previsão de um valor para uma determinada variável, baseando seu juízo nos dados históricos armazenados (BARRETO, 2004a). Na Tabela 1 é possível ter-se uma visão geral das tarefas que o data mining executa, analisando suas descrições e exemplos de uso, possibilitando assim averiguar qual ou quais se adequam ao problema proposto. Tabela 1. Tarefas de Data mining e Exemplos de Uso Tarefa Classificação Estimativa (ou Regressão) Associação Segmentação (ou Clusterização) Descrição Constrói um modelo de algum tipo que possa ser aplicado a dados não classificados a fim de categorizá-los em classes, o objetivo é descobrir um relacionamento entre um atributo meta (cujo valor será previsto) e um conjunto de atributos de previsão Usada para definir um valor para alguma variável contínua desconhecida Usada para determinar quais itens tendem a ser adquiridos juntos em uma mesma transação Processo de partição de uma população heterogênea em vários subgrupos ou grupos mais homogêneos Fonte: DIAS, M (2002, p. 1717) Exemplos Classificar pedidos de crédito; Esclarecer pedidos de seguros fraudulentos; Identificar a melhor forma de tratamento de um paciente. Estimar o número de filhos ou a renda total de uma família; Estimar o valor em tempo de vida de um cliente; Estimar a probabilidade de que um paciente morrerá baseando-se nos resultados de diagnósticos médicos; Prever a demanda de um consumidor para um novo produto. Determinar que produtos costumam ser colocados juntos em um carrinho de supermercado. Agrupar clientes por região do país; Agrupar clientes com comportamento de compra similar; Agrupar seções de usuários Web para prever comportamento futuro de usuário. Neste Capítulo tratou-se de data mining, bem como as metodologias e tarefas relacionadas a este processo. A seguir são apresentados alguns métodos de data mining. 31 4.3 Métodos de Data mining Cada tarefa de data mining possui um número relativo de métodos para a extração do conhecimento da base da base de dados (OLIVEIRA, 2001, p.50). Método, em data mining, consiste em um ou mais algoritmos implementados nas ferramentas acadêmicas ou comerciais para mineração, com o objetivo de descobrir conhecimento a partir da base de dados que se está explorando. Oliveira (2000, p.20) especifica que a escolha do método não é uma ação comum, uma vez que é importante ponderar aspectos tais como: o objetivo da ação a ser realizada, o tamanho da base, a precisão requerida, entre outros. Pode-se citar como métodos mais conhecidos: redes neurais, algoritmos genéticos, regras, indução de árvore de decisão, lógica nebulosa, entre outros. Neste trabalho têm-se as tarefas de clusterização e classificação, que estão descritas nos Capítulos 5 e 6, onde foram aplicados os seguintes métodos: particionamento k-means e o baseado em regras ZeroR. 4.3 Exemplos da Utilização Data mining, quando utilizado de acordo com as definições previamente informadas de cada tarefa e método pode proporcionar resultados valiosos para as instituições que o aplicam. Nas próximas seções serão abordados, resumidamente, alguns exemplos da aplicação de data mining. 32 4.4.1 Inteligência obtida pela aplicação de data mining em base de teses francesas no Brasil A pesquisa do artigo publicado por Quoniam et al (2001), que versa sobre o uso de data mining na base de dados de teses francesas DocThèses analisando o tema Brasil, no período de 1969 a 1999, pode ser citada como exemplo. Segundo o artigo, verificou-se que os resultados obtidos com o uso da técnica de data mining integrada com softwares especialistas ofereceu subsídios para os processos decisórios, como a consolidação, o investimento e desenvolvimento de ações, bem como políticas. 4.4.2 KDD-NMS: Um Sistema de Descoberta de Conhecimento e Mineração em Bases de Dados de Sistemas de Gerência de Redes De autoria de Flávia Pereira de Carvalho, Aguinaldo Fagundes Junior, Jorge Guedes Silveira e Marcelo Cunha de Azambuja, data mining foi tema de pesquisa com o objetivo de estudar e criar um sistema de descoberta de conhecimento e mineração em bases de dados de sistemas de gerência de redes, Knowledge Discovery and Data mining in Network Management System (KDD-NMS). Este trabalho se propõe a dar continuidade a outras pesquisas e projetos já desenvolvidos pelo Grupo de Gerência de Redes (PUCMGMT) do Laboratório MetroPoa da PUCRS. Dessa forma, desenvolveram funcionalidades de descoberta de conhecimento e data mining na base de dados do sistema FreeNMS (CARVALHO et al, 2003). 33 4.4.3 Avaliação Institucional: uma relação entre avaliação docente e discente – um estudo de caso Dentre as referências pesquisadas, pode-se também destacar a dissertação de mestrado de Rosângela Norvila Valério em 2004. O objetivo principal desse trabalho foi avaliar o desempenho docente relacionando com a avaliação discente da Faculdade Estadual de Ciências Econômicas de Apucarana (FECEA), no ano de 2001. Com o auxílio de um questionário, os acadêmicos se autoavaliaram, avaliaram seus cursos de graduação e os professores. Já os docentes também se auto-avaliaram, avaliaram os cursos e os discentes. Nos resultados obtidos por curso, pela Avaliação Institucional, utilizou-se técnicas estatísticas multivariadas como: análise de Clusters, análise Fatorial e Coeficiente Alfa de Crombach (VALERIO, 2004). 4.4.4 Descobertas de Padrões usando Técnicas de Extração de Conhecimento Estudo proposto por Cledjalma Ferreira Neves em 2004, como trabalho de Estágio Supervisionado apresentado ao curso de Sistemas de Informação do Centro Universitário Luterano de Palmas, em Tocantins. Essa pesquisa se propôs a identificar o melhor algoritmo entre ZEROR, ONER e J48, utilizando conceitos de descoberta de conhecimento em uma base de dados referente a pacientes de Diabetes Mellitus tipo Dois da região norte do município de Palmas (NEVES, 2004). 4.4.5 Utilização de Técnicas de Mineração de Dados na Análise das Informações de Uma Universidade A dissertação de mestrado de Rudiney Herdt de 2001, envolveu data mining e avaliação institucional. Essa pesquisa foi aplicada à Universidade do Sul de 34 Santa Catarina (UNISUL) e buscou encontrar um padrão de comportamento nos dados resultantes da pesquisa realizada anualmente com os alunos. Na análise utilizou-se uma ferramenta estatística e duas tarefas de mineração: clusterização e regras de associação (HERDT, 2001). 4.4.6 Data mining em Saúde Bucal por meio da Técnica de Clusterização e do Algoritmo K-means Esta pesquisa desenvolvida por Tarcísio Cardoso Selinger como trabalho de conclusão do curso de Ciência da Computação da UNESC em 2003 aplica a técnica de clusterização por meio do método K-means. Essa pesquisa consistiu em analisar a incidência de cárie dental em crianças de escolas públicas, de 6 a 12 anos, das capitais: Curitiba, Florianópolis e Porto Alegre. Para tanto, foi utilizada a base de dados disponível no site do DATASUS, do governo federal brasileiro. Finalizando esta seção no que se refere aos trabalhos correlatos, a seguir será apresentado algumas ferramentas de data mining. 4.4 Ferramentas de Data mining A área de descoberta de conhecimento em base de dados vem crescendo consideravelmente devido a sua ampla aplicação nos mais diversos domínios, Assim, isso vem despertando o interesse em se desenvolver várias ferramentas, tanto de cunho comercial quanto acadêmico (REZENDE et al , 2003, p. 329). Ao analisar algumas ferramentas, foi possível perceber a existência de variações nas características que cada uma apresenta, sendo que as comerciais 35 muitas vezes têm implementado a maioria das tarefas de data mining. Algumas das ferramentas disponíveis são: Oracle Data mining; Bramining; Intelligent Miner for Data; WizRule; WEKA; dentre outras. a) Oracle Data mining: todas as atividades de descoberta do conhecimento ocorrem no próprio ambiente que gerencia o banco de dados da Oracle fazendo com que ele proporcione uma plataforma simples, integrada, segura e escalável. Essa sua integração é o aspecto de destaque deste software, pois faz com que não seja necessária, ao contrário de outras ferramentas, a extração prévia dos dados para serem processados pelo KDD (GOLDSCHIMIDT; PASSOS, 2005, p. 129). Outra informações podem ser encontradas no site da Oracle: www.oracle.com; b) Bramining: resultado de três dissertações de mestrado realizadas na Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) e no Instituto Militar de Engenharia (IME), essa ferramenta disponibiliza ambiente para que seja processado o KDD (GOLDSCHIMIDT; PASSOS, 2005, p. 127). Maiores detalhes sobre a ferramenta podem ser pesquisadas no site da Graal Corp: www.graal-corp.com.br; c) Intelligent Miner for Data: também conhecida como DB2 Intelligent Miner for Data, essa ferramenta foi desenvolvida pela IBM, possuindo versões para sistemas operacionais, tais como: Windows, AIX, OS/390, OS/340 e Solaris. Não sendo dependente do sistema IBM, o DB2 pode ser rodado junto a outros Sistemas de Gerenciamento de Banco de Dados (SGBD) relacionais. O pacote do DB2 possibilita o uso de algoritmos de data mining, seja de forma individual ou combinada, para 36 resolver problemas de KDD (GOLDSCHIMIDT; PASSOS, 2005, p. 125). Outras informações podem ser encontradas no site da IBM: www.ibm.com; d) WizRule: esse software de origem israelense, foi desenvolvido com o objetivo de analisar e descrever grupos de dados, identificando prováveis erros dentre os analisados. Utilizado em aplicações que envolvem detecção de desvios7, a ferramenta abstrai fórmulas e regras, revelando os registros da base que não atendem a descoberta do conhecimento (GOLDSCHIMIDT; PASSOS, 2005, p. 127). Pode-se realizar o download e obter informações do WizRule no site da WizSoft: www.wisoft.com; e) WEKA: esta ferramenta de KDD tem implementado algoritmos de preparação de dados, data mining e de validação de resultados. Seu código é aberto e encontra-se disponível na internet. A ferramenta permite a visualização gráfica dos resultados em árvores de decisão, diagramas de dispersão, histogramas e apresenta modelos para a construção de redes neurais (GOLDSCHIMIDT; PASSOS, 2005, p. 127) (SILVA, 2004, p. 14). Maiores informações em www.cs.waikato.ac.nz. Na Tabela 2 tem-se uma visão geral das ferramentas de data mining, analisando-se as tarefas que estão implementadas, bem como a sua disponibilidade comercial ou não. 7 Processo de detecção de desvios tem como objetivo encontrar informações fora dos parâmetros normais, ou seja, casos anômalos (ESTIVALET, 2000) 37 Ferramenta Tabela 2. Comparativo das Ferramentas de Data mining Tarefas Oracle Data mining Bramining Intelligent Miner for Data WizRule WEKA Classificação, Regressão, Associação, Clusterização e Mineração de Textos Classificação, Regras de Associação, Regressão, Sumarização Classificação, Regras de Associação, Seqüenciais, Clusterização, Sumarização Sumarização, Classificação, Detecção de Desvios Classificação, Regressão, Regras de Associação, Clusterização Fonte: GOLDSCHIMIDT, R.; PASSOS, E. (2005) Plataforma Gratuidade Windows Não Windows Não Linux e Windows Não Windows Sim Linux, Macintosh e Windows Sim No desenvolvimento desta pesquisa utilizou-se a ferramenta de data mining WEKA, que será abordada a seguir. 4.5.1 WEKA Waikato Environment for Knowledge Alalysis (WEKA) é uma ferramenta de código aberto, disponível na internet8, desenvolvida em linguagem Java pelo curso de Ciência da Computação da Universidade de Waikato na Nova Zelândia. Essa ferramenta possui implementadas as seguintes tarefas e métodos (Witten; Frank, 2000) (MORATE; 2004): a) tarefas: pré-processamento de dados e aplicação de filtros, clusterização, classificação, associação, seleção de atributos e visualização de dados; b) métodos: bayes, functions, lazy, meta, trees, rules, cobweb, farthestfirst, makedensity based clusterer, simple k-means, apriori, predictive apriori, tertius, entre outros. Segundo Goldschimidt e Passos (2005) e Morate (2004) o WEKA pode ser utilizado de diversas formas, uma vez que possui quatro diferentes interfaces 8 http://www.cs.waikato.ac.nz/ml/WEKA/ 38 implementadas, sendo elas: a) simple client: proporciona um local para inserir comandos. Apesar de possuir uma aparência simples, permite realizar qualquer operação suportada pela WEKA; b) explorer: nela é possível aplicar as tarefas e métodos sobre a base de dados; c) experimenter: consiste em aplicar um ou vários métodos de classificação sobre uma grande quantidade de dados, além de ter condições de realizar comparações estatísticas; d) knowledge-flow: é considerada a interface que apresenta de forma mais explicita o funcionamento da ferramenta, tendo sua representação de forma gráfica. Morate (2004) também esclarece que a WEKA suporta os seguintes atributos: e) numeric : representa números reais; f) integer: representa números inteiros; g) date: representa unidades te tempo (dd Dia; MM Mês; yyyy Ano, HH Horas; mm Minutos; ss Segundos); h) string: representa cadeia de textos. Não é utilizado no processo de data mining, mas sim como identificador das instâncias. i) enumerado: consiste em representar entre chaves, separando por vírgula, valores que pode ser tomados como atributos, como por exemplo, @attribute periodo {M,V,N,I }. A WEKA suporta arquivos ARFF, CSV e C45, mas só no arquivo ARFF é que ele consegue executar o processo de data mining. 39 Nesta pesquisa utilizou-se a ferramenta WEKA para a clusterização, por meio do método de particionamento k-means, e a classificação, por meio de regras com o método ZeroR, com o objetivo de delinear por área o perfil do desempenho docente no contexto da avaliação do ensino de graduação da Unesc. O fator determinante na escolha da ferramenta deveu-se ao fato de a mesma possuir as tarefas e métodos definidos para a pesquisa, bem como sua disponibilização ser de acesso público. 40 5 A TAREFA DE CLUSTERIZAÇÃO EM DATA MINING A tarefa de clusterização, de uma forma geral, é o processo cuja ação é agrupar dados de um conjunto de elementos de forma que os grupos formados a partir desse agrupamento, denominados clusters, apresentem a maior similaridade possível dos dados no mesmo cluster (DIAS, 2004, p. 17). Ochi, Dias e Soares (2004, p.3) abordam que a distância entre dois dados é considerada como um importante critério para identificar sua similaridade, onde as diferenças dos valores que cada atributo são trabalhadas, ou seja, maior é a similaridade entre o par dos dados quanto menor for a distância entre eles. Algumas medidas de distâncias bastante utilizadas são (OCHI; DIAS; SOARES, 2004, p.3): a) distância euclidiana: considera a distância d entre dois dados Xi e Xj no espaço p-dimensional: b) distância city-block: corresponde a soma das diferenças entre todos os p atributos de dois dados Xi e Xj, não sendo indicada para os casos em que existe uma correlação entre tais atributos: Dias (2004, p. 17) aponta que a tarefa de clusterização tem sido abordada com regularidade na literatura como a solução para diversos problemas práticos, nas 41 mais diferentes áreas do conhecimento. A Bioinformática, por exemplo, é uma das áreas em que esta aplicação ocorre, sobretudo no que se refere a descoberta de padrões de expressão gênica em microarrays9, aplicando-se também esta tarefa na área de engenharia de software para particionar a estrutura modular de sistemas de informação. Na tarefa de clusterização métodos heurísticos10 são propostos para fornecer soluções consideradas praticamente ideais na resolução de problemas. Porém, em função da diversidade heterogênea das aplicações de clusterização, os métodos heurísticos são desenvolvidos para classes de problemas específicos. Assim, não há uma heurística genérica que forneça bons resultados para diferentes aplicações de clusterização (OCHI; DIAS; SOARES, 2004, p. 5) Fasulo (1999, p.4) esclarece que as heurísticas para solução de problemas de clusterização podem ser classificadas, de forma geral, em: a) método de particionamento: consiste na divisão do conjunto dos dados em k subconjuntos. Neste método para clusterização incluem-se os algoritmos K-means e K-Medoid; método hierárquico: os clusters vão formando de maneira gradativa aglomerações ou divisões de dados/clusters, originando assim uma hierarquia entre os mesmos. Essa hierarquia é habitualmente representada por meio de uma estrutura em árvore, como é possível verificar na Figura 3 (DIAS, 2004, p.20). 9 Microarray do inglês, microarranjo, arranjo de clones de DNA imobilizados sobre uma lâmina de vidro para análises de expressão gênica. A principal vantagem dos microarrays é a automatização. (Definição retirada da obra Glossário de Biotecnologia, edição 2005.). Link consultado <http://www.cib.org.br/glossario.php>. 10 Método Heurístico: Método analítico que conduz à descoberta e à comprovação de verdades científicas, à invenção e à solução de problemas. O método de tentativa e erro é um exemplo de um método heurístico (GENNARI, 1999,p.158). 42 Figura 3. Exemplo de árvore de clusters no método hierárquico Fonte: DIAS, C. (2004, p.21) A presente pesquisa aplicou, primeiramente, na base de avaliação do ensino de graduação da UNESC a tarefa de clusterização e posteriormente a tarefa de classificação, a fim de realizar uma análise comparativa entre os resultados apresentados na utilização destas tarefas. Aurélio, Vellasco e Lopes (1999, p. 15) declaram que tendo-se criado os clusters é possível aplicar um algoritmo de classificação neles, gerando-se dessa forma regras. Na seção a seguir são abordados os métodos de particionamento. 5.1 Métodos de Particionamento para Clusterização Como citado anteriormente, o método de particionamento consiste na divisão do conjunto de dados dos dados em k subconjuntos (FASULO, 1999, p.4). Neste método incluem-se os seguintes algoritmos(GOLDSCHIMIDT; PASSOS, 2005): a) K-means: consiste em definir um parâmetro de entrada k e dividir um conjunto de n objetos em k clusters de forma que a similaridade intracluster seja alta, porém intercluster seja baixa; 43 b) K-Medoid: consiste em localizar o objeto que estiver mais no centro do cluster; c) K-Modes: esse algoritmo é uma variação do K-means, mas usado apenas para dados nominais; d) K-Prototypes: este método é uma união dos algoritmos K-means e Kmodes e pode ser aplicado em bases que tenham tanto dados numéricos quanto nominais. 5.1.1 O Algoritmo K-means Berkhin (2002, p.15) afirma que o algoritmo k-means é um dos mais populares, sendo utilizados em aplicações de âmbito científico e industrial. A execução deste algoritmo parte do princípio de seleção aleatória de k objetos, sendo que, num primeiro momento, cada um representa a média de um cluster. Quanto aos objetos restantes, para eles é realizada a atribuição a um cluster a que esses objetos tenham maior similaridade, sendo que esse processo ocorre até que os centróides não sejam mais alterados (GOLDSCHIMIDT; PASSOS, 2005, p. 102). O critério de agrupamento do k-means pode ser descrito como sendo: , onde: a) Xok é o centróide de Ck ; b) d(X1, X0k ) é a distancia entre os pontos X1 e X0k . Analisando o k-means Gama (2002, p.14) esclarece que: 44 a) há influência da configuração inicial na solução obtida; b) não há prova de que todos os elementos ou objetos se dirijam para o ponto previsto; c) não existe qualquer garantia de convergência para a melhor solução, pois são desconhecidos seus limites; d) no caso do critério de mínimos-quadrados11, existe a tendência de divisão de grupos com maior número de elementos, mesmo em situações em que os grupos estejam bem definidos. Atualmente são encontradas muitas variações do algoritmo k-means, mas em geral essas variações referem-se a seleção das k médias iniciais, no cálculo de similaridades ou na estratégia para o cálculo da média dos clusters . Nesta pesquisa além da tarefa de clusterização e do método k-means aplicou-se a tarefa de classificação, apresentada no Capítulo a seguir. 11 É uma técnica de otimização matemática que busca encontrar um melhor ajuste para um conjunto de dados. Link consultado Wikipédia < http://pt.wikipedia.org/wiki/M%C3%A9todo_dos_m%C3%ADnimos_quadrados > 45 6 A TAREFA DE CLASSIFICAÇÃO Conforme abordado anteriormente, a classificação compreende a categorização12, pré-determinada, de registros de uma base de dados. A partir dessa categorização é possível que se faça a previsão de comportamentos futuros dos registros que serão armazenados (GOLDSCHIMIDT; PASSOS, 2005, p. 13). Segundo Aurélio, Vellasco e Lopes (1999, p.14) a tarefa de classificação é a mais estudada em data mining. Nela, cada tupla13 está relacionada a uma classe entre um conjunto pré-definido de classes. Goldschimidt e Passos (2005, p.68) relatam que não há um algoritmo de classificação que se sobreponha aos demais na resolução de problemas. Desse modo, ao empregar-se a tarefa de classificação para uma nova aplicação de data mining, torna-se necessário experimentar os algoritmos disponíveis a fim de definir aquele que melhor se adequa. Alguns dos métodos utilizados são: a) regras de classificação: identificam a partir de seus atributos aquele ao qual pertence um elemento, considerando-se um conjunto prédefinido de classes (VICTOR; s/d; p.26); b) árvores de decisão: são estruturas em formato de árvore, cujas ramificações representam as decisões. A partir destas decisões são geradas regras que classificam o conjunto de dados (QUITÉRIO et al, 2001, p. 7); 12 Categorização: Classificação por categorias (Dicionário Enciclopédico Ilustrado, 2006, p.576) Tuplas: Formalmente falando, uma tupla é uma lista ordenada de valores, onde cada valor é do domínio especificado pelo atributo definido no esquema de relação. Link consultado <http://pt.wikipedia.org/wiki/Banco_de_dados_relacional#Registros_.28ou_tupla.29 > 13 46 c) redes bayesianas: são representações elaboradas a partir de formalizações matemáticas, compondo esquemas simbólicos do conhecimento (BARRETO, 2004b); d) algoritmos genéticos: baseados no conceito de evolução, os algoritmos genéticos usam processos de combinações genéticas, mutações e seleção natural (QUITÉRIO et al, 2001, p. 7); e) redes neurais: fundamentada em arquétipos matemáticos, possuem estrutura semelhante a das redes neurais biológicas apresentando atividades de aprendizado e generalização (BRAGA; CARVALHO; LUDERMIR, 2003, p. 142). 6.1 Classificação por meio de Regras Segundo Victor (s/d; p. 26) regras de classificação consistem na identificação de qual classe pertence um elemento a partir de seus atributos. Além disso, ele também permite encontrar a função para a realização dessa classificação. Neste método incluem-se os seguintes algoritmos: a) ZeroR: prediz qual o valor é mais freqüente nos dados de treinamento (NEVES; 2004, p. 19); b) OneR: discretiza atributos numéricos e utiliza a regra baseada num único atributo (TAVARES, 2003); c) Prism: contém um conjunto de regras apenas para atributos nominais e sem valores faltantes (TAVARES, 2003). Dentre esses algoritmos de classificação por meio de regras, esta pesquisa consistiu no estudo e aplicação do ZeroR. 47 6.1.1 Algoritmo ZeroR Segundo Witten e Frank (1999, p.283) o ZeroR é um algoritmo de aprendizagem do WEKA, considerado primitivo, pois modela uma base de dados com uma única regra, usando a previsão de média ou de moda14. Ele também possibilita realizar uma comparação exata do seu ponto de partida, permitindo mensurar a melhora relativa, caso haja. Esse algoritmo tem como característica realizar uma predição do valor nominal que teve mais ocorrência na base de dados, originando uma matriz de confusão a fim de demonstrar o percentual de acerto para um determinado atributo nominal (NEVES, 2004). Tanto o algoritmo k-means quanto o ZeroR foram aplicados na base de Avaliação do Ensino de Graduação, para delinear por área o perfil do desempenho docente. Nesse sentido, no Capítulo 7, aborda-se o tema Avaliação Institucional, bem como um breve histórico da mesma na Universidade do Extremo Sul Catarinense (UNESC). 14 Cálculo estatístico que apresenta o valor que aparece com mais freqüência. 48 7 AVALIAÇÃO INSTITUCIONAL A Avaliação Institucional tem estado, atualmente, em grande evidência no Brasil. Isso se deve em função do Sistema Nacional de Avaliação da Educação Superior (SINAES). Antes de aprofundar o tema é importante fazer uma distinção com relação a: (1) Avaliação Educacional e (2) Avaliação Institucional. Ambas são avaliações da área da educação, mas a primeira preocupa-se em verificar o conhecimento auferido pelo sujeito, seja em uma situação de aprendizado, seja no exercício profissional. Já a segunda preocupa-se em avaliar a instituição como um todo, pois ela permite realizar um diagnóstico da IES em seu caráter global, suas políticas e especificidades, na busca da qualidade (LEITE, 2005, p. 33) A avaliação institucional em educação tem compromisso social, pois busca contribuir para o processo de desenvolvimento científico e social, implicando o fortalecimento da cidadania. Esse compromisso se concretiza na melhoria da qualidade de ensino (UNESC, 2003, p.19). A Avaliação Institucional das IES no Brasil teve início em 1993, onde a Secretaria de Educação Superior (SESU) do Ministério da Educação e do Desporto (MEC), cujo papel nesse processo foi o de coordenação, articulação e agente financiador, criou a Comissão Nacional de Avaliação das Universidades Brasileiras. Essa comissão, com o objetivo de estabelecer diretrizes para o Programa de Avaliação Institucional das Universidades Brasileiras (PAIUB), reuniu para o debate varias entidades representativas das IES, entre elas: Associação Nacional dos Dirigentes das Instituições Federais de Ensino Superior (ANDIFES); Associação Brasileira das Universidades Estaduais e Municipais (ABRUEM); Associação das Universidades Particulares (ANUP); Associação Brasileira das Escolas Católicas 49 (ABESC); Fóruns Nacionais de Pró-Reitores de Graduação, Pesquisa, Extensão, Pós-Graduação, Planejamento e Administração (UNESC, 2003, p.21). O edital que convidava as instituições de ensino superior brasileiras para aderirem ao PAIUB, enviando seus projetos, foi publicado no final de 1993. Seu objetivo era o aperfeiçoamento da qualidade do ensino, da pesquisa, da extensão e da gestão acadêmica. Sua adesão, pelas universidades, era voluntária. Segundo Leite (2005, p. 51), cada universidade que aderiu ao PAIUB e teve seu projeto aprovado pelo SESU/MEC era responsável por controlar seu processo avaliativo. Ainda citando Leite (2005, p. 52), a autora aponta que, a partir da aprovação dos projetos, 116 instituições, de caráter público e comunitário, 16 centros e escolas e 4 Centros Federais de Educação Tecnológica, receberam recursos destinados a implantação e ações previstas no projeto. Depois a IES, por meio de relatórios, realizava a prestação de contas ao MEC, onde informava como foram aplicados os valores recebidos, bem como as ações executadas. Após 1996, os recursos para a manutenção do PAIUB foram cortados, sendo que o MEC gradualmente substituiu a concepção de avaliação proposta no programa pela concepção anteriormente adotada, implantando o Exame Nacional de Cursos (ENC) – popular PROVÃO, a Avaliação das Condições de Ensino (ACE) e o Ranking Nacional das IES, sendo obrigatória a participação das instituições (UNESC, 2003, p.22) (LEITE, 2005, p. 53). Apesar dessa nova concepção entrar em vigor, muitas universidades, inclusive a UNESC, deram continuidade ao processo de Avaliação Institucional, mantendo os princípios do PAIUB, realizando avaliações internas e externas. Em 2003 surge a proposta para uma nova forma de avaliação e regulação 50 da educação superior, que foi apresentada pela Comissão Especial de Avaliação (CEA) e entregue ao então Ministro da Educação, Cristovam Buarque. Esse documento elaborado pela CEA, após consultas junto a comunidade acadêmica15 e a sociedade civil organizada, teve seu texto submetido a audiências públicas. À partir desta ampla discussão surgiu o documento base do Sistema Nacional de Avaliação da Educação Superior (SINAES), que será abordado no próximo item. 7.1 Avaliação Institucional segundo o SINAES O SINAES foi instituído por meio da Lei Federal nº 10.861, de 14 de abril de 2004 e pela Portaria 2.05116, de 9 de julho de 2004, que regulamenta a Lei. O SINAES tem por finalidades a melhoria da qualidade da educação superior, a orientação da expansão da sua oferta, o aumento permanente da sua eficácia institucional e efetividade acadêmica e social e, especialmente, a promoção do aprofundamento dos compromissos e responsabilidades sociais das instituições de educação superior, por meio da valorização de sua missão pública, da promoção dos valores democráticos, do respeito à diferença e à diversidade, da afirmação da autonomia e da identidade institucional (Art. 1, § 1º, da Lei 10.861/2004). Visando a sua finalidade definida em legislação, o SINAES tem seus princípios17 fundamentados nos seguintes pontos: a) responsabilidade social com a qualidade da educação superior; b) reconhecimento da diversidade do sistema; c) respeito à identidade, missão e história das instituições; d) globalidade, ou seja, a instituição deve ser avaliada baseando-se em um conjunto de indicadores de qualidade e não de forma isolada; e) continuidade do processo avaliativo. 15 Entende-se por comunidade acadêmica o conjunto formado pelo corpo docente, discente e técnicoadministrativo. 16 A Lei 10.861/04 e a Portaria 2.051/04 estão disponíveis no sitio do MEC <http://www.mec.gov.br> 17 “Roteiro de Auto-Avaliação Institucional”, p. 7 - <http://portal.mec.gov.br/arquivos/pdf/roteiro.pdf> 51 Baseado nesses princípios, o SINAES é composto por três formas/processos de avaliação, que são aplicadas em diferentes momentos e o resultado final desse conjunto é que permite avaliar a IES como um todo. A composição dos três processos, a saber, são: Avaliação das Instituições de Educação Superior (AVALIES); Avaliação dos Cursos de Graduação (ACG); e Avaliação Nacional de Desempenho do Estudante (ENADE)18. a) Avaliação das Instituições de Educação Superior (AVALIES): é dividida em: - Auto-avaliação: coordenada pela Comissão Própria de Avaliação Institucional (CPA); - Avaliação externa: por especialistas do MEC/CEE – segundo diretrizes estabelecidas pela Comissão Nacional de Avaliação de Ensino Superior (CONAES). b) Avaliação dos Cursos de Graduação (ACG): avalia os cursos de graduação, que incluem visitas in loco de comissões externas. Sua periodicidade está relacionada ao processo de reconhecimento e renovação deste a que os cursos estão sujeitos; Avaliação Nacional de Desempenho do Estudante (ENADE): esse exame é aplicado aos estudantes do final do primeiro e último ano do curso. Ele é anual e o MEC, com base na orientação da CONAES, determina as áreas que participarão do exame. 18 “Diretrizes para a Avaliação das Instituições de Educação Superior”, p13, disponível <http://portal.mec.gov.br/arquivos/pdf/diretrizes.pdf> 52 7.2 Avaliação Institucional na Unesc Desde 1995 a UNESC conta com uma Comissão de Avaliação Institucional (COMAVI), cujo papel é o de: a) coordenar o processo interno de execução da avaliação institucional da Universidade, que é construído coletivamente; b) realizar coleta de dados, tabulação, análise e devolução dos resultados, por meio de relatórios específicos, com o objetivo de aprimorar a qualidade dos serviços prestados por esta Universidade; c) encaminhar à CPA da UNESC os relatórios elaborados a partir das avaliações aplicadas junto a comunidade interna (discentes, docentes, gestores e funcionários) da Instituição e comunidade externa (sociedade civil organizada). Uma das avaliações desenvolvidas pela COMAVI é a do Ensino de Graduação, envolvendo a participação de todos os professores em atividade de docência e acadêmicos de todas as fases da UNESC. Consta como finalidades desse processo (UNESC, 2003, p. 34): a) realizar diagnóstico educacional considerando as qualidades e deficiências dos cursos da UNESC; b) oferecer aos professores elementos que contribuam para a crítica e autocrítica do seu fazer pedagógico; c) fornecer elementos ao corpo discente, que contribua para a promoção de atitude responsável no processo de aprendizagem; 53 d) contribuir para o desenvolvimento da reflexão permanente sobre o ato educativo, buscando a qualidade de ensino. No instrumento de pesquisa aplicado ao acadêmico, o mesmo se autoavalia como discente do curso, avalia a coordenação geral e, depois, avalia cada disciplina a que está matriculado no semestre em que é aplicada a avaliação, bem como seus professores. Com relação aos professores, eles passam pelas mesmas duas primeiras etapas descritas no parágrafo anterior, além de avaliarem as turmas em que estão ministrando aula no período da pesquisa. A ação seguinte após a conclusão da aplicação da avaliação é encaminhamento aos professores do relatório contendo os resultados da avaliação pelos alunos, por meio de envelope nominal e lacrado, para que os docentes possam utilizar para fins de planejamento pedagógico. Em seguida são elaborados os relatórios das avaliações geral da UNESC e por cursos, que são enviados as entidades representativas da Instituição. Entendendo que esta avaliação é fundamental para a Instituição e que a aplicação do processo de data mining pode contribuir com o diagnóstico por área do perfil do desempenho docente, o Capítulo 8 aborda o processo realizado para a descoberta de conhecimento na base de dados da avaliação institucional do ensino de graduação da UNESC, bem como os resultados obtidos. 54 8 APLICANDO DATA MINING NA AVALIAÇÃO DO ENSINO DE GRADUAÇÃO No início desta pesquisa, quando a mesma ainda estava na fase do projeto, pensou-se, num primeiro momento, em conhecer o perfil docente e discente no contexto da avaliação do ensino de graduação. Portanto, seria necessário aplicar uma tarefa e método de data mining na base de dados de avaliações realizadas em 2002, 2003 e 2005. Porém, com o decorrer do processo, percebeu-se a impossibilidade de se realizar esta análise histórica, pois a escala que consta no instrumento de pesquisa aplicado em 2003 e 2005 era diferente, não permitindo a comparação dos resultados. Outro aspecto que também não foi possível levar adiante refere-se ao perfil docente e discente. Como houve atraso na disponibilização da base de dados, devido ao grande volume de atividades que a Instituição está envolvida, foi preciso optar por um dos perfis, devido ao curto espaço de tempo. Dessa forma, como o perfil, por área, do desempenho docente permite realizar um estudo mais amplo, foi ele o escolhido. As questões que constaram do instrumento de pesquisa da avaliação institucional do ensino de graduação, aplicada em 2005, realizada pelo discente avaliando o docente, e que fizeram parte da análise, foram: a) cumpre os horários previstos para as aulas / atividades (não chega tarde e não sai cedo das aulas); b) aproveita o tempo em sala de aula; c) apresenta o conteúdo numa linguagem compreensível; d) demonstra conhecer bem a disciplina que leciona; 55 e) demonstra estar atualizado(a) em relação ao conteúdo que ministra; f) respeita os acadêmicos como pessoa e os trata com cordialidade e educação; g) controla a ordem disciplinar em sala de aula; h) informa aos acadêmicos como será desenvolvida a disciplina; i) estabelece relação entre teoria e prática, ou entre prática e teoria; j) é receptivo(a) a críticas, sugestões e questionamentos, ou seja, permite debate de diferentes opiniões; k) responde as perguntas dos acadêmicos e esclarece as dúvidas em sala de aula; l) estimula a discussão de idéias e conteúdos; m) estimula os acadêmicos a serem independentes na busca do conhecimento; n) define com clareza e objetividade os critérios de avaliação desta disciplina; o) os conteúdos das avaliações estão de acordo com os apresentados nas aulas; p) devolve os resultados das avaliações antes da próxima avaliação; q) apresenta e discute os resultados das avaliações escritas, trabalhos, etc. A legenda utilizada para que pudessem responder a avaliação foi: (0) Não sei avaliar; (1) Sempre/sim; (2) Muito/com freqüência; (3) Regular/frequentemente; (4) Pouco/às vezes; (5) Nunca/não; (6) Não se aplica/não é meu professor. Partindo das premissas anteriores, nas próximas seções são apresentadas a metodologia utilizada durante a execução desta pesquisa, bem 56 como os seus resultados. 8.1 Metodologia Conforme os objetivos geral e específicos propostos no início deste trabalho, num primeiro momento se estudou e buscou compreender como se dá o processo de descoberta do conhecimento e data mining por meio de literatura especializada e trabalhos acadêmicos já realizados. No segundo momento, entrou-se em contato com a Diretoria de Informática da IES, onde fica armazenada a base de dados da avaliação do ensino de graduação da UNESC. A ela foi solicitada uma cópia da base que compõe a avaliação do desempenho docente realizada pelos acadêmicos, onde os mesmos avaliam os professores e as disciplinas que estão matriculados no semestre em que ocorre a avaliação. Neste caso, foi realizado o processo de seleção dos dados, conforme previsto nas etapas do KDD, pois para estudar o perfil do desempenho docente entendeu-se que os seguintes dados da pesquisa eram desnecessários: acadêmicos e professores avaliando a gestão do curso, auto-avaliação discente e docente e os professores avaliando, de forma geral, as turmas em que ministram aula. A seguir realizou-se o pré-processamento e transformação, onde foi executada a exclusão de dados considerados nulos (respostas em branco). Também foi organizado o arquivo como um todo, para que fosse possível iniciar o processo de data mining. Além disso, a base precisou ser readequada para conter a informação referente as 4 grandes áreas em que estão organizados os cursos de graduação da UNESC: Engenharia e Tecnologia; Saúde e Biológicas; Licenciatura; e 57 Sociais Aplicadas. Dando continuidade, foi utilizada a ferramenta WEKA para realizar a etapa de data mining, aplicando-se, na base da avaliação do professor pelos acadêmicos, a tarefa de clusterização e o método k-means. Ao dar início a aplicação da tarefa de clusterização, foi alterado, conforme é possível observar na Figura 4, o valor de -N (número de clusters) para 4 (correspondente ao número de áreas de conhecimento da UNESC) e o de -S (número de centróides iniciais) permaneceu o valor 10, default da ferramenta. Figura 4. Tela do WEKA Explorer executando o método k-means Após, foi aplicada a tarefa de classificação e o método ZeroR. No princípio desta pesquisa, pensou-se em aplicar a tarefa de classificação o método ID3, mas devido a expressiva quantidade de registros que a base continha (36.672 instâncias), não foi possível realizar essa ação. Isto aconteceu em função da WEKA 58 utilizar tecnologia Java e possuir memória inicial do Java Virtual Machine19 (JVM) alocada para 32M. Mesmo conseguindo expandir a memória inicial de 32M para 128M por meio da linha de código java –Xms32M –Xmx128M –jar weka.jar não foi possível resolver o problema de Out of Memory. Nesse sentido, optou-se pelo algoritmo ZeroR como alternativa para implementar o estudo. Encerrando a parte relacionada ao processo de data mining da base da avaliação docente pelo discente, foi realizada a análise dos resultados obtidos com a aplicação destas tarefas, que encontra-se descrita a seguir. 8.2 Resultados obtidos Na execução da etapa de data mining por meio das tarefas de clusterização e classificação utilizaram-se os dados da avaliação discente do desempenho docente, que contém 36.672 instâncias e 21 atributos. A partir da análise visual dos resultados fornecidos pelos algoritmos kmeans e ZeroR, gerada pela ferramenta WEKA, foi possível visualizar e entender os dados envolvendo cada questão da avaliação institucional, bem como realizar uma análise por área, possibilitando assim delinear um perfil do desempenho docente, apresentados nas seções a seguir. 19 Segundo a definição da Sun, JVM ou, em português, Máquina Virtual Java, pode ser entendido como "uma máquina imaginária implementada via software ou hardware que executa instruções vindas de bytecodes" e permite executar seu código em qualquer plataforma. Disponível em < http://java.sun.com/ > 59 8.2.1 Clusterização Observando de forma geral os resultados obtidos pelo algoritmo k-means, foi possível detectar, conforme a Figura 5, que a ferramenta, após ser criar os 4 clusters, apresentou como decorrência do processo de data mining as seguintes respostas para cada cluster: a) cluster 0: com 24% de instâncias; b) cluster 1: com 38% de instâncias; c) cluster 2: com 28% de instâncias; d) cluster 3: com 11% de instâncias. Considerando que as áreas de conhecimento da UNESC não contêm o mesmo número de cursos agrupados (Anexo A), essa variação de instâncias por cluster é justificada. Outro aspecto que pode ser analisado na Figura 5, diz respeito a análise da questão referente ao cumprimento dos horários previstos para as aulas / atividades (questão a). Nesta questão houve o maior resultado no indicador “Sim/Sempre”, com 63,83% dos discentes reconhecendo que seus professores cumprem o horário acadêmico e 14,57% apontando que os educadores cumprem “Muito/ Com freqüência”. Ao somar esses dois indicadores considerados positivos pela avaliação tem-se um total de 78,40%. Os resultados das demais questões podem ser vistos no Apêndice A. 60 Figura 5. Resultado da aplicação da tarefa de clusterização para a questão a Dando continuidade, também é possível realizar a análise da tarefa de clusterização observando as 17 questões que foram mineradas, onde pode-se considerar que: a) área de Licenciatura: a ferramenta determinou que a 3ª fase do curso de Educação Física, período noturno, era o centróide do cluster 0. Nele foi possível observar, juntamente com os dados do Apêndice C, que houve o maior número de respostas no indicador “Regular/ Frequentemente”, seguida pela resposta “Muito/ Com freqüência”, perfazendo um total de 76,47% e 23,53% respectivamente. 61 b) área de Saúde e Biológicas: a ferramenta determinou que a 1ª fase do curso de Medicina, período integral, era o centróide do cluster 1. Neste caso também foi possível notar que o número de respostas foi de 100% no indicador “Sempre/ Sim”. c) área de Sociais Aplicadas: a ferramenta determinou que a 4ª fase do curso de Direito, período noturno, era o centróide do cluster 2. Examinando os dados, percebeu-se que o indicador “Muito/ Com freqüência” foi o que teve maior número de resultados, constituindo um total de 76,47%. d) área de Engenharia e Tecnologia: a ferramenta determinou que a 2ª fase do curso de Engenharia Civil, período noturno, era o centróide do cluster 3. Nele foi possível observar que o maior número de respostas ocorreu no indicador “Pouco/ Às vezes”, seguido pela resposta “Regular/ Frequentemente”, perfazendo um total de 58,82% e 23,53% respectivamente. 8.2.2 Classificação O método de classificação ZeroR é um algoritmo simples, cuja característica principal é esboçar uma única regra a partir do item que se apresenta o maior número de vezes na base de dados. Pode-se dizer que seu desempenho foi regular, porém ele não é o mais indicado para realizar uma predição com acurácia e detalhamento. Uma vez que esse algoritmo foi aplicado após a clusterização da base de 62 dados, ele apresentou resultados, com algumas variações percentuais, de que o indicador “Sempre/Sim” é o que teve maior número de incidências, conforme exemplo da Figura 6. Figura 6. Resultado da aplicação da tarefa de classificação para a questão a Como é possível examinar na Figura 6, observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, onde obteve-se um percentual de acerto de 63,83%. Este percentual de acerto poderia ter sido maior, porém ocorreu a classificação incorreta de 13264 instâncias (aproximadamente 36,17%). No Apêndice B está 63 descrito a análise, por questão, dos resultados fornecidos pelo ZeroR. A partir dos dados descritos nos resultados obtidos pela aplicação da tarefa de clusterização, por meio do algoritmo k-means, e da tarefa de classificação, usando o algoritmo ZeroR, pode-se inferir que, num contexto geral, as áreas possuem um perfil de desempenho docente favorável. Porém, tem-se a exceção da área de Engenharia e Tecnologia, cujos indicadores que apontam fragilidade foram os que mais apareceram durante o processo de data mining. 64 9 CONCLUSÃO O uso de ferramentas de data mining para propiciar a descoberta de conhecimento auxilia no processo de exploração dos dados contidos em uma base, permitindo a geração de informações importantes para as tomadas de decisões. Essa crescente utilização se deve ao fato de que o processo de data mining pode ser aplicado, desde que observado os cuidados inerentes a sua utilização, em várias áreas e instituições como: públicas, privadas, de ensino, da saúde, entre outras. Nesta pesquisa foi demonstrada a relevância do processo de data mining na descoberta de conhecimento no que se refere a avaliação do ensino de graduação da UNESC em 2005. Assim, teve-se o objetivo de analisar por área o perfil do desempenho docente por meio da aplicação das tarefas de clusterização pelo algoritmo k-means e classificação pelo algoritmo ZeroR. Durante o processo percebeu-se a dificuldade de aplicar o processo de data mining em uma base com grande quantidade de dados, principalmente quando se tentou utilizar o algoritmo ID3. Como não foi possível dar prosseguimento a pesquisa utilizando este método, buscou-se uma outra alternativa, conforme descrito na seção 8.1, que permitiu dar continuidade ao trabalho. Os resultados obtidos, tanto com a clusterização da base de dados, quanto a sua posterior classificação, permitiram gerar um juízo sobre o desempenho docente, por área de conhecimento, no contexto da avaliação institucional da UNESC. Os dados apontaram que para a área de exatas precisa-se pensar ações que minimizem os aspectos frágeis, mas isso não quer dizer que as áreas que 65 apresentaram um desempenho favorável devem ser descuidadas. Dessa forma, sugere-se que as ações podem ser implementadas de forma global, conforme a área de conhecimento, permitindo assim minimizar as fragilidades. Entende-se que a pesquisa foi concluída de forma satisfatória, sendo que seus objetivos geral e específicos foram atingidos de forma plena. A fim de dar continuidade a esta pesquisa, alguns trabalhos podem ser realizados, como por exemplo, a aplicação de outros algoritmos para análise dos resultados, gerando-se, futuramente, um estudo comparativo. Tem-se a intenção também, de aplicar a mesma metodologia do trabalho, inclusive os mesmos algoritmos, para delinear o perfil discente desta avaliação institucional do ensino de graduação aplicada em 2005. Ao final, será possível correlacionar os dados do perfil discente com o do docente. Outra proposta seria aplicar o processo de data mining nas avaliações realizadas pela COMAVI, tais como: dos formandos e do egresso da graduação, entre outros. 66 REFERÊNCIAS BARRETO, Alexandre Serra. Considerações prévias à utilização empírica do Data-Mining. In. SQL Magazine (versão digital). 2004a Disponível no link: http://www.sqlmagazine.com.br/Colunistas/AlexandreBarreto/02_DataMining.asp. Acessando em: 25 out 2005 __________. Extração de Conhecimento em Bases de Dados por Redes Bayesianas. In. SQL Magazine (versão digital). 2004b. Disponível no link: http://www.sqlmagazine.com.br/Colunistas/AlexandreBarreto/04_RedesBayesianas.a sp . Acessando em: 25 out 2005 BELLONI. Isaura, A função social da avaliação institucional, In: SOBRINHO, José Dias, RISTOFF, Dilvo, Universidade Desconstruída, 2000. BERKHIN, P. Survey of Clustering Data mining Techniques. Accrue Software, 2002. Disponível no link: http://www.it.bond.edu.au/inft623/053/Downloads/ cluster_review.pdf. Acessado em 7 jun 2006. BRAGA, Antônio de P; CARVALHO, André C.P.L.F; LUDERMIR, Teresa B. Redes Neurais Artificiais. In: Sistemas Inteligentes: Fundamentação e Aplicações. Barueri, SP: Manole, 2003. 525 p. CARVALHO, Luís A. V. de. Data mining: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001. CARVALHO, Flávia P. de; FAGUNDES JUNIOR, Aguinaldo; SILVEIRA, Jorge G.; AZAMBUJA, Marcelo C. de. KDD-NMS: Um Sistema de Descoberta de Conhecimento e Mineração em Bases de Dados de Sistemas de Gerência de Redes. 2003. Disponivel no link: http://www.rnp.br/_arquivo/wrnp2/2003/oscfa01a.pdf. Acessado em 26 mar 2006. DIAS, Carlos Rodrigo. Algoritmos Evolutivos para o Problema de Clusterização de Grafos Orientados: Desenvolvimento e Análise Experimental. Rio de Janeiro, 2004. Dissertação (Mestrado em Computação Aplicada e Automação) - Universidade Federal Fluminense - Programa de Pós-Graduação em Computação Aplicada e Automação. Área de concentração: Otimização e Inteligência Artificial. 2004. DIAS, Madalena Maria. Um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados. – Florianópolis, 2001. Tese (Doutorado em Engenharia de Produção) Universidade Federal de Santa Catarina – Programa de Pós-graduação em Engenharia de Produção, 2001. 212 p. __________. Parâmetros na escolha de técnicas e ferramentas de mineração de 67 Dados. Acta Scientiarum, v. 24, n. 6, p. 1715-1725, 2002. Maringá. Disponível no link: <http://www.ppg.uem.br/Docs/ctf/Tecnologia/2002/18_279_02_ Maria%20Dias_Parametros%20na%20escolha.pdf>. Acessado em 20 mar 2006. DICIONÁRIO ENCICLOPÉDICO ILUSTRADO: VEJA LAROUSSE. V. 5. São Paulo: Editora Abril, 2006. ESTIVALET, Verônica Louroza. Um Estudo sobre Detecção de Desvios Aplicada à Área da Saúde. 2000. Artigo disponível no link http://www.inf.ufrgs.br/pos/SemanaAcademica/Semana2000/VeronicaEstivalet. Acessado em 20 jun 2006. FASULO, D. An Analysis of Recent Work on Clustering Algorithms. Technical Report, Dept. of Computer Science and Engineering, Univ. of Washington, 1999. Disponível no link: http://citeseer.ist.psu.edu/cache/papers/cs/9073/http:zSzzSzwww. cs.washington.eduzSzhomeszSzdfasulozSzclustering.pdf/fasulo99analysi.pdf. Acessado em 7 jun 2006. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data mining to Knowledge Discovery in Databases. 1996. in: The American Association for Artificial Intelligence. AI Magazine. Disponível no link: http://kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf. Acessado em: 02 jan 2006. GAMA, J. Métodos de Agrupamento (Clustering). 2002 . Laboratório de Inteligência Artificial e Ciência de Computadores. Universidade do Porto – Portugal. Disponivel no link http://www.liacc.up.pt/p-index.html. Acessado em 10 jun 2006. GIMENES, E. Data mining – Data Warehouse: A Importância da Mineração de Dados em Tomada de Decisões. 2000. Monografia (Tecnólogo em Processamento de Dados) − Faculdade de Tecnologia de Taquaritinga, Centro Estadual de Educação “Paula Souza”, Taquaritinga. Disponível em: http://geocities.yahoo.com.br/dugimenes/. Acessado em: 22 mar 2006. GARCIA; Ana C. B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de Conhecimento. In: Sistemas Inteligentes: Fundamentação e Aplicações. Barueri, SP: Manole, 2003. 525 p GONÇALVES, Lóren P. F. Mineração de Dados em Supermercados: o caso do supermercado “Tal”. – Porto Alegre, 1999. Dissertação (Mestrado em Administração) - Universidade Federal do Rio Grande do Sul - Programa de Pósgraduação em Administração – Convênio UFRS/URCAMP , 1999. 36p. HAN, Jiawei; KAMBER, Micheline. Data mining: Concepts and Techiniques. San Diego: Academic Press, 2001. HERDT, Rudiney M. Utilização de Técnicas de Mineração de Dados na Análise das Informações de Uma Universidade. – Florianópolis, 2001. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina Programa de Pós-graduação em Engenharia de Produção, 2001. 93p. 68 KIMBAL, Ralph; MERZ, Richard. Data Warehouse: Construíndo o data warehouse para WEB. Tradução Edson Furmankiewicz, Joana Figueiredo. Rio de Janeiro:Campus, 2000. 367p. LEITE, Denise. Reformas Universitárias: Avaliação Institucional Participativa. Coleção Universitárias. Petrópolis, RJ: Vozes, 2005. 141 p. LUFT, Celso Pedro. Pequeno Dicionário da Língua Portuguesa. 5ª Edição. São Paulo: Editora Scipione, 1987. 583p. MEC. Sistema Nacional de Avaliação (SINAES): Resumo da Proposta. Documento na Integra. Brasília:MEC/SESu, 2003. Disponível no Link: http://www.mec.gov.br/acs/asp/noticias/noticiasId.asp?Id=4. Acessado em 8 set 2003. __________. Sistema Nacional de Avaliação da Educação Superior (SINAES): Da concepção à regulamentação. 2ª ed., ampl. Brasília: INEP, 2004. 155p. MACEDO, Sandré Granzotto. Desempenho Docente pela Avaliação Discente: uma proposta metodológica para subsidiar a gestão universitária. – Florianópolis, 2001. Tese (Doutorado em Engenharia de Produção) - Universidade Federal de Santa Catarina - Programa de Pós-graduação em Engenharia de Produção, 2001. MATTAR NETO, João. Metodologia Cientifica na Era da Informática. 2ª edição (revista e atualizada). São Paulo: Saraiva, 2005. MORATE. Diego G. Manual de WEKA.Versão em Espanhol. Disponível no link: http://metaemotion.com/diego.garcia.morate/download/weka.pdf. Acessado em 20 ago 2006. NAVEGA, Sergio. Princípios Essenciais do Data mining. In: Anais do Infoimagem 2002, Cenadem, Novembro. Intelliwise Research and Training. Agosto de 2002. Link disponível http://www.intelliwise.com/reports/i2002.pdf. Acessado em 20 out 2005. NEVES, Cledjalma F. Descobertas de padrões usando Técnicas de Extração de Conhecimento. Centro Universitário Luterano de Palmas – Tocantins. 2004. Disponível no link: http://www.ulbra-to.br/ensino/43020/artigos/relatorios20042/Arquivos/Cledjalma_Estagio.pdf#search=%22zeroR%20WEKA%22. Acessado em 20 ago 2006. OCHI, Luiz S.; DIAS, Carlos R.; SOARES, Stênio S. F. Clusterização em Mineração de Dados. 2004. in: ERI RJ/ES - Escola Regional de Informática Rio de Janeiro - Espírito Santo - IV : 2004 nov. : Vitória - ES, Rio das Ostras. OLIVEIRA, C. J. S.. Classificação de imagens coletadas na web. 2001. 75f. Dissertação (Mestrado em Ciência da Computação) – Curso de Pós-Graduação em Ciência da Computação, Universidade Federal de Minas Gerais, Belo Horizonte. Disponível em:< 69 http://www.npdi.dcc.ufmg.br/orientacoes/orientacoes%20concluidas.htm> em: 02 jun. 2006 Acesso OLIVEIRA, Ivana C. Aplicação de Data mining na Busca de um Modelo de Prevenção da Mortalidade Infantil. 2001. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina - Programa de Pós-Graduação em Engenharia de Produção, 2001. OLIVEIRA, Robson B. T. O Processo de Extração de Conhecimento de Base de Dados Apoiado por Agentes de Software. 2000. Dissertação (Mestrado em Ciência da Computação e Matemática Computacional) − Instituto de Ciência da Computação e Matemática Computacional, Universidade de São Paulo, São Carlos. 2000. PALHARINI, Francisco de Assis. PAIUB 2000: Avaliar para Melhorar. Brasília: MEC, 1999. QUONIAM, Luc; TARAPANOFF, Kira; ARAUJO JÚNIOR, Rogério Henrique de; ALVARES, Lilian. Inteligência obteve com a aplicação de exploração de minas dos dados de analisar o Docthéses Francês em assuntos acerca de Brasil. Ci. Inf., mayo/Atrás. 2001, vol.30, no.2, p.20-28. QUITÉRIO, J.; MARTINS, N.; FERREIRA, P.; VIEIRA, P. Análise Comparativa de Ferramentas de Data mining e OLAP. Disponível em: http://berlin.inesc.pt/cadeiras/atsi/trabalhos/g14.doc . Acessado em: 25 mar 2006. REZENDE, Solange Oliveira (Coord.). Sistemas Inteligentes: Fundamentação e Aplicações. Barueri, SP: Manole, 2003. 525 p. ROSAS, Vanderlei de Barros. Afinal, o que é Conhecimento? Artigo publica na internet. Copyright 2003. Disponível no link: http://www.mundodosfilosofos.com.br/vanderlei22.htm. Acessado em 15 mar 2006. TAVARES. Rui. Departamento de Informática. Universidade de Évora – Portugal. Material de aula do Mestrado e Licenciatura da Engenharia de Informática 2003/2004. Disponível no link: http://www.di.uevora.pt/~rt/apr/p2.html. Acessado em 20 ago 2006. SEIFERT, Jeffrey W. Data mining: An Overview . CRS Report for Congress. 2004. Disponível no link: http://www.fas.org/irp/crs/RL31798.pdf. Acessando em 05 abr 2006. SELINGER, Tarcísio C.Data mining em Saúde Bucal por meio da Técnica de Clusterização e do Algoritmo K-means. Criciúma. 2004. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade do Extremo Sul Catarinense, 2004. SILVA. Marcelino P. dos S. Mineração de Dados - Conceitos, Aplicações e Experimentos com WEKA. 2004. Artigo. Universidade do Estado do Rio Grande do Norte (UERN). Instituto Nacional de Pesquisas Espaciais (INPE). Disponível no link: 70 http://bibliotecadigital.sbc.org.br/download.php?paper=35. Acessado em 1 mar 2006. SOUZA, Nilmar de. Ambiente de Apoio à Decisão para o Programa de Avaliação Institucional: uma Aplicação na Universidade do Vale do Itajaí – UNIVALI – Florianópolis, 2002. Dissertação (Mestrado em Engenharia de Produção) Universidade Federal de Santa Catarina - Programa de Pós-graduação em Engenharia de Produção, 2002. 166p. UNIVERSIDADE DO EXTREMO SUL CATARINENSE (UNESC). Avaliação Institucional da UNESC: uma perspectiva histórica. Criciúma: UNESC, 2003. 90p. VALÉRIO, Rosângela Norvila. Avaliação Institucional: uma relação entre avaliação docente e discente – um estudo de caso. Florianópolis, 2004. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina - Programa de Pós-graduação em Engenharia de Produção, 2004. 95p. VICTOR, André O. Conceitos e Técnicas de Mineração de Dados (Data mining). Universidade Federal do Rio de Janeiro. Material de Power Point. s/d. WITTEN, Ian H.; FRANK, Eibe. Data mining: Practical Machine Learning Tools and Techniques with Java Implementation. Morgan Kaufmann Publishers. 2000. 71 Referências Complementares BRAGA, B. R.; D’ALMEIDA JR, J.;BAIÃO, F.;MATTOSO, M. RT06 – IDSMINER: DATA MINING de Modelos de Detecção de Intrusão. Relatório Técnico do Projeto ClusterMiner. Janeiro de 2004. Disponível em http://clusterminer.nacad.ufrj.br/TechReport/RT06.pdf. Acessado em 5 jul 2006. FREITAS, Henrique M. R. de; MOSCAROLA, Jean. Análise de dados quantitativos & qualitativos: casos aplicados usando Sphinx®. Porto Alegre: Sphinx: Editora Sagra Luzzatto, 2000. 175p. FREITAS, Henrique M. R. de; JANISSEK, Raquel. Análise Léxica e Análise de Conteúdo: Técnicas complementares, seqüenciais e recorrentes para exploração de dados qualitativos. Porto Alegre: Sphinx: Editora Sagra Luzzatto, 2000. 175p. OLIVEIRA, Adelize G.de. Data Warehouse: Conceitos e Soluções. Florianópolis: Editora Advanced, 1998. 96p. VOOS, Jordelina Beatriz Anacleto. O Processo de Avaliação Institucional e a Adaptação Estratégica na Universidade da Região de Joinville – UNIVILLE. 2004. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina - Centro Tecnológico - Programa de Pós-graduação em Engenharia de Produção. 2004, 216 p. 72 APÊNDICES 73 APÊNDICE A - RESULTADOS DA CLUSTERIZAÇÃO A clusterização da base de dados por meio do algoritmo k-means obteve os seguintes resultados para a análise de cada uma das questões do instrumento de avaliação aplicada pela COMAVI. Questão a) cumpre os horários previstos para as aulas / atividades (não chego tarde e não saio cedo das aulas): 63,83% das respostas foram no indicador “Sempre/Sim” e 14, 57% para “Muito/ Com freqüência”. Ao somar esses dois indicadores que são considerados positivos pela avaliação, tem-se 78,40% dos discentes afirmando que seus professores são pontuais, porém 8,55% dos estudantes apontam que os professores cumprem os horários acadêmicos “Regular/ Frequentemente” e 7,76% entenderam que a questão não se aplicava aos professores avaliados ou os educadores apontados não ministravam aulas para os estudantes pesquisados20. Questão b) aproveita o tempo em sala de aula: 55,37% das respostas foram no indicador “Sempre/Sim” e 16,40% para “Muito/ Com freqüência”. Ao somar esses dois indicadores, tem-se 71,87% dos discentes afirmando que seus professores aproveitam o tempo, porém 10,20% indicam que os professores aproveitam de forma “Regular/ Frequentemente” e 4,87%, não souberam avaliar. Questão c) apresenta o conteúdo numa linguagem compreensível: 60,99% das respostas foram no indicador “Sempre/Sim” e 16,51% para “Muito/ Com freqüência”. 20 Esse resultado é possível uma vez que existem disciplinas onde dois ou mais professores ministram aula, sendo que, conforme o caso, as turmas acabam sendo divididas, como ocorre no curso de Medicina. Como o curso é modular, os estudantes estão matriculados em todo o modulo, mas no período da avaliação havia disciplinas que eles ainda não tinham cursado. Neste caso, recomendou-se que os discentes responderem no indicador “Não se aplica/ não é meu professor”. 74 Ao somar esses dois indicadores tem-se 77,50% dos discentes apontando que seus professores apresentam o conteúdo das disciplinas em linguagem compreensível, porém 7,55% indicam que os professores apresentam “Regular/ Frequentemente” e 7,51% não souberam avaliar. Questão d) demonstra conhecer bem a disciplina que leciona: 59,91% das respostas foram no indicador “Sempre/Sim” e 17,68% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 77,59% dos discentes afirmando que seus professores demonstram domínio de conteúdo, porém 7,80% informam que seus professores demonstram “Regular/ Frequentemente” e 7,53% entenderam que a questão não se aplicava aos professores avaliados ou os educadores apontados não ministravam aulas para os estudantes pesquisados. Questão e) demonstra estar atualizado(a) em relação ao conteúdo que ministra: 61,60% das respostas foram no indicador “Sempre/Sim” e 15,05% para “Muito/ Com freqüência”. Ao somar esses dois indicadores que são considerados positivos pela avaliação, tem-se 76,65% dos discentes afirmando que seus professores demonstram-se atualizados, porém 7,53% apontam que os docentes demonstram estarem atualizados “Regular/ Frequentemente” e 7,48% entenderam que a questão não se aplicava aos professores avaliados ou os educadores apontados não ministravam aulas para os estudantes pesquisados. Questão f) respeita os acadêmicos como pessoa e os trata com cordialidade e educação: 49,45% das respostas foram no indicador “Sempre/Sim” e 18,62% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 68,07% dos 75 discentes afirmando que seus professores os tratam com cordialidade e educação, porém 13,92% apontam que os professores agem dessa forma “Regular/ Frequentemente” e 6,16% entendem que esse aspecto ocorre “Pouco/ Às vezes”. Questão g) controla a ordem disciplinar em sala de aula: 58,13% das respostas foram no indicador “Sempre/Sim” e 16,71% para “Muito/ Com freqüência. Ao somar esses dois indicadores tem-se 74,84% dos discentes afirmando que seus professores controlam a ordem disciplinar em sala de aula, porém 8,96% entendem que os professores conseguem controlar “Regular/ Frequentemente” e 3,66% conseguem “Pouco/ Às vezes”. Questão h) informa aos acadêmicos como será desenvolvida a disciplina: 54,05% das respostas foram no indicador “Sempre/Sim” e 17,13% para “Muito/ Com freqüência”. Ao somar esses dois tem-se 71,18% dos discentes afirmando que seus professores informam, porém 11,02% apontam que os docentes prestam esse esclarecimento de forma “Regular/ Frequentemente” e 5,43% que apresentam “Pouco/ Às vezes”. Questão i) estabelece relação entre teoria e prática, ou entre prática e teoria: 53,42% das respostas foram no indicador “Sempre/Sim” e 16,89% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 70,31% dos discentes apontando que os docentes conseguem estabelecer a relação entre teoria e prática e vice versa, porém 10,47% reconhecem que os professores conseguem estabelecer de forma “Regular/ Frequentemente” e 5,20% que esse aspecto ocorre “Pouco/ Às vezes”. 76 Questão j) é receptivo(a) a críticas, sugestões e questionamentos, ou seja, permite debate de diferentes opiniões: 59,83% das respostas foram no indicador “Sempre/Sim” e 16,41% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 76,24% dos discentes afirmando que seus educadores são receptivos a críticas, sugestões e questionamentos. Para 8,70% os professores são receptivos “Regular/ Frequentemente” e 3,87% entendem que esse aspecto ocorre “Pouco/ Às vezes”. Questão k) responde as perguntas dos acadêmicos e esclarece as dúvidas em sala de aula: 50,39% das respostas foram no indicador “Sempre/Sim” e 16,91% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 67,30% dos discentes afirmando que seus professores respondem os questionamentos levantados em sala de aula e esclarecem as dúvidas, porém 12,77% reconhecem que professores fazem isso de forma “Regular/ Frequentemente” e 6,49%“ entendem que esse aspecto ocorre “Pouco/ Às vezes”. Questão l) estimula a discussão de idéias e conteúdos: 51,94% das respostas foram no indicador “Sempre/Sim” e 17,71% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 69,65% dos discentes afirmando que seus professores estimulam as discussões de idéias e conteúdos, entretanto, para 11,64%, os docentes promovem essa estimulação de forma “Regular/ Frequentemente” e 5,53% entendem que esse aspecto ocorre “Pouco/ Às vezes”. 77 Questão m) estimula os acadêmicos a serem independentes na busca do conhecimento: 52,74% das respostas foram no indicador “Sempre/Sim” e 18,25% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 70,99% dos discentes afirmando que seus professores realizam esse estímulo, porém 11,81% reconhecem que os educadores fazem de forma “Regular/ Frequentemente” e 5,21% entendem que esse aspecto ocorre “Pouco/ Às vezes”. Questão n) define com clareza e objetividade os critérios de avaliação desta disciplina: 52,66% das respostas foram no indicador “Sempre/Sim” e 17,64% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 70,30% dos discentes afirmando que seus professores definem com clareza e objetividade os critérios de avaliação. Para 11,12% os docentes definem de forma “Regular/ Frequentemente” e 5,12% entendem que esse aspecto ocorre “Pouco/ Às vezes”. Questão o) os conteúdos das avaliações estão de acordo com os apresentados nas aulas: 58,79% das respostas foram no indicador “Sempre/Sim” e 16,28% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 75,07% dos discentes afirmando que os conteúdos das avaliações são relativos aos estudados em sala de aula. Entretanto 8,60% dos discentes entenderam que a questão não se aplicava aos professores avaliados ou os educadores apontados não ministravam aulas para os estudantes pesquisados. Questão p) devolve os resultados das avaliações antes da próxima avaliação: 57,31% das respostas foram no indicador “Sempre/Sim” e 13,27% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 70,58% dos discentes 78 afirmando que seus professores devolvem os resultados com antecedência. Para 8,67% os docentes devolvem de forma “Regular/ Frequentemente” e 5,58% não souberam avaliar. Questão q) apresenta e discute os resultados das avaliações escritas, trabalhos, etc: 52,22% das respostas foram no indicador “Sempre/Sim” e 15,17% para “Muito/ Com freqüência”. Ao somar esses dois indicadores tem-se 67,39% dos discentes afirmando que seus professores apresentam e discutem os resultados, porém 10,57% reconhecem que os educadores realizam essa ação de forma “Regular/ Frequentemente” e 5,39% entendem que esse aspecto ocorre “Pouco/ Às vezes”. 79 APÊNDICE B - RESULTADOS DA CLASSIFICAÇÃO A classificação da base de dados por meio do algoritmo ZeroR obteve os seguintes resultados para a análise de cada uma das questões do instrumento de avaliação aplicada pela COMAVI. Questão a) cumpre os horários previstos para as aulas / atividades (não chego tarde e não saio cedo das aulas): No resultado fornecido pelo algoritmo e observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, onde obteve-se um percentual de acerto de 63,83% para os atributos nominais. Ocorreu a classificação incorreta de 13264 instâncias, o que fez com que o seu percentual fosse reduzido. Questão b) aproveita o tempo em sala de aula: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 55,37% para os atributos nominais. Ocorreu a classificação incorreta de 16.368 instâncias. Questão c) apresenta o conteúdo numa linguagem compreensível: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 55,39% para os atributos nominais. Ocorreu a classificação incorreta de 18191 instâncias, o que fez com que o seu percentual fosse reduzido. 80 Questão d) demonstra conhecer bem a disciplina que leciona: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 60,99% para os atributos nominais. Ocorreu a classificação incorreta de 14306 instâncias. Questão e) demonstra estar atualizado(a) em relação ao conteúdo que ministra: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 59,91% para os atributos nominais. Ocorreu a classificação incorreta de 14702 instâncias. Questão f) respeita os acadêmicos como pessoa e os trata com cordialidade e educação: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 61,60% para os atributos nominais. Ocorreu a classificação incorreta de 14.083 instâncias. Questão g) controla a ordem disciplinar em sala de aula: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve mais ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 49,45% para os atributos nominais. Ocorreu a classificação incorreta de 18538 instâncias. Questão h) informa aos acadêmicos como será desenvolvida a disciplina: Observando a matriz de confusão, pode-se perceber que a predição do valor 81 nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 58,13% para os atributos nominais. Ocorreu a classificação incorreta de 15.353 instâncias, o que fez com que o seu percentual fosse reduzido. Questão i) estabelece relação entre teoria e prática, ou entre prática e teoria: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 54,05% para os atributos nominais. Ocorreu a classificação incorreta de 16.852 instâncias. Questão j) é receptivo(a) a críticas, sugestões e questionamentos, ou seja, permite debate de diferentes opiniões: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 53,42% para os atributos nominais. Ocorreu a classificação incorreta de 17.081 instâncias. Questão k) responde as perguntas dos acadêmicos e esclarece as dúvidas em sala de aula: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador que teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 59,83% para os atributos nominais. Ocorreu a classificação incorreta de 14.729 instâncias. Questão l) estimula a discussão de idéias e conteúdos: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador que 82 teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 51,94% para os atributos nominais. Ocorreu a classificação incorreta de 17.626 instâncias. Questão m) estimula os acadêmicos a serem independentes na busca do conhecimento: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 52,75% para os atributos nominais. Ocorreu a classificação incorreta de 17.329 instâncias. Questão n) define com clareza e objetividade os critérios de avaliação desta disciplina: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 52,66% para os atributos nominais. Ocorreu a classificação incorreta de 17.359 instâncias. Questão o) os conteúdos das avaliações estão de acordo com os apresentados nas aulas: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 58,79% para os atributos nominais. Ocorreu a classificação incorreta de 16.852 instâncias. Questão p) devolve os resultados das avaliações antes da próxima avaliação: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, 83 obteve-se um percentual de acerto de 57,31% para os atributos nominais. Ocorreu a classificação incorreta de 15.665 instâncias. Questão q) apresenta e discute os resultados das avaliações escritas, trabalhos, etc: Observando a matriz de confusão, pode-se perceber que a predição do valor nominal, cujo indicador teve maior número de ocorrência foi no “Sempre/Sim”, obteve-se um percentual de acerto de 52,22% para os atributos nominais. Ocorreu a classificação incorreta de 17.522 instâncias. 84 APÊNDICE C – RESULTADOS DOS CLUSTERS POR ÁREA Questão Área/Cluster Licenciatura Saúde e Biológicas Sociais Aplicadas Engenharia e Tecnologia a b c d e f 2 3 2 3 2 3 1 1 1 1 1 1 1 1 1 1 6 2 6 2 6 2 2 2 2 3 0 3 6 3 4 4 4 4 (0) Não sei avaliar; (1) Sempre/sim; (2) Muito/com freqüência; (3) Regular/frequentemente; (4) Pouco/às vezes; (5) Nunca/não; (6) Não se aplica/não é meu professor. g h i j k Resultados dos clusters 3 3 3 3 3 l m n o p q 3 3 3 2 3 3 1 1 1 1 1 1 1 2 2 2 2 2 6 2 2 4 4 4 4 4 3 0 4 85 ANEXO 86 ANEXO A – RELAÇÃO DOS CURSOS DE GRADUAÇÃO Relação dos Cursos21 da Unesc que participaram da avaliação de 2005 e que passaram pelo processo de data mining nesta pesquisa. Área Curso Administração de Empresas (M) Administração de Empresas (N) Administração Comércio Exterior (N) Artes Visuais – Bacharelado (N) Ciências Contábeis (N) Direito (M) Sociais Aplicadas (SAPL) Direito (N) Economia (N) Secretariado Executivo (N) Tecnologia em Gestão de Marketing (N) Tecnologia em Gestão de Pequeno e Médio Empreendimento (N) Tecnologia em Gestão de Pessoas (N) Arquitetura e Urbanismo (V) Ciência da Computação (N) Engenharia Ambiental (M) Engenharia e Tecnologia (ENG_TEC) Engenharia Civil (N) Engenharia de Agrimensura (N) Engenharia de Materiais (M) Tecnologia em Cerâmica (N) Artes Visuais – Licenciatura (N) Ciências Biológicas – Licenciatura (N) Educação Física – Licenciatura (N) Geografia (N) Licenciatura (LINC) História (N) Letras – Habilitação Português/Inglês (N) Letras – Habilitação Português/Espanhol (N) Matemática (N) Pedagogia (N) Ciências Biológicas – Bacharelado (V) Educação Física – Bacharelado (M) Enfermagem (V) Farmácia (I) Saúde e Biológicas (SAL_BIO) Fisioterapia (I) Medicina (I) Nutrição (I) Psicologia (M) 21 A relação dos cursos de graduação ofertados pela UNESC estão disponíveis no site da IES <www.unesc.net>. Os cursos conveniados com a Faculdade SATC/SENAI e os cursos Seqüenciais não fizeram parte da base DE dados desta pesquisa.