O USO DE SOFTWARE PARA A MINERAÇÃO DE TEXTOS Altemar Sales de Oliveira1, Rosa A.S.M.da Motta2,Gerson Cunha 3,Nelson F.Favilla Ebecken 4, 1,2,3,4 COPPE/UFRJ [email protected], [email protected] 1. Introdução Vive-se na era da Informação e do Conhecimento, na qual o grande volume de textos e documentos, geralmente não-estruturados, estão a disposição da sociedade ou de empresas em formato digital. Nesse contexto, a Mineração de Textos (MT) é uma aliada na transformação desses itens em conhecimento útil. Essa transformação é fundamentada na busca por padrões, tendências, regularidades de documentos em uma linguagem entendível, tendo como produto final a extração de informações relevantes ao usuário [1]. Para dar suporte a MT, pode-se utilizar, dentre outros, os pacotes de software TMSK (Kit Software Mineração de Textos) e RIKTEXT (Regra de Indução de Textos). Ambos, mencionados, são grátis e trabalham com textos no formato XML, além de funcionarem em qualquer computador, bastando instalar a versão runtime do JAVA. Este artigo se refere a uma comparação entre esses pacotes, tendo sido usados vários métodos [2]. 2. Mineração de Textos A MT consiste em separar o assunto desejado dentre vários documentos e descartar o que não for de valia. Para isso, pode-se usar os seguintes recursos: Stemming, Stop words, Stop lists e Thesaurus, para se obter maior confiabilidade em relação ao que se procura. O Stemming é usado quando uma palavra assume diferentes sufixos, convertendo-se, então, as variações existentes em um radical comum. Usa-se o Stop words ou Stop List, quando se deseja relacionar palavras que devem ser descartadas do processamento e/ou existirem palavras sem conteúdo semântico, preposições, pronomes, artigos entre outros ou termos, com alto índice de incidência. Emprega-se o Thesaurus nas situações em que seja preciso definir um dicionário próprio, para representar termos específicos, sinônimos, relacionamentos, gírias entre outros itens. 3. Software para a MT:TMSKe RIKTEXT Cada software utiliza métodos/técnicas (nbayes, linear, k-means) para classificação e clusterização de documentos. A categorização consiste na utilização de métodos classificadores para a criação de categorias pré-definidas, associadas a termos que identificam as bases de textos, com o intuito de encontrar e relacionar os itens principais do documento. A clusterização é uma técnica usada para agrupar os documentos que possuam similaridade, sendo que essa entre um documento “d” e um centróide “c” é calculada como o somatório de todos os Vetores-Documento (VD) no cluster dividido pelo número de vd [3]. Para cada cluster gerado, quanto maior o número de documentos e menor a distância, maior é a qualidade do resultado (Figura 1). Figura 1 – Cluster versus distância. Uma etapa, dentre outras, para a MT é o treinamento (parte dos textos), que consiste na extração de padrões e regras de predição de documentos, tendo em vista treinar os pacotes para aprenderem a trabalhar adequadamente. Tendo em vista a comparação entre os pacotes em questão, realizada em [2], pode-se observar que: a) o stemming e o stop words são recursos imprescindíveis para se obter resultados satisfatórios; b) o método linear se mostrou melhor que o nbayes durante a execução do TMSK; c) usando o nbayes e o linear, a redução de palavras ocasionou melhores resultados; e d) o TMSK mostrou piores resultados, utilizando o método linear, e) o k-means obteve melhores resultados no que se refere à distância. 4. Conclusões Com base na experiência obtida em [2], visualizouse que seria possível aperfeiçoar a comparação entre os software em questão, futuramente, aumentando a quantidade de testes e aprimorando procedimentos de análise. 5. Referências [1] FRAWLEY, W. et. al. Knowledge discovery in databases: an overview. AI Magazine, Fall, p. 213 228, 1992. [2] OLIVEIRA, A. S. O uso do TMSK e o RIKTEXT na prática de Text Mining. Trabalho apresentado como requisito p/ aprovação na Disciplina Análise não estruturada de informações, COPPE/PEC, UFRJ, Rio de Janeiro, 2006. [3] LOPES, M. C. S. Mineração de dados textuais, utilizando técnicas de clustering para o idioma português. Tese de doutorado, UFRJ, Rio de Janeiro, 2004.