O USO DE SOFTWARE PARA A MINERAÇÃO DE
TEXTOS
Altemar Sales de Oliveira1, Rosa A.S.M.da Motta2,Gerson Cunha 3,Nelson F.Favilla Ebecken 4,
1,2,3,4
COPPE/UFRJ
[email protected], [email protected]
1. Introdução
Vive-se na era da Informação e do Conhecimento,
na qual o grande volume de textos e documentos,
geralmente não-estruturados, estão a disposição da
sociedade ou de empresas em formato digital.
Nesse contexto, a Mineração de Textos (MT) é uma
aliada na transformação desses itens em conhecimento
útil. Essa transformação é fundamentada na busca por
padrões, tendências, regularidades de documentos em
uma linguagem entendível, tendo como produto final a
extração de informações relevantes ao usuário [1].
Para dar suporte a MT, pode-se utilizar, dentre
outros, os pacotes de software TMSK (Kit Software
Mineração de Textos) e RIKTEXT (Regra de Indução
de Textos). Ambos, mencionados, são grátis e trabalham
com textos no formato XML, além de funcionarem em
qualquer computador, bastando instalar a versão
runtime do JAVA. Este artigo se refere a uma
comparação entre esses pacotes, tendo sido usados
vários métodos [2].
2. Mineração de Textos
A MT consiste em separar o assunto desejado dentre
vários documentos e descartar o que não for de valia.
Para isso, pode-se usar os seguintes recursos: Stemming,
Stop words, Stop lists e Thesaurus, para se obter maior
confiabilidade em relação ao que se procura.
O Stemming é usado quando uma palavra assume
diferentes sufixos, convertendo-se, então, as variações
existentes em um radical comum. Usa-se o Stop words
ou Stop List, quando se deseja relacionar palavras que
devem ser descartadas do processamento e/ou existirem
palavras sem conteúdo semântico, preposições,
pronomes, artigos entre outros ou termos, com alto
índice de incidência. Emprega-se o Thesaurus nas
situações em que seja preciso definir um dicionário
próprio, para representar termos específicos, sinônimos,
relacionamentos, gírias entre outros itens.
3. Software para a MT:TMSKe RIKTEXT
Cada software utiliza métodos/técnicas (nbayes,
linear, k-means) para classificação e clusterização de
documentos. A categorização consiste na utilização de
métodos classificadores para a criação de categorias
pré-definidas, associadas a termos que identificam as
bases de textos, com o intuito de encontrar e relacionar
os itens principais do documento. A clusterização é uma
técnica usada para agrupar os documentos que possuam
similaridade, sendo que essa entre um documento “d” e
um centróide “c” é calculada como o somatório de todos
os Vetores-Documento (VD) no cluster dividido pelo
número de vd [3]. Para cada cluster gerado, quanto
maior o número de documentos e menor a distância,
maior é a qualidade do resultado (Figura 1).
Figura 1 – Cluster versus distância.
Uma etapa, dentre outras, para a MT é o treinamento
(parte dos textos), que consiste na extração de padrões e
regras de predição de documentos, tendo em vista
treinar os pacotes para aprenderem a trabalhar
adequadamente. Tendo em vista a comparação entre os
pacotes em questão, realizada em [2], pode-se observar
que: a) o stemming e o stop words são recursos
imprescindíveis para se obter resultados satisfatórios; b)
o método linear se mostrou melhor que o nbayes
durante a execução do TMSK; c) usando o nbayes e o
linear, a redução de palavras ocasionou melhores
resultados; e d) o TMSK mostrou piores resultados,
utilizando o método linear, e) o k-means obteve
melhores resultados no que se refere à distância.
4. Conclusões
Com base na experiência obtida em [2], visualizouse que seria possível aperfeiçoar a comparação entre os
software em questão, futuramente, aumentando a
quantidade de testes e aprimorando procedimentos de
análise.
5. Referências
[1] FRAWLEY, W. et. al. Knowledge discovery in
databases: an overview. AI Magazine, Fall, p. 213 228, 1992.
[2] OLIVEIRA, A. S. O uso do TMSK e o RIKTEXT
na prática de Text Mining. Trabalho apresentado
como requisito p/ aprovação na Disciplina Análise
não estruturada de informações, COPPE/PEC,
UFRJ, Rio de Janeiro, 2006.
[3] LOPES, M. C. S. Mineração de dados textuais,
utilizando técnicas de clustering para o idioma
português. Tese de doutorado, UFRJ, Rio de Janeiro,
2004.
Download

O USO DE SOFTWARE PARA A MINERAÇÃO DE TEXTOS