Text Mining
Sistemas de Informação e Gestão

Text Mining, geralmente é definido como
um processo que utiliza métodos para
navegar, organizar, encontrar e descobrir
informação escrita na linguagem natural.

É possível manipular mais facilmente as
informações não estruturadas como
notícias, textos em websites, blogs etc.
Introdução

Exemplo:
◦ José da Silva é funcionário da Empresa XYZ,
mora na Rua X, número 31, tem 35 anos de
idade, e ...

Resultado:
◦
◦
◦
◦
Nome: José da Silva
Empresa: XYZ
Endereço: Rua X, 31
Idade: 35 anos
Extracção de Informação

O processo de mineração de textos foi
definido por Martins Junior (2003) em
função das seguintes actividades:
1.
2.
3.
4.
Obtenção dos Documentos
Pré-Processamento dos Documentos
Extracção do Conhecimento ou Classificação
Avaliação do Conhecimento
Text Mining

Selecção dos documentos textuais a
serem
utilizados
no
processo
de
mineração.
◦
◦
◦
◦
Texto Puro
HTML
XML
etc.
Obtenção dos Documentos

Consiste em Determinar uma forma
padrão para a extracção do conhecimento
/ Classificação no documento condido
Pré-Processamento
Operações realizadas com o intuito de
capturar informações / classificar dados
num
conjunto
de
entrada
não
estruturado.
 É a etapa de “mineração” propriamente
dita.

Extracção do Conhecimento

Determina se o conhecimento é válido (se
está coreto, e se é útil).
Avaliação do Conhecimento
Download

Text Mining