Ferramentas de Mineração de
Informação Não Estruturada
Eduardo Massao Arakaki
DI-UFPE
Roteiro
O que é Text Mining e Web Mining?
 Motivação e Paradigmas
 Ferramentas

•
•
•
•
•
•
•
IBM’s Intelligent Miner for Text
AltaVista Discovery
Agentware
SemioMap
TextAnalyst
Cambio
KPS
Comparação da ferramentas
 Conclusão sobre estado da arte
 Referências

Mining e mining: don’t believe the hype!

Crucial distinguir:
• Formato da informação

ASCII, MLs, DBs, KBs
• Assunto da informação

Web visits, sales data, sport statistics
• Localização da informação


Internet, Intranet, stand-alone computer
Text Mining e Web Mining ainda:
• Muito ambíguos
• Usados de forma inapropriadas
Mining e mining: don’t believe the hype!
 Descoberta
de conhecimento
• a partir de dados completamente estruturados (BD)


Data mining, Web visit mining (SOBRE a Web)
Intelligent Miner for Data, DBminer, PRIM
• a partir de dados semi-estruturados (HTML, XML,
SGML)


Web page mining (NA web)
KPS
• a partir de dados não estruturados (ASCII)


Text Mining
Intelligent Miner for Text, Agentware, TextAnalyst
Mining e mining: don’t believe the hype!
 Recuperação
de informação
• a partir de dados completamente estruturados (BD)

SQL
• a partir de dados semi-estruturados (HTML, XML,
SGML)

AltaVista, eXcite, Bright!
• a partir de dados não estruturados (ASCII)

RI clássica, pré-Web (ex, Smart por Salton)
 Extração
de informação
• estruturar informação semi ou não estruturada em BD
Mining e mining: don’t believe the hype!
 Text
Mining
• Análogo a data mining

•
Descobre relacionamentos em dados.
Diferente de data mining

Trabalha com informações armazenadas numa coleção de
dados não estruturados (textos)
• Utiliza duas tecnologias

ferramenta de busca na Internet

metodologia de análise de texto
• “Pode se dizer que representa uma nova geração de
ferramentas de busca na Internet”
Mining e mining: don’t believe the hype!
 Web
Page Mining
• Refere ao processo de busca e extração de dados
“escondidos” numa página Web
 Web
Visit Mining
• Descobre relacionamentos significantes e tendências
através da integração e análise de informação do
tráfego da Web (Internet/intranet) e dos dados
tradicionais do negócio.
• Serve para analisar investimentos online de uma
empresa, num esforço para maximizar o retorno
Web Visit Mining
Mining e mining: don’t believe the hype!
ASCII
ASCII+
esquema
Text mining
Aprendizagem
Data Mining
True Web Mining
SQL
DB
Wrappers
IR
KB
Info extraction
Web search
ML
Usuário
O que é text mining e web mining?
Web visit
mining
Information retrieval
Web searching
Semi-structured
data query
Data Mining
Text mining
Wrappers
Information
Extraction
Web page mining
Motivação
Estatística sobre crescimento da Web
 80% dos dados numa empresa não são estruturados (ex.
documentos, manuais, E-mail, apresentações, na Web)
 Informação on-line cada vez:

• mais numerosa
• mais universalmente acessível
• menos estruturada
Web potencialmente formidável fonte
de dados para mineração de dados e KDD
 Desafios:

• não apenas integrar aprendizagem+DB
• mais também IR, NLP, linguagens de mark-up, agents, wrappers,
Web -> Conhecimento: qual caminho?
ASCII
IR
ASCII+DB esquema
ML
Web search
Info extraction
SQL
DB
Data Mining
KB
Usuário
True Web Mining
botar ferramentas a apresentar no arcos corretos
+ termos da transparencia de batatoide
Aplicações específicas
Qualquer aplicação de KDD sem DB e com informação
textual
 Mais especificamente:

•
•
•
•
•
•

bibliotecas digitais
gerência de emails
gerência de documentos
help desk automático
pesquisa de mercado
agrupamento inteligente de informações de mercado
Exemplos comerciais:
Ferramentas
IBM’s Intelligent Miner for Text

Ferramenta de Text Mining online (web mining)

Funcionalidades:
• Extrai padrões de atributos semânticos a partir de texto
(extração de informação)
• Organiza documentos por assunto (agrupamento conceitual)
• Encontra temas predominantes numa coleção de documentos (um
passo da sumarização automática)
• Busca por documentos relevantes (recuperação de informação)

Possui ferramentas de análise de texto e ferramenta de
busca
IBM’s Intelligent Miner for Text
Examina
numa
página
Web
Máquina de busca.
Aplicativo
Permite
apara
construção
construção
de os
significativos
links
outras
páginas
sist. deReconhece
recuperação
deitens
serviços
depara
informação
de busca
avançado
Web
no texto. Ex. nomes de pessoas,
Usa características e estatísticas extraídas
empresas,
lugares,
datas, etc. criando
Extrai
sentenças
de
um
documento
do texto para executar uma tarefa. Baseada
um
sumário
HTML)
num
esquema
deASCII
categorias
predefinidas.
Divide
um(em
conjunto
deoudocumentos
em grupos. Metodologias: Agrup.
Relacional e agrup. Hierárquico.
Feature Extraction - Nomes
<HTML>
<TITLE>Local Education Outreach
</TITLE><BODY>
At IBM Corp., they take seriously the responsibility to help
schools achieve the goal articulatedby President Clinton and the
National Governors Associationthat ... Together with Learning Inc.
of Somers, New York,IBM is starting ...
At the IBM Thomas J. Watson Research Center in
WestchesterCounty, Dr. James J. Smith manages the Local
Education OutreachProgram, and organizes activities for students
and teachers fromschool districts in the area, including New York
City. Smithalso co-ordinates IBM's participation in the National
Scienceand Technology Week. NSTW is an annual event
sponsored byThe National Science Foundation to foster public
understandingof science and technology.
</BODY>
</HTML>
Feature Extraction - Nomes
<IMZ ID>demo.txt</IMZ ID>
<IMZ TITLE>Local Education Outreach</IMZ TITLE>
<IMZ CONTENT>
NC 3 IBM ORG
NC 1 IBM Thomas J. Watson Research Center in
Westchester County ORG
NC 2 James J. Smith PERSON
NC 1 Learning ORG
NC 1 Local Education Outreach Program ORG
NC 1 National Governors Association ORG
NC 2 National Science and Technology Week ORG
NC 1 National Science Foundation ORG
NC 1 New York City PLACE
NC 1 President Clinton PERSON
NC 1 Somers , New York PLACE?
</IMZ CONTENT>
IBM’s Intelligent Miner for Text

O que utilizar para realizar essas tarefas?
•
•
•
•
•
•
•
•
•
•
•
•
Atribuir documentos a categorias predefinidas
Dividir documentos em grupos não predefinidos
Prover um visão de uma grande coleção de documentos
Identificar similaridades escondidas em documentos
Identificar características de documentos
Pesquisa por texto
Pesquisa através da Intranet
Pesquisa rápida na Web
Marketing
Busca com categorias
Tratamento de e-mails
Indexação seletiva de páginas Web
AltaVista Discovery
Assistente de pesquisa que habilita aos usuários
encontrar informação indiferente de sua localização
 Funcionalidades:

•
•
•
•
•
Sumariza documentos
Encontra páginas similares as já encontradas
Encontra todas páginas referenciadas por um página
Encontra mais documentos a partir de um site de interesse
Provê indexação automática de todas páginas acessadas pelo
usuário
AltaVista Discovery
Agentware

Text mining online

Composto de três elementos:
• Knowledge Server
• Knowledge Update
• Knowledge Builder
Agentware

Knowledge Server
• Categorização automática e precisa

eliminando a necessidade de processamento manual.
Agentware

Knowledge Update
• Monitora centenas de sites da Internet e Intranet, novos
documentos e repositórios internos de documentos.
• Cria um relatório personalizado destes conteúdos
Agentware

Knowledge Builder
• Permite as empresas customizar os produtos de Autonomy a fim
de atender suas necessidades individuais.
•
São APIs (Application Programming Interfaces).
TextAnalyst



Sistema de busca semântica de informação e Text
Mining (análise de texto)
Implementa uma rede semâtica para processamento de
textos escritos em linguagem natural.
Destinado para operação interativa com documentos já
reunidos (offline)
Tarefas de TextAnalyst

Tarefas:
• Identificação dos principais conceitos de textos

bem como relações semânticas entre estes conceitos,

com avaliação da importância destas relações
• Criação de bases de conhecimento expressadas em linguagem
natural para criação de hipertext e sistemas especialistas
• Criação automática de uma estrutura hierárquica de tópicos
• Criação de uma rede semântica ajustada do texto investigado
• Indexação automática de textos com a criação de hipertext
• Busca semântica por informações no texto (palavras chaves)
• Abstração automática de textos
TextAnalyst
SemioMap




Produzido pela Semio Corporation
SemioMap extrai todas frases relevantes a partir de
coleção de textos
Facilita a exploração de conceitos numa grande coleção
de documentos sem ter de examiná-los manualmente
SemioMap podem processar diversos tipos de
documentos:
• ASCII, HTML, Microsoft Word, WordPerfect, e outros

Não tem interface com a Internet
SemioMap


SemioMap constrói uma estrutura conceitual de coleções
de textos dinâmicos, usando análise lingüística a fim de
identificar relacionamentos de conceitos em documentos
diferentes.
Aplicações
• Ferramentas de Busca
• Sistemas de gerenciamento de documentos
• Groupware
• Visualização
SemioMap

Como ele trabalha?
• Software de extração léxica

lê automaticamente grandes bases de textos não estruturados e
extrai tadas frases relevantes a partir da coleção de textos.
• Agrupamento de Informação

Identifica os relacionamentos entre estas frases.

Constrói uma “rede léxica”
• Visualização gráfica

Mapa gráfico permitindo aos usuários navegar rapidamente através
de frases chaves e relacionamentos dentro de um texto
Arquitetura do SemioMap
Cambio



Examina documentos e extrai dados significativos para
um arquivo de banco de dados
Documentos podem ser arquivos ASCII, páginas Web,
emails
Metodologia utilizada:
• Particionamento
• Reconhecimento de padrões
• Tags para atribuição de elementos de dados no documento
analisado
Cambio

Ferramenta offline e não totalmente automática

Pode trabalhar em conjunto com um webcrawler

Não tem funções de análise semântica


Pode representar o nível de entrada de um sistema de
Text Mining
Apresenta uma boa interface
Conclusões

Ranking em termos de complexidade de tecnologia
-
+
Intelligent Agentware SemioMap TextAnalyst AltaVista
Cambio
Miner
Discovery
 Falta de maior clareza na explicação de
como as
for ferramentas
Text
trabalham
Todas ferramentas são recentes (menos de cinco anos)
 O que se vende e se pesquisa agora como text mining:

• é integração de recuperação de informação, extração de
informação e gerenciamento de informação semi-estruturada
• tem quase nada a ver com data mining:


não envolve aprendizagem
seu produto final é texto ou templates e não conhecimento
Referências

Online Text Mining
• http://allen.comm.virginia.edu/jtl5t/index.htm
Download

webMining