Extração de Informação
Ana Carolina do Amaral
Marcílio José A. Gomes Filho
Rodrigo C. Mendes
Flávia Barros
Roteiro

Introdução
Motivação
 Um pouco de História
 Processo de Extração
 Conceitos
 Wrappers
 Aplicações
 Referências

Motivação
O volume de informação vem
aumentado consideravelmente,
principalmente com o advento da
internet.
 Como conseguir extrair informação
relevante de tantos artefatos digitais?

Motivação

O Problema:
Documentos em sua maioria não
estruturados ou semi-estruturados. (Internet
- WEB)
 Migração de dados entre interfaces
diferentes. (WebServices – Banco de
Dados)

Motivação

O que queremos:







responder a consultas de usuários
gerar resumos do texto original
preencher bancos de dados
preencher bases de conhecimento
mineração de dados
sumarizar textos
...
Processo de Extração


Trata o problema da extração de dados relevantes
a partir de uma coleção de documentos [Mus99]
Os dados a serem extraídos são previamente
definidos em um template (formulário)
Template
Sistema p/ EI
Item1:
Item2:
Item3:
Item4:
Item5:
BD
BC
Um pouco de História

MUC-Message Understanding Conference
[final da década de 80]


Uso de técnicas de PLN (Processamento
de Linguagem Natural)
Internet/Web [década de 90]

Desenvolvimento de wrappers
Conceitos

Sistemas baseados em PLN



Processamento de Linguagem Natural.
Criados para extrair informação a partir de
textos livres (sem estruturação).
Wrappers


Crescimento da Web a partir dos anos 1990.
Incapacidade dos sistemas anteriores para
extrair informações de seus textos, motivou a
criação de sistemas específicos para esse
domínio.
Conceitos

Quadro Comparativo
Wrappers
Sistemas de EI baseados
em PLN
Motivação
Principalmente, extrair informações
das diversas fontes na Web.
Extrair informações de
textos em linguagem
natural.
Tipos de texto
Geralmente estruturados e semiestruturados, mas também textos
livres, em alguns casos.
Apenas texto livre.
Padrões usados
para extração
Informações de formatação do
texto, marcadores presentes nos
documentos, freqüência estatística
das palavras e, em alguns casos,
PLN.
Padrões lingüísticos
baseados em PLN (uso
intenso de PLN).
Conceitos

Tipos de Texto

Estruturado - segue um formato predefinido e
rígido.
Conceitos

Tipos de Texto

Não estruturado (Livre) - Não apresentam
nenhuma estrutura regular e as informações
apresentam-se como sentenças livres,
escritas em alguma língua natural.
Conceitos

Tipos de Texto

Semi-estruturado - Não possuem uma
formatação rígida, permitindo, por exemplo, a
ocorrência de variações na ordem dos dados.
Em geral, não respeitam rigidamente a
gramática da língua natural, e podem possuir
muitas palavras abreviadas.
M. E. Califf & R. J. Mooney. (1999). Relational learning of
pattern-match rules for information extraction. In Proceedings of
the Sixteenth National Conference on Artificial Intelligence, pp.
328--334 Orlando, FL.
Conceitos

Tipos de Wrappers


Singleshot - são aqueles que extraem do
documento de entrada apenas dados
isolados, ou seja, eles não são capazes de
ligar uma instância de um campo (slot) do
formulário de saída a uma instância de outro
campo.
Multishot - são aqueles capazes de extrair do
documento de entrada os dados relacionados
entre si, ou seja eles são capazes de ligar as
instancias de diferentes campos.
Conceitos

Tipos de Wrappers – Exemplo:
Capitol Hill 1 br twnhme. Fplc D/W W/D.Undrgrnd pkg
incl $675. 3 BR, upper flr of turn of ctry HOME. incl gar,
grt N. Hill loc $995. (206) 999-9999 <br>
<i> <font size=2> (This ad last ran on 08/03/97.)
</font> </i><hr>
sistem a m ulti-slot
sistem a single-slot
bairro: Capitol Hill
quartos: 1
preço: 675
bairro: Capitol Hill
quartos: 3
preço: 995
bairro: Capitol Hill
bairro: Capitol Hill
quartos: 1
quartos: 3
preço: 675
preço: 995
Formulário Preenc hido
Formulário Preenc hido
Sistemas baseados em PLN

Precisam de um pré-processamento
lingüístico para a realização da extração
Classes sintáticas e semânticas das
palavras
 Algumas vezes é impossível fazer este préprocessamento (Informal Domains)


Web!
Wrappers
A princípio não eram capazes de tratar
textos livres
 Recentemente, tornaram-se mais
poderosos


fazem uso das informações de formatação
e também das características lingüísticas
Wrappers

Técnicas para extração de informação
preencherFormulario(documento) =
fomularioPreenchido
 Determinam as regras de extração
 Autômatos finitos, casamento de padrões,
classificadores de texto e modelos de
Markov escondidos

Wrappers – Autômatos finitos

Definição

(S, Σ,T,s0,F)






S é um conjunto finito de estados
Σ é um alfabeto finito de símbolos de entrada
T é a função de transição (T : S × Σ -> S)
s0  S é o estado inicial
F S é o conjunto de estados finais
Excelentes em textos estruturados
 Podem ser definidos manualmente ou ser
aprendidos automaticamente
Wrappers – Autômatos finitos

Tipos

Acceptors: apenas um estado inicial,
resposta é sim ou não


Recognizers: um ou mais estados finais.


Filtragem e existência do dado
Categorização!
Transducers: geram um conjunto de
símbolos de saída para a entrada
Wrappers – Autômatos finitos

Exemplo
<LI> <A HREF="…"> Mani Chandy </A>, <I>Professor of Computer
Science</I> and <I>Executive Officer for Computer Science</I>
…
<LI> Fred Thompson, <I>Professor Emeritus of Applied Philosophy and
Computer Science</I>
? / next_token
?/å
b
U
?/ å
s<U,U> / å
s<b,U> /
“U=” + next_token
s<b,N> /
“N=” + next_token
N
_
U
etc.
s<U,N> /
“N=” + next_token
s<N,N> / å
_
N
?/ å
? / next_token
Key
• ? : wildcard
• U : state to extract URL
• U : state to skip over tokens
until we reach N
• N : state to extract Name
• N : state to skip over tokens
until we reach A
• s<X,Y> : separator rule for
the separator of
states X and Y
• etc.
Wrappers – Autômatos finitos

Devemos definir
Os estados que deverão “aceitar” os
símbolos a serem extraídos para preencher
o formulário de saída
 Os estados que irão apenas consumir os
símbolos irrelevantes encontrados no
documento
 Os símbolos do documento de entrada que
provocaram a transição de um estado para
outro

Wrappers – Casamento de
padrões
Padrões podem ser descritos através de
expressões regulares ou em uma
linguagem específica ao sistema de EI
 O processo de extração se dá quando
se realiza o casamento dos padrões
definidos com o texto de entrada

Wrappers – Casamento de
padrões
Trata textos estruturados, semiestruturados e livres
 Expressões regulares são mais intuitivas
do que autômatos


Realizam extração multi-slot
Wrappers - Classificação
Classifica(fragmentoTexto) = [escore
campo 1, ..., escore campo n]
 Limitações:

Criação dos fragmentos
 Classificam cada fragmento de forma
independente => ótima localmente, mas
nada garante que seja ótima também
globalmente

Wrappers - Classificação
B. Th o m a s, An ti-Un ific a tio n Ba se d Le a rn in g o f T-Wra p p e rs fo r
In fo rm a tio n Extra c tio n, In Pro c . AAAI-9 9 Wo rksh o p o n M a c hine
Le a rn in g fo r In fo rm a tio n Extra c tio n, 1 9 9 9 .
d iv isã o e m fra g m e n to s
B. Th o m a s, An ti-Un ific a tio n Ba se d Le a rn in g o f T-Wra p p e rs fo r
In fo rm a tio n Extra c tio n, In Pro c . AAAI-9 9 Wo rksh o p o n M a c hine
Le a rn in g fo r In fo rm a tio n Extra c tio n, 1 9 9 9 .
fra g m e nto 1 fra g m e nto 2 fra g m e nto 3 fra g m e nto 4
e xtra ç ã o d e
c a ra c te rístic a s
fra g m e nto 1 fra g m e nto 2 fra g m e nto 3 fra g m e nto 4
1
3
0
0
4
1
1
5
2
2
3
2
Wrappers – Modelos de Markov
escondidos

Exploram a ocorrência dos padrões em
seqüência no texto de entrada para
classificá-los de uma só vez

Maximiza a probabilidade de acerto para
todo o conjunto de padrões
Wrappers – Modelos de Markov
escondidos

Modelos de Markov - definição
Conjunto de estados S
 Probabilidade a priori (s) para os estados s
S
 Probabilidade de transição Pr[s’/s] do
estado s  S para o estado s’  S


S = {ensolarado, chuvoso, nublado}
(nublado)
Pr[chuvoso/ensolarado]
Wrappers – Modelos de Markov
escondidos

Estados ocultos


É possível observar os símbolos (estados visíveis)
emitidos pelos estados escondidos
A cada estado oculto, é associada uma das
classes a serem extraídas
 Cada estado oculto emite tokens de acordo
com a probabilidade de pertencer à classe
associada ao estado
 Criado o modelo, pode-se utilizar o algoritmo
Viterbi para decodificar uma entrada e
determinar os estados ocultos associados
Wrappers – Modelos de Markov
escondidos
B
.T
homas
, Anti-U
nification B
as
ed L
earning of T
-W
rappers
for Information E
x
traction, In P
roc. AAAI-99 W
ork
s
hop on
título
0,2
B
. |T
homas| , | Anti-U
nification | B
as
ed | L
earning | of
|T
-W
rappers| for | Information | E
x
traction | , | In |
P
roc. | AAAI-99 | W
ork
s
hop | on | M
achine | L
earning |
0,5 0,5
S
0
0,8
autor0
0,2
A
lgoritmoV
iterbi
B
.= a
u
to
r | T
h
o
m
a
s= a
u
to
r| ,=o
u
tro| A
n
ti-U
n
ifica
tio
n= títu
lo
| B
a
se
d= títu
lo
| L
e
a
rn
Aplicações de RI

Extração de Informação em Documentos

Palavras-chave
Indexação
 Catalogação

Empresa do Rio de Janeiro com mais de 12 anos de experiência
em Gerenciamento Eletrônico de Documentos.
Aplicações de RI

Extração de Informação em Documentos

Conteúdo
Análise Estrutural
 Análise Semântica

Empresa portuguesa responsável por 3,4% do PIB de Portugal.
Aplicações de RI

Extração de Informação em Documentos

Análise do Código Fonte de Aplicações
Uso de Padrões
 Qualidade do Código

Empresa de Curitiba, oferece sistemas de análise do código fonte
em diversas linguagens.
Aplicações de RI

Extração de Informação na WEB

Filtragem de Fóruns
Controle do Conteúdo
 Assunto dos Diálogos

Empresa de São Paulo com mais de 20 anos de mercado. Oferece
soluções para e-learning.
Aplicações de RI

Extração de Informação na WEB

Monitoramento da WEB
Busca por Hackers
 Busca por Terroristas

Empresa mundialmente reconhecida, presente no Brasil há 10 anos,
oferecendo soluções nas áreas de segurança web e redes.
Aplicações de RI

Extração de Informações Estratégicas

Business Intelligence
Análise de Mercado
 Melhoria de Processos

Empresa brasileira que oferece soluções na área de BI.
Aplicações de RI

Extração de Informações Estratégicas

Análises Biológicas de Dados
Regiões Codificantes (DNA)
 Regiões Ativas (Proteínas)

National Center for Biotechnology Information, criado em 1988, localizado
nos Estados Unidos. É a principal fonte de informações sobre Genômica
na Internet.
Aplicações de RI

Extração de Informações Estratégicas

Análises de Arquivos de LOG
Logs de Erro
 Logs de Acesso

Empresa mundialmente reconhecida, com mais de 25 anos, oferece
soluções para a análise de logs de erro e acesso a bancos de dados.
Aplicações de RI

Extração de Informações Estratégicas

Análises de Imagens
Geologia
 Climatologia
 Astrologia

Empresa brasileira com 10 anos de mercado, oferece soluções para
análise e classificação de imagens.
Download

Extração de Informação