Extração da Informação
Cirdes Borges, Flávio Dantas, Rafael Barbosa,
Samuel Arcoverde, Tiago Rocha
Levemente modificado por Flávia Barros
Índice






Motivação
Introdução
Processo de extração da informação
Abordagens para um sistema de EI
Desafios
Conclusão
Motivação

Problema:

Vasta quantidade de documentos textuais na Web


Como apresentar ao usuário apenas o que interessa?
Como transmitir os dados entre Web services e bases de
dados existentes?

Necessário definir templates
Motivação

O que se quer?

Respostas relevantes para o usuário

Não apenas links para documentos

Gerar resumos/sumários de textos

Minerar dados

Preencher Base de dados e Bases de conhecimento
Introdução

O que é EI?

Busca identificar dados relevantes presentes nos documentos
sem estruturação precisa.

Conversão para estruturas tabulares

Exibição dos dados de forma legível
Introdução
Sistema
Sistemadede
Extração
Extraçãodede
Informação
Informação
Exemplo de Sistema de EI
Breve História

JASPER (1980s)

Sistema para finanças

MUC-Message Understanding Conference [final da
década de 80]

Internet/Web [década de 90]
EI x Processamento de Linguagem
Natural (PLN)

Processamento de Linguagem Natural



Completa análise dos documentos
Complexidade algorítmica alta
Extração de Informação


Interesse em partes especificas do texto
Menor esforço computacional
Mineração na web
Recuperação de informação x EI

Recuperação de Informação




Recuperação de documentos relevantes ao usuário baseando-se
em cálculos estatísticos sobre os termos que ocorrem no
documento.
Uso do conteúdo sintático dos documentos
Visualiza o documento apenas como um conjunto de palavras.
Extração de Informação



Extrai informações relevantes baseando-se no provável domínio
de conhecimento do documento
Filtrar o resultado de uma tarefa de RI graças a restrição do
domínio
Busca derivar conhecimento de documentos recuperados
segundo a forma como o documento está estruturado e
representado.
Processo de extração de informação

Trata o problema de extração de dados relevantes a
partir de uma coleção de documentos.

Os dados a serem extraídos são previamente
definidos em um template (formulário)
Criação
Dos slots
Documento
com tags
Tabelas com
campos prédefinidos ou
templates
Processo de extração de informação
Documento
Reconhecimento
de entidades
Análise Léxica e
Morfológica
Análise de
relacionamentos
e contexto
Análise Sintática
Extração
individual
Integração
Análise semântica
Inferência
Informação
estruturada
e contexto
Processo de extração de informação
EI
Cluster
A
Cluster
B
Cluster
C
Microsoft Corporation
CEO
Bill Gates
Microsoft
Gates
Microsoft
Bill Veghte
Microsoft
VP
Richard Stallman
founder
Free Software Foundation
Abordagens para Sistema de EI


Observamos nos sistemas de Extração de Informação a
distinção entre duas abordagens:

Engenharia de conhecimento

Aprendizagem de Máquina
As abordagens são diferenciadas pela forma com que as
regras são definidas
Engenharia de conhecimento

Construção de regras é feita manualmente.

Requer que um especialista em sistemas de Extração de
Informação participe efetivamente da criação das regras.

Construção baseada no conhecimento que o engenheiro
possui do cenário e domínio com o qual vai trabalhar.

Precisão nos resultados é maior.

O tempo de desenvolvimento é maior
Alana Brito – Fernando Rodrigues – Josias Barbosa
05/05/2010
Aprendizagem de Máquina

Utiliza algoritmos de Inteligência Artificial


Algoritmos de treinamento automático
Para indução de regras de extração

Um corpus de documentos etiquetados é usado para
treinamento e vallidação das regras induzidas

Tempo menor de desenvolvimento

Boa precisão nos resultados

Não é extensível

Difícil adaptação a novos domínios/problemas

Requer novo processo de treinamento
Técnicas para Sistemas de EI


Processamento de Linguagem Natural – PLN
Wrappers
Processamento de Linguagem Natural - PLN


Utilizado no tratamento de documentos com pequeno ou
nenhum grau de estruturação
Processamento de Língua Natural caracteriza-se pela
análise e manipulação ou codificação de informações
expressas em língua natural a fim de encontrar os dados
relevantes a serem extraídos
Visão Geral





Nível Morfológico: estudo da constituição das palavras em
elementos básicos;
Nível Sintático: determinação da relação (papel) de um
conjunto de palavras em uma sentença;
Nível Semântico: determinação do significado e interrelacionamento semântico das palavras;
Nível Discursivo: objetiva-se em determinar o significado
de um conjunto de sentenças;
Nível Pragmático:Visa determinar o objetivo do uso da
língua
Nível Morfológico
A análise Morfológica determina:
 O radical + sufixo da palavra, e geralmente constrói um
dicionário adicionando informações relacionadas como:
 Classe da palavra
 Conjugação
 Pessoa
A análise morfológica pode ser implementada através de
algorítmos baseados em regras
eats  eat + s
verbo, singular, 3rd pers
dog  dog
nome, singular
Nível Sintático




A análise sintática faz uso do dicionário gerado pela
análise morfológica procurando mostrar relacionamento
entre palavras.
As palavras que apresentam apenas um sentido possível
podem ser substituídas pela sua representação semântica
Tem como saída a representação da sentença que
representa as dependências entre palavras
As sentenças de exemplo apenas diferem na sintáxi e
apresentam significados diferentes
‘The dog chased the cat.’
‘The cat chased the dog.’
Nível Semântico



Não é apenas neste nível que o significado é determinado,
todos os níveis contribuem para a determinação do
significado
O nível semântico determina o possível significado de
uma sentença, focando nas interações entre os
significados das palavras na sentença
Desambigüidade semântica
A cabeça une-se ao tronco pelo pescoço
Ele é o cabeça da rebelião
Sabrina tem boa cabeça
Nível Discursivo




Analisa textos maiores que sentenças
Foca nas propriedades do texto como um todo,
determinando significado através das conexões de
sentenças
Resolução de Anáfora: Substituição de pronomes pelas
entidades que eles referenciam
Reconhecimento de Estrutura de Texto: Em um jornal
temos;Artigos de capa, opniões, eventos passados,
anúcios
Nível Pragmático



Foca no significado que vai além do contexto do texto
Requer um conhecimento global
Os exemplos seguintes utilizam anáforas mas as
resoluções necessitam de um conhecimento global
Os vereadores recusaram receber os manifestantes,
porque eles temiam o confronto
Os vereadores recusaram receber os manifestantes,
porque eles defendiam a revolução.
Wrappers



Maior desenvolvimento da WEB nos anos 90.
Necessidade de sistemas mais eficientes com capacidade
suficiente para extrair informação dos textos da WEB.
Extraem a informação de documentos e a exportam
como parte de uma estrutura de dados.
Wrappers

Textos são principalmente:



Estruturados: com formato predefinido e rígido.
Semi-estruturados: sem formatação rígida, permitem a
ocorrência de variações na ordem dos dados.
Utilizam dados sobre a formatação do texto, marcadores,
freqüência estatística das palavras, etc.
Técnicas de Extração

Autômatos finitos

Casamento de padrões

Classificadores de texto

Modelos de Markov escondidos (HMM)
Autômatos Finitos

Bons para textos estruturados.

Definidos manualmente ou aprendidos automaticamente.

Tipos:



Acceptors: com resposta sim ou não
Recognizers: um ou mais estados finais (categorização)
Transducers
Casamento de Padrões

Textos estruturados, semi-estruturados e livres.

Padrões descritos através de expressões regulares (ER)
que “casam” com o texto para extrair as informações.

ER mais intuitivas do que autômatos.
Classificadores de Texto

Textos semi-estruturados

Documento é dividido em fragmentos, podendo utilizar
várias características deles (tamanho, posição, formatação,
presença de palavras)

Realiza classificação local independente para cada
fragmento, perdendo informações estruturais importantes
do documento
Modelos de Markov Escondidos (HMM)

Textos livres e semi-estruturados.

Verifica a ocorrência de padrões em sequência no texto
de entrada.

Assume-se que a probabilidade de se visitar um site
depende do site que foi visitado anteriormente.

Maximiza a probabilidade de acerto para o conjunto todo
de padrões.
Construção de wrappers

Automática


Semi-automática


Define regras de extração com um corpus de treinamento
com de técnicas de aprendizagem de máquina.
Auxiliado por ferramentas, o usuário especifica a estrutura e o
contexto dos dados a serem extraídos.
Manual

Mais demorada e trabalhosa, porém com maior precisão nos
dados extraídos.
Desafios

Técnicas de Extração







“Dividir pra Conquistar”
Classes de conhecimento
Linguagem natural
Idiomas
Métricas de avaliação
Classificar stop words
Apredizagem
Desafios

Ontologias
Acesso do Usuário
 Conteúdo preciso, claro
 Padrões Ontologia

Aplicações de EI

Filtragem de Fóruns



Controle de Conteúdo
Assunto do Dialogo
Monitoramento da WEB


Buscar por Hackers
Busca por Terroristas
Conclusões



Extrair Informação é preciso
WEB é um pandemônio de informações
Soluções inteligentes
Dúvidas
Referências




MANFREDINI,V. H.; Proposta de uma Técnica de
Extração de Informação de Arquivos de Log de
Servidores Proxy
Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma
Abordagem de Aprendizagem Híbrida para Extração de
Informação em Textos Semi-Estruturados
http://en.wikipedia.org/wiki/Information_extraction
Liddy, E. D. In Encyclopedia of Library and Information
Science, 2nd Ed. Marcel Decker, Inc
http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.
pdf
Referências




Schneider O. M., Rosa, L.J., Processamento de Linguagem
Natural (PLN), http://moschneider.tripod.com/pln.pdf
Aranha C., Passos E. A Tecnologia de Mineração de Textos,
PUC-RIO
Bulegon H., Moro M. C. C., Text Mining and Natural
Language Processing in Discharge Summaries,
PPGTS,PUCPR
http://143.54.31.10/reic/edicoes/2003e2/tutoriais/Minerac
aoNaWeb.pdf
Referências



www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt
http://sare.unianhanguera.edu.br/index.php/rcext/article/vi
ewFile/413/409
MELO, Taciana. Um Sistema Especialista para Extração e
Classificação de Receitas Culinárias em Páginas
Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn.
2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc
Download

Extração da Informação