



Gregório Patriota
Lucas Paes
Renan H. Torres
Vinícius Viana

Motivação

Processo de extração da informação

Abordagens para um sistema de EI

Aplicações

Conclusão

Crescimento desordenado da internet:
◦ Em Dez/2012 o site InternetArchive afirmou que a
internet possuia 10PetaBytes
◦ Em 2015 estudos prevêm 966ExaBytes
(1,000,000,000,000,000,000bytes)

Oportunidade de extrair informações da rede
◦ Problemas
 Documentos na maioria das vezes: não-estruturas ou
semi-estruturados
 Migração de dados entre interfaces distintas:
 Web-service -> Banco de Dados

Com Extração de Informações é possível:
◦ Gerar resumos de textos
◦ Minerar Dados
◦ Preencher Base de Dados
◦ Sumarizar Textos

O que é EI?
◦ Encontra informações em documentos não
estruturados ou semi-estruturados
◦ Conversão para estruturas de tabelas
 WebServices
 Banco de Dados
◦ Exibição dos dados de forma legível
Sistema de
Extração de
Informação

História
◦ JASPER (1980s)
 Sistema para finanças
◦ MUC-Message Understanding Conference [final da
década de 80]
◦ Internet/Web [década de 90]


Recuperação de informação trata documentos
relevantes, levando em conta os termos que
aparecem no documento
Análise sintática do documento



Busca mais direta nos textos.
Pesquisa direcionada em partes específicas
do texto
Possui custo computacional mais baixo,
menor esforço



Extração de informação é uma tarefa na área
de Recuperação da Informação
As informações são extraídas baseando-se
no prévio conhecimento do documento
Procura encontrar informações e derivar
conhecimento de documentos recuperados
através da estrutura de sua representação
Documento
Reconhecimento
de entidades
Análise Léxica
e Morfológica
Análise de
relacionament
os e contexto
Análise
Sintática
Extração
individual
Integração
Análise
semântica
Inferência
Informação
estruturada
e contexto

A Implementação de sistemas de Extração de
Informação distinguem-se entre duas
abordagens:
◦ Engenharia de conhecimento
◦ Treinamento automático

As abordagens são diferenciadas pela forma
com que as regras são definidas


Regras são elaboradas manualmente
Para isso é necessário que um especialista
em sistemas de Extração de Informação
participe efetivamente da criação das regras

Sistemas mais precisos

Mais tempo para desenvolvê-lo



Algoritmos de Inteligência Artificial para treinar o
sistema
Documentos são utilizados no treinamento e na
geração das regras
Usuários podem interagir
◦ O algoritmo aprende regras com a interação com o
usuário

Tempo menor de desenvolvimento

Menor precisão nos resultados

Wrappers

Processamento de Linguagem Natural – PLN


Módulo que extrai a informação de
documentos e a exporta como parte de uma
estrutura de dados
Avanço da WEB, necessidade de sistemas
mais eficientes com capacidade suficiente
para extrair informação dos textos

Textos estão
◦ Estruturados
◦ Semi-estruturados

Utilizam dados sobre a formatação do texto,
marcadores, freqüência estatística das
palavras

Automática
◦ Define regras de extração com um corpus de
treinamento com de técnicas de aprendizagem de
máquina.

Semi-automática
◦ Auxiliado por ferramentas, o usuário especifica a
estrutura e o contexto dos dados a serem
extraídos.

Manual
◦ Mais demorada e trabalhosa, porém com maior
precisão nos dados extraídos.

Textos estão
◦ Semi-Estruturados (pouca estrutura)
◦ Sem estrutura

PLN trabalha com língua e suas nuances para
descobrir dados relevantes a serem extraídos

Nível Morfológico

Nível Sintático

Nível Semântico

Nível Discursivo

Nível Pragmático
A análise Morfológica determina:
Radical +
Sufixo
Classe da
Palavra
Conjugação
Pessoa
Eat+s
Verbo
Singular
3ª Pessoa
Dog+s
Substantivo
Plural
----------




A análise sintática faz uso do dicionário gerado
pela análise morfológica procurando mostrar
relacionamento entre palavras.
As palavras que apresentam apenas um sentido
possível podem ser substituídas pela sua
representação semântica
Tem como saída a representação da sentença
que representa as dependências entre palavras
As sentenças de exemplo apenas diferem na
sintaxe e apresentam significados diferentes



Não é apenas neste nível que o significado é
determinado, todos os níveis contribuem
para a determinação do significado
O nível semântico determina o possível
significado de uma sentença, focando nas
interações entre os significados das palavras
na sentença
Sem ambiguidade semântica
◦ A cabeça une-se ao tronco pelo pescoço
◦ Ele é o cabeça da rebelião
◦ Sabrina tem boa cabeça



Analisa textos maiores que sentenças
Foca nas propriedades do texto como um
todo, determinando significado através das
conexões de sentenças
Resolução de Anáfora:
◦ Substituição de pronomes pelas entidades que eles
referenciam

Reconhecimento de estrutura de texto:
◦ em um revistas temos; artigos de capa, opiniões,
eventos passados, anúncios



Foca no significado que vai além do contexto
do texto
Requer um conhecimento global
Os exemplos seguintes utilizam anáforas mas
as resoluções necessitam de um
conhecimento global
◦ Os vereadores recusaram receber os manifestantes,
porque eles temiam o confronto
◦ Os vereadores recusaram receber os manifestantes,
porque eles defendiam a revolução.

Autômatos finitos

Casamento de padrões

Classificadores de texto

Modelos de Markov escondidos (HMM)



Bons para textos estruturados.
Definidos manualmente ou aprendidos
automaticamente.
Tipos:
◦ Acceptors: com resposta sim ou não
◦ Recognizers: um ou mais estados finais
(categorização)
◦ Transducers



Textos estruturados, semi-estruturados e
livres.
Padrões descritos através de expressões
regulares (ER) que “casam” com o texto para
extrair as informações.
ER mais intuitivas do que autômatos.



Textos semi-estruturados
Documento é dividido em fragmentos,
podendo utilizar várias características deles
(tamanho, posição, formatação, presença de
palavras)
Realiza classificação local independente para
cada fragmento, perdendo informações
estruturais importantes do documento




Textos livres e semi-estruturados.
Verifica a ocorrência de padrões em
sequência no texto de entrada.
Assume-se que a probabilidade de se visitar
um site depende do site que foi visitado
anteriormente.
Maximiza a probabilidade de acerto para o
conjunto todo de padrões.

Ubibus
◦ UbibusAnalysis
 TG de vgl2 do Cin UFPE
 Extrator de Dados Contextuais - responsável por
buscar nas redes sociais informações sobre
ocorrências de trânsito no Recife

Filtragem de Fóruns
◦ Controle de Conteúdo
◦ Assunto do Dialogo

Monitoramento da WEB
◦ Buscar por Hackers
◦ Busca por Terroristas

DEWI
◦ É uma ferramenta baseada na Web que permite aos
usuários encontrar e extrair as variáveis ​de
conjuntos de dados selecionados dentro da ciência
social, a coleta de dados numéricos “The Stanford
University Libraries”.
◦ Ele está disponível para uso pela comunidade de
Stanford para investigação e instrução.
◦ O Sistema DEWI foi inspirado no Codebook
Eletrônico (BCE) para Windows que foi desenvolvido
por Dennis Carroll no Centro Nacional para
Estatísticas da Educação (ENC).


Software aplicado em várias áreas:
A seguir, histórias de sucesso de clientes para
extração de dados Web

Extrair Informação é preciso

WEB é um pandemônio de informações

Soluções inteligentes




MANFREDINI, V. H.; Proposta de uma Técnica de
Extração de Informação de Arquivos de Log de
Servidores Proxy
Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.;
Uma Abordagem de Aprendizagem Híbrida para
Extração de Informação em Textos SemiEstruturados
http://en.wikipedia.org/wiki/Information_extract
ion
Liddy, E. D. In Encyclopedia of Library and
Information Science, 2nd Ed. Marcel Decker, Inc
http://www.cnlp.org/publications/03NLP.LIS.Enc
yclopedia.pdf




Schneider O. M., Rosa, L.J., Processamento de
Linguagem Natural (PLN),
http://moschneider.tripod.com/pln.pdf
Aranha C., Passos E. A Tecnologia de Mineração
de Textos, PUC-RIO
Bulegon H., Moro M. C. C., Text Mining and
Natural Language Processing in Discharge
Summaries, PPGTS,PUCPR
http://143.54.31.10/reic/edicoes/2003e2/tutori
ais/MineracaoNaWeb.pdf



www.cin.ufpe.br/~if796/20061/ExtracaoInformacao.ppt
http://sare.unianhanguera.edu.br/index.php/rce
xt/article/viewFile/413/409
MELO, Taciana. Um Sistema Especialista
para Extração e Classificação de
Receitas Culinárias em Páginas Eletrônicas.
Trabalho de Conclusão de Curso. UFPE, CIn.
2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc
Download

Extração da Informação - Centro de Informática da UFPE