Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Levemente modificado por Flávia Barros Índice Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão Motivação Problema: Vasta quantidade de documentos textuais na Web Como apresentar ao usuário apenas o que interessa? Como transmitir os dados entre Web services e bases de dados existentes? Necessário definir templates Motivação O que se quer? Respostas relevantes para o usuário Não apenas links para documentos Gerar resumos/sumários de textos Minerar dados Preencher Base de dados e Bases de conhecimento Introdução O que é EI? Busca identificar dados relevantes presentes nos documentos sem estruturação precisa. Conversão para estruturas tabulares Exibição dos dados de forma legível Introdução Sistema Sistemadede Extração Extraçãodede Informação Informação Exemplo de Sistema de EI Breve História JASPER (1980s) Sistema para finanças MUC-Message Understanding Conference [final da década de 80] Internet/Web [década de 90] EI x Processamento de Linguagem Natural (PLN) Processamento de Linguagem Natural Completa análise dos documentos Complexidade algorítmica alta Extração de Informação Interesse em partes especificas do texto Menor esforço computacional Mineração na web Recuperação de informação x EI Recuperação de Informação Recuperação de documentos relevantes ao usuário baseando-se em cálculos estatísticos sobre os termos que ocorrem no documento. Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras. Extração de Informação Extrai informações relevantes baseando-se no provável domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do domínio Busca derivar conhecimento de documentos recuperados segundo a forma como o documento está estruturado e representado. Processo de extração de informação Trata o problema de extração de dados relevantes a partir de uma coleção de documentos. Os dados a serem extraídos são previamente definidos em um template (formulário) Criação Dos slots Documento com tags Tabelas com campos prédefinidos ou templates Processo de extração de informação Documento Reconhecimento de entidades Análise Léxica e Morfológica Análise de relacionamentos e contexto Análise Sintática Extração individual Integração Análise semântica Inferência Informação estruturada e contexto Processo de extração de informação EI Cluster A Cluster B Cluster C Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman founder Free Software Foundation Abordagens para Sistema de EI Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens: Engenharia de conhecimento Aprendizagem de Máquina As abordagens são diferenciadas pela forma com que as regras são definidas Engenharia de conhecimento Construção de regras é feita manualmente. Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras. Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai trabalhar. Precisão nos resultados é maior. O tempo de desenvolvimento é maior Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010 Aprendizagem de Máquina Utiliza algoritmos de Inteligência Artificial Algoritmos de treinamento automático Para indução de regras de extração Um corpus de documentos etiquetados é usado para treinamento e vallidação das regras induzidas Tempo menor de desenvolvimento Boa precisão nos resultados Não é extensível Difícil adaptação a novos domínios/problemas Requer novo processo de treinamento Técnicas para Sistemas de EI Processamento de Linguagem Natural – PLN Wrappers Processamento de Linguagem Natural - PLN Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos Visão Geral Nível Morfológico: estudo da constituição das palavras em elementos básicos; Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença; Nível Semântico: determinação do significado e interrelacionamento semântico das palavras; Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças; Nível Pragmático:Visa determinar o objetivo do uso da língua Nível Morfológico A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras eats eat + s verbo, singular, 3rd pers dog dog nome, singular Nível Sintático A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica Tem como saída a representação da sentença que representa as dependências entre palavras As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes ‘The dog chased the cat.’ ‘The cat chased the dog.’ Nível Semântico Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença Desambigüidade semântica A cabeça une-se ao tronco pelo pescoço Ele é o cabeça da rebelião Sabrina tem boa cabeça Nível Discursivo Analisa textos maiores que sentenças Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam Reconhecimento de Estrutura de Texto: Em um jornal temos;Artigos de capa, opniões, eventos passados, anúcios Nível Pragmático Foca no significado que vai além do contexto do texto Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução. Wrappers Maior desenvolvimento da WEB nos anos 90. Necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos da WEB. Extraem a informação de documentos e a exportam como parte de uma estrutura de dados. Wrappers Textos são principalmente: Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida, permitem a ocorrência de variações na ordem dos dados. Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc. Técnicas de Extração Autômatos finitos Casamento de padrões Classificadores de texto Modelos de Markov escondidos (HMM) Autômatos Finitos Bons para textos estruturados. Definidos manualmente ou aprendidos automaticamente. Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais (categorização) Transducers Casamento de Padrões Textos estruturados, semi-estruturados e livres. Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. ER mais intuitivas do que autômatos. Classificadores de Texto Textos semi-estruturados Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento Modelos de Markov Escondidos (HMM) Textos livres e semi-estruturados. Verifica a ocorrência de padrões em sequência no texto de entrada. Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. Maximiza a probabilidade de acerto para o conjunto todo de padrões. Construção de wrappers Automática Semi-automática Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. Manual Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos. Desafios Técnicas de Extração “Dividir pra Conquistar” Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem Desafios Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia Aplicações de EI Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo Monitoramento da WEB Buscar por Hackers Busca por Terroristas Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes Dúvidas Referências MANFREDINI,V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados http://en.wikipedia.org/wiki/Information_extraction Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia. pdf Referências Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR http://143.54.31.10/reic/edicoes/2003e2/tutoriais/Minerac aoNaWeb.pdf Referências www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt http://sare.unianhanguera.edu.br/index.php/rcext/article/vi ewFile/413/409 MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc