Projeto de Formatura – Turmas 2008
PCS - Departamento de Engenharia
de Computação e Sistemas Digitais
Engenharia de Computação
Extração de Informações de Textos Jornalísticos sobre Futebol
Objetivo
O objetivo do trabalho é a extração de informações sobre
uma partida de futebol como times, jogadores, gols e
resultados a partir de textos jornalísticos sobre o tal esporte.
Assim, é armazenada a informação sobre uma
estrutura de dados para apresentação sobre um texto
que serve para pesquisa e mineração de dados sobre
um campeonato ou série de jogos transformando
uma informação não-estruturada em uma
informação estruturada.
Material e Método
Figura 2: Arquitetura Geral do Sistema
Para o uso da extração é usado o framework nltk
(Natural Language Toolkit) para Python. Trata-se
de um framework bem rico para pesquisa e
desenvolvimento de processamento de linguagem
natural.
Com isso, usaremos o framework Django para o
desenvolvimento Web em conjunto com o banco
de dados PostreSQL.
Com o banco de dados preenchido pela extração de informações,
temos todo esse material disponível para exibição ao usuário. A
interface do mesmo é através de uma página Web, na qual há uma
caixa de texto em que o usuário insere os termos de seu interesse.
Como massa de dados a ser tratada, reunimos todas as notícias de
resultados do campeonato paulista de 2008. Portanto, as entradas
esperadas são termos relativos ao mesmo: clubes de primeira
divisão deste campeonato.
Com uma entrada dada, são processados os termos, identificando
quais são, e que tipo de termos é: clubes, resultados, estádios.
Com as possíveis combinações, são retornadas as páginas que se
acredita ser de interesse do usuário.
Resultados
Figura 1 : Arquitetura do extrator de informações
A abordagem para o processamento de texto possui etapas muito
análogas às de um compilador, passando pelas fases de análise
léxica, sintática e semântica.
Para realizar a análise léxica, foi usado POS Tagger Treetagger feito
pela Universidade de Stuttgart e treinado com corpus em língua
portuguesa. O POS Tagger é um analisador morfossintático usando no
console do Linux, fornecendo resultados como classificação de
palavras em substantivos, verbos, etc.. Em seguida temos a análise
sintática para classificar estruturas de interesse.
Por fim, aplicamos análise semântica obtendo de fato as informações
desejadas, que são armazenadas no banco de dados.
Integrantes: André Felipe Santos
Celso Vital Crivelaro
(
Pela arquitetura apresentada conseguimos usar ferramentas
diferentes para cada fase do processamento lingüístico. Assim,
conseguimos fazer um tratamento isolado para a parte Léxica,
Sintática e Semântica.
Devido a complexidade de uma análise morfo-sintática,
conseguimos extrair informações simples, porém, essenciais para
as fases seguintes.
Conclusões
O projeto apresenta uma forma de transformar um grupo de
informações não-estruturadas em informações estruturadas.
Para isso foi usado recursos de processamento de linguagem
natural, com frameworks específicos.
Com essas informações estruturadas podemos fazer buscas
elaboradas e também recursos de mineração de dados na busca de
padrões.
[email protected]
)
( [email protected] )
Professor Orientador: Ricardo Luis de Azevedo Rocha
( [email protected] )
Download

Apresentação do PowerPoint