Projeto de Formatura – Turmas 2008 PCS - Departamento de Engenharia de Computação e Sistemas Digitais Engenharia de Computação Extração de Informações de Textos Jornalísticos sobre Futebol Objetivo O objetivo do trabalho é a extração de informações sobre uma partida de futebol como times, jogadores, gols e resultados a partir de textos jornalísticos sobre o tal esporte. Assim, é armazenada a informação sobre uma estrutura de dados para apresentação sobre um texto que serve para pesquisa e mineração de dados sobre um campeonato ou série de jogos transformando uma informação não-estruturada em uma informação estruturada. Material e Método Figura 2: Arquitetura Geral do Sistema Para o uso da extração é usado o framework nltk (Natural Language Toolkit) para Python. Trata-se de um framework bem rico para pesquisa e desenvolvimento de processamento de linguagem natural. Com isso, usaremos o framework Django para o desenvolvimento Web em conjunto com o banco de dados PostreSQL. Com o banco de dados preenchido pela extração de informações, temos todo esse material disponível para exibição ao usuário. A interface do mesmo é através de uma página Web, na qual há uma caixa de texto em que o usuário insere os termos de seu interesse. Como massa de dados a ser tratada, reunimos todas as notícias de resultados do campeonato paulista de 2008. Portanto, as entradas esperadas são termos relativos ao mesmo: clubes de primeira divisão deste campeonato. Com uma entrada dada, são processados os termos, identificando quais são, e que tipo de termos é: clubes, resultados, estádios. Com as possíveis combinações, são retornadas as páginas que se acredita ser de interesse do usuário. Resultados Figura 1 : Arquitetura do extrator de informações A abordagem para o processamento de texto possui etapas muito análogas às de um compilador, passando pelas fases de análise léxica, sintática e semântica. Para realizar a análise léxica, foi usado POS Tagger Treetagger feito pela Universidade de Stuttgart e treinado com corpus em língua portuguesa. O POS Tagger é um analisador morfossintático usando no console do Linux, fornecendo resultados como classificação de palavras em substantivos, verbos, etc.. Em seguida temos a análise sintática para classificar estruturas de interesse. Por fim, aplicamos análise semântica obtendo de fato as informações desejadas, que são armazenadas no banco de dados. Integrantes: André Felipe Santos Celso Vital Crivelaro ( Pela arquitetura apresentada conseguimos usar ferramentas diferentes para cada fase do processamento lingüístico. Assim, conseguimos fazer um tratamento isolado para a parte Léxica, Sintática e Semântica. Devido a complexidade de uma análise morfo-sintática, conseguimos extrair informações simples, porém, essenciais para as fases seguintes. Conclusões O projeto apresenta uma forma de transformar um grupo de informações não-estruturadas em informações estruturadas. Para isso foi usado recursos de processamento de linguagem natural, com frameworks específicos. Com essas informações estruturadas podemos fazer buscas elaboradas e também recursos de mineração de dados na busca de padrões. [email protected] ) ( [email protected] ) Professor Orientador: Ricardo Luis de Azevedo Rocha ( [email protected] )