Reconhecedor de
Conceitos
Celso Vital Crivelaro
André Felipe Santos
João Paulo Samara
Orientador: Prof. Dr. Ricardo Luís Rocha
Geração da Base de
Conhecimento
Uso da Informação estruturada
Palmeiras
Buscar
Informações sobre Palmeiras
Palmeiras X São Paulo
Jogos:
Palmeiras X São Paulo – 15/03/2008
Palmeiras X Portuguesa – 26/03/2008
Local: Estádio Santa Cruz
Data: 16/03/2008
Escalação do Palmeiras:
Marcos, Élder Granja, Gustavo,
Henrique e Leandro; Wendel
(Martinez), Léo Lima, Diego Souza e
Valdivia; Kléber (Makelele) e Alex
Mineiro (Denilson)
Palmeiras e São Paulo entraram
pressionados no duelo deste
domingoInformações
em Ribeirãosobre
Preto.Palmeiras
Jogos:
Palmeiras X Portuguesa
Palmeiras X São Paulo
Escalação do São Paulo:
Rogério Ceni; Zé Luis, André Dias,
Juninho e Junior (Aloísio); Hernanes,
Richarlyson, Carlos Alberto (Joílson)
e Jorge Wagner; Adriano e Borges
Tratamento Lingüístico

Framework GATE: General Architecture for
Text Engineering

Recursos de Linguagem


Anotações, Ontologias
Recursos de Processamento


Tokenizer, Gazetteer, Analisador Morfológico
JAPE: Java Annotation Patterns Engine
Passos do Processamento
Lingüístico

Tokeniser: Quebrar o texto em tokens
Passos do Processamento
Lingüístico

Gazetter: Busca de listas de assuntos
TimesDeFutebol.lst
Palmeiras
São Paulo
Santos
Sertãozinho
Portuguesa
Ponte Preta
Corinthians
...
Serve para marca esses itens
como “Times de Futebol”
JAPE

Permite criar as próprias regras para
marcação
Resultado é tratado
como código Java
JAPE

Buscar padrões de textos sobre futebol
Um revés poderia significar a saída do G-4 em um momento
de definição do Campeonato Paulista.
Melhor para o time de Parque Antarctica, que goleou de
virada por 4 a 1
NUMERO + “ a “ + NUMERO
-> Resultado do Jogo
Armazenamento

As informações serão classificadas em
classes:




Time
Jogador
Jogo
O armazenamento se dará em uma base de
dados
Tratamento de entradas

Identificação de partes análogas à informação
estruturada da entrada
TimesDeFutebol.lst
Palmeiras
Buscar
Informações sobre Palmeiras
Jogos:
Palmeiras X São Paulo – 15/03/2008
Palmeiras X Portuguesa – 26/03/2008
Palmeiras
São Paulo
Santos
Sertãozinho
Portuguesa
Ponte Preta
Corinthians
...
Tratamento das entradas

Cruzamento das informações recolhidas da
entrada com as informações estruturadas
armazenadas
TimesDeFutebol.lst
Palmeiras
São Paulo
Santos
Sertãozinho
Portuguesa
Ponte Preta
Corinthians
...
Tratamento das entradas

Em função dos tipos de conceito fornecidos
pelo usuário, determinar resultados a
retornar:




Últimos jogos de um time
Confrontos entre times fornecidos
Participações de um jogador
Informações de um jogo específico
Problemas a resolver

Como definir, das entradas localizadas, os
conceitos?



Comparação com as listas de Assuntos
Utilizar busca textual aproximada (ex: Curíntia ser
identificado com Corinthians)
Utilização de busca semântica (ex: estamos
falando de time? De jogo? De jogador?) Os
conceitos estão ligados, permitindo que se
obtenha a melhor informação.
Próximos passos




Definir detalhes da arquitetura
Pesquisar como implementar a busca
semântica
Pesquisar como obter automaticamente
páginas com a informação desejada, para
gerar a ontologia
Definir a especificação final do projeto
Download

apresentacao3