Reconhecedor de Conceitos Celso Vital Crivelaro André Felipe Santos João Paulo Samara Orientador: Prof. Dr. Ricardo Luís Rocha Geração da Base de Conhecimento Uso da Informação estruturada Palmeiras Buscar Informações sobre Palmeiras Palmeiras X São Paulo Jogos: Palmeiras X São Paulo – 15/03/2008 Palmeiras X Portuguesa – 26/03/2008 Local: Estádio Santa Cruz Data: 16/03/2008 Escalação do Palmeiras: Marcos, Élder Granja, Gustavo, Henrique e Leandro; Wendel (Martinez), Léo Lima, Diego Souza e Valdivia; Kléber (Makelele) e Alex Mineiro (Denilson) Palmeiras e São Paulo entraram pressionados no duelo deste domingoInformações em Ribeirãosobre Preto.Palmeiras Jogos: Palmeiras X Portuguesa Palmeiras X São Paulo Escalação do São Paulo: Rogério Ceni; Zé Luis, André Dias, Juninho e Junior (Aloísio); Hernanes, Richarlyson, Carlos Alberto (Joílson) e Jorge Wagner; Adriano e Borges Tratamento Lingüístico Framework GATE: General Architecture for Text Engineering Recursos de Linguagem Anotações, Ontologias Recursos de Processamento Tokenizer, Gazetteer, Analisador Morfológico JAPE: Java Annotation Patterns Engine Passos do Processamento Lingüístico Tokeniser: Quebrar o texto em tokens Passos do Processamento Lingüístico Gazetter: Busca de listas de assuntos TimesDeFutebol.lst Palmeiras São Paulo Santos Sertãozinho Portuguesa Ponte Preta Corinthians ... Serve para marca esses itens como “Times de Futebol” JAPE Permite criar as próprias regras para marcação Resultado é tratado como código Java JAPE Buscar padrões de textos sobre futebol Um revés poderia significar a saída do G-4 em um momento de definição do Campeonato Paulista. Melhor para o time de Parque Antarctica, que goleou de virada por 4 a 1 NUMERO + “ a “ + NUMERO -> Resultado do Jogo Armazenamento As informações serão classificadas em classes: Time Jogador Jogo O armazenamento se dará em uma base de dados Tratamento de entradas Identificação de partes análogas à informação estruturada da entrada TimesDeFutebol.lst Palmeiras Buscar Informações sobre Palmeiras Jogos: Palmeiras X São Paulo – 15/03/2008 Palmeiras X Portuguesa – 26/03/2008 Palmeiras São Paulo Santos Sertãozinho Portuguesa Ponte Preta Corinthians ... Tratamento das entradas Cruzamento das informações recolhidas da entrada com as informações estruturadas armazenadas TimesDeFutebol.lst Palmeiras São Paulo Santos Sertãozinho Portuguesa Ponte Preta Corinthians ... Tratamento das entradas Em função dos tipos de conceito fornecidos pelo usuário, determinar resultados a retornar: Últimos jogos de um time Confrontos entre times fornecidos Participações de um jogador Informações de um jogo específico Problemas a resolver Como definir, das entradas localizadas, os conceitos? Comparação com as listas de Assuntos Utilizar busca textual aproximada (ex: Curíntia ser identificado com Corinthians) Utilização de busca semântica (ex: estamos falando de time? De jogo? De jogador?) Os conceitos estão ligados, permitindo que se obtenha a melhor informação. Próximos passos Definir detalhes da arquitetura Pesquisar como implementar a busca semântica Pesquisar como obter automaticamente páginas com a informação desejada, para gerar a ontologia Definir a especificação final do projeto