O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa Bruno Martins – xldb.fc.ul.pt/~bmartins/ 1 Motivação • Documentos ricos em informação geográfica • Recente interesse em ferramentas de recuperação de informação “geográficas” • Reconhecer e desambiguar referências a nomes de locais é um requisito fundamental • Sistema CaGE no contexto do GeoTumba! Bruno Martins – xldb.fc.ul.pt/~bmartins/ 2 Tratamento de Referências Geográficas e o HAREM • Alguns estudos iniciais sobre o problema – Workshop on the analysis of geographic references – Workshop on geographical information retrieval • Não existe corpus de referência para avaliação – Classificação semântica dos locais em tipos geográficos – Anotações com coordenadas ou conceitos numa ontologia – Textos na língua Portuguesa • HAREM permite avaliar reconhecimento simples Bruno Martins – xldb.fc.ul.pt/~bmartins/ 3 Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/ 4 Recursos usados pelo CaGE • Ontologia geográfica – GeoNetPT + uma ontologia “global” – Codificam nomes geográficos e relações entre eles • Lista de excepções – Palavras muito frequentes, nomes de pessoas – Tentativa de eliminar falsos positivos • Lista de padrões de reconhecimento – Obtida a partir de “expressões geográficas” Bruno Martins – xldb.fc.ul.pt/~bmartins/ 5 As ontologias geográficas • GKB/GEO-NET-PT • Info. pública • Codificada em OWL • Disponível online Bruno Martins – xldb.fc.ul.pt/~bmartins/ 6 Ambiguidade nas ontologias Ambiguiade nos nomes geográficos! Bruno Martins – xldb.fc.ul.pt/~bmartins/ 7 Nomes Geográficos nas ontologias Bruno Martins – xldb.fc.ul.pt/~bmartins/ 8 As expressões geográficas e a lista de excepções • Tipos identificadores geográficos na ontologia • Relações espaciais de vários tipos – localizado em, perto de, a sul de, … • Baseada em trabalhos anteriores – e.g. Tiago Delboni ou Janet Kohler • Lista de nomes comuns e palavras frequentes • Frequência num corpus Web (usando capitalização) e experimentação Bruno Martins – xldb.fc.ul.pt/~bmartins/ 9 Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/ 10 Arquitectura do CaGE Pipeline de operações para o reconhecimento e desambiguação de referências geográficas Bruno Martins – xldb.fc.ul.pt/~bmartins/ 11 Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/ 12 Adaptações para o HAREM • Marcação SGML do sistema CaGE substituída por marcação mais simples do HAREM – Usar tags <LOCAL> em vez de <PLACE type=“administrative” subtype=“city” id=“geoID-323> • Padrões de reconhecimento diferentes – Apenas locais capitalizados – Locais que não se encontrem na ontologia • Não incluir os prefixos em minúsculas – cidade de <LOCAL>Lisboa</LOCAL> Bruno Martins – xldb.fc.ul.pt/~bmartins/ 13 Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/ 14 Experiências no (Mini)HAREM • Avaliação de apenas um cenário selectivo – Reconhecimento simples de entidades do tipo local • Duas submissões – Utilização da ontologia GeoNetPT – Utilização de GeoNetPT + Ontologia mundial No primeiro HAREM verificamos que muitas entidades do tipo local correspondem a países e cidades estrangeiras importantes Bruno Martins – xldb.fc.ul.pt/~bmartins/ 15 Resultados no (Mini)HAREM Total Identificados Correctos Correctos Espúrias Parcial Em Falta PT 893 686 469 52.5% 50 5.6% 169 18.9% 379 42.4% PT + M 893 696 486 54.4% 49 5.5% 163 18.2% 363 40.6% Ontologia PT+mundial consistentemente melhor Bruno Martins – xldb.fc.ul.pt/~bmartins/ 16 Resultados no (Mini)HAREM Precisão Abrangência Medida F Erro Combinado Sobre Geração Sub Geração PT 0.70 0.54 0.60 0.55 0.25 0.42 PT + M 0.71 0.55 0.62 0.53 0.23 0.41 T O P 0.92 0.74 0.71 0.44 0 0.23 Ontologia PT+mundial consistentemente melhor Por variante de texto, melhor precisão BR e melhor abrangência PT Sistema comportou-se mal em textos técnicos Bruno Martins – xldb.fc.ul.pt/~bmartins/ 17 Análise dos resultados • Ainda há muito a melhorar no CaGE • Mais regras, mais nomes na lista de excepções? • Ainda há muito a analisar nos resultados do HAREM • Especificidades da tarefa de avaliação – Locais do tipo correio não eram reconhecidos • Computacionalmente pesado, reconhecidos parcialmente. – Locais do tipo virtual não eram reconhecidos • Não correspondem a uma localização física. – Locais do tipo alargado não eram reconhecidos • Não correspondem a uma localização física. – Locais dentro de organizações reconhecidos • Câmara Municipal de Braga. Bruno Martins – xldb.fc.ul.pt/~bmartins/ 18 Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/ 19 Conclusões • Sistema CaGE desenvolvido para um contexto específico que não o do HAREM • Experiência de participação no HAREM foi muito positiva, apesar das limitações • Melhorias significativas em relação ao primeira edição do HAREM Bruno Martins – xldb.fc.ul.pt/~bmartins/ 20 Futuro do HAREM • Anotação “geográfica” da colecção dourada – Locais associadas a conceitos numa ontologia – Coordenadas geográficas? • Novos tipos para a classificação semântica – Continente, país, distrito, cidade, avenida, rua, … • HTML e maior volume de dados – Colecção dourada são apenas 893 locais • Performance computacional levada em conta Bruno Martins – xldb.fc.ul.pt/~bmartins/ 21 http://xldb.fc.ul.pt (grupo de investigação) http://xldb.di.fc.ul.pt/geonetpt/ (ontologia) [email protected] Obrigado pela atenção Bruno Martins – xldb.fc.ul.pt/~bmartins/ 22