O Sistema CaGE para Reconhecimento de
Referências Geográficas em Textos na
Língua Portuguesa
Bruno Martins, Marcirio Chaves e
Mário J. Silva,
Universidade de Lisboa
Bruno Martins – xldb.fc.ul.pt/~bmartins/
1
Motivação
•
Documentos ricos em informação geográfica
•
Recente interesse em ferramentas de
recuperação de informação “geográficas”
•
Reconhecer e desambiguar referências a
nomes de locais é um requisito fundamental
•
Sistema CaGE no contexto do GeoTumba!
Bruno Martins – xldb.fc.ul.pt/~bmartins/
2
Tratamento de Referências
Geográficas e o HAREM
• Alguns estudos iniciais sobre o problema
– Workshop on the analysis of geographic references
– Workshop on geographical information retrieval
• Não existe corpus de referência para avaliação
– Classificação semântica dos locais em tipos geográficos
– Anotações com coordenadas ou conceitos numa ontologia
– Textos na língua Portuguesa
• HAREM permite avaliar reconhecimento simples
Bruno Martins – xldb.fc.ul.pt/~bmartins/
3
Sumário da apresentação
•
Motivação
•
Recursos usados pelo sistema CaGE
•
Arquitectura do sistema CaGE
•
Adaptações feitas para o HAREM
•
Experiências e Resultados no (Mini)HAREM
•
Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/
4
Recursos usados pelo CaGE
• Ontologia geográfica
– GeoNetPT + uma ontologia “global”
– Codificam nomes geográficos e relações entre eles
• Lista de excepções
– Palavras muito frequentes, nomes de pessoas
– Tentativa de eliminar falsos positivos
• Lista de padrões de reconhecimento
– Obtida a partir de “expressões geográficas”
Bruno Martins – xldb.fc.ul.pt/~bmartins/
5
As ontologias geográficas
• GKB/GEO-NET-PT
• Info. pública
• Codificada em OWL
• Disponível online
Bruno Martins – xldb.fc.ul.pt/~bmartins/
6
Ambiguidade nas ontologias
Ambiguiade nos nomes geográficos!
Bruno Martins – xldb.fc.ul.pt/~bmartins/
7
Nomes Geográficos nas ontologias
Bruno Martins – xldb.fc.ul.pt/~bmartins/
8
As expressões geográficas
e a lista de excepções
• Tipos identificadores geográficos na ontologia
• Relações espaciais de vários tipos
– localizado em, perto de, a sul de, …
• Baseada em trabalhos anteriores
– e.g. Tiago Delboni ou Janet Kohler
• Lista de nomes comuns e palavras frequentes
• Frequência num corpus Web (usando
capitalização) e experimentação
Bruno Martins – xldb.fc.ul.pt/~bmartins/
9
Sumário da apresentação
•
Motivação
•
Recursos usados pelo sistema CaGE
•
Arquitectura do sistema CaGE
•
Adaptações feitas para o HAREM
•
Experiências e Resultados no (Mini)HAREM
•
Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/
10
Arquitectura do CaGE
Pipeline de operações para o reconhecimento
e desambiguação de referências geográficas
Bruno Martins – xldb.fc.ul.pt/~bmartins/
11
Sumário da apresentação
•
Motivação
•
Recursos usados pelo sistema CaGE
•
Arquitectura do sistema CaGE
•
Adaptações feitas para o HAREM
•
Experiências e Resultados no (Mini)HAREM
•
Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/
12
Adaptações para o HAREM
• Marcação SGML do sistema CaGE substituída por
marcação mais simples do HAREM
– Usar tags <LOCAL> em vez de
<PLACE type=“administrative” subtype=“city” id=“geoID-323>
• Padrões de reconhecimento diferentes
– Apenas locais capitalizados
– Locais que não se encontrem na ontologia
• Não incluir os prefixos em minúsculas
– cidade de <LOCAL>Lisboa</LOCAL>
Bruno Martins – xldb.fc.ul.pt/~bmartins/
13
Sumário da apresentação
•
Motivação
•
Recursos usados pelo sistema CaGE
•
Arquitectura do sistema CaGE
•
Adaptações feitas para o HAREM
•
Experiências e Resultados no (Mini)HAREM
•
Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/
14
Experiências no (Mini)HAREM
• Avaliação de apenas um cenário selectivo
– Reconhecimento simples de entidades do tipo local
• Duas submissões
– Utilização da ontologia GeoNetPT
– Utilização de GeoNetPT + Ontologia mundial
No primeiro HAREM verificamos que muitas
entidades do tipo local correspondem a países e
cidades estrangeiras importantes
Bruno Martins – xldb.fc.ul.pt/~bmartins/
15
Resultados no (Mini)HAREM
Total Identificados Correctos Correctos Espúrias
Parcial
Em
Falta
PT
893
686
469
52.5%
50
5.6%
169
18.9%
379
42.4%
PT
+
M
893
696
486
54.4%
49
5.5%
163
18.2%
363
40.6%
Ontologia PT+mundial consistentemente melhor
Bruno Martins – xldb.fc.ul.pt/~bmartins/
16
Resultados no (Mini)HAREM
Precisão Abrangência Medida
F
Erro
Combinado
Sobre
Geração
Sub
Geração
PT
0.70
0.54
0.60
0.55
0.25
0.42
PT
+
M
0.71
0.55
0.62
0.53
0.23
0.41
T
O
P
0.92
0.74
0.71
0.44
0
0.23
Ontologia PT+mundial consistentemente melhor
Por variante de texto, melhor precisão BR e melhor abrangência PT
Sistema comportou-se mal em textos técnicos
Bruno Martins – xldb.fc.ul.pt/~bmartins/
17
Análise dos resultados
• Ainda há muito a melhorar no CaGE
• Mais regras, mais nomes na lista de excepções?
• Ainda há muito a analisar nos resultados do HAREM
• Especificidades da tarefa de avaliação
– Locais do tipo correio não eram reconhecidos
• Computacionalmente pesado, reconhecidos parcialmente.
– Locais do tipo virtual não eram reconhecidos
• Não correspondem a uma localização física.
– Locais do tipo alargado não eram reconhecidos
• Não correspondem a uma localização física.
– Locais dentro de organizações reconhecidos
• Câmara Municipal de Braga.
Bruno Martins – xldb.fc.ul.pt/~bmartins/
18
Sumário da apresentação
•
Motivação
•
Recursos usados pelo sistema CaGE
•
Arquitectura do sistema CaGE
•
Adaptações feitas para o HAREM
•
Experiências e Resultados no (Mini)HAREM
•
Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/
19
Conclusões
• Sistema CaGE desenvolvido para um
contexto específico que não o do HAREM
• Experiência de participação no HAREM foi
muito positiva, apesar das limitações
• Melhorias significativas em relação ao
primeira edição do HAREM
Bruno Martins – xldb.fc.ul.pt/~bmartins/
20
Futuro do HAREM
• Anotação “geográfica” da colecção dourada
– Locais associadas a conceitos numa ontologia
– Coordenadas geográficas?
• Novos tipos para a classificação semântica
– Continente, país, distrito, cidade, avenida, rua, …
• HTML e maior volume de dados
– Colecção dourada são apenas 893 locais
• Performance computacional levada em conta
Bruno Martins – xldb.fc.ul.pt/~bmartins/
21
http://xldb.fc.ul.pt (grupo de investigação)
http://xldb.di.fc.ul.pt/geonetpt/ (ontologia)
[email protected]
Obrigado pela atenção
Bruno Martins – xldb.fc.ul.pt/~bmartins/
22
Download

ppt - Linguateca