Revisitando os desafios da recuperação de
informação geográfica na Web
Lin Tzy Li*, Ricardo da Silva Torres**
Há uma grande quantidade de informação na Web sobre entidades geográficas e grande interesse em
localizá-las em mapas. Entretanto, os atuais mecanismos de busca na Web ainda não permitem, em uma
única ferramenta, buscas que envolvam relações espaciais, pois, em geral, a consulta é processada
levando-se em conta apenas as palavras-chave usadas na consulta. Este artigo faz uma breve revisão
da área de recuperação de informação geográfica (Geographic Information Retrieval – GIR) e uma
releitura de desafios e oportunidades de pesquisa na área, a partir da proposta de uma arquitetura para
buscas na Web, envolvendo relacionamento espacial entre entidades geográficas, bem como da
implementação inicial dessa arquitetura.
Palavras-chave: Recuperação de informação geográfica. Busca Web. Consulta geográfica.
Relacionamento espacial. GIR.
Introdução
A informação geográfica pressupõe a existência
de atributo relacionado à localização de um
objeto no espaço, como, por exemplo, uma
coordenada geográfica ou uma relação, direta ou
indireta, a algum objeto que possa ser localizado
geograficamente. Tal informação pode consistir
desde um endereço completo até referências
indiretas – como aeroporto de Cumbica (o que
remete ao município de Guarulhos, próximo à
cidade de São Paulo).
O que se procura na área de recuperação de
informação geográfica (Geographic Information
Retrieval – GIR) é tratar dos novos desafios
advindos da adição da variável geográfica na
tradicional área de recuperação de informação. A
área de GIR pode ser entendida como uma
extensão da área de recuperação de informação
(Information Retrieval – IR) incrementada com
associações e dados sobre objetos geográficos.
A informação geográfica está presente, direta ou
indiretamente, no dia a dia das pessoas e, dessa
forma, não é de se admirar que haja uma grande
quantidade de informação na Web sobre
entidades geográficas e grande interesse em
localizá-la em mapas. Ferramentas como o
Google Maps e o Google Earth vêm
popularizando e atendendo, em parte, à
demanda dos usuários da Web por informação
geoespacial.
Os serviços de busca convencionais são
baseados em casamento de palavras-chave e,
em geral, não levam em conta que essas
palavras
podem
representar
entidades
geográficas, que se relacionam espacialmente
com outras entidades geográficas. Mesmo que
não tenham sido citados explicitamente na
consulta (JONES et al., 2004), esses
relacionamentos representam, potencialmente,
uma informação relevante para o usuário.
Um exemplo de consulta que não pode ser
realizada pela maioria dos sistemas de busca
existentes na Web seria: “Quais são as páginas
das prefeituras das cidades vizinhas a
Campinas?”. A dificuldade em se processar
consultas geográficas na Web reside em
combinar consultas tradicionais, feitas em
mecanismos de busca na Web, com operadores
espaciais, usualmente implementados em
bancos de dados espaciais.
Este artigo apresenta desafios e oportunidades
de pesquisa relacionados ao processamento de
buscas na Web, envolvendo relacionamento
espacial
entre
entidades
geográficas.
Primeiramente, é oferecida uma visão geral
sobre os conceitos da área de recuperação de
informação
geográfica,
seguida
da
caracterização de desafios da área, bem como
de uma proposta de arquitetura para GIR. Por
fim, é apresentado um mapeamento de novas
oportunidades de pesquisa na área.
1
A área de recuperação de informação geográfica
tem foco na indexação e na recuperação
geoespacial da informação. Trata-se de uma
área de pesquisa aplicada que combina consulta
em sistema gerenciador de banco de dados
(SGBD), interface humano-computador (IHC),
sistema de informação geográfica (GIS),
indexação, recuperação da informação (IR) e
navegação
(browsing)
pela
informação
georreferenciada (LARSON, 1995), além da
visualização espacial em um mapa.
*Autor a quem a correspondência deve ser dirigida: [email protected].
**Instituto de Computação – Unicamp.
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Visão geral da área de recuperação de
informação geográfica (GIR)
Revisitando os desafios da recuperação de informação geográfica na Web
1.1 Recuperação de informação (IR)
1.2.2
Recuperação de informação trata do desafio de
se buscar informação sobre determinado assunto
de interesse do usuário. Como o ser humano
expressa suas necessidades em linguagem
natural, a formulação de suas consultas está
longe de ser precisa. Dessa forma, uma das
preocupações da área de IR consiste em
interpretar a consulta formulada pelo usuário,
buscar
a
informação
armazenada
em
repositórios, selecioná-la conforme a relevância
para o assunto de interesse do usuário,
classificá-la (rank) e mostrar o conjunto
resultante de forma adequada. Como a própria
consulta envolve um grau de imprecisão, o
resultado retornado também contém um certo
número de itens não relevantes. O objetivo
principal para IR é maximizar os resultados
relevantes e minimizar os irrelevantes.
Em linhas gerais, a efetividade da recuperação
de informação é diretamente influenciada pela
atividade do usuário (user task) e pela
representação
lógica
(logic
view)
das
informações (documentos), adotada pelo sistema
de IR (BAEZA-YATES; RIBEIRO-NETO, 1999).
Segundo Baeza-Yates e Ribeiro-Neto (1999), o
processo de recuperação de informação que
envolve o usuário (user task) subdivide-se em
duas partes: o processo de formulação da
consulta e o processo de refinamento (browsing),
que o usuário efetua sobre os resultados
retornados pelo sistema, a fim de obter,
efetivamente, os documentos desejados. É
justamente nesses pontos que estão as
preocupações das pesquisas na área de
recuperação de informação centradas no
usuário: o estudo do comportamento humano e
de suas necessidades, visando melhorar a
modelagem, a organização e a execução de
consultas no sistema de busca. Já as pesquisas
centradas
no
computador
preocupam-se,
principalmente, em construir índices, processar
as consultas dos usuários com eficiência e
desenvolver
algoritmos
de
classificação/ordenação (ranking) que melhorem
a qualidade da resposta do sistema de busca.
Este módulo trata dos formatos disponíveis para
representar a informação e as propriedades do
documento. É, também, responsável pelo préprocessamento da consulta recebida – análise
léxica, eliminação de termos irrelevantes (stop
words), identificação da raiz da palavra e
sinônimos –, pela compressão de texto e pelo
agrupamento (clustering) de documentos.
1.2 Arquitetura de um sistema de
recuperação de informação (IR)
A Figura 1 ilustra uma arquitetura típica de um
sistema de recuperação de informação.
Os principais módulos representados são:
1.2.1
Interface com usuário (E)
Este módulo é responsável pelo recebimento das
consultas formuladas pelo usuário e pela
visualização dos resultados retornados pelo
sistema de IR.
8
1.2.3
Operações textuais (C)
Operações de consultas (F)
Este módulo é encarregado de traduzir a
consulta
do
usuário
em
formato
computacionalmente processável. Além disso,
cuida das interações subsequentes, visando ao
refinamento dos resultados.
1.2.4
Busca e indexação (G e D)
Estes módulos se preocupam em recuperar a
informação de forma mais eficiente, usando
métodos de indexação, técnicas de casamento
de padrão, consultas estruturadas e/ou consultas
sobre índices comprimidos.
1.2.5
Ranking (H)
Este módulo ordena os documentos de acordo
com a relevância para o assunto de interesse do
usuário.
1.2.6
Módulo Gerenciador de BD (B)
Este módulo define os documentos disponíveis
para consulta, o modelo de dados e as
operações válidas. O módulo Gerenciador de
Banco de Dados constrói os índices dos textos
para melhorar o desempenho da recuperação de
informação. O espaço utilizado com índices e o
tempo necessário para sua criação são
compensados pela diminuição do tempo de
espera de resposta de um sistema de
recuperação de informação.
O início do processamento de uma consulta no
sistema de IR descrito acima é disparado pelo
usuário, a partir da especificação de uma
consulta. Em seguida, o módulo de operações
textuais (C) do sistema processa e transforma a
expressão da necessidade do usuário em uma
estrutura, cuja visão lógica seja da mesma
natureza dos textos armazenados no sistema. A
visão lógica da expressão da necessidade do
usuário é submetida às operações de consulta
(F), que a transformam em uma consulta
computacionalmente
apropriada.
No
processamento da consulta, os índices
previamente construídos e armazenados no
sistema
são
usados.
Os
documentos
recuperados são, então, classificados, de acordo
com a probabilidade de sua relevância ante a
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Revisitando os desafios da recuperação de informação geográfica na Web
Fonte: Baeza-Yates e Ribeiro-Neto (1999).
Figura 1 Processo de recuperação de informação (IR)
necessidade expressa pelo usuário. Em seguida,
eles são apresentados para avaliação do usuário,
permitindo que este determine o subconjunto de
documentos que realmente seja de interesse.
Neste ponto, a indicação do subconjunto de
interesse do usuário é um tipo de feedback que
permite ao sistema refinar os resultados a serem
apresentados em uma próxima iteração.
1.3 Propriedades da informação
georreferenciada
Uma informação pode ser considerada
georreferenciada
quando
possui
uma
coordenada associada ou quando a informação
faz referência a alguma entidade geográfica,
como, por exemplo, nomes de lugares ou frases
que remetem a lugares (VESTAVIK, 2003). A
associação de determinado item de uma coleção
a uma ou mais regiões na superfície terrestre é
denominada footprint por Frew et al. (2000).
Jones (2006) denomina geocodificação a ação
de associar um footprint a uma referência
geográfica. Já a ação de reconhecer uma
referência geográfica é denominada geo-parsing
(análise sintática). Em GIR, é necessário que a
coleção de dados que referencia lugares, direta
ou indiretamente, seja traduzida em seu footprint.
Desse modo, ela pode ser indexada
espacialmente, aplicando-se os processos de
geo-parsing e geocodificação. No entanto, alguns
desafios são observados nesse processo
(VESTAVIK, 2003):
a) referências a lugares homônimos. Por
exemplo, Nova York designa uma cidade
no Maranhão ou um estado e uma cidade
nos EUA, assim como Luís Eduardo
Magalhães pode ser nome de aeroporto,
escola, praça ou cidade na Bahia;
b) lugares citados em textos mudam
conforme contexto histórico, cultural e
costumes populares em que esses textos
são produzidos. Por exemplo, “200 km ao
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
norte da capital do Brasil” tem o problema
de o Brasil ter tido outras capitais ao longo
da história;
c) nomes de lugares mudam com o decorrer
do tempo. Por exemplo, São Petersburgo,
capital da Rússia, já foi denominada
Petrogrado (1914-1924) e Leningrado
(1924-1991);
d) a extensão geográfica de um local muda
com o tempo. Por exemplo, a Alemanha
teve diferentes fronteiras no decorrer de
sua história;
e) fronteiras podem não ser claramente
definidas. A indefinição de fronteiras pode
acontecer em uma zona de conflito de
domínio. Por exemplo, “a fronteira entre o
Líbano e a Síria permanece indefinida
desde que os dois países se tornaram
independentes da França em 1943”;
f) diferentes nomenclaturas podem se referir
a uma mesma entidade geográfica, seja
por erro, idioma ou existência legal de
mais de uma forma válida de escrita. Por
exemplo, ambos Pequim e Beijing se
referem à capital da China; ou ainda,
Germany e Deutschland são duas
nomenclaturas comumente usadas para
se referir à Alemanha;
g) ambiguidades em função de referências
feitas a um lugar, através de pseudônimos,
ou dentro de contextos específicos. Por
exemplo, São José do Rio Preto, no
Estado de São Paulo, muita vezes é
referenciada como Rio Preto por seus
habitantes. No entanto, existe uma cidade
chamada Rio Preto no Estado de Minas
Gerais;
h) referências
indiretas.
Por
exemplo,
Rodovia Fernão Dias remete aos Estados
de São Paulo e Minas Gerais, assim como
9
Revisitando os desafios da recuperação de informação geográfica na Web
Cristo Redentor remete à cidade do Rio de
Janeiro.
1.4 Ferramentas de georreferenciamento
Gazetteers, Thesauri e ontologias (BORGES,
2006; BORGES et al., 2007) constituem técnicas
comumente utilizadas para contornar as
dificuldades enumeradas na seção anterior para
tarefas de geo-parsing e geocodificação.
1.4.1
Ontologia
Ontologia é um modelo de objetos, taxonomias e
esquemas (BORGES, 2006) e provê um conjunto
de conceitos e termos para descrever um
domínio e, portanto, uma estrutura sobre a qual
uma base de conhecimento pode ser construída.
Ontologias são usadas para representar o
conhecimento, de forma a explicitar e especificar
as semânticas e as relações do domínio de
interesse. Uma das qualidades das ontologias é
a flexibilidade possibilitada por seu reuso e
compartilhamento, além da possibilidade de
acomodar uma variedade de termos descritivos
(QIN; PALING, 2001).
Ontologias
podem
ser
usadas
para
reconhecimento e extração de evidências
geoespaciais e, precisamente nesse contexto,
são
denominadas
ontologias
geográficas
(BORGES, 2006) ou geo-ontologias (SANTOS;
CHAVES, 2006).
1.4.2
Gazetteers e Thesauri
Gazetteer é um dicionário de nomes geográficos
cujos componentes principais são: o nome e
suas variantes, a localização e a categoria do
lugar. Ele ajuda a responder questões do tipo
“onde fica esse lugar?” e “o que há nesse lugar?”
(BORGES, 2006; HILL, 2000). Possui, também,
informações descritivas dos lugares, podendo ser
usado para associar coordenadas geográficas ao
nome de um lugar (BORGES, 2006).
Embora os Gazetteers contenham mais
informação sobre determinado local geográfico
identificado por um texto, eles não representam
qualquer relação semântica (por exemplo,
sinônimo e hiponímia) ou espacial (por exemplo,
vizinhança) entre lugares listados, ao contrário do
thesaurus, que enfatiza a relação espacial entre
os lugares em detrimento da localização exata
em termos de coordenadas.
Um thesaurus é uma lista de termos, estruturada
e definida, que padroniza as palavras usadas
com índices. Ou seja, constitui um vocabulário
formalmente organizado, de tal forma que as
relações entre os conceitos são explicitadas
(BRAUNER; CASANOVA; MILIDIÚ, 2006). Por
exemplo, o Getty Thesaurus of Geographic
Names (TRUST, 2009) organiza o lugar por sua
relação espacial e por áreas administrativas;
informa as várias versões de nome que um lugar
pode ter; informa suas coordenadas geográficas;
e permite trabalhar com nomes similares com o
uso de ontologias (VESTAVIK, 2003).
1.5 Relacionamentos espaciais
Borges (2006) agrupa os relacionamentos
espaciais, isto é, as posições relativas entre
objetos, em três categorias:
1.5.1
Topológicos
Estes relacionamentos indicam as propriedades
de conectividade, como a adjacência e a relação
entre contém e está contido, e não incluem
propriedades de medida e direção. Egenhofer
(1997) classifica os relacionamentos topológicos
entre dois objetos bidimensionais em: disjunto,
encontra, sobrepõe, contém, cobre, dentro,
coberto por e igual a. Em contrapartida,
Clementini, Felice e Oosterom (1993) os
resumem em: disjunto, dentro, toca, cruza e se
sobrepõe (Figura 2).
1.5.2
Métricos
Os
relacionamentos
métricos
expressam
propriedades espaciais mensuráveis, como área,
distância, comprimento e perímetro, de forma
quantitativa.
1.5.3
Direcionais
Estes relacionamentos expressam orientação
(pontos cardeais: Norte, Sul, Leste e Oeste) e a
ordem (acima, abaixo e em frente).
Fonte: Câmara et al. (1996).
Figura 2 Exemplos de relacionamentos topológicos
10
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Revisitando os desafios da recuperação de informação geográfica na Web
1.6 Consultas espaciais
Trata-se de consultas sobre as relações
espaciais entre dois objetos localizados em um
espaço bem definido, com ou sem coordenada
geográfica. Segundo Larson (1995), as relações
espaciais podem ser geométricas ou topológicas,
sendo que o primeiro caso inclui relação de
distância e direção. Por exemplo, as
coordenadas, em latitude e longitude, de Nova
York (40º40’N, 73º58’O) e de Chicago (41º52’N,
87º37’O) nos indicam a direção e a distância
entre as cidades, que podem ser calculadas a
partir dessas coordenadas.
Ainda segundo Larson (1995), as consultas
espaciais podem ser classificadas em:
a) por ponto em um polígono: tenta
responder a consultas do tipo “O que há
no ponto (x, y) do sistema de coordenada
corrente?”;
b) por regiões: quando, dada uma região
delimitada por um polígono ou linha, se
tenta encontrar algo que esteja contido
nela, adjacente a ela, ou que se
sobreponha à sua área. Por exemplo,
“Quais áreas têm intersecção com uma
dada área escolhida?”;
c) por distância e zona de buffer: consiste
em encontrar algo que está a uma
distância fixa de um objeto, seja uma linha,
um ponto ou um polígono. Um exemplo de
consulta deste tipo seria: “Quais são as
cidades que estão a 50 km dos limites da
cidade de Campinas?”;
d) por caminhos: é uma consulta que
envolve uma estrutura de rede formada
por segmentos de linha conectados, como
é o caso de rede elétrica, canos de água
ou gás, vias de transporte, etc. Exemplos
de consultas tradicionais são as de
caminho mais curto entre dois pontos da
rede. No entanto, consultas que envolvam
diferentes variáveis de distância e direção
podem ser mais complicadas (por
exemplo, “Qual o caminho mais rápido de
Campinas a Santo André?”);
e) multimídia: são as consultas que
congregam informações de vários tipos de
dados (textual, imagem, geográfico).
Como exemplo, tem-se a consulta do tipo
“Quais são os rios que possuem peixes
similares àquele encontrado em uma dada
imagem de entrada e que atravessam
estados que possuem cidades cujos
nomes contenham 'Paulo'?”.
1.7 Arquitetura de um sistema GIR
A Figura 3 ilustra a arquitetura proposta de um
sistema de recuperação geográfica. Como pode
ser
observado,
alguns
módulos
foram
adicionados (área delimitada com pontilhado) e
outros alterados (A e D) em relação à Figura 1:
a) geo-coding (K): o geocodificador de
documento extrai a referência geográfica
(footprint) de determinado documento
com base em seu conteúdo;
b) geo-parsing (J): módulo desambiguador
que, a partir de ontologias e dados
semânticos,
uniformiza
os
termos
geográficos
ambíguos
e
similares
semanticamente;
c) banco de dados espacial: base de
dados de lugares georreferenciados que é
usada para ajudar a atribuir coordenadas
geográficas a um conteúdo com base em
sua referência geográfica. Exemplos de
bases usadas são os Gazetteers e,
atualmente, até mesmo referências
encontradas em páginas Web na Internet
(BORGES et al., 2007) e outros
documentos relacionados que tenham
sido previamente geocodificados;
Figura 3 Proposta de arquitetura de um sistema de recuperação de informação geográfica
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
11
Revisitando os desafios da recuperação de informação geográfica na Web
d) busca e indexação espaciais (G e D):
encarregam-se de prover meios para que
as consultas espaciais sejam mais
eficientes, ou seja, proveem métodos de
acesso (Spatial Access Method – SAM)
eficiente
usando
as
coordenadas
geográficas associadas aos documentos
como índices. O processamento de
consultas espaciais usa técnicas de
geometria computacional para descobrir
as relações entre os objetos espaciais,
representados por geometrias como
ponto, linha ou polígono. Entre os
esquemas usados para os índices
espaciais, são citados: Linear Quadtree,
Space-filling curves, árvore Z-Ordering e
árvore R, R* e R+ (RIGAUX et al., 2002).
O módulo de busca trata, também, da
ordem em que uma busca deve ser
realizada, nas situações em que as
consultas
são
simultaneamente
alfanuméricas e espaciais. Uma das
preocupações, por exemplo, é como a
ordem de execução dos tipos de consulta
pode afetar o desempenho do sistema de
busca (CHEN; SUEL; MARKOWETZ,
2006);
e) navegação espacial (spatial browsing):
é o módulo de interface com o usuário
(E). Pode prover a visualização, em mapa,
da localização do documento ou do local
sobre o qual o documento versa, bem
como pode oferecer alguma forma de o
usuário refinar sua consulta via mapa;
f) operações de consultas e ranking (F e
H): estes módulos são focados nas
formas pelas quais é possível tratar a
introdução da variável espacial nas
consultas do usuário, como, por exemplo,
traduzir as palavras com significado
geográfico (objetos ou operadores) para
uma linguagem de sistema, e alterar os
algoritmos de ranking dos resultados, de
forma a retornar somente aqueles que
são relevantes ao usuário.
2
Caracterização de novos desafios na área
de recuperação de informação geográfica
Nesta seção, será usado um estudo de caso
para caracterizar problemas relacionados ao
processamento
de
consultas
Web
que
consideram relacionamento espacial entre
objetos
geográficos.
Primeiramente,
será
apresentada uma visão geral das possíveis
aplicações que se beneficiariam desse tipo de
consulta.
2.1 Aplicações
São exemplos de possíveis aplicações aquelas
12
relacionadas à busca de documentos sobre
lugares de interesse (aplicações, por exemplo,
na área de turismo e projetos de engenharia).
Considere os cenários a seguir, sendo que as
palavras em negrito estão associadas a
relacionamentos espaciais entre entidades
geográficas:
a) você mora em Curitiba e gostaria de
prestar concursos públicos para trabalhar
na prefeitura de cidades vizinhas. Assim,
gostaria de acessar as páginas das
prefeituras e procurar por editais em
aberto;
b) você fará uma visita turística a Curitiba e
região. Você tem restrições financeiras e
sabe que os hotéis da capital são mais
caros. Por isso, gostaria de procurar hotéis
nas redondezas, mas ainda viabilizando
seu roteiro de visita a Curitiba;
c) você tem interesse em viajar pelo Estado
de São Paulo e quer aproveitar a viagem
para fazer uma pesquisa sobre vilas e
cidades que ficam perto do rio Tietê.
Assim, seria interessante encontrar as
páginas das concessionárias das estradas
que cruzam o rio para poder contatá-las, a
fim de propor patrocínio ou algum trabalho
conjunto de interesse;
d) você está indo para uma conferência em
Barcelona, que será realizada em um local
próximo a uma estação de metrô, e quer
aproveitar para conhecer a cidade. Nesse
caso, seria interessante se hospedar em
hotéis próximos a qualquer estação de
metrô, a fim de facilitar sua locomoção
pela cidade;
e) você participa de um projeto de inclusão
digital que, experimentalmente, ligará, com
um cabo de comunicação de última
geração, as cidades de Campinas e
Peruíbe, sendo que esta última fica no
litoral, ao Sul de Campinas. Você imagina
que outras cidades poderiam se beneficiar
com essa mesma ligação. Por isso, tem a
ideia de entrar em contato com as
prefeituras de outras cidades ao Sul de
Campinas, cujas regiões serão cruzadas,
potencialmente, pelo cabo de transmissão.
2.2 Estudo de caso
Em
uma
enquete informal,
envolvendo
15 pessoas
com
diversos
níveis
de
conhecimento de uso do computador, perguntouse como fariam para encontrar páginas Web,
considerando o seguinte cenário: “Quais são as
páginas das prefeituras das cidades vizinhas (até
50 km) da cidade X?”. Várias soluções foram
apresentadas:
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Revisitando os desafios da recuperação de informação geográfica na Web
Solução 1: submeteria ao Google Search o
nome da (micro) região da cidade, como, por
exemplo, “triângulo mineiro” ou “circuito das
águas”, mais o objeto de interesse, resultando
em prefeitura “circuito das águas” .
Solução 2: submeteria ao Google Search as
palavras-chave prefeitura região X.
Solução 3: submeteria ao Google Search as
palavras-chave cidades vizinhas X e depois, com
a lista de cidades em mãos, procuraria pela
página da prefeitura de cada cidade.
Solução 4: usaria o Google Maps buscando pela
cidade X, inspecionaria visualmente o mapa para
listar as cidades vizinhas e faria busca no Google
pelos nomes das cidades com as palavras-chave
<nome da cidade> prefeitura.
Solução 5: submeteria ao Google Search as
palavras-chave prefeitura próxima <cidade X> 50
km.
Solução 6: procuraria uma lista de cidades do
Estado, via busca na Web, ou iria ao site do
governo do Estado para obtê-la. Com sorte, essa
página já poderia conter os links para as páginas
de prefeituras. Com a lista em mãos, procuraria
por uma tabela de distâncias na Web, para
finalmente fazer a consulta no Google Search
com <nome da cidade> prefeitura.
Solução 7: primeiro, submeteria ao Google
Search as palavras-chave cidades distâncias X,
para recuperar as cidades de interesse. Em
seguida, para cada cidade da lista, buscaria por
prefeitura <cidade>.
Solução 8: considerando que sejam cidades de
São Paulo, pegaria a lista das cidades da região
em que X se insere, depois iria ao endereço
www.<cidade>.sp.gov.br, substituindo <cidade>
pelo nome da cidade de interesse, pois este é o
padrão de endereço das páginas de prefeituras
brasileiras.
Solução 9: submeteria ao Google Search as
palavras-chave sites prefeituras <cidade> SP
região.
Solução 10: visitaria a página da cidade no
Wikipedia, que costuma ter informações de
cidades vizinhas.
Muitas dessas soluções apresentam mais de um
passo para se responder à consulta desejada.
Em geral, isso acontece porque os usuários que
apresentaram essas soluções já sabiam que as
ferramentas atuais de busca na Web não
respondem tão bem a consultas desse tipo.
Apenas o nome da cidade e a relação espacial
desejada não são suficientes para que a
informação relevante seja recuperada, pois a
máquina de busca apenas tentará casar as
palavras-chave usadas. Para usuários que estão
acostumados a fazer esse tipo de consulta, é
comum tentar reescrevê-la de modo que a
ferramenta de busca na Web retorne resultados
relevantes.
Tomando-se
como
exemplo
o
cenário
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
apresentado no início desta seção, pode-se dizer
que, de modo geral, a consulta foi fatorada
conforme análise descrita a seguir.
Primeiramente, é usada alguma informação que
ajude a transformar a consulta geográfica em
uma consulta por palavras-chave: (a) valendo-se
de conhecimentos prévios, associando a cidade
a uma região que a englobe (estado, região), que
já é de seu conhecimento (Solução 1), ou indo
direto à página da prefeitura, pois já se conhece
a estrutura URL das páginas da prefeitura
(Solução 8); (b) visitando páginas previamente
conhecidas, que poderiam possuir a lista das
cidades próximas ou a tabela de distância entre
cidades (Solução 10); (c) submetendo outras
palavras ao serviço de busca, para que este
retorne a lista das cidades vizinhas ou próximas
(Soluções 3, 6 e 7); (d) usando o serviço de
localização de mapas da cidade-referência da
consulta para, visualmente e manualmente,
discernir e listar as cidades que possuem a
relação geográfica desejada (Solução 4).
No passo seguinte, o usuário monta a consulta,
ou as consultas, com as palavras-chave que
terão mais chance de retornar resultados
relevantes, levando-se em conta a lista de
cidades-alvo que foram definidas pela relação
espacial da consulta inicial.
Com esse cenário em mente, propõe-se uma
arquitetura para enriquecer a busca na Web
tradicional, adicionando-se consultas geográficas
com o auxílio de banco de dados espacial. A
proposta é que o usuário expresse diretamente
sua consulta geográfica e que o sistema expanda
essa consulta, envie-a a máquinas de busca
existentes, combine os resultados e os retorne
ao usuário de forma ordenada, de acordo com
sua relevância. Em seguida, alguns desafios e
oportunidades de pesquisa relacionados à
implementação
dessa
arquitetura
são
considerados.
2.3 Arquitetura proposta
A arquitetura proposta neste trabalho é um
modelo de três camadas, conforme ilustrado na
Figura 4. Na camada de apresentação, tem-se a
interface humano-computador para definição da
consulta pelo usuário, o retorno dos resultados e
o refinamento da consulta. Prevê-se a
possibilidade de usar APIs externas para ajudar
na exibição de informação extraída da Web,
como, por exemplo, o Google Maps API
(GOOGLE,
2009d),
que
são
providas
externamente ao sistema, para ajudar o
desenvolvedor a adicionar, em suas páginas,
funcionalidades providas por outros sites.
Na camada de processamento da entrada,
encontra-se o módulo responsável pelo
geo-parsing de termos usados na consulta, o
geocodificador da consulta, o módulo de
expansão de consulta, o gerenciador de
13
Revisitando os desafios da recuperação de informação geográfica na Web
máquinas de busca, o refinador (feedback) de
consultas e o módulo de ranking por relevância.
A máquina de busca pode repassar a busca para
várias outras máquinas existentes na Web, de
forma que o resultado do sistema será a
combinação dos resultados retornados pelas
diversas máquinas de busca.
Por fim, a camada de dados é composta pelos
repositórios locais e por aqueles que se
encontram distribuídos pela Web. Esses
repositórios consistem em dados, ontologias e
thesauri para eliminar a ambiguidade de termos
ou expandir a consulta do usuário. Os
repositórios remotos podem conter, também,
outras ontologias e thesauri, e incluem ainda os
documentos disponíveis na Web.
Um típico cenário de uso consiste nas seguintes
etapas: o usuário especifica sua consulta; o
sistema reconhece e elimina a ambiguidade dos
termos que se referem a objetos geográficos da
consulta, como, por exemplo, os nomes de
lugares homônimos ou que se referem a mais de
um objeto; o sistema pode pedir para o usuário
filtrar e indicar o sentido ou contexto correto dos
termos a serem usados na consulta, passando o
controle para a interface. O usuário indica, na
interface, o sentido e o contexto; o sistema
geocodifica os elementos de referência da
consulta geográfica e prepara a consulta para ser
enviada ao gerenciador de máquinas de busca.
O resultado da busca passa por um ranking por
relevância, antes de ser apresentado ao usuário.
Com a visualização do resultado, o usuário pode
desejar filtrar ainda mais o resultado,
realimentando o sistema com novos critérios
para uma nova busca.
3
Protótipo
Parte da arquitetura proposta na Figura 4 foi
implementada em um protótipo. Os módulos
implementados foram: entrada da consulta,
apresentação do resultado, geocodificação do
objeto de referência da consulta (B), expansão
da consulta (C), busca (E), banco de dados
espacial (BDE) e uso de API de apresentação.
Buscas envolvendo relacionamentos espaciais
foram implementadas por meio de consultas
enviadas a um BDE. Esse banco de dados foi
carregado com dados vetoriais obtidos do site do
IBGE (2009), como, por exemplo, cidades,
estados, rios, rodovias federais e ferrovias do
Brasil.
A consulta é estruturada em uma interface Web
(Figura 5) com campos fixos. Na primeira caixa
de seleção, o usuário indica o tipo de informação
de interesse (por exemplo, páginas de
prefeituras) e o tipo de objeto geográfico ao qual
essa informação se relaciona (por exemplo,
cidade), o qual será denominado objeto-alvo (na
interface do objeto consultado). Em seguida,
escolhe-se a relação espacial (por exemplo,
vizinho) que esses objetos-alvo devem ter com
um objeto de referência (objeto-referência). O
usuário especifica também o tipo desse objetoreferência espacial e o caracteriza (por exemplo,
cidade X).
No processamento da consulta, se o
objeto-referência estiver bem caracterizado, ele
poderá ser usado em consulta geográfica
equivalente, fornecida pelo BDE, para busca da
lista de objetos-alvo. Com a lista de objetos em
mãos, expande-se a consulta espacial de
entrada e envia-se a nova consulta para uma
máquina de busca na Web (no caso, Google). O
resultado da busca é exibido em uma página da
Web, na qual se agregam os resultados
retornados na busca e a localização espacial dos
objetos-alvo no mapa (Figura 6). Dessa forma, o
usuário consegue recuperar a informação de
interesse em apenas um passo.
Figura 4 Arquitetura para recuperação de informação geográfica na Web
14
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Revisitando os desafios da recuperação de informação geográfica na Web
Esse protótipo foi implementado com o uso da
linguagem de programação JavaScript e Python
(PYTHON SOFTWARE FOUNDATION, 2009),
sob o framework para aplicações Web Django
(DJANGO SOFTWARE FOUNDATION, 2009). A
máquina de busca na Web foi provida pelo
Google AJAX Search API (GOOGLE, 2009a) e a
exibição da localização no mapa dos objetos-alvo
foi fornecida pelo Google Maps API (GOOGLE,
2009d). Como banco de dados espacial, foi
adotado o PostgreSQL (2009) com extensão
espacial PostGIS (REFRACTIONS RESEARCH,
2009) e nele foram carregados dados vetoriais
obtidos do site do IBGE (2009).
Figura 5 Interface para especificação de consultas envolvendo relacionamento espacial entre objetos
geográficos
Figura 6 Resultado da consulta “Quais são as páginas das prefeituras das cidades próximas (até 50 km) da
cidade de Campinas?”
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
15
Revisitando os desafios da recuperação de informação geográfica na Web
4
Novos desafios e oportunidades de
pesquisa em GIR
A especificação e a implementação da
arquitetura proposta na seção anterior requerem
do pesquisador a habilidade de lidar com vários
desafios de pesquisa. Nesta seção, alguns
desses desafios são discutidos, levando-se em
consideração as três principais camadas da
arquitetura: apresentação, processamento e
dados.
4.1 Camada de apresentação
A interação humano-computador mais primitiva
ainda exige que o usuário formule sua consulta
de forma estruturada, próxima à linguagem de
consulta de banco de dados (por exemplo, SQL).
Como a maioria dos usuários não conhece
suficientemente essa linguagem estruturada, eles
não conseguem expressar completamente suas
necessidades
e,
consequentemente,
a
informação recuperada não satisfaz às suas
expectativas de fato. Uma vez que o usuário
precisa traduzir, na consulta, sua noção espacial
em palavras, introduz-se mais complexidade e
“indireção” ao problema. Por outro lado,
identifica-se uma questão: a consulta precisa
mesmo ser expressa apenas por meio de
palavras?
A dificuldade em oferecer uma interface em que
o usuário possa expressar sua necessidade em
uma linguagem natural, por exemplo, está
relacionada a problemas que os pesquisadores
da área de processamento de linguagem natural
vêm
tentando
solucionar
há
décadas:
ambiguidades, imprecisão e dependência de
contexto na linguagem humana. Esse desafio se
torna ainda maior ao se adicionar variáveis
espaciais, pois o ser humano refere-se a lugares
de forma imprecisa, sem mencionar a relação de
temporalidade, conforme discutido na Seção 1.3.
Nas buscas locais do Google Local Search
(GOOGLE, 2009c), um conjunto de páginas
geocodificadas são recuperadas em consultas no
Google Maps e, portanto, passíveis de ser
localizadas em mapa. No entanto, se forem
usadas as mesmas palavras-chave em uma
busca local e em uma busca na Web, é possível
que esta última retorne mais resultados, uma vez
que ainda há poucas páginas geocodificadas.
Além disso, ao selecionar um ponto no mapa, o
usuário pode usar o próprio Google Maps para
fazer consultas do tipo “perto de”, as quais são
repassadas para o Google Local Search. Nesse
caso, uma possível estratégia seria usar uma
interface desse tipo, agregando consultas que
envolvam outras relações espaciais.
Há ainda vários desafios a serem tratados na
camada de apresentação em relação à forma de
apresentação dos resultados e de expressão da
necessidade do usuário, de modo que ele/ela
16
possa interagir com o sistema e indicar quais
resultados são realmente relevantes, fazendo
com que o sistema aprenda a refinar os
resultados que serão apresentados em uma
próxima iteração.
4.2 Camada de processamento
Já na camada de processamento, há o desafio
de eliminar a ambiguidade de nomes de lugares,
como, por exemplo, quando se utiliza um nome
que é comum a vários lugares e objetos ou
quando se trata de um nome alternativo. Nesse
caso, o sistema apresenta alternativas para o
usuário (nomes similares) e, de acordo com o
feedback do usuário, uma nova consulta é
enviada ao sistema de busca.
Por outro lado, com relação à proposta de
submeter a consulta a várias máquinas de busca
existentes, entre os desafios estão a combinação
de resultados provenientes de várias fontes, a
realização de um ranking de relevância dos
resultados e o tratamento do feedback (HE,
2006; XU; XU; TRESP, 2003) do usuário com
relação
à
relevância
dos
resultados
apresentados, bem como a interação do sistema
proposto com diversas máquinas de busca.
Supondo que se ofereça uma interface para o
usuário expressar sua necessidade através da
linguagem semiestruturada ou natural, o desafio
será encontrar formas de identificar e manipular
referências a lugares nas consultas na Web
(CARDOSO; SILVA, 2007; SANDERSON; HAN,
2007) e lidar com imprecisões dessas
referências (FU; JONES; ABDELMOTY, 2005)
(PASLEY;CLOUGH; SANDERSON, 2007). Como
forma de tentar considerar essas questões, há
trabalhos
que
buscam
caracterizar
as
necessidades do usuário quanto à informação
geográfica (HENRICH; LUEDECKE, 2007).
Se a base de conhecimento geográfico estiver
devidamente montada e geocodificada, há ainda
o desafio de se processar a consulta, de forma
eficiente, em máquinas de buscas geográficas na
Web (CHEN; SUEL; MARKOWETZ, 2006),
considerando-se a quantidade de dados que a
Web representa.
Outro desafio é produzir algoritmos eficazes para
determinar a relevância do documento ou objeto,
frente às necessidades expressas pelo usuário.
Um exemplo disso é o uso de técnicas de
aprendizado (FAN; PATHAK; WALLACE, 2006;
XU et al., 2008).
4.3 Camada de dados
Considerando-se que a própria Web pode ser
vista como um grande repositório de dados,
então a criação de uma base de conhecimento
geográfico de forma automática, com base em
informação disponível na Web, já constitui um
desafio importante. Nesse caso, deve-se
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Revisitando os desafios da recuperação de informação geográfica na Web
considerar a questão da inconsistência da
informação
(POPESCU;
GREFENSTETTE;
MOËLLIC, 2008) e o desafio de identificar e de
geocodificar dados textuais não estruturados
encontrados nas páginas Web (ADRIANI;
PARAMITA, 2007; BLESSING; KUNTZ; UTZE,
2007; BORGES et al., 2007).
Conclusão
Este artigo apresentou uma breve revisão da
área de recuperação de informação geográfica,
buscando caracterizar alguns dos principais
desafios na área. A percepção resultante é que
os mecanismos de busca na Web ainda não
permitem realizar, em uma única ferramenta,
buscas que envolvam relacionamentos espaciais
entre entidades geográficas, pois, em geral, a
consulta é processada levando-se em conta
apenas as palavras-chave usadas na consulta.
Foi proposta uma arquitetura para a realização
de consultas geográficas na Web, com base em
mecanismos de busca existentes e banco de
dados espacial. Tal proposta incluiu a
implementação de um protótipo inicial, bem
como a identificação de novos desafios e
oportunidades de pesquisa na área de
recuperação de informação geográfica.
Agradecimentos
Ricardo da Silva Torres conta com apoio da
FAPESP, do CNPq e da CAPES. Lin Tzy Li conta
com apoio do CPqD.
Agradecimento especial a Márcia Fiorilli Gusson
Roscito e aos revisores anônimos pela revisão
final do texto.
Referências
ADRIANI, M.; PARAMITA, M. L. Identifying
Location
in
Indonesian
Documents
for
Geographic Information Retrieval. In: ACM
WORKSHOP
ON
GEOGRAPHICAL
INFORMATION RETRIEVAL, 4., 2007, Lisbon,
Portugal. Proceedings... Lisbon, Portugal: ACM,
2007. p. 19-24, ISBN 978-1-59593-828-2.
BAEZA-YATES, R. A.; RIBEIRO-NETO, B.
Modern Information Retrieval. New York, NY,
USA: Addison-Wesley Longman Publishing Co.,
Inc., 1999. 513 p. ISBN: 020139829X.
BLESSING, A.; KUNTZ, R.; UTZE, H. S. Towards
a Context Model Driven German Geo-Tagging
System.
In:
ACM
WORKSHOP
ON
GEOGRAPHICAL INFORMATION RETRIEVAL,
4., 2007, Lisbon, Portugal. Proceedings...
Lisbon, Portugal: ACM, 2007. p. 25-30, ISBN
978-1-59593-828-2.
BORGES, K. A. V. Uso de uma ontologia de
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
lugar urbano para reconhecimento e extração
de evidências geoespaciais na Web. 2006.
181 f. Tese de doutorado – Universidade Federal
de Minas Gerais.
BORGES, K. A. V. et al. Discovering Geographic
Locations in Web Pages using Urban Addresses.
In: ACM WORKSHOP ON GEOGRAPHICAL
INFORMATION RETRIEVAL, 4., 2007, Lisbon,
Portugal. Proceedings... Lisbon, Portugal: ACM,
2007. p. 31-36, ISBN 978-1-59593-828-2.
BRAUNER, D. F.; CASANOVA, M. A.; MILIDIÚ,
R. L. Towards Gazetteer Integration through an
Instance-based Thesauri Mapping Approach. In:
BRAZILIAN
SYMPOSIUM
ON
GEOINFORMATICS, 8., 2006, Campos do
Jordão, Brazil. Proceedings... São José dos
Campos, Brazil: INPE, 2006. ISBN 85-17-000277. S6 – Distributed GIS / GIS and the Internet.
CÂMARA, G. et al. Anatomia de Sistemas de
Informação Geográfica. Campinas: Instituto de
Computação – Unicamp, 1996. 193 p.
CARDOSO, N.; SILVA, M. J. Query expansion
through geographical feature types. In: ACM
WORKSHOP
ON
GEOGRAPHICAL
INFORMATION RETRIEVAL, 4., 2007, Lisbon,
Portugal. Proceedings... Lisbon, Portugal: ACM,
2007. p. 55-60, ISBN 978-1-59593-828-2.
CHEN, Y.; SUEL, T.; MARKOWETZ, A. Efficient
Query Processing in Geographic Web Search
Engines. In: ACM SIGMOD INTERNATIONAL
CONFERENCE ON MANAGEMENT OF DATA,
2006, Chicago, USA. Proceedings... Chicago,
USA: ACM, 2006. p. 277-288, ISBN 1-59593434-0.
CLEMENTINI, E.; FELICE, P. D.; OOSTEROM,
P. van. A Small Set of Formal Topological
Relationships Suitable for End-User Interaction.
In: SYMPOSIUM ON ADVANCES IN SPATIAL
DATABASES,
3rd,
1993,
Singapore.
Proceedings... Germany: Springer-Verlag, 1993.
p. 277-295, ISBN 3-540-56869-7.
DJANGO SOFTWARE FOUNDATION. Django:
The Web framework for perfectionists with
deadlines.
Disponível
em:
<http://www.djangoproject.com/>. Acesso em: 2
mar. 2009.
EGENHOFER, M. J. Query Processing in SpatialQuery-by-Sketch. Journal of Visual Languages
& Computing, Elsevier, v. 8, n. 4, p. 403-424,
Aug. 1997.
FAN, W.; PATHAK, P.; WALLACE, L. Nonlinear
Ranking Function Representations in Genetic
17
Revisitando os desafios da recuperação de informação geográfica na Web
Programming-based Ranking Discovery for
Personalized
Search.
Decision
Support
Systems, Amsterdam, The Netherlands, v. 42,
n. 3, p. 1338-1349, 2006.
LIBRARIES, 4., 2000, Lisbon, Portugal.
Proceedings... Berlin/Heidelberg: Springer, v.
1923, 2000. p. 280-290. (Lecture Notes in
Computer Science).
FREW, J. et al. The Alexandria Digital Library
Architecture. International Journal on Digital
Libraries, Springer Berlin/Heidelberg, v. 2, n. 4,
p. 259-268, May 2000.
INSTITUTO BRASILEIRO DE GEOGRAFIA E
ESTATÍSTICA (IBGE). Mapas Interativos –
IBGE.
Disponível
em:
<http://www.ibge.gov.br/mapas/>. Acesso em: 2
mar. 2009.
FU, G.; JONES, C. B.; ABDELMOTY, A. I.
Ontology-based spatial query expansion in
information retrieval. In: INTERNATIONAL
CONFERENCE
ON
ONTOLOGIES,
DATABASES
AND
APPLICATIONS
OF
SEMANTICS (ODBASE), 4, 2005, AGIA
NAPA/CYPRUS. On the Move to Meaningful
Internet Systems 2005: CoopIS, DOA, and
ODBASE. Berlin/Heidelberg: Springer, 2005.
p. 1466-1482. (Lecture Notes in Computer
Science).
GOOGLEa. Google AJAX Search API – Google
Code.
Disponível
em:
<http://code.google.com/apis/ajaxsearch/>.
Acesso em: 2 mar. 2009.
GOOGLEb. Google Maps API Reference –
Google Maps API – Google Code. Disponível em:
<http://code.google.com/apis/maps/documentatio
n/reference.html>. Acesso em: 2 mar. 2009.
GOOGLEc. Local Search Examples – Google
AJAX Search API – Google Code. Disponível em:
<http://code.google.com/apis/ajaxsearch/local.ht
ml>. Acesso em: 2 mar. 2009.
GOOGLEd. Map Basics – Google Maps API –
Google
Code.
Disponível
em:
<http://code.google.com/apis/maps/documentatio
n/introduction.html>. Acesso em: 2 mar. 2009.
HE, D. A Study of Self-organizing Map in
Interactive
Relevance
Feedback.
In:
INTERNATIONAL
CONFERENCE
ON
INFORMATION
TECHNOLOGY:
NEW
GENERATIONS, 3., 2006, Las Vegas, Nevada,
USA. Proceedings... IEEE Computer Society,
2006. p. 394-401, ISBN 0-7695-2497-4.
HENRICH, A.; LUEDECKE, V. Characteristics of
Geographic Information Needs. In: ACM
WORKSHOP
ON
GEOGRAPHICAL
INFORMATION RETRIEVAL, 4., 2007, Lisbon,
Portugal. Proceedings... Lisbon, Portugal: ACM,
2007. p. 1-6, ISBN 978-1-59593-828-2.
HILL, L. Core Elements of Digital Gazetteers:
Placenames, Categories, and Footprints. In:
EUROPEAN CONFERENCE ON RESEARCH
AND ADVANCED TECHNOLOGY FOR DIGITAL
18
JONES, C. B. et al. The Spirit Spatial Search
Engine: Architecture, Ontologies and Spatial
Indexing. In: GEOGRAPHIC INFORMATION
SCIENCE. Proceedings... Berlin/Heidelberg:
Springer, 2004. p. 125-139. (Lecture Notes in
Computer Science).
JONES, C. Geographic Information Retrieval. In:
BRAZILIAN
SYMPOSIUM
ON
GEOINFORMATICS, 8., 2006, Campos do
Jordão, Brazil. Proceedings... São José dos
Campos, Brazil: INPE, 2006. Disponível em:
<http://www.geoinfo.info/geoinfo2006/program.ht
ml>. Acesso em: 2 mar. 2009.
LARSON, R. R. Geographic information retrieval
and spatial browsing. In: CLINIC ON LIBRARY
APPLICATIONS OF DATA PROCESSING, 32.,
1995, Urbana-Champaign, USA. Proceedings...
Urbana-Champaign, USA: University of Illinois,
1995. p. 81-124, ISBN 0878450971. (Geographic
Information systems and Libraries: patrons,
maps, and spatial information).
PASLEY, R. C.; CLOUGH, P. D.; SANDERSON,
M. Geo-tagging for Imprecise Regions of
Different Sizes. In: ACM WORKSHOP ON
GEOGRAPHICAL INFORMATION RETRIEVAL,
4., 2007, Lisbon, Portugal. Proceedings...
Lisbon, Portugal: ACM, 2007. p. 77-82, ISBN
978-1-59593-828-2.
POPESCU, A.; GREFENSTETTE, G.; MOËLLIC,
P. A. Gazetiki: Automatic Creation of a
Geographical Gazetteer. In: ACM/IEEE-CS
JOINT CONFERENCE ON DIGITAL LIBRARIES,
8., 2008, Pittsburgh, USA. Proceedings...
Pittsburgh, USA: ACM, 2008. p. 85-93, ISBN 9781-59593-998-2.
POSTGRESQL. PostgreSQL: The World’s Most
Advanced Open Source Database. Disponível
em: <http://www.postgresql.org/>. Acesso em: 2
mar. 2009.
PYTHON SOFTWARE FOUNDATION. Python
Programming Language – Official Website.
Disponível em: <http://www.python.org/>. Acesso
em: 2 mar. 2009.
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
Revisitando os desafios da recuperação de informação geográfica na Web
QIN, J.; PALING, S. Converting a Controlled
Vocabulary into an Ontology: the Case of Gem.
Information
Research:
An
International
Electronic Journal, v. 6, p. 94, 2001. Disponível
em: <http://InformationR.net/ir/6-2/paper94.html>.
Acesso em: 2 mar. 2009.
USA: ACM, 2006. p. 5-8.
REFRACTIONS
RESEARCH.
PostGIS
Homepage.
Disponível
em:
<http://postgis.refractions.net/>. Acesso em: 2
mar. 2009.
VESTAVIK, Ø. Geographic Information Retrieval:
An Overview. In: COMPUTER SCIENCE
GRADUATE STUDENT CONFERENCE, 2004,
Norway. Electronic Proceedings... Norway: IDI,
NTNU,
2004.
p. 7.
Disponível
em:
<http://csgsc.idi.ntnu.no/2004/data/oyvindve/articl
e.pdf>. Acesso em: 2 mar. 2009.
RIGAUX, P. et al. Spatial Databases: With
Application to GIS. California, USA: Morgan
Kaufmann, 2002. 410 p. (The Morgan Kaufmann
Series in Data Management Systems). ISBN 155860-588-6.
SANDERSON, M.; HAN, Y. Search Words and
Geography. In:
ACM WORKSHOP ON
GEOGRAPHICAL INFORMATION RETRIEVAL,
4., 2007, Lisbon, Portugal. Proceedings...
Lisbon, Portugal: ACM, 2007. p. 13-14,
ISBN 978-1-59593-828-2.
SANTOS, D.; CHAVES, M. S. The Place of Place
in Geographical IR. In: WORKSHOP ON
GEOGRAPHIC INFORMATION RETRIEVAL, 3,
2006, Seattle, USA. Proceedings... New York,
TRUST, J. P. G. Getty Thesaurus of Geographic
Names (Research at the Getty). Disponível em:
<http://www.getty.edu/research/conducting_resea
rch/vocabularies/tgn/>. Acesso em: 2 mar. 2009.
XU, J. et al. Directly Optimizing Evaluation
Measures in Learning to Rank. In: ANNUAL
INTERNATIONAL ACM SIGIR CONFERENCE
ON RESEARCH ON DEVELOPMENT IN
INFORMATION RETRIEVAL, 31., 2008, New
York, USA. Proceedings... New York, USA:
ACM, 2008. p. 107-114, ISBN 978-1-60558-1644.
XU, Z.; XU, X.; TRESP, V. A Hybrid Relevance
Feedback Approach to Text Retrieval. In:
EUROPEAN CONFERENCE ON INFORMATION
RETRIEVAL RESEARCH, 25., 2003, Pisa, Italy.
Proceedings... Berlin: Springer-Verlag, 2003. p.
281-293. (Lecture Notes in Computer Science).
Abstract
The geographic information is part of people’s daily life. There is a huge amount of information on the
Web about or related to geographic entities and people are interested in localizing them on maps.
Nevertheless, the conventional Web search engines, which are keyword-driven mechanisms, do not
support queries involving spatial relationships between geographic entities. This paper revises the
Geographic Information Retrieval (GIR) area and restates its research challenges and opportunities,
based on a proposed architecture for carrying out Web queries involving spatial relationships and an initial
implementation of that arquitecture.
Key words: Information retrieval. Web search. Geographical query. Spatial relationship. GIR.
Cad. CPqD Tecnologia, Campinas, v. 6, n. 1, p. 7-20, jan./jun. 2010
19
Download

Revisitando os desafios da recuperação de informação