Gestão e Recuperação
de Informação
Recuperação de Informação na Web
José Borbinha – DEI/IST
Recuperação de Informação na Web
•
•
•
•
O problema
A Web superficial
A Web profunda
Outros assuntos
2
Recuperação de Informação na Web: O Problema
Quantos objectos?
Quantas páginas?
Como achar algo?
http://news.netcraft.com/archives/2006/04/06/april_2006_web_server_survey.html
3
O “cyberespaço” em 1995
http://robot-club.com/lti/pub/lycos-websize-9510.html
4
O “cyberespaço” indexado pelo Lycos em 1995
(“...Between Nov 21, 1994 and Jan 31, 1995, Lycos successfully
downloaded at least one file from 15,858 unique HTTP servers...”)
http://robot-club.com/lti/pub/lycos-websize-9510.html
5
A “Web” em 1999...
(“By analyzing the overlap between engines we estimated a lower bound on the size of the
"publicly indexable Web" at 320 million pages (see below for more details). The "publicly
indexable Web" excludes pages typically not indexed by the major search engines, e.g. pages
behind search forms or authorization requirements. The following figure shows the estimated
coverage of six major Web search engines compared to the estimated size of the Web.”)
6
http://www.cs.biu.ac.il/home/search/studies/lawrence.htm
Como achar algo na Web... ainda por
cima quando nem tudo é estático...???
Web
Superficial
Web
Profunda
7
Recuperação de Informação na Web
• O problema
• A Web superficial
– Directórios e Catálogos
– Search Engines
• A Web profunda
• Outros assuntos
8
No princípio: Directórios e Catálogos
– Yahoo, SAPO, ...
– Subject Gateways (Renardus, ...)
– ...
9
Yahoo, SAPO, ...: Indexar a web “à mão”...
10
“Subject Gateways”
Renardus – Classificação de recursos de qualidade da web... “à mão”!!!
11
Renardus “mapping tool”...
ddc: Sistema de
classificação
decimal de
Dewey
12
A “raposa” não resistiu...
13
Mas ainda restam alguns persistentes...
14
Search Engines
– Altavista, Google, A9, tumba!...
– Anatomia de uma search engine
15
Altavista...
16
1998: Google!!!
17
A9.com
18
19
20
tumba!
(Temos Um Motor de Busca Alternativo!)
• Motor de busca para
sites “portugueses”
(de Portugal)
• Suporte ao Arquivo
da “Web Portuguesa”
21
Web
Presentation Engine
Ranking Engine
Indexing Engine
Repository
Crawlers
Anatomia de uma “Search Engine”
22
Uma nova área de negócio: ajudar clientes a ter os seus sites
melhor “classificados” nos motores de busca...
Caso: “big feet” e Google (Financial Times – UK, September 16, 2005)
[http://www.ufppc.org/content/view/3416/36/]...
23
btw, Caso da Semana...
24
Recuperação de Informação na Web
• O problema
• A Web superficial
• A Web profunda
– Pesquisa distribuída
– Partilha de Metadados
• Outros assuntos
25
A Web profunda
• Pesquisa Distribuída
– Z39.50 / SRU (relembrar aula 5)
26
Servidores Z39.50 em bibliotecas Portuguesas:
27
b-on
28
Metalib (suporte à b-on...)
Z39.50
HTTP/HTML
...
http://www.emeraldinsight.com/fig/0721040101001.png
29
A Web profunda
• Partilha de Metadados
– OAI-PMH, Syndication (RSS, ATOM, ...)
30
OAI-PMH
Protocol for Metadata Harvesting
(http://www.oaforum.org/tutorial/image/structure-model.gif)
Web-Services
segundo o modelo
REST...
31
TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50
32
Search and Retrieval in TEL: Actual Scenario
OAI-PMH
TEL
central index
Z39.50
Z39.50
SRU
SRU
TEL Portal...
33
Search and Retrieval in TEL: A Desired Scenario
(project TELplus...)
OAI-PMH OAI-PMH
TEL
central index
Z39.50
SRU
“intelligent” TEL Portal...
34
Scholar Google: interoperabilidade com a “Web Profunda”
35
Scholar Google: interoperabilidade com a “Web Profunda”
36
“link” para a
“Web
Profunda”...
37
Google News
Feeds em
RSS
(RDF) e
ATOM
(XML)
38
Recuperação de Informação na Web
•
•
•
•
O problema
A Web superficial
A Web profunda
Outros assuntos
– A Web Semântica
– Preservação da Web
39
A Web Semântica...
40
Preservação da Web
Estática
Dinâmica
Superficial
Profunda
41
Preservação da Web: Internet Archive
42
Preservação da Web: waybackmachine
43
Preservação Digital...
44
Perguntas?
45
Download

Slides da Aula 11