Pesquisa e Arquivo da Web
Portuguesa
Daniel Gomes
[email protected]
FCCN
Estrutura da apresentação
• 1ª parte
– Como surgiu e como funciona o tumba!
• 2ª parte
– Projecto de arquivo da web portuguesa
2
Como surgiu o tumba?
• 1999-2000 – Projecto de pesquisa sobre noticias.
• 2000-2001 – Projecto de recolha de publicações online
com a BN.
• 2001 – Tumba!: investigação
– 5 pessoas
– 4 PCs velhos para suportar o sistema
– Problemas para a FCUL
• 2002 – Apoio da FCCN, serviço público gratuito
• 2006 – Ainda estamos vivos (?!)
– Com a ajuda de novos alunos
– Grande rotatividade: 17 alunos já passaram pelo projecto
3
Para que tem servido?
• Para aprender
– Como é que funciona o Google?
• Para ensinar
– Como é que funciona o Google:
• Serviço público com 3 fins
– Motor de busca da comunidade portuguesa
– Arquivo da Web Portuguesa
– Recurso de investigação
• Ao vivo em www.tumba.pt
4
5
6
O que aconteceu a seguir ao
Enter?
• O gnomo verde foi
buscar as páginas à
web?
• Não.
7
Levantando o véu
Batedor
Repositório
Índice
Ordenação Apresentação
Web
8
Batedor (crawler)
Sementes
(URLs)
Crawler
Repositório
Web
9
Recolha
•
Duas listas:
–
–
URLs por recolher
URLs recolhidos
1.
2.
3.
4.
Pega num URLA dos URLs por recolher
Recolhe e guarda a páginaA no repositório
Extrai os URLs dos links da páginaA
Insere os novos URLs nos URLs por
recolher.
5. Insere o URLA nos URLs recolhidos
–
Para não voltar lá.
10
Problemas
• Milhões de páginas para recolher
– Requer muitos computadores e rede
• Há pessoas que não gostam das visitas
– Robots Exclusion Protocol
• A web é um caos
– O crawler está sempre a avariar-se.
– Qualidade crescente devido a browsers mais
rigorosos
11
Exemplo: simulem o crawler a
extrair links de uma página HTML
Dica: os links estão próximos dos href
<html>
<head>
<title>Página de teste</title>
<meta http-equiv="Content-Type"
content="text/html; charset=iso-88591">
</head>
<body>
<p>Bem vindos!</p>
<p>Experimentem o
<a href="http://www.tumba.pt">
motor de busca tumba!</a>.</p>
<p>Vejam também a minha
<a href="http://xldb.fc.ul.pt/daniel/">
página
pessoal</a>.</p>
</body>
</html>
12
O crawler recolhe 3 páginas
http://xldb.fc.ul.pt/teste
http://xldb.fc.ul.pt/daniel/
http://www.tumba.pt
13
Exemplo: simulem o crawler a
extrair links de um Flash
• Não percebem nada?
• O crawler também não.
• Só o programa da Macromedia é que
percebe
CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1
ÆÈ^^<89>BÙ¥Å¾¥!Yr,ÉVª#<8D>^X
Ù<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<9
2><9D>B<85>VI²<9B>ßóESCÔ9=<9
F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_
×÷{]÷=÷Ï^GH<97>^A,$`
^F^L<82><90>±<9B>°^@H^GÒ^M^F
ÀË¹<84>{
<89><97><9B><8B><9B><9F><8F>
W@XNDXHHXIRz¥<9C>¶<8A>îF^UM^M=<93>Ý^Vz[ì^M54·
yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^DÃ
ÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G
^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/`
18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô
^BVNì«}<97>*^_9
<9D>N<94>Ü|«Jpû³^Q)<95>}~
14
O crawler recolhe apenas 1 página
http://www.hpinformatica.net/menu.swf
./servicos.html
./produtos.html
./contactos.html
• Estas páginas não são recolhidas
• Não aparecem nos resultados dos motores de busca
15
Indexação
Crawler
Repositório
Índice
Ordenação Apresentação
Web
• Para acelerar, as pesquisas são feitas sobre índices e
não sobre as páginas armazenadas
16
Índice remissivo de um livro
Termo
Páginas
Arquivo.........4, 10, 12, 99, 123
Biblioteca......1, 11, 20, 33
Correio..........32, 54, 94
...
17
Motor de busca: Índice remissivo
da web
Termo
Páginas (URLs)
Arquivo.........1,188 milhões
Biblioteca......301 mil
Correio..........303 mil
...
• Mesmo o índice é muito grande
• E tem de ser rápido! Porque os utilizadores
esperam apenas alguns segundos pela
resposta a uma pesquisa
18
E agora?
19
Dividir para conquistar
• Construção do índice
– Dividem-se as páginas por várias máquinas
– Cada máquina
• Extrai o texto das suas páginas
• Constrói um índice
• Responde a parte das pesquisas
20
Quando se pesquisa
Tumba!
arquivo da web
portuguesa
Servidor 1
arquivo
Índice
A-H
Servidor 2
Servidor Web
portuguesa
Browser
Índice
I-Q
Servidor 3
Então e o “da”?
-Stop-words
-Ocupam muito espaço
-Sem significado
web
Índice
R-Z
21
Hardware do tumba!
• Computadores
– 6 chaços (P200, 128 MB)
– 10 servidores (com uns aninhos)
• Internet: FCCN 30 Mbps ATM
• Rede local: 1 Gbps (recente)
22
Software
Plataforma:
• Linux
• Oracle – meta-dados
• BerkeleyDB – índices
• Hsql – crawlers
• Httpd, tomcat, struts
• Wiki
• CVS
• Bugzilla
Linguagens:
• Java
• C++
• Perl, bash scripts, SQL
23
Desempenho do Tumba!
• Até 20 000 queries /dia
• 10 milhões de documentos – a maior
recolha da web portuguesa!
• 95% respondidas em menos de 0.5 seg. –
com 3 servidores
24
Como obter os melhores
resultados na primeira página?
Batedor
Repositório
Índice
Ordenação Apresentação
Web
25
Resultados ordenados por
relevância
Combinação de vários factores
PageRank
Textos das
âncoras
Partes
importantes
do
documento
Frequência
no
documento
Frequência
na Web
26
Como se mede a relevância
• Quanto maior a frequência de um termo da pesquisa num
documento, maior a relevância.
• Quanto maior a frequência de um termo da pesquisa na Web,
menor a relevância.
• Quanto maior for documento em número de palavras, menor a
relevância.
• Quanto maior o PageRank de um documento, maior a relevância
• Quanto maior a frequência de um termo da pesquisa em partes
importantes da página (ex: o título), maior a relevância
27
Problemas com lista ordenada
de resultados
• Pesquisas com vários “sentidos” possíveis
– Jaguar (o animal ou o carro desportivo)
– Benfica (o clube de futebol ou o local)
–…
• Problema para as vossas pósgraduações.
– Clustering
– Semantic Web e Ontologias
– Resultados personalizados
28
2ª parte: Arquivo da Web
Portuguesa
A era digital começou
(já há alguns anos)
• A Web é a maior fonte de informação construída
– Jornais, livros, documentação técnica
– Informação publicada exclusivamente na Web
• A informação na Web é efémera
– Gerações futuras poderão testemunhar uma “Idade
das Trevas” digital
• Temos que começar a arquivar
– Propósitos históricos
– Provas em casos judiciais
30
Requisitos de um arquivo da Web
• A forma de arquivo tradicional requer
demasiada intervenção humana
– Não é compatível com a dimensão da Web
• Recolha e armazenamento automático
– Intervenção humana mínima
• Dispendioso em larga escala
– Internet Archive (www.archive.org)
31
Arquivos web nacionais
• Dividir para conquistar: cada país arquiva a sua
web
– 11 da U. E.: Alemanha, Áustria, Dinamarca,
Finlândia, França, Grécia, Lituânia, Holanda, Suécia,
Reino Unido e República Checa.
– 6 externos: Austrália, Canadá, Estados Unidos da
América, Japão, Nova Zelândia e Noruega.
• Necessários critérios para definir limites das
webs nacionais
• Necessárias arquitecturas de sistema e software
específico para suportar o arquivo da web
32
Estrutura da apresentação
– Introdução
• Proposta para o arquivo da web
portuguesa
• Conclusões
33
Contexto
• Projecto de I & D
– É necessária investigação para seguir a
evolução da web
• Duração de 2 anos
• Necessária visão a longo prazo
34
Principais objectivos
• Iniciar o “depósito legal” da web
portuguesa
• Serviço público de acesso ao arquivo
• Formação de recursos humanos
• Disseminação da informação arquivada
para preservação
35
Benefícios nacionais
• Português como língua da web
• Capacidade local de tratamento de informação
da web
– Segurança nacional não pode depender do
estrangeiro
• Exportação do saber-fazer
– Arquivo da Web é tecnologia de ponta.
• Dados para a Ciência
– Sociologia, prospecção de dados, processamento da
língua
• Provas judiciais
36
Principais desafios
•
•
•
•
Recrutamento de mão-de-obra qualificada
Tecnologia específica pouco madura
Boa abrangência da Web portuguesa
Pesquisa eficiente num arquivo histórico
– É um problema em aberto
– Apresentação de conteúdos
• Preservação da informação
• Financiamento e continuidade a longo prazo
• Má qualidade da Web portuguesa
– Web ≠ Internet
37
O que arquivar?
• Sites sob .PT (1ª fase)
– Estamos a perder metade da web portuguesa
– Alguns utilizadores ficarão insatisfeitos
• Tipos GIF, JPEG e HTML
– 95% dos conteúdos publicados
• Espaço necessário estimado
– 250 GB por recolha
• Recolhas trimestrais
38
Como arquivar?
• Meta-dados que permitam preservar e
aceder à informação
– Estratégia de conversão de formatos
• Espaço de armazenamento incremental
• Acessibilidade à informação por pessoas
e máquinas
• Ferramentas de gestão e preservação
39
Tecnologias
• Não existe software comercial de arquivo
da web
• Adoptar soluções de código aberto
– Alteração para o contexto da web
– Maior garantia de preservação
– Gratuitas
– Existem para o arquivo da Web!
40
Exemplos de tecnologias para
arquivo
• Internet Archive
– Archive-access project (http://archiveaccess.sourceforge.net/)
– Heritrix crawler
– Formatos ARC e WARC
• NutchWAX (Nutch + Web Archive eXtensions)
– Nutch: motor de busca de código-aberto para a web
• WERA (Web aRchive Access)
– Archive viewer application
– Antigo Nordic Web Archive
41
Boas notícias
• Conseguiu-se fazer
um protótipo usável
com:
– 3 pessoas
– Máquinas velhas
– Boa vontade
• Existe conhecimento
nacional acerca do
assunto
• Contacto com o IA
42
Dados arquivados no protótipo
• Recolhidos da web portuguesa e migrados
de recolhas do tumba!
• Conteúdos maioritariamente textuais
• Intervalo de tempo de 4 anos (2002-2006)
• 57 milhões de conteúdos,1.5 TB de dados
– 1º passo: migrar os conteúdos para o novo
sistema de arquivo
43
Conclusões
• Arquivo da web nacional está atrasado
• Não existe um critério único para delimitar
a web portuguesa
– Espalhada fora do domínio .PT
• Um arquivo necessita de ser pesquisável
eficientes ou a informação arquivada
“morre” por estar inacessível
• Arquivar a web tem interesse nacional
• Arquivar a web é complexo
• Arquivar a web portuguesa é possível
44
Obrigado pela atenção.
Daniel Gomes
[email protected]