Tarântula-Sistema de Recolha de
Documentos da Web
Daniel Gomes, Mário Silva
Grupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa
O Tarântula é um módulo de recolha de documentos da Web genérico, com
características de configuração e distribuição que permitem a sua fácil
integração como subsistema de uma aplicação.
– O Tarântula guarda informação relativa às suas acções e aos
documentos recolhidos, que permitem efectuar análises da estrutura
de partições da Web.
– As acções do Tarântula podem ser monitorizadas e controladas,
sendo possível a sua interrupção e retoma de forma simples e
eficiente.
Requisitos
 Identificar-se quando visita servidores Web, usando os campos
disponibilizados pelo protocolo HTTP para esse fim;
 Não sobrecarregar servidores Web, evitando pedidos simultâneos
ou sequenciais a um mesmo servidor;
 Não visitar servidores ou partes de servidores que não pretendam
ser visitados por robots, respeitando o protocolo REP (Robot
Exclusion Protocol) .
 Evitar recolher documentos repetidos.
 Não recolher informação fútil para os propósitos do sistema.
 Evitar spider traps. As spider traps são URLs que fazem com que
um sistema de recolha faça recolhas infinitas num dado sítio da
Web.
Arquitectura de software
2
1- Inserção de configurações
de recolha.
2- Recolha de documentos da
Web.
1
3- Armazenamento dos
conteúdos recolhidos no
sistema de ficheiros.
3
Principais características
• Arquitectura modular
• Desenvolvido recorrendo à plataforma Java
e ao SGBD PostgreSQL.
• Controlo de carga incutida às máquinas que
efectuam a recolha.
• Distribuição dos componentes.
• Tolerância a faltas.
Interface de configuração
Aplicações
O Tarântula foi integrado no projecto DROP da
Biblioteca Nacional, tendo sido baptizado de
RAPA.
•O projecto DROP visa efectuar a recolha e
armazenamento de publicações online, à
semelhança do depósito legal que é efectuado
com as publicações tradicionais impressas em
papel.
O Tarântula foi utilizado na construção do motor de
busca Tumba, para efectuar a recolha de documentos do
domínio .PT.
•Foram inseridas 12781 raízes (URLs a partir dos quais
se inicia a recolha).
•O Tarântula foi configurado para recolher documentos
do tipo text/html, com tamanho inferior a 200KB que se
encontrassem a uma profundidade máxima de 3.
•Foram utilizadas 7 máquinas.
Resultados da recolha do domínio .PT (TUMBA)
Respostas HTTP
Evolução da recolha
Esta do Significa do
Num e ro de docum e ntos
%
676261
85%
750000
200 HTTP: OK
700000
302 HTTP: Redirecção temporária
50263
6%
650000
-11 Erro sistema
31086
4%
-3 Tipo interdito
12691
2%
550000
404 HTTP: Ficheiro não encontrado
11624
1%
500000
301 HTTP: Redirecção permanente
7212
1%
450000
-10 Tempo de máximo de recolha excedido
4819
1%
1142
0%
414
0%
403 HTTP: Acesso Proibido
329
0%
400 HTTP: Pedido mal formado
276
0%
270
0%
180
0%
600000
número de
400000
documentos
recolhidos 350000
300000
-4 Tamanho máximo excedido
-7 Excluido pelo REP
250000
200000
-1 Resposta HTTP inválida
150000
401 HTTP: Não autorizado
100000
500 HTTP: Erro interno ao servidor
40
0%
300 HTTP: Redirecção com escolhas múltiplas
15
0%
204 HTTP: Resposta sem conteudo
3
0%
502 HTTP: Erro de gateway
2
0%
503 HTTP: Serviço indisponivel
2
0%
796629
100%
50000
0
8-8-01 9-8-01 9-8-01 10-8-01 10-8-01 11-8-01 11-8-01 12-8-01 12-8-01 13-8-01
17:25 5:25 17:25 5:25 17:25 5:25 17:25 5:25 17:25 5:25
tempo
Desempenho:
•Duração: 4 dias.
•Pico de débito nas primeiras 12 horas:
•51% do total de documentos.
•8 documentos por segundo.
•947 Kbit/s.
Total
Recolha:
•Total de 676000 documentos recolhidos.
•Armazenados em 14 GB de disco.
•Tamanho médio dos documentos: 24
KB.
XLDB
http://xldb.fc.ul.pt
• O XLDB é um dos grupos de
investigação pertencentes ao LaSIGE
(Laboratório de Sistemas Informáticos
de Grande Escala), da Faculdade de
Ciências da Universidade de Lisboa.
• As áreas de acção do XLDB centram-se
nos sistemas de informação, com
ênfase para a gestão em grande escala
de dados distribuídos na Internet.