Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva Grupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula é um módulo de recolha de documentos da Web genérico, com características de configuração e distribuição que permitem a sua fácil integração como subsistema de uma aplicação. – O Tarântula guarda informação relativa às suas acções e aos documentos recolhidos, que permitem efectuar análises da estrutura de partições da Web. – As acções do Tarântula podem ser monitorizadas e controladas, sendo possível a sua interrupção e retoma de forma simples e eficiente. Requisitos Identificar-se quando visita servidores Web, usando os campos disponibilizados pelo protocolo HTTP para esse fim; Não sobrecarregar servidores Web, evitando pedidos simultâneos ou sequenciais a um mesmo servidor; Não visitar servidores ou partes de servidores que não pretendam ser visitados por robots, respeitando o protocolo REP (Robot Exclusion Protocol) . Evitar recolher documentos repetidos. Não recolher informação fútil para os propósitos do sistema. Evitar spider traps. As spider traps são URLs que fazem com que um sistema de recolha faça recolhas infinitas num dado sítio da Web. Arquitectura de software 2 1- Inserção de configurações de recolha. 2- Recolha de documentos da Web. 1 3- Armazenamento dos conteúdos recolhidos no sistema de ficheiros. 3 Principais características • Arquitectura modular • Desenvolvido recorrendo à plataforma Java e ao SGBD PostgreSQL. • Controlo de carga incutida às máquinas que efectuam a recolha. • Distribuição dos componentes. • Tolerância a faltas. Interface de configuração Aplicações O Tarântula foi integrado no projecto DROP da Biblioteca Nacional, tendo sido baptizado de RAPA. •O projecto DROP visa efectuar a recolha e armazenamento de publicações online, à semelhança do depósito legal que é efectuado com as publicações tradicionais impressas em papel. O Tarântula foi utilizado na construção do motor de busca Tumba, para efectuar a recolha de documentos do domínio .PT. •Foram inseridas 12781 raízes (URLs a partir dos quais se inicia a recolha). •O Tarântula foi configurado para recolher documentos do tipo text/html, com tamanho inferior a 200KB que se encontrassem a uma profundidade máxima de 3. •Foram utilizadas 7 máquinas. Resultados da recolha do domínio .PT (TUMBA) Respostas HTTP Evolução da recolha Esta do Significa do Num e ro de docum e ntos % 676261 85% 750000 200 HTTP: OK 700000 302 HTTP: Redirecção temporária 50263 6% 650000 -11 Erro sistema 31086 4% -3 Tipo interdito 12691 2% 550000 404 HTTP: Ficheiro não encontrado 11624 1% 500000 301 HTTP: Redirecção permanente 7212 1% 450000 -10 Tempo de máximo de recolha excedido 4819 1% 1142 0% 414 0% 403 HTTP: Acesso Proibido 329 0% 400 HTTP: Pedido mal formado 276 0% 270 0% 180 0% 600000 número de 400000 documentos recolhidos 350000 300000 -4 Tamanho máximo excedido -7 Excluido pelo REP 250000 200000 -1 Resposta HTTP inválida 150000 401 HTTP: Não autorizado 100000 500 HTTP: Erro interno ao servidor 40 0% 300 HTTP: Redirecção com escolhas múltiplas 15 0% 204 HTTP: Resposta sem conteudo 3 0% 502 HTTP: Erro de gateway 2 0% 503 HTTP: Serviço indisponivel 2 0% 796629 100% 50000 0 8-8-01 9-8-01 9-8-01 10-8-01 10-8-01 11-8-01 11-8-01 12-8-01 12-8-01 13-8-01 17:25 5:25 17:25 5:25 17:25 5:25 17:25 5:25 17:25 5:25 tempo Desempenho: •Duração: 4 dias. •Pico de débito nas primeiras 12 horas: •51% do total de documentos. •8 documentos por segundo. •947 Kbit/s. Total Recolha: •Total de 676000 documentos recolhidos. •Armazenados em 14 GB de disco. •Tamanho médio dos documentos: 24 KB. XLDB http://xldb.fc.ul.pt • O XLDB é um dos grupos de investigação pertencentes ao LaSIGE (Laboratório de Sistemas Informáticos de Grande Escala), da Faculdade de Ciências da Universidade de Lisboa. • As áreas de acção do XLDB centram-se nos sistemas de informação, com ênfase para a gestão em grande escala de dados distribuídos na Internet.