Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC SEMINÁRIO 01 30.MARÇO.2006 ARTIGO FONTE ESTIMATIVA DA PIW ATRAVÉS DE MOTORES DE BUSCA DE GRANDE ESCALA Autores: Antônio Soares, João Barroso, José Bulas-Cruz Universidade de Trás –os-Montes e Alto Douro, Portugal APRESENTAÇÃO Alunos PGEGC Renata Jorge Vieira Marcus Grudtner Eduardo Giugliani T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC INTRODUÇÃO • • • A WorldWebWide é um campo fértil de investigação e recuperação de informações A indexação é, por excelência, o método que permite, de uma forma escalável e eficaz, a pesquisa da Web O foco da investigação está no enquadramento geral da Recuperação de Informação na Web e na forma como os ‘sites’ de pesquisa percorrem e recolhem todo o espaço textual público e indexável da Web. T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC OBJETIVOS DO ARTIGO • Estudo mais aprofundado da Recuperação de Informação na Web processo antigo desafio atual • Análise dos desafios que direcionam o desenvolvimento de ‘sites’ de pesquisa de grande escala operados comercialmente, • Análise da forma como estes sistemas são implementados ao nível dos componentes que lhes permitem o percurso e recolhimento automático de todo o espaço Web, Público e Indexável (PIW). T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC SOBRE A PESQUISA REALIZADA Trata-se de uma experiência cujos objetivos foram de • estimar a PIW, • estimar a cobertura da PIW por parte dos maiores ‘sites’ de pesquisa, e • estimar a percentagem de ligações inválidas presente nos índices desses ‘sites’ de pesquisa. T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC METODOLOGIA • A experimentação teve por base os estudos efetuados de Lawrence e Giles e foi realizada através do programa Copernic (Inc.-2003d). • O método de Lawrence e Giles consiste na estimativa da PIW com base no cálculo do número de documentos sobrepostos entre pares de motores de pesquisa (Lawrence e Giles - 1998). T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC OS DESAFIOS DO EXPERIMENTO • Lidar com a natureza dinâmica e heterogênea da Web • Lidar com questões de escalabilidade (relevância) e distribuição, • Lidar com um grau de qualidade da informação muito variado, • Fazer uso da estrutura de ligações da Web para aumentar a eficiência e qualidade dos sites de pesquisa, entre outros ... T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC REALIZAÇÃO DA PESQUISA • Ocorreu entre Maio e Junho de 2003 • Sites de pesquisa selecionados: AlltheWeb (AW) Altavista (AV) Google (GG) HotBot (HB) • Foram analisadas ferramentas de pesquisa da Web (agentes) • De todas as ferramentas analisadas, somente o “agente” Copernic obedecia aos requisitos da experimentação T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC REQUISITOS DA EXPERIMENTAÇÃO • Interrogar os sites de pesquisa escolhidos • Retornar até 600 documentos • Detectar e eliminar URLs duplicados • Detectar e eliminar URLs inválidos • Permitir a definição de um time-out • Permitir definição do tamanho dos documentos • Descarregar os documentos e analisar os seus termos • Permitir a contagem dos documentos retornados para o cálculo da sua sobreposição T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC EXPERIMENTAÇÃO • Definição dos pares dos sites de pesquisa GG/HB, AW/GG, AW/HB, AV/HB, AW/AV, AV/GG • Seleção das interrogações a efetuar: interrogação teste: ‘agamosenesis’ já utilizada em outras pesquisas 28 termos escolhidos: em inglês ( ~ 72% da PIW ) interrogações de um só termo T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC ANÁLISE DA EQUIPE SITES DE PESQUISA MOTORES DE BUSCA T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC Sites de Pesquisa x Motores de Busca • Sites de Pesquisa • Sites que executam busca de informações em bases próprias ou não. • Motores de Busca • Mecanismos para a busca e manutenção de conteúdos na internet. T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC Motores de Busca • Definição: Mecanismo automatizado que acessa sites previamente cadastrados buscando conteúdos e, através de links encontrados, busca novos conteúdos em outras páginas. • Crawler • Web Crawler • Bot • Robot • Spider T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC Motor de Busca do Google - Googlebot • Adicionar URL URL e comentário • Robot.txt User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ • META Tag <META NAME=“ROBOTS” CONTENT=“NOFOLLOW”> • HotBot utiliza a base de dados do Google e do Lycos T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC Motor de busca do AllTheWeb e Altavista • Usa o Yahoo como base Programa “Overture Site Match(tm)” • Vincula os sites a uma conta (deve ser criada anteriormente) • Várias categorias para submissão de URL • Cadastro mais trabalhoso T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC Outros Sites de Busca • • • • - AOL – base própria Iwon – utiliza o serviço do ‘ASK’ Teoma – mudou para ‘ask’ Lycos – tem indexação própria que é utilizada por vários sites de busca: www.lycos.com, www.gamesville.com, www.tripod.com, www.angelfire.com, mail.lycos.com, www.quote.com, www.ragingbull.com, www.wired.com, www.hotbot.com, www.whowhere.com, www.hotwired.com, www.webmonkey.com, www.getrelevant.com, and www.htmlgear.com T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC Outros Sites de Busca • MSN motor de busca - MSNbot • Overture motor de busca do Yahoo • WiseNut motor de busca próprio T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC RESULTADOS TABELA 1 Tamanho estimado da PIW e respectivo intervalo de confiança a 95% T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC RESULTADOS FIGURA 1 Estimativas do tamanho da PIW ao longo do tempo ? T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC RESULTADOS TABELA 2 Resultados da porcentagem de ligações inválidas T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC CONCLUSÕES DO ARTIGO • Utilização de métodos mais simples inviável !!!, ... sites comerciais, ... info valiosas • Vários métodos para estimar a PIW alguns com resultados muito divergentes • Estimativa da PIW determinada: 8,245 bilhões junho de 2003 coerente com outra pesquisa de maio de 2003 (6 bi) • Relativamente à atualização dos sites de pesquisa, os resultados obtidos sugerem que os sites vêm acompanhamento o ritmo de crescimento e a dinâmica da Web... mais precisamente da PIW. • Sites de pesquisa com maiores índices (Google-Hotbot) apresentam as melhores políticas de ‘frescura’ !!! T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC CONCLUSÕES DA EQUIPE (1) • WEB ainda é um grande campo de pesquisa • Vulnerabilidade ??? páginas dinâmicas oferecem consistência das informações buscadas? atualização dos sites de pesquisa: > ‘frescura’ dos índices < erros, ligações erradas, dead links,... • Independência entres motores >s índices na PIW ??? T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC CONCLUSÕES DA EQUIPE (2) Resultados Obtidos Buscando Alguns dos 28 ‘Termos’ scrimshank mutule ozotype allomorphism quindecagon Google 12.400 23.800 313 13.400 21.300 AltaVista (Yahoo) 10.200 1.930 254 1.570 474 AllTheWeb (Yahoo) 9.580 1.240 227 1.380 393 HotBot (Google) 389 1.130 97 619 252 T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC REFERÊNCIAS BIBLIOGRÁFICAS • CONFERÊNCIA IBERO-AMERICANA WWW/INTERNET 2004, 2004, Madrid. Actas da Conferência IberoAmericana. Madrid: Iadis Press, 2004. v. 1, p. 155-165. ISBN 97299353-1-9. www.iadis.org/ciawi2004/ciawi2004_prog.pdf • Lawrence, S. e Giles, C. L., 1998. Searching the World Wide Web. Science. Vol. 280, n.º 4, p. 98-100. http://citeseer.nj.nec.com/lawrence98searching.html. • Lawrence, S. e Giles, L., 1999. Accessibility and Distribution of Information on the Web. Nature. Vol. 400, p. 107-109. http://wwwmetrics.com/ T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC SEMINÁRIO 01 30.MARÇO.2006 MUITO OBRIGADO Renata Jorge Vieira Marcus Grudtner Eduardo Giugliani T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01