Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
SEMINÁRIO 01
30.MARÇO.2006
ARTIGO FONTE
ESTIMATIVA DA PIW ATRAVÉS DE
MOTORES DE BUSCA DE GRANDE ESCALA
Autores:
Antônio Soares, João Barroso, José Bulas-Cruz
Universidade de Trás –os-Montes e Alto Douro, Portugal
APRESENTAÇÃO
Alunos PGEGC
Renata Jorge Vieira
Marcus Grudtner
Eduardo Giugliani
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
INTRODUÇÃO
•
•
•
A WorldWebWide é um campo fértil de
investigação e recuperação de informações
A indexação é, por excelência,
o método que permite, de uma forma
escalável e eficaz, a pesquisa da Web
O foco da investigação está no enquadramento
geral da Recuperação de Informação
na Web e na forma como os ‘sites’ de
pesquisa percorrem e recolhem todo o
espaço textual público e indexável da Web.
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
OBJETIVOS DO ARTIGO
• Estudo mais aprofundado da
Recuperação de Informação na Web
 processo antigo  desafio atual
• Análise dos desafios que direcionam o
desenvolvimento de ‘sites’ de pesquisa
de grande escala operados comercialmente,
• Análise da forma como estes sistemas são
implementados ao nível dos componentes
que lhes permitem o percurso e recolhimento
automático de todo o espaço
Web, Público e Indexável (PIW).
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
SOBRE A PESQUISA REALIZADA
Trata-se de uma experiência cujos
objetivos foram de
• estimar a PIW,
• estimar a cobertura da PIW
por parte dos maiores ‘sites’ de pesquisa, e
• estimar a percentagem de ligações inválidas
presente nos índices desses ‘sites’ de pesquisa.
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
METODOLOGIA
• A experimentação teve por base os estudos
efetuados de Lawrence e Giles e
foi realizada através do
programa Copernic (Inc.-2003d).
• O método de Lawrence e Giles consiste na
estimativa da PIW com base no cálculo
do número de documentos sobrepostos
entre pares de motores de pesquisa
(Lawrence e Giles - 1998).
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
OS DESAFIOS DO EXPERIMENTO
• Lidar com a natureza
dinâmica e heterogênea da Web
•
Lidar com questões de
escalabilidade (relevância) e distribuição,
• Lidar com um grau de qualidade
da informação muito variado,
• Fazer uso da estrutura de ligações da Web
para aumentar a eficiência e qualidade
dos sites de pesquisa, entre outros ...
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
REALIZAÇÃO DA PESQUISA
• Ocorreu entre Maio e Junho de 2003
• Sites de pesquisa selecionados:
AlltheWeb (AW)
Altavista (AV)
Google (GG)
HotBot (HB)
• Foram analisadas ferramentas de pesquisa
da Web (agentes)
• De todas as ferramentas analisadas,
somente o “agente” Copernic obedecia
aos requisitos da experimentação
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
REQUISITOS DA EXPERIMENTAÇÃO
• Interrogar os sites de pesquisa escolhidos
• Retornar até 600 documentos
• Detectar e eliminar URLs duplicados
• Detectar e eliminar URLs inválidos
• Permitir a definição de um time-out
• Permitir definição do tamanho dos documentos
• Descarregar os documentos e analisar os seus termos
• Permitir a contagem dos documentos retornados para
o cálculo da sua sobreposição
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
EXPERIMENTAÇÃO
• Definição dos pares dos sites de pesquisa
GG/HB, AW/GG, AW/HB, AV/HB, AW/AV, AV/GG
• Seleção das interrogações a efetuar:
 interrogação teste: ‘agamosenesis’
já utilizada em outras pesquisas
 28 termos escolhidos:
em inglês ( ~ 72% da PIW )
interrogações de um só termo
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
ANÁLISE DA EQUIPE
SITES DE PESQUISA
MOTORES DE BUSCA
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
Sites de Pesquisa x Motores de Busca
• Sites de Pesquisa
• Sites que executam busca de informações
em bases próprias ou não.
• Motores de Busca
• Mecanismos para a busca e manutenção
de conteúdos na internet.
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
Motores de Busca
• Definição:
Mecanismo automatizado que acessa sites
previamente cadastrados buscando conteúdos
e, através de links encontrados, busca
novos conteúdos em outras páginas.
• Crawler
• Web Crawler
• Bot
• Robot
• Spider
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
Motor de Busca do Google - Googlebot
• Adicionar URL
URL e comentário
• Robot.txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
• META Tag
<META NAME=“ROBOTS” CONTENT=“NOFOLLOW”>
• HotBot
 utiliza a base de dados do Google e do Lycos
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
Motor de busca do
AllTheWeb e Altavista
• Usa o Yahoo como base
 Programa “Overture Site Match(tm)”
• Vincula os sites a uma conta
(deve ser criada anteriormente)
• Várias categorias para submissão de URL
• Cadastro mais trabalhoso
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
Outros Sites de Busca
•
•
•
•
-
AOL – base própria
Iwon – utiliza o serviço do ‘ASK’
Teoma – mudou para ‘ask’
Lycos – tem indexação própria que é utilizada
por vários sites de busca:
www.lycos.com, www.gamesville.com, www.tripod.com,
www.angelfire.com, mail.lycos.com, www.quote.com,
www.ragingbull.com, www.wired.com, www.hotbot.com,
www.whowhere.com, www.hotwired.com, www.webmonkey.com,
www.getrelevant.com, and www.htmlgear.com
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
Outros Sites de Busca
• MSN  motor de busca - MSNbot
• Overture  motor de busca do Yahoo
• WiseNut  motor de busca próprio
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
RESULTADOS
TABELA 1
Tamanho estimado da PIW
e respectivo intervalo de confiança a 95%
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
RESULTADOS
FIGURA 1
Estimativas do tamanho da PIW
ao longo do tempo
?
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
RESULTADOS
TABELA 2
Resultados da porcentagem de ligações inválidas
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
CONCLUSÕES DO ARTIGO
• Utilização de métodos mais simples
inviável !!!, ... sites comerciais, ... info valiosas
• Vários métodos para estimar a PIW
 alguns com resultados muito divergentes
• Estimativa da PIW determinada: 8,245 bilhões
 junho de 2003
 coerente com outra pesquisa de maio de 2003 (6 bi)
• Relativamente à atualização dos sites de pesquisa,
os resultados obtidos sugerem que os sites vêm
acompanhamento o ritmo de crescimento e a dinâmica
da Web... mais precisamente da PIW.
• Sites de pesquisa com maiores índices (Google-Hotbot)
 apresentam as melhores políticas de ‘frescura’ !!!
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
CONCLUSÕES DA EQUIPE (1)
• WEB
 ainda é um grande campo de pesquisa
• Vulnerabilidade ???
 páginas dinâmicas
 oferecem consistência das informações buscadas?
 atualização dos sites de pesquisa:
> ‘frescura’ dos índices 
< erros, ligações erradas, dead links,...
• Independência entres motores
 >s índices na PIW ???
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
CONCLUSÕES DA EQUIPE (2)
Resultados Obtidos Buscando Alguns dos 28 ‘Termos’
scrimshank
mutule
ozotype
allomorphism
quindecagon
Google
12.400
23.800
313
13.400
21.300
AltaVista
(Yahoo)
10.200
1.930
254
1.570
474
AllTheWeb
(Yahoo)
9.580
1.240
227
1.380
393
HotBot
(Google)
389
1.130
97
619
252
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
REFERÊNCIAS BIBLIOGRÁFICAS
• CONFERÊNCIA IBERO-AMERICANA WWW/INTERNET
2004, 2004, Madrid. Actas da Conferência IberoAmericana. Madrid: Iadis Press, 2004. v. 1, p. 155-165.
ISBN 97299353-1-9.
www.iadis.org/ciawi2004/ciawi2004_prog.pdf
• Lawrence, S. e Giles, C. L., 1998. Searching the World
Wide Web. Science. Vol. 280, n.º 4, p. 98-100.
http://citeseer.nj.nec.com/lawrence98searching.html.
• Lawrence, S. e Giles, L., 1999. Accessibility and
Distribution of Information on the Web. Nature. Vol. 400,
p. 107-109.
http://wwwmetrics.com/
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Programa de Pós-Graduação em
Engenharia e Gestão do Conhecimento, EGC - UFSC
SEMINÁRIO 01
30.MARÇO.2006
MUITO OBRIGADO
Renata Jorge Vieira
Marcus Grudtner
Eduardo Giugliani
T.E. Engenharia do Conhecimento e Ferramentas de Busca
2006/01
Download

Estimativa da PIW Através de Motores de Busca de Grande Escala