Internet e Informação Electrónica PESQUISA DA INFORMAÇÃO 1. EM BUSCA DA INFORMAÇÃO Situações: Sabemos com alguma exactidão qual a informação que procuramos (ex.: um artigo, uma pessoa, um programa, ...) Não sabemos com exactidão o que procuramos, i.e., apenas temos uma ideia do que procuramos (ex.: informação acerca de uma área científica, de um assunto, ...). Recursos: Conhecimento pessoal (os sites de que temos conhecimento) Índices ou Directórios (repositórios de endereços organizados) Portais (locais de partida) IPCA/ESG Pesquisa da Informação | 2 IPCA/ESG Pesquisa da Informação | 3 2. MÉTODOS DE PROCURA DE INFORMAÇÃO Pergunta directa ou consulta de páginas de instituições credíveis (ex.: Instituições governamentais, universidades, tucows, etc...) Páginas brancas são listas que contêm contactos Lista telefónica nacional: http://net118.telecom.pt Páginas Amarelas: http://paginasamarelas.pt Internet Address Finder: http://www.iaf.net Portais Motores de Busca As NEWS como boa fonte de informação Consulta de FAQs Grupos de anuncio de endereços IPCA/ESG Pesquisa da Informação | 4 2.1 Directórios ou Índices (ou páginas amarelas) São locais de partida para a pesquisa de informação, albergando grande quantidade de referências e endereços. As referências estão organizadas em categorias (hierarquicamente). Útil quando não se tem ideia muito precisa em relação ao que procurar. O seu conteúdo é da responsabilidade de pessoas: os detentores das páginas pedem a sua inclusão (registo) no repositório; os gestores do repositório decidem quais os pedidos de registo aceitar, acrescentando-os de forma organizada. Também permitem pesquisas automáticas sobre o repositório baseada em palavras chave. IPCA/ESG Pesquisa da Informação | 5 Exemplos de Directórios ou Índices Yahoo (o pioneiro): http://www.yahoo.com Infoseek / Go: http://www.infoseek.com / www.go.com Sapo: http://www.sapo.pt Galaxy: http://galaxy.net www Virtual Library http://www.vlib.org IPCA/ESG Pesquisa da Informação | 6 IPCA/ESG Pesquisa da Informação | 7 IPCA/ESG Pesquisa da Informação | 8 2.2 Motores de Busca (ou Pesquisadores ou Robots) Mantém repositório de endereços e referências O utilizador efectua uma pesquisa automática sobre essas referências com base em palavras chave Alimentam repositórios que contêm grandes quantidades de referências A alimentação do repositório é feita continuamente e automaticamente pelos motores de procura sem intervenção humana A forma como a informação é adquirida determina os pontos fortes e fracos do pesquisador (não existe o melhor motor de busca) IPCA/ESG Pesquisa da Informação | 9 Exemplos de Motores de Busca NACIONAIS: Sapo http://www.sapo.pt Aeiou http://www.aeiou.pt Cusco http://www.cusco.pt INTERNACIONAIS: Altavista http://www.altavista.com Yahoo! http://www.yahoo.com Excite http://www.excite.com Google http://www.google.com Hotbot http://www.hotbot.com Infoseek http://www.infoseek.com Lycos http://www.lycos.com IPCA/ESG Pesquisa da Informação | 10 IPCA/ESG Pesquisa da Informação | 11 IPCA/ESG Pesquisa da Informação | 12 IPCA/ESG Pesquisa da Informação | 13 2.3 Portais É uma entrada para a Internet, um ponto agregador de informção, serviços e tecnologia. Características: maior ou menos diversidade de conteúdos, destina-se a uma comunidade mais ou menos alargada de pessoas, é financiado por publicidade que é paga em função do número de visitas realizadas. Tipo de portais: generalistas, comerciais, empresariais, pessoais. Suportado por um Directório ou um Motor de Busca ou por ambos. Permite pesquisas por palavras chave e por categorias (Directório). Permite pesquisas em Notícias (News), Páginas Web e Grupos de Discussão. IPCA/ESG Pesquisa da Informação | 14 Exemplos de Portais Internacionais AOL: http://www.aol.com Yahoo: http://www.yahoo.com Lycos: http://www.lycos.com Go: http://www.go.com Excite: http://www.excite.com Altavista: http://www.altavista.com Netcenter: http://www.netcenter.com IPCA/ESG Pesquisa da Informação | 15 Exemplos de Portais Nacionais Sapo: http://www.sapo.pt Clix: http://www.clix.pt Netc: http://www.netc.pt aeiou: http://www.aeiou.pt Cusco: http://www.cusco.pt Telepac: http://www.telepac.pt Teleweb: http://www.teleweb.pt Iupi http://www.iupi.pt IPCA/ESG Pesquisa da Informação | 16 IPCA/ESG Pesquisa da Informação | 17 2.4 Meta-pesquisadores São motores de busca (ou pesquisadores) que se alimentam i.e. que combinam os resultados das pesquisas de outros pesquisadores. São pesquisadores de pesquisadores Search: http://www.search.com/ ou http://search.cnet.com/ Metasearch: http://www.metasearch.com/ Web Search: http://www.web-search.com/ Metacrawler: http://www.metacrawler.com/ --> parte de Go2Net Metafind: http://www.metafind.com Pusearch: http://www.puresearch.com --> meta-meta-pesquisador Web locator: http://weblocator.hypermart.net/ Dogpile: The Big Hub: http://www.thebighub.com/ IPCA/ESG http://www.dogpile.com/ Pesquisa da Informação | 18 3. MOTORES DE BUSCA: Exemplos c/ ALTAVISTA Procura Contabilidade Pública Encontra documentos que contêm a palavra Contabilidade ou a palavra Pública ou ambas as palavras (em quaisquer variantes maiúsculas/minúsculas – pública, Publica, PUBLICA). Primeiro, surgem os documentos que contêm ambas as palavras, juntas e perto do início do texto. IPCA/ESG Pesquisa da Informação | 19 Procura “Contabilidade Pública” Encontra documentos que contêm a palavra Contabilidade e a palavra Pública na sequência indicada tal como estão escritas, sem considerar outras variantes maiúsculas/minúsculas. A colocação de palavras entre aspas transforma-as numa frase e indica ao AltaVista que procure apenas os documentos que contenham as palavras nesta ordem específica. Maiúsculas => procura exacta Procura +contabilidade +pública Encontra documentos que contêm ambas as palavras Procura +Contabilidade -pública Encontra documentos que contêm a palavra Contabilidade mas não contêm a palavra publica e suas variantes Procura +Contabilidade +púb* Encontra documentos que contêm a palavra Contabilidade e qualquer palavra que comece por pub. Resolve situações como: conta, contar, contagem, ..... IPCA/ESG Pesquisa da Informação | 20 3.1 Expressões Booleanas AND Encontra documentos contendo todas as palavras ou frases especificadas. amendoim AND manteiga encontra documentos com ambas as palavras amendoim e manteiga. OR Encontra documentos contendo pelo menos uma das palavras ou frases especificadas. Amendoim OR manteiga encontra documentos que contenham amendoim ou manteiga. Os documentos encontrados podem conter ambos os itens, mas não necessariamente AND NOT Exclui os documentos que contenham as palavras ou frase especificadas. Amendoim AND NOT manteiga encontra documentos que contenham amendoim mas que não contenham manteiga. NEAR Encontra documentos que contenham ambas as palavras ou frases especificadas dentro de um espaço de 10 palavras. amendoim NEAR manteiga iria encontrar documentos com manteiga de amendoim, mas provavelmente nenhum outro tipo de manteiga “URL:” Encontra documentos apenas nos endereços indicados no “URL:” IPCA/ESG Pesquisa da Informação | 21 Exemplo 1: “pocp AND NOT pocal AND URL:.pt” Encontra documentos localizados em sites com domínio de topo PT, com a palavra pocp e sem conter a palavra pocal. Exemplo 2: (amendoim AND manteiga) AND (geleia OR doce) Encontra documentos com as palavras manteiga e amendoim, com contenham também pelo menos uma das palavras geleia e doce. IPCA/ESG Pesquisa da Informação | 22 3.2 Pesquisa Avançada Esta consulta Booleana irá encontrar todos os documentos que contenham as frases 'dança clássica' e 'dança salsa.‘ Na caixa 'Ordenar resultados por palavra chave:' ordena os documentos por forma que tango e valsa apareçam no topo dos resultados. Digite 01/01/99 na caixa Desde: e 30/06/99 na caixa Até: . Este passo limita os resultados aos documentos que tenham sido actualizados na primeira metade de 1999 IPCA/ESG Pesquisa da Informação | 23 4. ESTRATÉGIAS DE PROCURA DE INFORMAÇÃO Por parte dos Robots ou pesquisadores Mantêm uma gigantesca base de dados com informação indexada Quando obtém uma página, o Robot guarda na sua base de dados apenas algumas palavras, de acordo com as estratégias: as primeiras X palavras da página as X palavras que mais se repetem o conteúdo do título da página o conteúdo de campos especiais da página todas as palavras diferentes Quem concebe uma página WEB deve ter em conta estes critérios. Os critérios/estratégias utilizados pelo Robot determinam os seus resultados IPCA/ESG Pesquisa da Informação | 24 Por parte dos Utilizadores Quando um utilizador inicia uma pesquisa fornecendo uma palavrachave, obtém uma lista ordenada de resultados (por ordem decrescente de pontuação) Estratégias para pontuar páginas: quanto mais palavras iguais à palavra-chave a página tiver, mais alta é a pontuação se forem fornecidas várias palavras-chave, a primeira é a mais importante, a segunda vem logo a seguir em termos de “pontos” e assim sucessivamente Estratégia de afinação de resultados começar com palavras genéricas e ir sucessivamente refinando a pesquisa de maneira a ter uma boa ideia acerca dos resultados possíveis e dos resultados que vão sendo eliminados. Regra de Ouro: não limitar a pesquisa à utilização de um único motor de pesquisa IPCA/ESG Pesquisa da Informação | 25