Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST Informação => Recursos 2 Informação? • Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”. • Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”... 3 Como se define um recurso? • Definição simples: Um recurso de informação poderá ser tudo aquilo a que se pode atribuir um identificador!!! • Exemplos de identificadores: – – – – – – – – – – URL URI ISBN Número de Contribuinte “Pathname” num sistema de ficheiros Número de telefone Endereço de email Número de aluno do IST Matrícula de um automóvel .. • A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”... 4 Identificadores e géneros de recursos: • Géneros de recursos: • Exemplos de identificadores: – Uma página web! – URL – ...qualquer coisa... – URI – Um livro! – ISBN – Uma pessoa ou organização! – Número de Contribuinte – Um ficheiro num computador! – “Pathname” num sistema de ficheiros – Uma pessoa ou organização! – Número de telefone – Uma pessoa ou organização! – Endereço de email – Uma pessoa! – Número de aluno do IST – Um automóvel! – Matrícula de um automóvel – .. ??? ... – .. Mais exemplos ...???... 5 Voltando ao problema genérico da Gestão e Recuperação de Informação O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir: – Espaços de identificadores, para todos os recursos – Atributos que possam ser processados sobre os recursos (eventualmente, os identificadores de um recurso podem ser atributos seus) – Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos – Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores 6 Atributos => Metadados 7 Sobre os Atributos – Podemos fazer uma analogia dizendo que no problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...) – Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso! – (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso. 8 Exemplos de atributos/metadados Título = A Morgadinha dos Canaviais <autor>Jaime Silva<autor> id := 123-xpto-h3d4 Género: Dissertação Type = JPEG2000 Data de Edição - 29 de Fevereiro de 2004 102 ## $aPT 700 #1 $aHalpern$bManuel Júdice$f1932- 9 Metadados podem ser criados – Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca! – Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ... 10 “Information IQ” (imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif) Objectos de informação estruturados podem facilitar a extracção de metadados!!! 11 Que tipos de metadados podemos ter? – Descritivos • título, nome do autor, assunto, data de criação, ... – Técnicos • formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ... – Administrativos • Password de acesso, responsável pela compra ou licenciamento, ... – ...aqueles que o negócio precisar... 12 Voltando à criação de Metadados • Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc... 13 Metadados num documento PDF (de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png) 14 Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg) 15 Mais metadados • • • • • • • • • • • • • • • • • • • • • • • <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml"> <head> <title>Instituto Superior Técnico</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> <meta name="keywords" content="ensino, ensino superior, universidade, instituto, ciência, instituto superior técnico, investigação e desenvolvimento" /> <meta name="description" content="O Instituto Superior Técnico é a maior escola de engenharia, ciência e tecnologia em Portugal." /> <meta name="author" content="Instituto Superior Técnico" /> <meta http-equiv="pragma" content="no-cache" /> <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" /> <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" /> <link rel="stylesheet" type="text/css" media="print" href="css/print.css" /> <script src="/js/flash.js" type="text/javascript"></script> <script src="/js/flash.vbs" type="text/vbscript"></script> <script src="http://www.google-analytics.com/urchin.js" type="text/javascript"> </script> <script type="text/javascript"> _uacct = "UA-182539-2"; urchinTracker(); </script> </head> <body> ... 16 Mais sobre extracção de metadados 17 Mais sobre extracção de metadados 18 Há mesmo um negócio na extracção de metadados... 19 A propósito, uma patente em... (http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605) 20 Ponto de ordem: • Metadados são estruturas de informação sobre recursos que podem servir de suporte à gestão, pesquisa e acesso a esses recursos • Metadados podem existir independentes dos recursos ou existir integrados nos mesmos • Metadados podem ser criados: – Manualmente – Automaticamente: • Durante os processos de criação dos recursos • Posteriormente à criação dos recursos, extraídos dos mesmos 21 Metadados e Esquemas Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos: – XMP - Extensible Metadata Platform • http://xml.coverpages.org/xmp.html – MARC Standards • http://www.loc.gov/marc/ – UNIMARC • http://www.unimarc.info/bibliographic/2.3/en/summary – Dublin Core Metadata Initiative • http://dublincore.org/ – MPEG-7 / MPEG-21 DIDL • http://www.chiariglione.org/mpeg/ – etc... 22 23 24 25 26 27 Dos Metadados aos Serviços... 28 O que se pode fazer então com os metadados? • Em cenários bem definidos, podem ser simplesmente “despejados” para uma base de dados, criando serviços de Precision=Recall=1 29 A propósito, um registo UNIMARC (codificado em MarcXchange) 30 O que se pode fazer então com os metadados? • Em cenários menos bem definidos (mais “Information Retrieval”), podem-se usar os registos de metadados como fontes para serviços na mesma: 31 Partilha de Metadados • Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...). • A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!! • No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...) • Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação... • Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados) 32 OAI - Open Archives Initiative 33 OAI-PMH Protocol for Metadata Harvesting (http://www.oaforum.org/tutorial/image/structure-model.gif) Web-Services segundo o modelo REST... 34 No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50... 35 http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg 36 Servidores Z39.50 em bibliotecas Portuguesas: 37 O Z39.50 é um protocolo bastante complexo... SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...) 38 TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50 39 Próximas aulas... GML DocBook RSS METS ATOM MPEG... Metadata Registries Document Schemas XML Dublin Core... ONIX ... UNIMARC RDF MARC21 SMIL ... ... 40 Perguntas? 41