Gestão e Recuperação de Informação
Informação Estruturada
José Borbinha – DEI/IST
Informação => Recursos
2
Informação?
• Como informação iremos considerar
daqui em diante “objectos” ou, em
termos mais gerais, “recursos (de
informação)”.
• Nesta perspectiva o nosso problema da
“Gestão e Recuperação de Informação”
será agora um problema de “gestão e
recuperação de recursos”...
3
Como se define um recurso?
• Definição simples: Um recurso de informação poderá ser tudo aquilo
a que se pode atribuir um identificador!!!
• Exemplos de identificadores:
–
–
–
–
–
–
–
–
–
–
URL
URI
ISBN
Número de Contribuinte
“Pathname” num sistema de ficheiros
Número de telefone
Endereço de email
Número de aluno do IST
Matrícula de um automóvel
..
• A assumpção geral é a de que se é possível atribuir um identificador
a algo, então essa coisa terá “identidade”...
4
Identificadores e géneros de recursos:
• Géneros de recursos:
• Exemplos de identificadores:
– Uma página web!
– URL
– ...qualquer coisa...
– URI
– Um livro!
– ISBN
– Uma pessoa ou organização!
– Número de Contribuinte
– Um ficheiro num computador!
– “Pathname” num sistema de ficheiros
– Uma pessoa ou organização!
– Número de telefone
– Uma pessoa ou organização!
– Endereço de email
– Uma pessoa!
– Número de aluno do IST
– Um automóvel!
– Matrícula de um automóvel
– .. ??? ...
– .. Mais exemplos ...???...
5
Voltando ao problema genérico da
Gestão e Recuperação de Informação
O nosso problema pode-se definir agora como sendo o de
garantir que, para todos os recursos relevantes para um dado
negócio, seja possível criar e gerir:
– Espaços de identificadores, para todos os recursos
– Atributos que possam ser processados sobre os recursos
(eventualmente, os identificadores de um recurso podem ser
atributos seus)
– Sistemas que recuperam identificadores de recursos como
resposta a interrogações aos atributos dos mesmos
– Sistemas que façam a gestão do acesso aos recursos em troca dos
seus identificadores
6
Atributos => Metadados
7
Sobre os Atributos
– Podemos fazer uma analogia dizendo que no
problema “clássico” de RI os atributos
correspondem à informação que se extrai do
recurso, ou seu representativo, para indexar (lista
de palavras, vector, ...). No entanto essa
informação não é geralmente estruturada (são
dados...)
– Numa perspectiva mais geral de GRI, os atributos
correspondem a informação estruturada, a que se
dá o nome de metadados do recurso!
– (definição simples) Metadados é assim a
designação genérica para qualquer tipo de
informação estruturada sobre um recurso.
8
Exemplos de atributos/metadados
Título = A Morgadinha dos Canaviais
<autor>Jaime Silva<autor>
id := 123-xpto-h3d4
Género: Dissertação
Type = JPEG2000
Data de Edição - 29 de Fevereiro de 2004
102 ## $aPT
700 #1 $aHalpern$bManuel Júdice$f1932-
9
Metadados podem ser criados
– Manualmente: o preenchimento de uma ficha
por uma pessoa... => Um catalogador numa
biblioteca!
– Automaticamente: a criação automática de
uma estrutura de dados através de um
programa de computador implementando
algoritmos específicos... => Parsers,
heurísticas, inferências, ...
10
“Information IQ”
(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)
Objectos de
informação
estruturados
podem facilitar a
extracção de
metadados!!!
11
Que tipos de metadados podemos ter?
– Descritivos
• título, nome do autor, assunto, data de criação,
...
– Técnicos
• formato(s) do(s) ficheiro(s), tamanho
(quantidade de bytes), ...
– Administrativos
• Password de acesso, responsável pela compra
ou licenciamento, ...
– ...aqueles que o negócio precisar...
12
Voltando à criação de Metadados
• Alguns dispositivos ou sistemas podem
produzir automaticamente metadados na
altura da criação do recurso => máquinas
fotográficas, editores de texto, etc...
13
Metadados num documento PDF
(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)
14
Metadados manuais e automáticos
(de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)
15
Mais metadados
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Instituto Superior T&eacute;cnico</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
<meta name="keywords" content="ensino, ensino superior, universidade, instituto,
ciência, instituto superior técnico, investigação e desenvolvimento" />
<meta name="description" content="O Instituto Superior Técnico é a maior escola de
engenharia, ciência e tecnologia em Portugal." />
<meta name="author" content="Instituto Superior Técnico" />
<meta http-equiv="pragma" content="no-cache" />
<link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" />
<link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" />
<link rel="stylesheet" type="text/css" media="print" href="css/print.css" />
<script src="/js/flash.js" type="text/javascript"></script>
<script src="/js/flash.vbs" type="text/vbscript"></script>
<script src="http://www.google-analytics.com/urchin.js" type="text/javascript">
</script>
<script type="text/javascript">
_uacct = "UA-182539-2";
urchinTracker();
</script>
</head>
<body>
...
16
Mais sobre extracção de metadados
17
Mais sobre extracção de metadados
18
Há mesmo um negócio na extracção de metadados...
19
A propósito, uma patente em...
(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)
20
Ponto de ordem:
• Metadados são estruturas de informação sobre recursos que
podem servir de suporte à gestão, pesquisa e acesso a esses
recursos
• Metadados podem existir independentes dos recursos ou existir
integrados nos mesmos
• Metadados podem ser criados:
– Manualmente
– Automaticamente:
• Durante os processos de criação dos recursos
• Posteriormente à criação dos recursos, extraídos dos
mesmos
21
Metadados e Esquemas
Se os metadados são estruturas de informação, então devem
existir já esquemas definidos para essas estruturas, certo? Certo!
Exemplos:
– XMP - Extensible Metadata Platform
• http://xml.coverpages.org/xmp.html
– MARC Standards
• http://www.loc.gov/marc/
– UNIMARC
• http://www.unimarc.info/bibliographic/2.3/en/summary
– Dublin Core Metadata Initiative
• http://dublincore.org/
– MPEG-7 / MPEG-21 DIDL
• http://www.chiariglione.org/mpeg/
– etc...
22
23
24
25
26
27
Dos Metadados aos Serviços...
28
O que se pode fazer então com os metadados?
• Em cenários bem definidos, podem ser simplesmente “despejados” para uma
base de dados, criando serviços de Precision=Recall=1
29
A propósito, um registo UNIMARC (codificado em MarcXchange)
30
O que se pode fazer então com os metadados?
• Em cenários menos bem definidos (mais “Information Retrieval”), podem-se
usar os registos de metadados como fontes para serviços na mesma:
31
Partilha de Metadados
•
Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços
baseados em metadados criados manualmente, em que pessoas indexavam cada site
manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com
o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol,
Desporto – Atletismo, Culinária, ...).
•
A partir de certa altura tornou-se complexo demais (senão mesmo impossível)
continuar com esses processos, o que abriu as portas a novas alternativas automáticas,
como o Altavista e o... Google!!!
•
No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à
“web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um
passo para resolver esse problema...)
•
Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar
metadados descritivos e partilhá-los com quem estiver interessado em os recolher e
agregá-los com outros para disponibilizar assim serviços de Recuperação de
Informação...
•
Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como
elementos de metadados) e o OAI-PMH (como protocolo para partilha desses
metadados)
32
OAI - Open Archives Initiative
33
OAI-PMH
Protocol for Metadata Harvesting
(http://www.oaforum.org/tutorial/image/structure-model.gif)
Web-Services
segundo o modelo
REST...
34
No entanto também é possível conceber serviços baseados em
arquitecturas distribuídas, em que se pode pesquisar em tempo real
em servidores remotos, usando por exemplo o protocolo Z39.50...
35
http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg
36
Servidores Z39.50 em bibliotecas Portuguesas:
37
O Z39.50 é um protocolo bastante complexo...
SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)
38
TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50
39
Próximas aulas...
GML
DocBook
RSS
METS
ATOM
MPEG...
Metadata Registries
Document Schemas
XML
Dublin Core...
ONIX
...
UNIMARC
RDF
MARC21
SMIL
...
...
40
Perguntas?
41
Download

Informação Estruturada