Recuperação de Informação
Multimídia
Paulo Roberto
[email protected]
Roteiro





Motivação
Recuperação de informação textual
Recuperação de informação multimídia
Conclusões
Referências
Motivação
Crescimento das coleções de textos digitais
(bibliotecas digitais, Internet, Intranets, ...)
+
Tempo de busca longo / baixa precisão
Novas técnicas de recuperação de informações (IR)
Etapas da Recuperação de
Informações (IR)
Coleta da
Informação
disponível
Seleção da
Informação
desejada
Apresentação
ao Usuário
Paradigmas de IR
Processos
Perfil do Usuário
Fonte da
Informação
Filtragem da
Informação
Sim
Estável
Busca da
Informação
Não
Dinâmica
Data Mining
Não
Estável
Acesso à BD
Não
Estável
Busca de Informação na Web:
Aprox. 577.032 docs!!!


Como localizar a informação relevante?
Como modelar o interesse de um usuário
particular?
Medidas de Eficácia para Busca e
Filtragem
Recall: total de documentos relevantes retornados
dividido pelo número total dos relevantes.
Precisão: documentos relevantes retornados
dividido pelo número total de retornados
Todos os Documentos
Documentos Relevantes
Documentos Retornados
Relevantes Retornados
Por que Agentes + IR?



IR se encaixa no modelo de agentes;
Necessidade de acesso a múltiplas fontes
de informação;
Necessidade de distribuição
Agentes de Busca
Usuário
Browser
Search Engine
Consulta
Resposta
Servidor de
Consultas
Base de
Índices
)--(
Web
Robô
Indexing Engine
Busca
Exemplos: Radix, AltaVista, Lycos, Excite, ...
Agentes que Filtram Informação
Servidor
de News
Browser
Base de
Índices
Perfil do
usuário
Indexing Engine
Internet
Agente de Filtragem
ex.: Metacrawler, NewsHound, etc.
Montando a Base de Índices


Dado um documento, identificar os conceitos que
descrevem o seu conteúdo e quão bem eles o
descrevem.
Pesos das Palavras como indicação de relevância:
– Frequência relativa da palavra no texto (TFIDF)
– Frequência da palavra em relação a outros documentos do
conjunto que está sendo indexado.
– Colocação da palavra na estrutura do documento (título, início,
negrito,...)

Palavras com maiores pesos são selecionadas,
formando um vetor de representação.
Exemplo de Representação
Brincadeira
O rato roeu a roupa
do rei de Roma.
brincadeira, t, m, n, i
rato, 1
roeu, 1
roupa, 1
rei, 2
roma, 2, m
brincadeira, 90
rato, 70
roeu, 70
roupa, 70
roma, 65
rei, 60
brincadeira, 90
rato, 70
roeu, 70
roupa, 70
rei, 60
roma, 65
Representação
Vetorial do
Documento
Estrutura de Arquivos p/ IR
(Montando a Base de Índices)

Arquivos de índices invertidos
WORD: Bem-vindo
http://www.ufpe.br
ID: 543
URL: http://www.ufpe.br
Bem-vindo!
UFPE
URLs: 455227,...
ID: 455227
Words: 543, 987
WORD: UFPE
ID: 987
Arquivo Direto
URLs: 455227,...
Arquivo Invertido
Indexação

Selecionar palavras da página HTML
– Converter uma cadeia de caracteres em uma
cadeia de palavras/tokens. (/, -, 0-9,...)

Stop-list
– Palavras sem conteúdo semântico são retiradas
da indexação

Montar o centróide da página
– Palavras-chave que mais aparecem na página
Indexação

Indexação Distribuída, Base compartilhada
– Divisão por: Localização Geográfica, Rede,
Conteúdo,..

Stemming
– Armazenar apenas o radical da palavra,
permitindo variações morfológicas dos termos
durante o casamento
Term
engineering
engineered
engineer
Stem
engineer
engineer
engineer
Estratégias de Busca




Ontologias
Futebol
para aumentar precisão
e recall.
Campeonato Brasileiro
CBF
Palmeiras
Stemming
String searching
– String matching exato e aproximado (N-Grams)
Expansão do vocabulário
– a informação buscada pode ser expressada por diferentes
palavras
– utiliza um dicionário de sinônimos
Extração de Informação


Extrai dados relevantes (para um determinado
objetivo) a partir de documentos digitais.
Etapas:
– reconhecimento do trecho de informação;
– extração da informação.

Exemplo (projeto de mestrado de Carla):
BD (CNCT):
Autor: ....
Ano: ....
Título: ....
Local: ....
Agentes para IR

Transformar o grande número de fontes de
informação em rede de agentes de
informação.

Organização:
– Estruturação dos agentes.

Conhecimento:
– Ontologia ou modelo do seu domínio específico.
– Modelo das fontes de informação.

Comunicação:
– Protocolo de comunicação comum entre os agentes.

Aprendizado:
– Melhorar a exatidão e performance com o tempo.
– Lidar com as mudanças do ambiente
Rede de Agentes
Logist.
Agent
Weather
Agent
Geograf.
Agent
Transp.
Agent
Land
Agent
Sea
Agent
Naval
Agent
Map
Agent
Air
Agent
Harbor
Agent
European
Repository
GeoPol.
Agent
Pacific
Repository
Port
Agent
Atrantic
Repository
Airport
Repository
IR-Multimídia

Motivação:
– Existência de grandes volumes de textos, gráficos,
narrações, sons e vídeos “acessíveis” em bases de
dados distribuídas

Aplicações:
– Diagnósticos médicos (Medical Image Databases)
– Reconhecimento de padrões (faces, impressões
digitais, assinaturas, riffs e melodias musicais, etc.)
– Pesquisa multimídia
Convergência Digital
Recuperação de Informações
Multimídia



Recuperação baseada em conteúdo
Mas como indexar áudio/vídeo?
Problemas...
– Descrevendo imagens/sons através de palavras
(cada pessoa conta o filme de uma maneira
diferente...)
– Extraindo informações de uma amostra de áudio...
Estado da Arte

Computação Musical, processamento de
som, localização frequência-tempo
– Narrações: busca direcionada por voz.
Dificuldade de tornar-se independente do
usuário
– Música: busca baseada em valores (timbre,
altura, duração, etc.)
Estado da Arte

visão computacional, reconhecimento de
padrões e processamento de imagem
– Fotos: busca baseada em características.
Limitações na tecnologia restringem a busca
a domínios específicos
– Vídeo: sofre dos mesmos problemas das
fotos. Compara quadros adjacentes com
mudanças estruturais quadro-a-quadro.
Parâmetros de movimento de câmera (zoom,
fading, etc.)
Recuperando Áudio

Categorias de recuperação:
– por um trecho específico
– por atributos acústicos mensuráveis
– por propriedades subjetivas do som

Indexando formas de onda vs.
Indexando arquivos MIDI
Recuperação de Informação
Musical Baseada em Conteúdo


Uso da tecnologia MIDI facilita o
tratamento...
MIDI: nota, instrumento, altura, etc
Recuperando Vídeo
Parsing
Extração do conteúdo
e indexação
Recuperação
e browsing
Categorias de Recuperação
de Vídeo

High-level
– Utiliza um conjunto de termos de indexação
predefinidos para anotação de vídeo.
– Os termos são organizados em categorias
ontológicas de alto nível como ação, tempo, espaço,
etc.
– Desenvolveu-se a partir da perspectiva de
indexação manual
– É indicada para lidar com pequenas quantidades de
vídeos novos e para acessar bases de dados
anotadas previamente
Categorias de Recuperação
de Vídeo

Low-level
– Provê acesso a vídeo baseado em propriedades
como cor, textura, formas, etc.
– Consiste em extrair características dos dados de
vídeo, organizar essas características baseado em
alguma distância métrica e usar casamento por
similaridade para recuperar o vídeo
– Indexação automática
– Principal limitação: ausência de semântica
associada às características
Categorias de Recuperação
de Vídeo

Domínio específico
– Combina as duas anteriores: high-level para
restringir a extração e o processamento low-level
– É efetiva no domínio da aplicação
– Ex.: parsing e recuperação de vídeos de notícias
– Limitação: estreito domínio de aplicabilidade
Técnicas de Indexação de Vídeo

Transformada de Fourier
– Processamento de padrões presentes em
imagens

Descritores de Fourier
– identificação dos contornos de figuras
geométricas primitivas em imagens
– ex: Applet
Técnicas de Indexação (A/V)

Wavelets
– ondas pequenas com determinadas propriedades
que as tornam adequadas a servirem de base para
decomposição de outras funções, assim como senos
e cossenos servem de base para decomposições de
Fourier.
– Ferramenta matemática para analisar, processar e
sintetizar imagens e sinais onde o método de Fourier
não obtém performance aceitável
– Aplicações: waveform matching, segmentação de
sinais e time-frequency localization
– São adaptáveis para a aplicação em questão
Query Based in Content (QBIC)



Ferramenta de busca, IBM
Realiza consultas em grandes bases de dados
de imagens baseadas no conteúdo visual dos
dados
Consultas podem ser feitas através de
exemplos
– “Mostre-me imagens parecidas com esta”

Ou por descrições das propriedades
– “Dê-me imagens que contenham muito vermelho”
Trademark Server

Permite navegação e busca de padrões de
marcas registradas.

O sistema combina o IBM's DB2 Universal
Database para consultar os campos numéricos
e textuais e o QBIC(tm) para a consulta das
figuras

Versão demo...
Considerações Finais

Repositórios multimídia precisam mais do que
armazenagem e acesso em rede
– indexação

Extração automática completa ainda é
impossível
– interface

Mantra para desenvolvimento: “Overview first,
zoom and filter, then details on demand”
Shneiderman
Referências - Papers





Bibliography os Papers on Multimedia Retrieval.
Seminários sobre Recuperação de Informação. Paulo
Oliva e Mariana Neves
Representação e Recuperação Baseada em Conteúdo
de Partituras Musicais em Bases de Dados Orientadas a
Objetos. Figueiredo, M.B. Traina, C. Traina, ª
Busca e Recuperação de Informação Musical. Miccolis,
A. V Simpósio Brasileiro de Computação e Música, UFRJ
Image and Sound Digital Libraries Need More Than
Storage and Networked Access. Aigrain, P. ISDL’95
Referências - Links





QBIC Homepage. http://wwwqbic.almaden.ibm.com/
Trademark Server.
http://wwwqbic.almaden.ibm.com/tmdemo/
Wavelets at LSI. http://www.lsi.usp.br/~regis/wlets.html
Computer-Assisted Perception: A Framework for
Multimedia Interaction with Existing Media
http://www.irit.fr/ACTIVITES/EQ_AMI/AIGRAIN/manifest
.html
Fourier Descriptors.
http://www.cim.mcgill.ca/~adq/fourdescrip/FD.html
Download

Recuperação de Informação Multimídia