Minerando Dados
Multimídia
Ernesto Trajano de Lima
Klebson dos Santos Silva
Situações do dia-a-dia

Imagine que seu álbum de família está
armazenado digitalmente. Como achar todas
as fotos onde você aparece???
 Como recuperar imagens, vídeos, textos e/ou
áudios sobre acidentes com ônibus espaciais
para mostrar no jornal da noite???
 Todos já passaram por situações onde
lembram da melodia de uma música, mas
não conseguem lembrar o nome. Como
recuperá-la apenas cantarolando parte da
melodia???
Roteiro
Definição
 Motivação
 Estado da Arte
 Minerando Imagem e Vídeo
 Minerando Sons

Definição
Sub-área da mineração de dados que
trata da extração de conhecimento
implícito, relações entre dados
multimídia, ou outros padrões não
explicitamente armazenados no banco
de dados multimídia.
 Multimídia = imagens, vídeos, sons,
textos,web, etc.

Motivação

Grande quantidade de dados multimídia
disponível;
– Especialmente na web
Popularidade de banco de dados
objeto-relacional
 A necessidade crescente de banco de
dados multimídia

Estado da Arte

É uma área incipiente;
– Muita pesquisa, poucos resultados substanciais

Desperta o interesse de grande empresas
– HP
• http://crl.research.compaq.com/vision/multimedia/default.
htm
– IBM
• http://www.almaden.ibm.com/
– ScanSoft (http://www.scansoft.com)
• Software utilizado pelo sistema penitenciário dos EUA
para detectar atividades ilegais nas conversas
telefônicas dos prisioneiros
Minerando Imagem e
Vídeo
Abordagens

Busca por similaridade:
– Divide-se em duas famílias principais
• Baseada na descrição
– Palavras-chaves, legendas, tamanho, hora de
criação, etc.
• Baseada no conteúdo
– Histograma de cores, texturas, forma, objetos,
transformações de wavelets
Abordagens

Busca baseada em conteúdo oferece dois
tipos de consultas:
– Baseadas em amostra
– Baseadas em especificação das características

As consultas são feitas através das
assinaturas das imagens
–
–
–
–
Histograma de cores
Composição de características
Wavelet
Wavelets com granularidade baseada em região
Áreas de aplicação
Diagnóstico médico
 Previsão do tempo
 Engenho de busca para imagens

Abordagens

Análise de dados multimídia
– Exemplo: construção de cubos OLAP para
analisar imagens, vídeos e sons em
função de suas características
(dimensões)

Classificação e Predição
Ferramentas e
aplicações
Query By Image Content (IBM)

Ferramenta de busca feita pela IBM
 Disponível nos componentes DB2 Image
Extenders
 Permite consultas em banco de imagens
baseadas no conteúdo visual
– Porcentagens de cores, layout de cores, texturas

A consulta pode conter textos (palavraschaves) para melhorar performance
 Usada em alguns sites da Internet
MultiMediaMiner

Sistema protótipo de mineração multimídia
– Permite construção de cubos de dados multimídia

Resultado da união da experiência adquirida
com dois sistemas:
– DBMiner  sistema analítico de mineração de
dados (http://db.cs.sfu.ca/DBMiner)
– C-BIRD  sistema para recuperação de imagens
baseada em conteúdo
(http://jupiter.cs.sfu.ca/cbird)
MultiMediaMiner
Image and Video
repository
M-Miner
User Interface
Image
Excavator
C-BIRD
Search Engine
C-BIRD
Pre-Processor
M-MMiner
Discovery
Modules
C-BIRD Databases
Multimedia
Data Cube
MultiMediaMiner

Observações:
– Vídeos são segmentados na detecção de
mudança de cena
• Cada segmento é represento por um ou mais
frames, que serão tratados como imagens
– A imagem original não é salva no banco de
dados
MultiMediaMiner

Para cada imagem coletada são
armazenados:
– Informações descritivas
• Nome do arquivo, URL, tipo (gif, jpeg, mpeg), páginas
que referenciam a imagem, palavras-chaves, thumbnail
– Descritor de características
• Conjunto de vetores para cada característica visual
(histograma de cores, cor mais freqüente)
– Descritor de layout
• Vetor sobre layout de cores
MultiMediaMiner

Módulo de mineração inclui os seguinte
sub-módulos:
– MM-Characterizer  fornece um conjunto
de características em diferentes níveis de
abstrações
• Provê diversos níveis de visões dos dados
através de roll-up e drill-down
MultiMediaMiner
MultiMediaMiner

MM-Associator  Encontra regras de
associação a partir de um conjunto de
imagens
– Usa o algoritmo apriori
– X  Y [suporte%, confiança%]
– Exemplo: “Se uma imagem é grande e
relacionada com o céu, ela é azul com
probabilidade de 68%”
MultiMediaMiner
MultiMediaMiner

MM-Classifier
– classifica dados
multimídia baseados
em algumas classes
pré-definidas
– Essa classificação
representada como
uma árvore de
decisão pode ser
usada para predição
MultiMediaMiner
Palavras-chaves também são utilizadas
para classificar facilitar a manipulação
de grande conjunto de dados
 São derivadas de informações tais
como:

•
•
•
•
Nome do arquivo
Campo ALT da tag IMG
Título e cabeçalho da página html
Textos antes e depois da imagem
MultiMediaMiner
MultiMediaMiner
Minerando Sons
Mineração de Sons

Cenário 1: auditoria
 Cenário 2: Napster

Duas possibilidades:
– Mineração da fala (speech mining):
televisão/rádio, monitoramento de conversas ao
telefone, etc.
– Mineração de músicas (musical mining):
recuperação de músicas baseando-se na busca
por conteúdo
A Indústria da Música

3.459.000 de unidades (singles, LPs, fitas,
CDs)
 US$ 38.506.000 de faturamento
 Crescimento de 2,6% ao ano desde 1991
 600.000 empregos diretos (apenas na
Europa, sem contar academia).
Fonte: IFPI. Recording Industry in Numbers. IFPI: Londres,
2000.
Mineração e Música

Duas representações:
– Simbólica: texto, MIDI, etc
– Áudio: sinal contínuo

Dificuldade

Melodia não é apenas uma
concatenação de notas
– Relações entre diferentes níveis de
abstração: alturas, intervalos, contorno
melódico
– Relações com outras dimensões: tempo,
posição métrica

subjetividade: música alegre, triste, etc
Arquitetura Geral
Mineração e Análise

Musicologia comparativa: análise,
classificação e visualização a partir da
observação estatística de uma grande
massa de dados.
– Exemplo: http://www.jyu.fi/musica/essen
Entrada do Sistema



Representação simbólica da música (melodia)
Dados: 6.252 canções folclóricas alemãs e
2.226 canções folclóricas chinesas
Vantagens:
– Evita a fase de limpeza e preparação dos dados
– Possui meta-dados (palavras-chave): gênero, região
geográfica, tipo de ritmo, tonalidade e uma descrição
em linguagem natural do conteúdo.
Extração de características

Análise estatística
– Distribuição das alturas,
intervalos e durações.
– Distribuição das
transições de alturas,
intervalos e durações.

Resultado: conjunto de
vetores (várias
dimensões)
Construção dos SOMs

Diminuir
dimensionalidade
 Cada vetor é a
entrada de uma
rede neural
Construção do Super SOM
Ferramentas

Ferramenta 1: Visualização dos
Resultados
– Canções com características similares
estão próximas
Ferramenta 1
Ferramentas (cont.)

Ferramenta 2: Visualização dos
resultados estatísticos

Ferramenta 3: Agrupamento
– Permite a análise de características
estilísticas
Trabalhos Futuros

Levar em conta outros parâmetros:
– contorno melódico, saliência do evento de
acordo com a posição métrica, etc.

Usar arquivos áudio
Biblioteca Digital da Nova
Zelândia

http://www.nzdl.org/cgibin/music/musiclibrary

MELody inDEX (MELDEX): recuperar
melodias de um banco de dados

Entradas: notação simbólica ou áudio
(cantado em um microfone).
Visão Geral

Áudio => preprocessamento:
– Amostra do sinal
– Transcrição: aplicação de filtros para
estimar a freqüência fundamental
– Inícios e fins: canta-se com “da” ou “ta”

Busca de strings
– Programação dinâmica para fazer
aproximação de strings
Conclusões
Vem despertando interesses diversos
 Área com publicações recentes e
ferramentas incipientes
 Poucas referências unificadoras

– http://link.springer.de/link/service/series/05
58/tocs/t2558.htm

Tem real aplicação no mundo
Download

Mining Multimedia Data Bases