Minerando Dados Multimídia Ernesto Trajano de Lima Klebson dos Santos Silva Situações do dia-a-dia Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece??? Como recuperar imagens, vídeos, textos e/ou áudios sobre acidentes com ônibus espaciais para mostrar no jornal da noite??? Todos já passaram por situações onde lembram da melodia de uma música, mas não conseguem lembrar o nome. Como recuperá-la apenas cantarolando parte da melodia??? Roteiro Definição Motivação Estado da Arte Minerando Imagem e Vídeo Minerando Sons Definição Sub-área da mineração de dados que trata da extração de conhecimento implícito, relações entre dados multimídia, ou outros padrões não explicitamente armazenados no banco de dados multimídia. Multimídia = imagens, vídeos, sons, textos,web, etc. Motivação Grande quantidade de dados multimídia disponível; – Especialmente na web Popularidade de banco de dados objeto-relacional A necessidade crescente de banco de dados multimídia Estado da Arte É uma área incipiente; – Muita pesquisa, poucos resultados substanciais Desperta o interesse de grande empresas – HP • http://crl.research.compaq.com/vision/multimedia/default. htm – IBM • http://www.almaden.ibm.com/ – ScanSoft (http://www.scansoft.com) • Software utilizado pelo sistema penitenciário dos EUA para detectar atividades ilegais nas conversas telefônicas dos prisioneiros Minerando Imagem e Vídeo Abordagens Busca por similaridade: – Divide-se em duas famílias principais • Baseada na descrição – Palavras-chaves, legendas, tamanho, hora de criação, etc. • Baseada no conteúdo – Histograma de cores, texturas, forma, objetos, transformações de wavelets Abordagens Busca baseada em conteúdo oferece dois tipos de consultas: – Baseadas em amostra – Baseadas em especificação das características As consultas são feitas através das assinaturas das imagens – – – – Histograma de cores Composição de características Wavelet Wavelets com granularidade baseada em região Áreas de aplicação Diagnóstico médico Previsão do tempo Engenho de busca para imagens Abordagens Análise de dados multimídia – Exemplo: construção de cubos OLAP para analisar imagens, vídeos e sons em função de suas características (dimensões) Classificação e Predição Ferramentas e aplicações Query By Image Content (IBM) Ferramenta de busca feita pela IBM Disponível nos componentes DB2 Image Extenders Permite consultas em banco de imagens baseadas no conteúdo visual – Porcentagens de cores, layout de cores, texturas A consulta pode conter textos (palavraschaves) para melhorar performance Usada em alguns sites da Internet MultiMediaMiner Sistema protótipo de mineração multimídia – Permite construção de cubos de dados multimídia Resultado da união da experiência adquirida com dois sistemas: – DBMiner sistema analítico de mineração de dados (http://db.cs.sfu.ca/DBMiner) – C-BIRD sistema para recuperação de imagens baseada em conteúdo (http://jupiter.cs.sfu.ca/cbird) MultiMediaMiner Image and Video repository M-Miner User Interface Image Excavator C-BIRD Search Engine C-BIRD Pre-Processor M-MMiner Discovery Modules C-BIRD Databases Multimedia Data Cube MultiMediaMiner Observações: – Vídeos são segmentados na detecção de mudança de cena • Cada segmento é represento por um ou mais frames, que serão tratados como imagens – A imagem original não é salva no banco de dados MultiMediaMiner Para cada imagem coletada são armazenados: – Informações descritivas • Nome do arquivo, URL, tipo (gif, jpeg, mpeg), páginas que referenciam a imagem, palavras-chaves, thumbnail – Descritor de características • Conjunto de vetores para cada característica visual (histograma de cores, cor mais freqüente) – Descritor de layout • Vetor sobre layout de cores MultiMediaMiner Módulo de mineração inclui os seguinte sub-módulos: – MM-Characterizer fornece um conjunto de características em diferentes níveis de abstrações • Provê diversos níveis de visões dos dados através de roll-up e drill-down MultiMediaMiner MultiMediaMiner MM-Associator Encontra regras de associação a partir de um conjunto de imagens – Usa o algoritmo apriori – X Y [suporte%, confiança%] – Exemplo: “Se uma imagem é grande e relacionada com o céu, ela é azul com probabilidade de 68%” MultiMediaMiner MultiMediaMiner MM-Classifier – classifica dados multimídia baseados em algumas classes pré-definidas – Essa classificação representada como uma árvore de decisão pode ser usada para predição MultiMediaMiner Palavras-chaves também são utilizadas para classificar facilitar a manipulação de grande conjunto de dados São derivadas de informações tais como: • • • • Nome do arquivo Campo ALT da tag IMG Título e cabeçalho da página html Textos antes e depois da imagem MultiMediaMiner MultiMediaMiner Minerando Sons Mineração de Sons Cenário 1: auditoria Cenário 2: Napster Duas possibilidades: – Mineração da fala (speech mining): televisão/rádio, monitoramento de conversas ao telefone, etc. – Mineração de músicas (musical mining): recuperação de músicas baseando-se na busca por conteúdo A Indústria da Música 3.459.000 de unidades (singles, LPs, fitas, CDs) US$ 38.506.000 de faturamento Crescimento de 2,6% ao ano desde 1991 600.000 empregos diretos (apenas na Europa, sem contar academia). Fonte: IFPI. Recording Industry in Numbers. IFPI: Londres, 2000. Mineração e Música Duas representações: – Simbólica: texto, MIDI, etc – Áudio: sinal contínuo Dificuldade Melodia não é apenas uma concatenação de notas – Relações entre diferentes níveis de abstração: alturas, intervalos, contorno melódico – Relações com outras dimensões: tempo, posição métrica subjetividade: música alegre, triste, etc Arquitetura Geral Mineração e Análise Musicologia comparativa: análise, classificação e visualização a partir da observação estatística de uma grande massa de dados. – Exemplo: http://www.jyu.fi/musica/essen Entrada do Sistema Representação simbólica da música (melodia) Dados: 6.252 canções folclóricas alemãs e 2.226 canções folclóricas chinesas Vantagens: – Evita a fase de limpeza e preparação dos dados – Possui meta-dados (palavras-chave): gênero, região geográfica, tipo de ritmo, tonalidade e uma descrição em linguagem natural do conteúdo. Extração de características Análise estatística – Distribuição das alturas, intervalos e durações. – Distribuição das transições de alturas, intervalos e durações. Resultado: conjunto de vetores (várias dimensões) Construção dos SOMs Diminuir dimensionalidade Cada vetor é a entrada de uma rede neural Construção do Super SOM Ferramentas Ferramenta 1: Visualização dos Resultados – Canções com características similares estão próximas Ferramenta 1 Ferramentas (cont.) Ferramenta 2: Visualização dos resultados estatísticos Ferramenta 3: Agrupamento – Permite a análise de características estilísticas Trabalhos Futuros Levar em conta outros parâmetros: – contorno melódico, saliência do evento de acordo com a posição métrica, etc. Usar arquivos áudio Biblioteca Digital da Nova Zelândia http://www.nzdl.org/cgibin/music/musiclibrary MELody inDEX (MELDEX): recuperar melodias de um banco de dados Entradas: notação simbólica ou áudio (cantado em um microfone). Visão Geral Áudio => preprocessamento: – Amostra do sinal – Transcrição: aplicação de filtros para estimar a freqüência fundamental – Inícios e fins: canta-se com “da” ou “ta” Busca de strings – Programação dinâmica para fazer aproximação de strings Conclusões Vem despertando interesses diversos Área com publicações recentes e ferramentas incipientes Poucas referências unificadoras – http://link.springer.de/link/service/series/05 58/tocs/t2558.htm Tem real aplicação no mundo