Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE Roteiro • Bancos de dados não convencionais • consultar BD multimídia (baseado em metadados ou contéudo) • BD O-R e OO • generalização por indução orientada a atributos e OLAP • BD de planos • BD espaciais • generalização por indução orientada a atributos e OLAP • regras de associação • clustering • classificação • series espaço-temporais • BD multimídia • Generalização por indução orientada a atributos e OLAP • regras de associação • Classificação e predição Roteiro • • • • • Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia Bancos de dados não convencionais • • • • • • • • • • • BD dedutivo BD probabilista BD indutivo BD temporal BD de restrições BD semi-estruturado Páginas web BD espacial BD objeto-relacional BD orientado a objetos BD multimídia Bds Multimidia • Armazena grande coleção de objetos multimidia • • • • Audio Imagem Video hipertexto Revisão de alguns conceitos de representação de imagens Representações matriciais e vetoriais de imagens Orientação, textura (layout, density) Wavelet Consultar Bds Multimidia • • Recuperação baseada em descrição – Palavras chaves, titulos, tamanho, tempo de criação – Manualmente: trabalhoso – Automatizado: resultado de pouca qualidade Recuperação baseada em conteudo Histograma de cor • Não leva em conta fatores espaciais – Multiplas Caracteristicas – Wavelet – Captura forma, textura – Problemas – – Wavelet baseada em regiões Multi-Dimensional Search in Multimedia Databases Color layout Multi-Dimensional Analysis in Multimedia Databases Histograma de Cor Layout de textura Mining Multimedia Databases Refining or combining searches Search for “airplane in blue sky” (top layout grid is blue and keyword = “airplane”) Search for “blue sky” (top layout grid is blue) Search for “blue sky and green meadows” (top layout grid is blue and bottom is green) Roteiro • • • • • Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia Minerando Tipos de Dados Complexos: Generalização de Dados Estruturados • Set-valued • Generalização de cada valor do conjunto em seu correspondente um nível acima de abstração • Derivação do comportamento geral do conjunto, tal como o número de elementos, os tipos ou intervalo de valores, ou a média para dados numéricos • hobby = {tênis, hóquei, xadrez, violino, atari} pode ser genérico para {esportes, música, vídeo_games} • List-valued ou sequence-valued • Igual a set-valued exceto que a ordem dos elementos deve ser mantida na generalização Generalizando Dados Espaciais e Multimídia • Dados espaciais: • Generaliza pontos geográficos detalhados agrupados em regiões, tal como business, residencial, industrial, ou agricultural, de acordo com o uso • Requer a união de um conjunto de áreas geográficas através de operações espaciais • Dados de imagem: • Extraídos por agregação e/ou aproximação • Tamanho, cor, forma, textura, orientação, e posições relativas dos objetos contidos ou regiões na imagem • Dados musicais: • Resumir esta melodia: baseado nos padrões aproximados que ocorrem repetidamente • Resumir este estilo: baseado no tom, tempo, ou nos principais instrumentos tocados Generalizando Dados do Objeto • Identificador do objeto: generaliza para um nível menor na hierarquia de classes • Hierarquia da composição das classes • generaliza estruturas de dados aninhadas • generaliza apenas objetos mais semelhantes semanticamente ao atual • Construção e mineração de cubos de objetos • Estende o método de indução orientado a atributo • Aplica uma seqüência de operadores de generalizações baseadas em classes sobre os atributos • Continua até conseguir um pequeno número de objetos genéricos que podem ser resumidos e concisos em termos de alto nível • Por uma implementação eficiente • Examina cada atributo, generaliza para um dado simple-valued • Constrói um cubo de dados multi-dimensional • Problema: nem sempre é desejável generalizar um conjunto de valores em um dado single-valued Roteiro • • • • • Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia Um Exemplo: Planejamento de mineração • Planejamento: uma seqüência variável de ações • Viagem (vôo): <viajante, partida, chegada, hora-p, hora-c, companhia, preço, assento> • Planejamento de mineração: extração de padrões genéricos mais significativos de uma base de planejamentos • Descobrir padrões de viagens em uma base de vôos, ou • achar padrões significativos em uma seqüência de ações no reparo de automóveis • Método • Indução orientada a atributo sobre uma seqüência de dados • Um plano de viagem genérico: <pequeno-grande*-pequeno> (tamanho do aeroporto) • Divide & conquer: Minera características para cada subseqüência • grande*: mesma companhia aérea, pequeno-grande: região próxima Uma Base de Viagens para um Planejamento de Mineração • Exemplo: Minerando uma base de planejamento de viagens Tabela de planos de viagens plan# 1 1 1 1 2 . . . action# 1 2 3 4 1 . . . departure ALB JFK ORD LAX SPI . . . depart_time 800 1000 1300 1710 900 . . . arrival JFK ORD LAX SAN ORD . . . arrival_time 900 1230 1600 1800 950 . . . airline TWA UA UA DAL AA . . . Tabela de informações de aeroportos airport_code 1 1 1 1 2 . . . city 1 2 3 4 1 . . . state ALB JFK ORD LAX SPI . . . region airport_size 800 1000 1300 1710 900 . . . … … … … … … . . . … … … … … … . . . Análise Multi-dimensional • Estratégia • Generaliza a base de planejamento em diferentes direções • Procura por padrões seqüenciais nos planejamentos genéricos • Deriva planejamentos de alto nível Modelo multi-dimensional para uma base de planejamento tamanho_aeroporto categoria #_passageiros subir hierarquicamente cidade companhia parceiros linha_aérea estado região localização Generalização Multi-dimensional Generalização multi-dimensional de uma base de planejamento Plan# 1 2 Loc_Seq ALB - JFK - ORD - LAX - SAN SPI - ORD - JFK - SYR . . . . . . Size_Seq S-L-L-L-S S-L-L-S State_Seq N-N-I-C-C I-I-N-N . . . Unindo ações idênticas e consecutivas nos planos Plan# 1 2 . . . Size_Seq S - L+ - S S - L+ - S State_Seq N+ - I - C+ I+ - N+ . . . Region_Seq E+ - M - P+ M+ - E+ … … … . . . Vôo(x,y) ^ tamanho_aeroporto(x,S) ^ tamanho_aeroporto(y, L) > região(x) = região(y) [75%] Mineração em Seqüência Baseada em Generalização • • • • Generaliza uma base de planejamento de forma multi-dimensional usando tabelas dimensionais Usa # para valores distintos (cardinalidade) a cada nível para determinar o nível correto da generalização (planejamento de níveis) Usa operadores * para unir (merge) e [] (opcional) para facilitar a generalização de padrões Retém padrões com apoio significativo Padrões de Seqüência Genéricos • Numa seqüência de tamanho_aeroporto, ficará uma que engloba todas as outras (aplicando o operador de união) S - L* - S [35%], L* - S [30%], S - L* [24.5%], L* [9%] • Depois de aplicar o operador opcional: [S] - L* - [S] [98.5%] • Na maioria das vezes, as pessoas viajam de grandes aeroportos para chegar ao destino • Outro planos: 1.5% de chances, existem outros padrões: S - S, L- S - L Roteiro • • • • • Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia Banco de dados espacial • Dados relacionados ao espaço • • • • Mapas Sensoriamento remoto Chips VLSI Imagens médicas • Informações topologicas e de distancia • Mineração: • relações espaciais • Padrões Dimensões e medidas em Data Warehouses espaciais • Dimensões – Não-espacial • E.x. temperatura: 25-30 – Espacial para não espacial • E.x. acre(objeto espacial) generalizado para string “região norte” – Espacial para espacial • e.x. acre (objeto espacial) para região norte (objeto espacial) • Medidas – numericas • distributivo (e.x. count, sum) • algebricas (e.x. média) • holistica (e.x. mediana) – espaciais • Coleção de ponteiros para objetos espaciais em uma mapa (e.x. regiões com temperatura de 25-30 graus em julho) Esquema estrela of the BC Weather Warehouse •3000 •Cada medidores do clima na Columbia Britanica(BC) medidor mede Temperatura e Precipitação – Dimensões • Nome da região • tempo • temperatura • precipitação – Medidas • Região do mapa • area • contador Tabela de dimensão Tabela de fatos Roll-up Por Temperatura Por Precipitação Metodos para computação de cubos espaciais • • • • Não armazenar medidas Pré-computar todas as possiveis medidas Pré-computar estimativas Pré-computar apenas as mais acessadas Regras de associação • Regra de associação: A B [s%, c%] – – – – A e B são conjuntos de predicados • Relações topologicas • Orientação espacial • Informação de distancia s% suporte e c% confidencia e_um(x,cidade) e intercepta(x,estrada) -> adjacente(x,agua) [7%, 85%] e_um(X,”escola”) e perto_de(X,”centro esportivo” ) -> perto_de(X,”parque”) [0.5%,80%] Regras de associação • Refinamento Progressivo – Deve preservar todas as respostas possiveis • Minerar relação perto_de – Aplicar algoritmo impreciso – Intersecção entre retangulos Classificação e Analise de tendencias • Classificação • Exemplo: regiões ricas x regiões pobres • Determinar regiões • Tendencias • Espaciais • Temporais Roteiro • • • • • Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia Análise Multidimensional e OLAP • MultiMediaMiner • Descritor de caracteristicas • Conjunto de vetores para caracteristicas visuais • Histograma de cores quantizado • Cor mais frequente • Descritor de layout • Imagens transformadas em grade 8X8 • Armazena informações para celulas da grade Minerando banco de dados multimidia Minerando banco de dados multimidia The Data Cube and the Sub-Space Measurements By Size By Format By Format & Size RED WHITE BLUE Cross Tab JPEG GIF By Colour RED WHITE BLUE Group By Colour RED WHITE BLUE Measurement Sum By Colour & Size Sum By Format Sum By Format & Colour By Colour • Format of image • Duration • Colors • Textures • Keywords • Size • Width • Height • Internet domain of image • Internet domain of parent pages • Image popularity Regras de associação • Entre imagem – não imagem • 50% de azul no topo da figura -> representa céu • Entre imagens sem relação espacial • figura contem dois quadrados azuis -> circulo vermelho • Entre imagens relacionadas espacialmente • Triangulo vermelho entre dois quadrados amarelos -> grande circulo abaixo • Uso de resolução progressiva • Garantir completude • Recorrencia • Relações espaciais Minerando banco e dados multimidia Relações espaciais property P1 on-top-of property P2 property P1 next-to property P2 Different Resolution Hierarchy Predição e Classificação •Pré-computação para descobrir atributos •Exemplo de interface: