MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS BDs NÃO CONVENCIONAIS • BDs de estrutura complexa • BDs de Planos • BDs Espaciais • BDs Multimedia • Arquivos flat • Web BDs DE ESTRUTURA COMPLEXA • Aspecto relevante : GENERALIZAÇÃO – Generalização de atributos multivalorados : • Atributos com conjunto de valores (set-valued data) • Atributos com lista de valores (list-valued data) • Atributos com estruturas aninhadas (nested structured data) Atributos com conjunto de valores (set-valued data) • Generalização de cada valor do conjunto para hierarquia de nível mais alto ex : alimento = {maçã, uva, couve-flor, cebola, arroz} generalização pode ser {frutas, verduras, cereais} ou • Derivação do comportamento geral do conjunto – Número de elementos, tipos ou intervalos de valores, média para dados numéricos ; Atributos com lista de valores (list-valued data) • Generalização semelhante à de atributos com conjunto de valores, exceto que a ordem dos elementos deve ser mantida na generalização ; • Uma lista pode ser generalizada excluindo-se os elementos menos importantes ou mantendo apenas o mais importante: ex: Atributo historico_escolar =((Tecnico em contabilidade, Esc.Tecnica, 1990),(Mestrado em Matemática, UFPE, 1994),(Doutorado em Matemática, UFPE, 1998)) ; Manter, por exemplo : (Doutorado em Matemática, UFPE, 1998) Atributos com estruturas aninhadas (nested structured data) • Um atributo complexo pode conter conjuntos, listas, registros, árvores, e a combinação destes, onde uma estrutura pode estar aninhada em outra. Generalização : 1. Generalizar cada atributo da estrutura e manter o formato da estrutura ; 2. Transformar a estrutura num flat file e generalizá-la a partir daí ; 3. Retornar o tipo da estrutura ; Generalização em BDs Espaciais • Agregação e aproximação : – Generalização de pontos geográficos em grupos de regiões tais como regiões de negócio, residencial, agricultura ou indústria de acordo com o uso da terra ; Generalização em BDs Multimidia • Reconhecimento e extração de características essenciais ou padrões gerais ; – Imagem : Tamanho, cor, formato podem ser extraídos por agregação ou aproximação ; – Música : Resumo Melodia => Padrões que ocorrem repetidamente no segmento ; Resumo Estilo => Baseado no tom, tempo ou principais instrumentos tocados ; GENERALIZAÇÃO Identificadores de Objetos e Classes 1 - O OID é generalizado para o ID da mais baixa subclasse à qual o objeto pertence ; 2 - O ID da subclasse é generalizado para o ID da classe escalando-se um nível acima na hierarquia de classes ; 3 - Similarmente, uma classe pode ser generalizada para sua super-classe correspondente escalando-se um nível acima na hierarquia de classes ; Mineração de cubos de objetos • Estende-se o Método de Indução Orientado a Atributo , visto em mineração de características em BDs relacionais ; • Aplica-se uma sequência de operadores de generalização baseado em classes ; • Controle do limite da generalização : – Até a classe resultante conter um número pequeno de objetos ; • Por eficiência : – Cada atributo multivalorado de um objeto complexo é generalizado para conter dados simples, univalorados ; – Constrói-se um Cubo de Objetos ; • Problema : – Nem sempre é desejável se generalizar dados multivalorados ! BANCOS DE DADOS DE PLANOS • PLANO : Sequência variada de ações ; • BD de Planos : Coleção de planos ; • Mineração de plano : Tarefa de se minerar conhecimento ou padrões significantes de um BD de Planos . Exemplo - Plano de vôo Como minerar esta base de planos ? Mineração da base Passos : (1) Generalizar a Base de planos em diferentes direções usando o modelo multidimensional ; (2) Observar planos generalizados que possuem padrões em comum e sequenciais interessantes com bom suporte ; (3) Derivar planos concisos de alto nível ; Visão Multidimensional Ex : num_passageiros < 50.000 => categoria = “S” num_passageiros > 50.000 => categoria = “L” Generalização Multidimensional Daí, podemos encontrar padrões sequenciais genéricos, como : [S] - L+ - [S] [98,5%] Estratégia dividir pra conquistar • Ao encontrar um padrão genérico com um suporte alto, podemos particionar o plano base em subplanos ; • A partir daí, mineramos cada subsequência para encontrar características em comum ; • Para o exemplo dado, podemos gerar a regra : vôo(x,y) ^ categoria(x,S) ^ categoria(y,L) => região(x) = região(y) [75 %] • O plano base é particionado em subplanos base e características interessantes são descobertas pelo processo de mineração de dados . BANCOS DE DADOS ESPACIAIS • Armazena grande quantidade de dados relacionados ao espaço : – – – – Imagens médicas Mapas Navegação Controle tráfego aéreo • Armazena informações topológicas e de distância • Desafio em mineração : – Encontrar técnicas eficientes de mineração (grande quantidade de dados , complexidade de tipos e de métodos de acesso) Construção de D.W. Espacial • Desafios : – Integração de dados de vários sistemas e fontes heterogêneas • Estrutura baseada em vetores, objetos ou relacionais • Fornecedor : Mapinfo, intergraph ... – Realização de OLAP rápido e flexível em DW espacial • Algumas dimensões e medidas possuem comportamento espacial Cubos de dados espaciais • Três dimensões presentes : – Dimensão não-espacial ex: temperatura : 35 a 45 º C --> quente – Dimensão espacial p/ não -espacial ex: Pernambuco --> “região _nordeste” – Dimensão espacial p/ espacial ex : Pernambuco --> Nordeste • Dois tipos de medidas : – Medida numérica • Distributiva: Obtida pela aplicação da função de agregação ex: count() • Algébrica: Obtida pela aplicação da função algébrica ex: avg = sum()/count() • Holística : Não deriva de função algébrica ex: Median() – Medida espacial • ex: Coleção de ponteiros para região de mesma temperatura DW espacial: BC_weather Esquema estrela : OPERAÇÕES DE ROLL-UP Por Temperatura Por Precipitação Computação de medidas espaciais em cubos de dados • Dilema : armazenamento x custo computacional – Armazenamento de ponteiros para objetos sem précomputação de medidas espaciais – Pré-computação e armazenamento aproximado de medidas espaciais • ex: estimativa de região – um retângulo - MBR (min.bounding rectangle) pode ser visto como uma estimativa grosseira do mapa de uma região – Materialização de porções de cubos que mais se tem acesso • Examinar cada grupo de obj. espaciais que podem sofrer merge Regras de associação espacial • Forma : A => B [s%,p%] é_uma (X,”escola”)^perto_de(X,”clube”) => perto_de(X,”parque”) [0.5%,80%] • Predicados espaciais : • perto_de , longe_de (relacionado a distância) • intercepta, sobrepõe (relacionado a topologia) • à_esquerda, à_direita, à_oeste (orientação espacial) Classificação e análise de tendência • Classificação de regiões : – rica x pobre (propriedades associadas a objetos espaciais) ex: possui universidade ? Shoppings ? • Análise de tendência (espacial e temporal) – Mudança de dados (espaciais ou não) com o espaço ex: Distância do oceano muda clima e vegetação – Mudança de padrões com o tempo e espaço ex : Fluxo de tráfego em rodovias e cidades BDs MULTIMIDIA • Armazenam e gerenciam objetos multimídia, tais como imagem, audio, vídeo, hipertexto • Sistemas de recuperação de similaridades em imagens : – Baseado em descrição : • Manualmente : laborioso • Automaticamente : resultado de baixa qualidade • Ex: palavra-chave, título, tamanho, tempo de criação – Polissemia : uma só forma com mais de um significado – Baseado em conteúdo : • Usa características visuais para indexar imagens e fazer a recuperação baseada em similaridade com outras imagens • Ex: Textura, forma, cor, objetos MultiMediaMiner • Sistema de mineração de dados multimídia • Imagem : grid 8 x 8 • Cada imagem contém dois descritores : – Descritor de características • Imagem original não é armazenada diretamente no BD, mas nome do arquivo, URL, tipo da imagem, URLs pais – Descritor de layout • Vetor de cores - cor mais frequente em cada uma das 64 células • Vetor de margens - Número de lados em cada uma das células MultiMediaMiner Dimensões em cubo de dados multimídia : MultiMediaMiner Thumbnails Minerando associações Que tipos de associação podem ser mineradas em BDs multimídia ? • Três categorias de associação : – Associação entre conteúdo de imagem e de não-imagem Se 50% da parte superior da imagem é azul então é “céu” – Associação entre conteúdo de imagens não relacionadas ao espaço Se imagem possui dois quadrados azuis então contém círculo vermelho – Associação entre conteúdo de imagens relacionadas ao espaço Se imagem possui um triângulo vermelho entre dois quadrados então contém grande círculo abaixo Mineração de regras de associações BDs transacionais x BDs multimídia • Refinamento progressivo de resolução : Uma imagem pode conter muitos objetos com características diferentes, tais como cor, forma, textura ... semelhança de características numa resolução baixa podem diferir em uma resolução melhor; • Uma figura contendo dois objetos iguais difere daquela contendo apenas um objeto do mesmo tipo em BDs multimídia. Em BDs transacionais, a pessoa comprar uma ou duas caixas de leite é tratado como o mesmo atributo compra_leite ; • Existem relações espaciais entre objetos multimídia, tais como acima, através de , abaixo, à esquerda ... Conclusão • A cada dia , mais e mais dados são armazenados de forma complexa, estruturados ou não estruturados, hipertexto e multimídia ; • Mineração de tipos complexos de dados, tais como objetos, dados espaciais, multimídia, dados seriais-temporais, textos e web tem se tornado uma tarefa muito importante ; • Mineração de dados complexos ainda está em fase inicial, e muitos desafios ainda terão de ser superados. Bibliografia • Han, Jiawei. Kamber, Micheline. Data Mining: Concepts and Techniques - Morgan Kaufmann Publishers. • MultiMediaMiner. Site - http://db.cs.sfu.ca/MMMiner • Bechara, Evanildo. Moderna Gramática Portuguesa Editora Lucerna / Rj - 2000