Dados, Integração de Dados e Dados Interligados II Workshop de Introdução a Engenharia de Ontologias e Web Semântica Bernadette Farias Lóscio [email protected] PARTE 1 – DADOS E INTEGRAÇÃO DE DADOS 2 Dados – Fatos registrados, e que têm um significado implícito, sobre fenômenos do mundo real – Tipicamente representam valores (números, caracteres) de variáveis (qualitativas ou quantitativas) – Utilizados para transmitir, armazenar e deduzir informações II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 3 Dados brutos – raw data – Dados que ainda não foram processados – Termo relativo! • O processamento de dados ocorre em etapas • O processamento dos dados gera informação II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 4 metaDados – facilitam o entendimento dos relacionamentos e a utilidade das informações dos dados !tulo Central do Brasil diretor Walter Sales Fernanda Montenegro atriz_principal II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 5 Valor sem um significado explícito Significado associado ou deduzido de um conjunto de dados e de associações entre eles dado informação conhecimento Informação adicional extraída dos dados ou do especialista do domínio da aplicação II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 6 ABSTRAÇÃO conhecimento informação dado A principal diferença entre eles é o nível de abstração! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 7 Processar informação para gerar conhecimento Processar dados para gerar informação conhecimento informação dado Interesse comum de organizações públicas e privadas! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 8 Quem são as fontes de dados? II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 9 Dados Podem estar armazenados em – Fontes de dados privadas - disponíveis nas organizações – Fontes de dados públicas - disponíveis na Web II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 10 modelos de dados hierárquico em rede 1960 Web Semântica orientado a objeto OEM 1970 relacional 1980 1990 Web Linked Data 2000 2012 RDF XML NoSQL Dados são representados usando modelos de dados! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 11 Dados Podem ter diferentes formatos – Dados estruturados (ex. bancos de dados relacionais) – Dados semi-estruturados (ex. documentos xml) – Dados não estruturados (ex. documentos texto) II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 12 Dados estruturados Dados provenientes dos sistemas transacionais Dados armazenados em bancos de dados relacionais Possuem uma estrutura fixa e bem definida (esquema do banco de dados) – Esquema pré-definido – Todos os dados de acordo com o esquema II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 13 Dados estruturados cod! L01! título! Mar Morto! cod_autor! autor_1! O mundo da Paz! L04! O Quinze! L05! Tieta do Agreste! ano! 1936! cod_genero! genero_1! 1938! genero_2! autor_1! 1951! genero_3! autor_2! autor_1! 1930! L02! A Estrada do Mar! autor_1! L03! Tabela Gêneros Tabela Autores 1977! ! genero_1! ! genero_1! ! Tabela relacional - Livros II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 14 Dados estruturados – Grandes volumes de dados armazenados em registros bem definidos – SGBD, em geral, trabalha com dados bem estruturados – Um SGBD precisa do esquema para • Armazenar e indexar dados • Processar consultas e atualizações – Usuários precisam do esquema para formular consultas e atualizações II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 15 Dados semi-estruturados • Ausência de uma estrutura regular, ou a estrutura é capaz de evoluir de forma imprevisível • Dados podem ser incompletos • Estrutura irregular (dados heterogêneos) • Tipos são apenas indicativos • A estrutura pode ser implícita • Dados na Web II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 16 Dados semi-estruturados <?xml version="1.0" encoding="utf-8"?> <livraria> <livro id="L01" ano="1936"> <autor> Jorge Amado </autor> <titulo>Mar Morto</titulo> </livro> <livro id="L04" ano="1930"> <autor> <nome>Rachel</nome > <sobrenome>de Queiroz</sobrenome > </autor> <titulo>O Quinze</titulo> <genero> Romance </genero> </livro> </livraria> II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 17 Dados não estruturados • Ausência de estrutura • Dados que ainda não foram “tratados” ou modelados • Dados armazenados em arquivos ou documentos II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 18 não-estruturados … Ilhas de … estruturados dados … semi-estruturados As fontes de dados podem ser ! públicas ou privadas! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 19 Integração dos Dados – Apresentação de uma visão uniforme e consistentes dos dados – Identificação de dados complementares e redundantes – Resolução de inconsistências II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 20 Como integrar? Como oferecer uma visão global de dados distribuídos em fontes de dados autônomas e heterogêneas? visão global dos dados II Workshop de Introdução a Engenharia de Ontologias e Web Semântica Tipos de Heterogeneidade de Informação Estruturas diferentes Sintática Modelos diferentes Estrutural Nomes diferentes Terminológica Significados diferentes Semântica II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 22 Visão Geral do Problema de Integração de Dados visão integrada! esquema de integração! mapeamentos! esquema local! esquema local! esquema local! mesmo modelo de dados! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica Arquiteturas de Integração – Mediadores – Datawarehouse – P2P – Dataspaces II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 24 arquitetura de mediadores aplicação! consultas! mediador! tradutor! tradutor! sub-consultas! tradutor! dados! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica arquitetura de Data warehouse aplicação! consultas! Data warehouse! dados! atualizações! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica arquitetura Peer to Peer II Workshop de Introdução a Engenharia de Ontologias e Web Semântica arquitetura de Dataspaces abordagem pay-as-you-go tradutor! tradutor! mediador! aplicação! mediador! mediador! tradutor! tradutor! tradutor! tradutor! tradutor! tradutor! tradutor! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica Arquiteturas de Integração A escolha da arquitetura depende de alguns fatores: – A quantidade de fontes de dados a serem integradas – A frequencia de atualização das fontes – A infra-estrutura de comunicação – … II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 29 Arquiteturas de Integração A escolha da arquitetura responde algumas perguntas: – A integração de dados será virtual ou materializada? – Será usado um único esquema de integração ou vários esquemas? – É possível definir mapeamentos entre as fontes de dados ou apenas entre as fontes e o esquema de integração? II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 30 Desafio Prover interoperabilidade entre as fontes de dados II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 31 Interoperabilidade Uma solução de integração de dados deve prover: – interoperabilidade sintática: adoção de um modelo de dados comum – interoperabilidade estrutural: definição de mapeamentos – interoperoperabilidade semântica: uso de vocabulários Interoperabilidade: é a capacidade de um sistema (informatizado ou não) de se comunicar de forma transparente (ou o mais próximo disso) com outro sistema (semelhante ou não). II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 32 Interoperabilidade – O modelo de dados comum deve ser flexível e capaz de representar dados semi-estruturados – Prover interoperabilidade semântica é o maior desafio da integração de dados! II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 33 Web Semântica e Linked Data – Oferecem soluções e tecnologias adequadas para resolver o problema da integração de dados – Modelo de dados flexível para representação dos dados na Web – Ontologias ajudam a resolver o problema da heterogeneidade semântica II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 34 Conclusões II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 35