Dados, Integração de Dados e
Dados Interligados
II Workshop de Introdução a Engenharia de
Ontologias e Web Semântica
Bernadette Farias Lóscio
[email protected]
PARTE 1 – DADOS E
INTEGRAÇÃO DE DADOS
2
Dados
–  Fatos registrados, e que têm um significado
implícito, sobre fenômenos do mundo real
–  Tipicamente representam valores (números,
caracteres) de variáveis (qualitativas ou
quantitativas)
–  Utilizados para transmitir, armazenar e deduzir
informações
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
3
Dados
brutos
–  raw data
–  Dados que ainda não foram processados
–  Termo relativo!
•  O processamento de dados ocorre em etapas
•  O processamento dos dados gera informação
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
4
metaDados
–  facilitam o entendimento dos relacionamentos e
a utilidade das informações dos dados
!tulo Central do Brasil
diretor Walter Sales
Fernanda Montenegro
atriz_principal II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
5
Valor sem um significado explícito Significado associado ou deduzido de um conjunto de dados e de associações entre eles dado informação
conhecimento
Informação adicional extraída dos dados ou do especialista do domínio da aplicação II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
6
ABSTRAÇÃO
conhecimento
informação
dado
A principal diferença entre eles é o
nível de abstração!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
7
Processar informação
para gerar
conhecimento
Processar dados
para gerar
informação
conhecimento
informação
dado
Interesse comum de organizações
públicas e privadas!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
8
Quem são as
fontes de dados?
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
9
Dados
Podem estar armazenados em
–  Fontes de dados privadas - disponíveis nas
organizações
–  Fontes de dados públicas - disponíveis na
Web
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
10
modelos de dados
hierárquico
em rede
1960
Web Semântica
orientado a objeto
OEM
1970
relacional
1980
1990
Web
Linked Data
2000
2012
RDF
XML
NoSQL
Dados são representados usando modelos de dados!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
11
Dados
Podem ter diferentes formatos
–  Dados estruturados (ex. bancos de dados
relacionais)
–  Dados semi-estruturados (ex. documentos
xml)
–  Dados não estruturados (ex. documentos
texto)
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
12
Dados
estruturados
Dados provenientes dos sistemas transacionais
Dados armazenados em bancos de dados
relacionais
Possuem uma estrutura fixa e bem definida
(esquema do banco de dados)
–  Esquema pré-definido
–  Todos os dados de acordo com o esquema
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
13
Dados
estruturados
cod!
L01!
título!
Mar Morto!
cod_autor!
autor_1!
O mundo da Paz!
L04! O Quinze!
L05! Tieta do Agreste!
ano!
1936!
cod_genero!
genero_1!
1938!
genero_2!
autor_1!
1951!
genero_3!
autor_2!
autor_1!
1930!
L02! A Estrada do Mar! autor_1!
L03!
Tabela
Gêneros
Tabela
Autores
1977!
!
genero_1!
! genero_1!
!
Tabela relacional - Livros
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
14
Dados
estruturados
–  Grandes volumes de dados armazenados em registros
bem definidos
–  SGBD, em geral, trabalha com dados bem estruturados
–  Um SGBD precisa do esquema para
•  Armazenar e indexar dados
•  Processar consultas e atualizações
–  Usuários precisam do esquema para formular consultas
e atualizações
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
15
Dados
semi-estruturados
•  Ausência de uma estrutura regular, ou a estrutura é
capaz de evoluir de forma imprevisível
•  Dados podem ser incompletos
•  Estrutura irregular (dados heterogêneos)
•  Tipos são apenas indicativos
•  A estrutura pode ser implícita
•  Dados na Web
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
16
Dados
semi-estruturados
<?xml version="1.0" encoding="utf-8"?>
<livraria>
<livro id="L01" ano="1936">
<autor> Jorge Amado </autor>
<titulo>Mar Morto</titulo>
</livro>
<livro id="L04" ano="1930">
<autor>
<nome>Rachel</nome >
<sobrenome>de Queiroz</sobrenome >
</autor>
<titulo>O Quinze</titulo>
<genero> Romance </genero>
</livro>
</livraria>
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
17
Dados
não estruturados
•  Ausência de estrutura
•  Dados que ainda não foram “tratados” ou modelados
•  Dados armazenados em arquivos ou documentos
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
18
não-estruturados
…
Ilhas de
…
estruturados
dados
…
semi-estruturados
As fontes de dados podem ser !
públicas ou privadas!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
19
Integração dos
Dados
–  Apresentação de uma visão uniforme e
consistentes dos dados
–  Identificação de dados complementares e
redundantes
–  Resolução de inconsistências
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
20
Como
integrar?
Como oferecer uma visão global de dados
distribuídos em fontes de dados
autônomas e heterogêneas?
visão global dos dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Tipos de Heterogeneidade
de Informação
Estruturas diferentes Sintática
Modelos diferentes Estrutural
Nomes diferentes Terminológica
Significados diferentes Semântica
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
22
Visão Geral do Problema de Integração de Dados
visão integrada!
esquema de
integração!
mapeamentos!
esquema
local!
esquema
local!
esquema
local!
mesmo modelo de dados!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Arquiteturas
de Integração
– Mediadores
– Datawarehouse
– P2P
– Dataspaces
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
24
arquitetura de
mediadores
aplicação!
consultas!
mediador!
tradutor!
tradutor!
sub-consultas!
tradutor!
dados!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
arquitetura de
Data warehouse
aplicação!
consultas!
Data
warehouse!
dados!
atualizações!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
arquitetura
Peer to Peer
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
arquitetura de
Dataspaces
abordagem pay-as-you-go
tradutor!
tradutor!
mediador!
aplicação!
mediador!
mediador!
tradutor!
tradutor!
tradutor!
tradutor!
tradutor!
tradutor!
tradutor!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Arquiteturas
de Integração
A escolha da arquitetura depende de alguns
fatores:
–  A quantidade de fontes de dados a serem
integradas
–  A frequencia de atualização das fontes
–  A infra-estrutura de comunicação
–  …
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
29
Arquiteturas
de Integração
A escolha da arquitetura responde algumas
perguntas:
–  A integração de dados será virtual ou materializada?
–  Será usado um único esquema de integração ou
vários esquemas?
–  É possível definir mapeamentos entre as fontes de
dados ou apenas entre as fontes e o esquema de
integração?
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
30
Desafio
Prover interoperabilidade
entre as fontes de dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
31
Interoperabilidade
Uma solução de integração de dados deve prover:
–  interoperabilidade sintática: adoção de um modelo
de dados comum
–  interoperabilidade estrutural: definição de
mapeamentos
–  interoperoperabilidade semântica: uso de
vocabulários
Interoperabilidade: é a capacidade de um sistema (informatizado ou não) de se
comunicar de forma transparente (ou o mais próximo disso) com outro sistema
(semelhante ou não).
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
32
Interoperabilidade
–  O modelo de dados comum deve ser flexível e
capaz de representar dados semi-estruturados
–  Prover interoperabilidade semântica é o maior
desafio da integração de dados!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
33
Web Semântica e
Linked Data
–  Oferecem soluções e tecnologias adequadas para
resolver o problema da integração de dados
–  Modelo de dados flexível para representação
dos dados na Web
–  Ontologias ajudam a resolver o problema da
heterogeneidade semântica
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
34
Conclusões
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
35
Download

Dados, Integração de Dados e Dados Interligados