Alinhamento de esquemas
baseado em instâncias
PROPOSTA DE DOUTORADO
Daniela F. Brauner
Orientador:
Prof. Marco Antonio Casanova
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Definição do problema
• Como acessar bancos de dados que adotam esquemas
heterogêneos?
SA
DBA
SB
?
TB
TA
Esquema conceitual:
descreve em alto nível como
organizar os dados
armazenados em um BD
DBB
Esquema de Classificação:
classifica os dados
armazenados em um BD em
categorias pré-definidas
Ex: palavras-chave, tesauros, taxonomias.
© Daniela F. Brauner
Definição do problema
Ex:
DBA
ID
FULL_NAME_ND
DSG
DMS_LAT
DMS_LONG
LAT
LONG
67203
Rio de Janeiro
PPLA
-225400
-431400
-22.9
-43.2333333
39870
Rio de Janeiro
STM
-115100
-450900
-11.45
-45.15
76124
São Sebastião do Rio de Janeiro PPLA
-225400
-431400
-22.9
-43.2333333
DBB
identifier
display-name
class
gml:y
gml:x
adlgaz-1-1457057-00
Rio de Janeiro, Estado do - Brazil
administrative areas
-22.0
-42.5
adlgaz-1-1457059-20
Rio de Janeiro, Serra do - Brazil
mountains
-17.95
-44.95
adlgaz-1-1457061-32
Rio de Janeiro - Brazil
populated places
-22.9
-43.2333
adlgaz-1-1437138-6b
Janeiro, Rio de - Brazil
streams
-11.85
-45.15
adlgaz-1-3223719-6f
Rio de Janeiro - Loreto, Departamento de - Peru
populated places
-4.3833
-71.8167
© Daniela F. Brauner
Definição do problema
Solução:
• Alinhamento de esquemas (schema matching):
Dados dois esquemas como entrada,
gerar um mapeamento entre os elementos desses
esquemas que correspondem semanticamente um ao outro.
SA
SB

© Daniela F. Brauner
sb =
(sa)
Definição do problema
Aplicações:
• Transformação de dados
Ex: data warehousing
• Mediação de consultas
Ex: arquitetura de mediadores
© Daniela F. Brauner
Definição do problema
Transformação de dados:
“Populated places”
__
__
__
DBA
≠
__
__
__
TA
TB
© Daniela F. Brauner
“PPL”
?
DBB
Definição do problema
Transformação de dados:
“Populated places”
__
__
__
DBA
“PPL”
__
__
__
TA
TB
© Daniela F. Brauner
DBB
Definição do problema
Mediação de consultas:
TB
TA
Populated places
PPL
Client
Request
“Populated places”
Request
“PPL”
__
__
__
__
__
__
DBA
TA
TB
© Daniela F. Brauner
DBB
Definição do problema
Mediação de consultas:
TA
Populated places
Client
Request
“Populated places”
“Populated places”
__
__
__
__
__
__
Request
“Populated places”
DBA
“PPL”
__
__
__
Request
“PPL”
TA
TB
© Daniela F. Brauner
DBB
Definição do problema
Como obter os mapeamentos?
Manualmente:
•
Nível de esforço linear com relação ao número de mapeamentos
•
Processo tedioso e dispendioso
–
Consome cerca de 40% do tempo de trabalho dos departamentos de TI
KEENE, C. Data Services for Next-Generation SOAs. SOA WebServices Journal, 4(12), 2004.
http://webservices.syscon.com/read/47283.htm
Abordagens a priori:
•
Requer amadurecimento das técnicas de projeto de BDs
Abordagens sintáticas:
•
Suscetíveis a erros
Abordagens semânticas:
•
Utilizam instâncias
CASANOVA, M. A.; BREITMAN, K. K.; BRAUNER, D. F.; MARINS, A. L. Database Conceptual Schema
Matching. IEEE Computer Society, Computer, vol. 40, n. 10, pp. 102-104, Oct., 2007.
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Abordagem proposta
• Alinhamento de esquemas utilizando instâncias
– Abordagem a priori:
descoberta dos mapeamentos antes da implantação do
mediador
– Abordagem adaptativa:
descoberta e adaptação dos mapeamentos de forma
incremental, utilizando as respostas às consultas dos usuários
como evidências dos mapeamentos
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Alinhamento de tesauros
• Utilizando instâncias
– Identifica instâncias equivalentes
– Conta os casamentos entre termos de tesauros distintos
– Define taxa de mapeamento para pares de termos
DBA
ID
FULL_NAME_ND
DSG
DMS_LAT
DMS_LONG
LAT
LONG
67203
Rio de Janeiro
PPLA
-225400
-431400
-22.9
-43.2333333
39870
Rio de Janeiro
STM
-115100
-450900
-11.45
-45.15
DBB
identifier
display-name
class
gml:y
gml:x
adlgaz-1-1457057-00
Rio de Janeiro, Estado do - Brazil
administrative areas
-22.0
-42.5
adlgaz-1-1457059-20
Rio de Janeiro, Serra do - Brazil
mountains
-17.95
-44.95
adlgaz-1-1457061-32
Rio de Janeiro - Brazil
populated places
-22.9
-43.2333
adlgaz-1-3223719-6f
Rio de Janeiro - Loreto, Departamento de - Peru
populated places
-4.3833
-71.8167
© Daniela F. Brauner
Alinhamento de tesauros
• Abordagem a priori
CA
1
CB
Thesaurus
Thesaurus
RA
RB
Mapping Rate
Estimator Module
2
Mapping Rates
Matrix
BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Towards Gazetteer Integration Through an Instance-based Thesauri
Mapping Approach. In: Clodoveu A. Davis Jr; Antonio M.V.M. Monteiro. (Org.). Advances in Geoinformatics. Heidelberg:
Springer, 2007, v.1, p.235-245.
© Daniela F. Brauner
Alinhamento de tesauros
• Abordagem a priori: transformação de dados
“Populated places”
__
__
__
DBA
“PPL”
__
__
__
TA
TB
© Daniela F. Brauner
DBB
Alinhamento de tesauros
• Abordagem adaptativa
CA
Client
1
Query
Query
Thesaurus
CB
Thesaurus
Query Manager
Module
3
4
2
5
6
Mappings
8
Cache
Mapping Rate
Estimator Module
7
Mapping Rates
Matrix
BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Mediation as Recommendation: An Approach to Design Mediators for
Object Catalogs. In: 5th International Conference on Ontologies, DataBases, and Applications of Semantics, 2006, Montpellier,
OTM 2006 Workshops. Berlin/Heidelberg:Springer, 2006. v. 4277. p. 46-47.
© Daniela F. Brauner
Alinhamento de tesauros
• Abordagem adaptativa: mediação de consultas
TB
TA
Populated places
PPL
Client
..in a user session..
Request
“Populated places”
using TA
Request
“PPL”
using TB
Cache
Mappings
__
__
__
DBA
__
__
__
__
__
__
TA
TB
© Daniela F. Brauner
DBB
Alinhamento de tesauros
Geração de tesauro de referência:
• Abordagem a priori:
– Assume-se um dos tesauros das fontes como
tesauro de referência
– A pertinência dos elementos é confirmada
a partir dos mapeamentos realizados
• Abordagem adaptativa:
– Assume-se um dos tesauros das fontes como referência
(por exemplo, o da primeira fonte cadastrada)
– A pertinência dos elementos é confirmada a medida
que os mapeamentos são descobertos
– Novos elementos são incluídos quando
novos mapeamentos são descobertos
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Alinhamento de esquemas conceituais
• Utilizando instâncias
– Utiliza um conjunto de instâncias de referência
– Conta re-ocorrência dos valores dos atributos
– Define matrizes de ocorrência
Ref.
ID
NAME
IDTYPE
LAT
LONG
67203
Rio de Janeiro
PPLA
-22.9
-43.2333333
266178
Alps
MTS
46.41666
10.0
433587
Mississippi River
STM
29.15105
-89.253342
DBA
identifier
display-name
class
gml:y
gml:x
adlgaz-1-1457057-00
Rio de Janeiro, Estado do - Brazil
administrative areas
-22.0
-42.5
adlgaz-1-1457059-20
Rio de Janeiro, Serra do - Brazil
mountains
-17.95
-44.95
adlgaz-1-1457061-32
Rio de Janeiro - Brazil
populated places
-22.9
-43.2333
adlgaz-1-3223719-6f
Rio de Janeiro - Loreto, Departamento de - Peru
populated places
-4.3833
-71.8167
© Daniela F. Brauner
Alinhamento de esquemas conceituais
• Abordagem a priori
Global Instances
+
Global Schema
1
DBA
DBB
SG
SA
RG
2
SB
Query Manager
Module
3
4
Mapping Rate
Estimator Module
6
Cache
Mappings
5
Occurrence Matrix Occurrence Matrix
between SG e SB
between SG e SA
BRAUNER, D. F.; INTRATOR, C.; FREITAS, J. C.; CASANOVA, M. A. An Instance-based Approach for Matching Export
Schemas of Geographical Database Web Services. In: IX Brazilian Symposium on GeoInformatics, 2007, Campos do Jordão.
IX Brazilian Symposium on GeoInformatics (GeoInfo 2007), 2007.
© Daniela F. Brauner
Alinhamento de esquemas conceituais
• Abordagem adaptativa
DBA
DBB
Client
1
SB
SA
Query
Query Manager
Module
2
3
4
Mapping Rate
Estimator Module
5
Cache
6
8
Mappings
7
Occurrence Matrix
EMI Matrix
BRAUNER, D. F.; GAZOLA, A.; CASANOVA, M. A.; BREITMAN, K. K. Matching Schemas of Database Web Services by
Mediating User Queries. In: 10th International Conference on Enterprise Information Systems (ICEIS 2008), 12-16, June,
2008. Barcelona, Spain (Submitted).
© Daniela F. Brauner
Alinhamento de esquemas conceituais
Geração de esquema conceitual global:
• Abordagem a priori:
– O esquema conceitual global é definido a priori
– A pertinência dos elementos (atributos) é confirmada
a partir dos mapeamentos realizados
• Abordagem adaptativa:
– Assume-se um dos esquemas conceituais
das fontes cadastradas como esquema global
(por exemplo, o da primeira fonte cadastrada)
– A pertinência dos elementos (atributos) é confirmada
a medida que os mapeamentos são descobertos
– Novos atributos são incluídos quando
novos mapeamentos são descobertos
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Trabalhos Relacionados
• Rahm e Bernstein (2001) apresentam um survey incluindo
diversas técnicas de alinhamento de esquemas conceituais, e
propõem uma taxonomia para classificá-las.
• Bernstein e Melnik (2007) apresentam uma revisão dos requisitos
para um Sistema de Gerenciamento de Modelos (que inclui
operações para alinhamento de esquemas, diff de esquemas,
transformação de dados a partir dos mapeamentos, etc.).
– Apontam a necessidade de inclusão de um componente
para execução dos mapeamentos em runtime.
Rahm, E.; Bernstein, P. A. A Survey of Approaches to Automatic Schema Matching, The VDLB Journal, vol. 10, pp. 334–
350, 2001.
Bernstein, P. A.; Melnik, S. Model management 2.0: manipulating richer mappings. In Proc. of the 2007 ACM SIGMOD
International Conference on Management of Data, Beijing, China, 2007. pp.1 - 12.
© Daniela F. Brauner
Trabalhos Relacionados
(Wang et al. 2004)
• Técnica de alinhamento de esquemas baseada em instâncias
usando sondagem de consultas específica de domínio, aplicada a
bancos de dados na Web
• Um banco de dados na Web é composto por:
– Esquema de Interface: o que pode ser consultado
– Esquema de Resultado: o que é apresentado aos usuários
• Assume a existência/definição prévia de:
– um esquema global para bancos de dados na Web
de um mesmo domínio
– um conjunto de instâncias de referência
Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by
domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
© Daniela F. Brauner
Trabalhos Relacionados
Esquema global +
Instâncias de referência
Web Database (Esquema de Interface)
Instâncias de Referência
Title
Author
Publisher
xxxx
xxxxxxx
xxxx xxxx
xxxx
ISBN
xxxx
xxxxxxx
xxxx xxxx
xxxx
xxxx
xxxxxxx
xxxx xxxx
xxxx
xxxx
xxxxxxx
xxxx xxxx
xxxx
Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by
domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
© Daniela F. Brauner
Trabalhos Relacionados
Esquema global +
Instâncias de referência
Web Database (Esquema de Interface)
Instâncias de Referência
Title
Author
Publisher
xxxx
xxxxxxx
xxxx xxxx
xxxx
ISBN
xxxx
xxxxxxx
xxxx xxxx
xxxx
xxxx
xxxxxxx
xxxx xxxx
xxxx
xxxx
xxxxxxx
xxxx xxxx
xxxx
Result Page (Esquema de Resultado)
Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by
domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Contribuições
• Técnicas baseadas em instâncias para alinhamento de:
– esquemas de classificação (tesauros)
– esquemas conceituais
• Classificação das técnicas em a priori e adaptativas
• Técnicas para, a partir destes alinhamentos, criação de:
– esquemas de classificação (tesauros) de referência
– esquemas conceituais globais
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Organização da tese
1. Introdução
2. Trabalhos relacionados
3. Alinhamento de tesauros
4. Alinhamento de esquemas
5. Conclusões
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Cronograma
© Daniela F. Brauner
Alinhamento de esquemas
baseado em instâncias
PROPOSTA DE DOUTORADO
Daniela F. Brauner
Orientador:
Prof. Marco Antonio Casanova
Download

Alinhamento de esquemas conceituais