Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Definição do problema • Como acessar bancos de dados que adotam esquemas heterogêneos? SA DBA SB ? TB TA Esquema conceitual: descreve em alto nível como organizar os dados armazenados em um BD DBB Esquema de Classificação: classifica os dados armazenados em um BD em categorias pré-definidas Ex: palavras-chave, tesauros, taxonomias. © Daniela F. Brauner Definição do problema Ex: DBA ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15 76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 DBB identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167 © Daniela F. Brauner Definição do problema Solução: • Alinhamento de esquemas (schema matching): Dados dois esquemas como entrada, gerar um mapeamento entre os elementos desses esquemas que correspondem semanticamente um ao outro. SA SB © Daniela F. Brauner sb = (sa) Definição do problema Aplicações: • Transformação de dados Ex: data warehousing • Mediação de consultas Ex: arquitetura de mediadores © Daniela F. Brauner Definição do problema Transformação de dados: “Populated places” __ __ __ DBA ≠ __ __ __ TA TB © Daniela F. Brauner “PPL” ? DBB Definição do problema Transformação de dados: “Populated places” __ __ __ DBA “PPL” __ __ __ TA TB © Daniela F. Brauner DBB Definição do problema Mediação de consultas: TB TA Populated places PPL Client Request “Populated places” Request “PPL” __ __ __ __ __ __ DBA TA TB © Daniela F. Brauner DBB Definição do problema Mediação de consultas: TA Populated places Client Request “Populated places” “Populated places” __ __ __ __ __ __ Request “Populated places” DBA “PPL” __ __ __ Request “PPL” TA TB © Daniela F. Brauner DBB Definição do problema Como obter os mapeamentos? Manualmente: • Nível de esforço linear com relação ao número de mapeamentos • Processo tedioso e dispendioso – Consome cerca de 40% do tempo de trabalho dos departamentos de TI KEENE, C. Data Services for Next-Generation SOAs. SOA WebServices Journal, 4(12), 2004. http://webservices.syscon.com/read/47283.htm Abordagens a priori: • Requer amadurecimento das técnicas de projeto de BDs Abordagens sintáticas: • Suscetíveis a erros Abordagens semânticas: • Utilizam instâncias CASANOVA, M. A.; BREITMAN, K. K.; BRAUNER, D. F.; MARINS, A. L. Database Conceptual Schema Matching. IEEE Computer Society, Computer, vol. 40, n. 10, pp. 102-104, Oct., 2007. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Abordagem proposta • Alinhamento de esquemas utilizando instâncias – Abordagem a priori: descoberta dos mapeamentos antes da implantação do mediador – Abordagem adaptativa: descoberta e adaptação dos mapeamentos de forma incremental, utilizando as respostas às consultas dos usuários como evidências dos mapeamentos © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Alinhamento de tesauros • Utilizando instâncias – Identifica instâncias equivalentes – Conta os casamentos entre termos de tesauros distintos – Define taxa de mapeamento para pares de termos DBA ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15 DBB identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167 © Daniela F. Brauner Alinhamento de tesauros • Abordagem a priori CA 1 CB Thesaurus Thesaurus RA RB Mapping Rate Estimator Module 2 Mapping Rates Matrix BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Towards Gazetteer Integration Through an Instance-based Thesauri Mapping Approach. In: Clodoveu A. Davis Jr; Antonio M.V.M. Monteiro. (Org.). Advances in Geoinformatics. Heidelberg: Springer, 2007, v.1, p.235-245. © Daniela F. Brauner Alinhamento de tesauros • Abordagem a priori: transformação de dados “Populated places” __ __ __ DBA “PPL” __ __ __ TA TB © Daniela F. Brauner DBB Alinhamento de tesauros • Abordagem adaptativa CA Client 1 Query Query Thesaurus CB Thesaurus Query Manager Module 3 4 2 5 6 Mappings 8 Cache Mapping Rate Estimator Module 7 Mapping Rates Matrix BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Mediation as Recommendation: An Approach to Design Mediators for Object Catalogs. In: 5th International Conference on Ontologies, DataBases, and Applications of Semantics, 2006, Montpellier, OTM 2006 Workshops. Berlin/Heidelberg:Springer, 2006. v. 4277. p. 46-47. © Daniela F. Brauner Alinhamento de tesauros • Abordagem adaptativa: mediação de consultas TB TA Populated places PPL Client ..in a user session.. Request “Populated places” using TA Request “PPL” using TB Cache Mappings __ __ __ DBA __ __ __ __ __ __ TA TB © Daniela F. Brauner DBB Alinhamento de tesauros Geração de tesauro de referência: • Abordagem a priori: – Assume-se um dos tesauros das fontes como tesauro de referência – A pertinência dos elementos é confirmada a partir dos mapeamentos realizados • Abordagem adaptativa: – Assume-se um dos tesauros das fontes como referência (por exemplo, o da primeira fonte cadastrada) – A pertinência dos elementos é confirmada a medida que os mapeamentos são descobertos – Novos elementos são incluídos quando novos mapeamentos são descobertos © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Alinhamento de esquemas conceituais • Utilizando instâncias – Utiliza um conjunto de instâncias de referência – Conta re-ocorrência dos valores dos atributos – Define matrizes de ocorrência Ref. ID NAME IDTYPE LAT LONG 67203 Rio de Janeiro PPLA -22.9 -43.2333333 266178 Alps MTS 46.41666 10.0 433587 Mississippi River STM 29.15105 -89.253342 DBA identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167 © Daniela F. Brauner Alinhamento de esquemas conceituais • Abordagem a priori Global Instances + Global Schema 1 DBA DBB SG SA RG 2 SB Query Manager Module 3 4 Mapping Rate Estimator Module 6 Cache Mappings 5 Occurrence Matrix Occurrence Matrix between SG e SB between SG e SA BRAUNER, D. F.; INTRATOR, C.; FREITAS, J. C.; CASANOVA, M. A. An Instance-based Approach for Matching Export Schemas of Geographical Database Web Services. In: IX Brazilian Symposium on GeoInformatics, 2007, Campos do Jordão. IX Brazilian Symposium on GeoInformatics (GeoInfo 2007), 2007. © Daniela F. Brauner Alinhamento de esquemas conceituais • Abordagem adaptativa DBA DBB Client 1 SB SA Query Query Manager Module 2 3 4 Mapping Rate Estimator Module 5 Cache 6 8 Mappings 7 Occurrence Matrix EMI Matrix BRAUNER, D. F.; GAZOLA, A.; CASANOVA, M. A.; BREITMAN, K. K. Matching Schemas of Database Web Services by Mediating User Queries. In: 10th International Conference on Enterprise Information Systems (ICEIS 2008), 12-16, June, 2008. Barcelona, Spain (Submitted). © Daniela F. Brauner Alinhamento de esquemas conceituais Geração de esquema conceitual global: • Abordagem a priori: – O esquema conceitual global é definido a priori – A pertinência dos elementos (atributos) é confirmada a partir dos mapeamentos realizados • Abordagem adaptativa: – Assume-se um dos esquemas conceituais das fontes cadastradas como esquema global (por exemplo, o da primeira fonte cadastrada) – A pertinência dos elementos (atributos) é confirmada a medida que os mapeamentos são descobertos – Novos atributos são incluídos quando novos mapeamentos são descobertos © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Trabalhos Relacionados • Rahm e Bernstein (2001) apresentam um survey incluindo diversas técnicas de alinhamento de esquemas conceituais, e propõem uma taxonomia para classificá-las. • Bernstein e Melnik (2007) apresentam uma revisão dos requisitos para um Sistema de Gerenciamento de Modelos (que inclui operações para alinhamento de esquemas, diff de esquemas, transformação de dados a partir dos mapeamentos, etc.). – Apontam a necessidade de inclusão de um componente para execução dos mapeamentos em runtime. Rahm, E.; Bernstein, P. A. A Survey of Approaches to Automatic Schema Matching, The VDLB Journal, vol. 10, pp. 334– 350, 2001. Bernstein, P. A.; Melnik, S. Model management 2.0: manipulating richer mappings. In Proc. of the 2007 ACM SIGMOD International Conference on Management of Data, Beijing, China, 2007. pp.1 - 12. © Daniela F. Brauner Trabalhos Relacionados (Wang et al. 2004) • Técnica de alinhamento de esquemas baseada em instâncias usando sondagem de consultas específica de domínio, aplicada a bancos de dados na Web • Um banco de dados na Web é composto por: – Esquema de Interface: o que pode ser consultado – Esquema de Resultado: o que é apresentado aos usuários • Assume a existência/definição prévia de: – um esquema global para bancos de dados na Web de um mesmo domínio – um conjunto de instâncias de referência Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419. © Daniela F. Brauner Trabalhos Relacionados Esquema global + Instâncias de referência Web Database (Esquema de Interface) Instâncias de Referência Title Author Publisher xxxx xxxxxxx xxxx xxxx xxxx ISBN xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419. © Daniela F. Brauner Trabalhos Relacionados Esquema global + Instâncias de referência Web Database (Esquema de Interface) Instâncias de Referência Title Author Publisher xxxx xxxxxxx xxxx xxxx xxxx ISBN xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx Result Page (Esquema de Resultado) Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Contribuições • Técnicas baseadas em instâncias para alinhamento de: – esquemas de classificação (tesauros) – esquemas conceituais • Classificação das técnicas em a priori e adaptativas • Técnicas para, a partir destes alinhamentos, criação de: – esquemas de classificação (tesauros) de referência – esquemas conceituais globais © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Organização da tese 1. Introdução 2. Trabalhos relacionados 3. Alinhamento de tesauros 4. Alinhamento de esquemas 5. Conclusões © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma © Daniela F. Brauner Cronograma © Daniela F. Brauner Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova