An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3 1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil 2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland 3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil Agenda • Motivação e contextualização • Cenário Atual em Dados Abertos Interligados (LOD) • Projeto LinkedDataBR • ETL Workflow • Tratamento Semântico Incremental • Estudo de Caso • Considerações finais An approach for managing and semantically enriching the publication of Linked Open Governmental Data 2 Motivação e contextualização An approach for managing and semantically enriching the publication of Linked Open Governmental Data 3 Motivação e contextualização Estão abertos? An approach for managing and semantically enriching the publication of Linked Open Governmental Data 4 Motivação e contextualização RNP CAPES CNPq Uso conjunto é ainda um desafio! An approach for managing and semantically enriching the publication of Linked Open Governmental Data 5 Motivação e contextualização • Interoperabilidade e Integração de dados na Web ainda requerem considerável esforço – Mesmo dentro de uma organização! . Tivemos SGBD por mais de meio século, mas conseguimos a integração que se pretendia? O que faltou ? – E agora, na Web: • Distribuídos, heterogêneos, em grande escala, altamente visíveis, grande número de diferentes usuários, … An approach for managing and semantically enriching the publication of Linked Open Governmental Data 6 Linked Open Data (LOD) • LOD pode ser considerado uma abordagem mais simplista de uso de tecnologias da Web Semântica • Baseada em triplas (RDF) para representar os dados de forma realmente “granular” – Facilita a interligação – Acompanhado de um descritor • Abordagem pay-as-you-go An approach for managing and semantically enriching the publication of Linked Open Governmental Data 7 Linked Open Data (LOD) – O que vem a ser Dados Abertos Interligados? • Utilização ampla de padrões • Representação de dados em um grão mínimo (triplas RDF) – Flexibilidade nas ligações entre itens de dados • Tem a interoperabilidade em sua essência – RDF: Resource DESCRIPTION Framework » Criado para interoperar METADADOS! – Descritores estão na base da proposta An approach for managing and semantically enriching the publication of Linked Open Governmental Data 8 Linked Open Data (LOD) – Uma maneira “nova” de publicar e consumir dados! • O poder das ligações tipadas • O poder da colaboração – Consumidores podem ser publicadores também! • Mais e mais dados sendo gerados e potencialmente “ligáveis” – Sensores e Web das Coisas • Dados e metadados sendo explorados juntos em novas aplicações • Consulta E Navegação E Busca! An approach for managing and semantically enriching the publication of Linked Open Governmental Data 9 Dados publicados como LOD 265 datasets - 32 bilhões de triplas - 42% de dados de governo Setembro de 2011 Até quando conseguiremos representar esta nuvem? An approach for managing and semantically enriching the publication of Linked Open Governmental Data 10 Cenário Atual - Internacional • Muitas iniciativas de governo – Governo Britânico, Estados Unidos, Espanha, etc. – Diferentes abordagens – Entrando em fase mais madura • Muitas iniciativas do setor privado – BBC, New York Times, ... • Muitas iniciativas em e-Ciência – Dados genômicos, dados de meio-ambiente,... • Forte envolvimento da área acadêmica – Consórcio W3C, Sir Tim Berners Lee (MIT) – DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha) – Projeto LOD2 An approach for managing and semantically enriching the publication of Linked Open Governmental Data 11 Cenário Atual - Internacional • Grande diversidade de ferramentas – Ainda sendo experimentadas – Foco em atividades específicas de publicação, consumo e colaboração – Ainda razoável esforço requerido para seu uso conjunto • Abordagem liberal – Prioridade para “expor” os dados e depois ir complementando sua descrição – Uso de ontologias ainda incipiente – Processo de publicação muito artesanal – Qualidade do dado publicado ainda pouco rastreável • Entrando em fase de amadurecimento – Maior preocupação com semântica e descritores – Frameworks para integração de ferramentas sendo discutidos An approach for managing and semantically enriching the publication of Linked Open Governmental Data 12 Cenário Atual - Nacional • Inicialmente evoluindo sobre pesquisas e aplicações da Web Semântica e Ontologias • PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, … • Interesse crescente no Governo: – – – – Inicialmente uma certa confusão com dados abertos Acordo assinado entre o Brasil, EUA e mais 6 países Tema do CONSEGI deste ano Ministério do Planejamento : • Cria o INDA – Infraestrutura Nacional de Dados Abertos • Baseada em LOD e uso de ontologias – Apoio do W3C Brasil e CGI/BR • Cria o GT Ontologias – Iniciativas experimentais em LOD • Experimentos pontuais -> simples conversão de dados e interfaces atraentes • Tecnologia ainda pouco conhecida An approach for managing and semantically enriching the publication of Linked Open Governmental Data 13 Linked LinkedDataBR An approach for managing and semantically enriching the publication of Linked Open Governmental Data Nossa Abordagem Linked • Alguns domínios requerem uma abordagem sistemática que garanta: – Maior controle do processo – Manutenção da consistência dos dados sendo publicados • Este é o caso de: – Dados Governamentais – Dados de e-Ciência • Necessário adotar uma abordagem de “gestão de dados” An approach for managing and semantically enriching the publication of Linked Open Governmental Data 15 LinkedDataBR - FOCO Linked • Foco – no apoio ao processo de publicação – na qualidade do dado • Característica da solução: – Plataforma integrada e flexível – Maximização no reuso de ferramentas existentes (software livre) – Explorar: • Gerência de metadados • Apoio ao processo com ferramenta de workflow (ETL) • Tratamento Semântico An approach for managing and semantically enriching the publication of Linked Open Governmental Data LinkedDataBR - FOCO Linked LinkedDataBR Feed/Expose Treatment Process LinkedDataCloud Governmental and Non Governmental Entities Universities and Research Institutes Data Producers Consumers Requests Provenance Vocabulary Ontology Repository Triples URI Governmental and Non Governmental Entities Responses Linked Data Universities and Research Institutes Queries Citizen and Private Companies Consume/Explore An approach for managing and semantically enriching the publication of Linked Open Governmental Data 17 Projeto LinkedDataBR Linked • Objetivos – Construção de uma infra-estrutura inicial de suporte à publicação e criação de repositórios de dados abertos utilizando os padrões de Linked Data E ainda: – Criação de diretrizes associadas ao processo de publicação – Criação de grupo de interesse e mobilização para apoio e estímulo à iniciativa de Linked Open Data no Brasil e sua inserção no cenário mundial de dados abertos interligados. An approach for managing and semantically enriching the publication of Linked Open Governmental Data 18 Projeto LinkedDataBR Linked • Arquitetura An approach for managing and semantically enriching the publication of Linked Open Governmental Data 19 ETL Workflow (Captura de Proveniência) Publishing Workflow Process Extract Transform Load Stage Triplify Linking Workflow Implementation Design Triples Raw Government Data Prospective Provenance Data Workflow Implementation Execution Provenance Triples Linked Open Government Data Retrospective Provenance Data An approach for managing and semantically enriching the publication of Linked Open Governmental Data 20 Publicação de Dados Abertos Ligados ABORDAGENS PARA O ENRIQUECIMENTO SEMÂNTICO 21 An approach for managing and semantically enriching the publication of Linked Open Governmental Data 21 Ausência de preocupação com a semântica An approach for managing and semantically enriching the publication of Linked Open Governmental Data 22 Alguma preocupação com a semântica An approach for managing and semantically enriching the publication of Linked Open Governmental Data 23 Preocupação mediana com a semântica An approach for managing and semantically enriching the publication of Linked Open Governmental Data 24 Muita preocupação com a semântica An approach for managing and semantically enriching the publication of Linked Open Governmental Data 25 Linked Exemplo de Cenário de Publicação de Dados Interligados An approach for managing and semantically enriching the publication of Linked Open Governmental Data 26 Cenário de Aplicação C&T Cenário de Financiamentos de Projetos de Pesquisa Projetos de Pesquisa Currículos de Pesquisadores Lattes tem participação de tem participação de RNP tem instituição Instituições de Pesquisa eMec FNDCT Grupos de Pesquisa - CNPq GP-CNPq 27 Exemplo do Processo de Publicação Tratamento Triplificação Ligação Tratamento Triplificação Ligação Resultado swrc:Project Projetos RNP Grafos interligados WGFase LODBR temFase LODBR_Ph1 Participante temParticipacaoDe CNPq CV Lattes “Maria Luiza Machado Campos” “UFRJ” 2009 Pesquisador Instituticao GrupoTrabalho MLMC temNome “LinkedDataBR” temNome “Universidade Federal do Rio do Janeiro” temNome temSigla “UFRJ” “Maria Luiza M. Campos” swrc:University eMec Instituições UFRJ temNome MLMC MLMC0232 temTitulo Publicacao swrc:Publication swrc:ResearchGroup temLocalOferta RioJ MLMC Grupos de Pesquisa CNPq temNome temParticipante GRECO temArea Predominante temNome temNome “UFRJ” swrc:Person enderecoProfissional temPublicacao temAno “CrossMDA: a Modeldriven Approach for Aspect Management” UFRJ temInsituicao “Maria Luiza M.Campos” “Grupo Engenharia do Conhecimento” “Knowledge Engineering” An approach for managing and semantically enriching the publication of Linked Open Governmental Data temSigla “Universidade Federal do Rio do Janeiro” Resultado ... <rdf:Description rdf:about="http://www.rnp.br/resource/LDBR_Ph1"> <rdf:type rdf:resource="http://www.rnp.br/ontology/WGPhase"/> <rnp:hasParticipationOf rdf:resource="http://www.rnp.br/resource/MLMC"/> </rdf:Description> ... <rdf:Description rdf:about="http://www.rnp.br/resource/MLMC"> <rdf:type rdf:resource="http://www.rnp.br/ontology/Participant"/> <rdf:type rdf:resource="http://swrc.ontoware.org/ontology/Person"/> <rnp:hasFullName> Maria Luiza Machado Campos </rnp:hasFullName> <owl:sameAs rdf:resource="http://lattes.cnpq.br/resource/MLMC"/> <owl:sameAs rdf:resource="http://www.cnpq.br/resource/MLMC"/> </rdf:Description> ... An approach for managing and semantically enriching the publication of Linked Open Governmental Data 33 Considerações Finais • Iniciativas nacionais e internacionais pela transparência das ações governamentais e participação do cidadão. • Dado Aberto possui um papel fundamental, mas o valor real do dado é revelado se os dados são explorados em conjunto. • LOD é uma abordagem de interoperabilidade e integração • Em LOGD é essencial considerar algumas garantias de qualidade e estratégias de interoperabilidade • Plataforma do LinkedDataBR e a abordagem de enriquecimento semântico incremental • Concebida para apoiar os publicadores e gestores de dados de governo • O potencial da colaboração do cidadão (wisdom of the crowds) desempenhará um papel importante no mapeamento e ligação. An approach for managing and semantically enriching the publication of Linked Open Governmental Data 34 An approach for managing and semantically enriching the publication of Linked Open Governmental Data http://greco.ppgi.ufrj.br/gtlinkedbr/ Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3 1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil 2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland 3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil