An approach for managing and
semantically enriching the publication
of Linked Open Governmental Data
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André
Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina
Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria
Luiza Machado Campos1, Giancarlo Guizzardi3
1Graduate
Program in Informatics (PPGI)
Federal University of Rio de Janeiro (UFRJ) – Brazil
2Digital
Enterprise Research Institute (DERI)
National University of Ireland – Galway – Ireland
3Ontology
and Conceptual Modeling Research Group (NEMO) – Computer Science
Department – Federal University of Espírito Santo (UFES) – Brazil
Agenda
• Motivação e contextualização
• Cenário Atual em Dados Abertos Interligados (LOD)
• Projeto LinkedDataBR
• ETL Workflow
• Tratamento Semântico Incremental
• Estudo de Caso
• Considerações finais
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
2
Motivação e contextualização
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
3
Motivação e contextualização
Estão abertos?
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
4
Motivação e contextualização
RNP
CAPES
CNPq
Uso conjunto
é ainda um desafio!
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
5
Motivação e contextualização
• Interoperabilidade e Integração de dados na Web ainda
requerem considerável esforço
– Mesmo dentro de uma organização!
. Tivemos SGBD por mais de meio século, mas conseguimos a
integração que se pretendia? O que faltou ?
– E agora, na Web:
• Distribuídos, heterogêneos, em grande escala, altamente
visíveis, grande número de diferentes usuários, …
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
6
Linked Open Data (LOD)
• LOD pode ser considerado uma abordagem mais
simplista de uso de tecnologias da Web Semântica
• Baseada em triplas (RDF) para representar os dados de
forma realmente “granular”
– Facilita a interligação
– Acompanhado de um descritor
• Abordagem pay-as-you-go
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
7
Linked Open Data (LOD)
– O que vem a ser Dados Abertos Interligados?
• Utilização ampla de padrões
• Representação de dados em um grão mínimo (triplas RDF)
– Flexibilidade nas ligações entre itens de dados
• Tem a interoperabilidade em sua essência
– RDF: Resource DESCRIPTION Framework
» Criado para interoperar METADADOS!
– Descritores estão na base da proposta
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
8
Linked Open Data (LOD)
– Uma maneira “nova” de publicar e consumir dados!
• O poder das ligações tipadas
• O poder da colaboração
– Consumidores podem ser publicadores também!
• Mais e mais dados sendo gerados e potencialmente
“ligáveis”
– Sensores e Web das Coisas
• Dados e metadados sendo explorados juntos em
novas aplicações
• Consulta E Navegação E Busca!
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
9
Dados publicados como LOD
265 datasets - 32 bilhões de triplas - 42% de dados de governo
Setembro de 2011
Até quando conseguiremos representar esta nuvem?
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
10
Cenário Atual - Internacional
• Muitas iniciativas de governo
– Governo Britânico, Estados Unidos, Espanha, etc.
– Diferentes abordagens
– Entrando em fase mais madura
• Muitas iniciativas do setor privado
– BBC, New York Times, ...
• Muitas iniciativas em e-Ciência
– Dados genômicos, dados de meio-ambiente,...
• Forte envolvimento da área acadêmica
– Consórcio W3C, Sir Tim Berners Lee (MIT)
– DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha)
– Projeto LOD2
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
11
Cenário Atual - Internacional
• Grande diversidade de ferramentas
– Ainda sendo experimentadas
– Foco em atividades específicas de publicação, consumo e colaboração
– Ainda razoável esforço requerido para seu uso conjunto
• Abordagem liberal
– Prioridade para “expor” os dados e depois ir complementando sua
descrição
– Uso de ontologias ainda incipiente
– Processo de publicação muito artesanal
– Qualidade do dado publicado ainda pouco rastreável
• Entrando em fase de amadurecimento
– Maior preocupação com semântica e descritores
– Frameworks para integração de ferramentas sendo discutidos
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
12
Cenário Atual - Nacional
• Inicialmente evoluindo sobre pesquisas e aplicações da Web
Semântica e Ontologias
• PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, …
• Interesse crescente no Governo:
–
–
–
–
Inicialmente uma certa confusão com dados abertos
Acordo assinado entre o Brasil, EUA e mais 6 países
Tema do CONSEGI deste ano
Ministério do Planejamento :
• Cria o INDA – Infraestrutura Nacional de Dados Abertos
• Baseada em LOD e uso de ontologias
– Apoio do W3C Brasil e CGI/BR
• Cria o GT Ontologias
– Iniciativas experimentais em LOD
• Experimentos pontuais -> simples conversão de dados e interfaces atraentes
• Tecnologia ainda pouco conhecida
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
13
Linked
LinkedDataBR
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Nossa Abordagem
Linked
• Alguns domínios requerem uma abordagem sistemática
que garanta:
– Maior controle do processo
– Manutenção da consistência dos dados sendo publicados
• Este é o caso de:
– Dados Governamentais
– Dados de e-Ciência
• Necessário adotar uma abordagem de “gestão de dados”
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
15
LinkedDataBR - FOCO
Linked
• Foco
– no apoio ao processo de publicação
– na qualidade do dado
• Característica da solução:
– Plataforma integrada e flexível
– Maximização no reuso de ferramentas existentes
(software livre)
– Explorar:
• Gerência de metadados
• Apoio ao processo com ferramenta de workflow (ETL)
• Tratamento Semântico
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
LinkedDataBR - FOCO
Linked
LinkedDataBR
Feed/Expose
Treatment Process
LinkedDataCloud
Governmental and Non
Governmental Entities
Universities and Research
Institutes
Data Producers
Consumers
Requests
Provenance
Vocabulary
Ontology
Repository
Triples
URI
Governmental and Non
Governmental Entities
Responses
Linked Data
Universities and Research
Institutes
Queries
Citizen and Private
Companies
Consume/Explore
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
17
Projeto LinkedDataBR
Linked
• Objetivos
– Construção de uma infra-estrutura inicial de suporte à
publicação e criação de repositórios de dados abertos
utilizando os padrões de Linked Data
E ainda:
– Criação de diretrizes associadas ao processo de publicação
– Criação de grupo de interesse e mobilização para apoio e
estímulo à iniciativa de Linked Open Data no Brasil e sua
inserção no cenário mundial de dados abertos interligados.
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
18
Projeto LinkedDataBR
Linked
• Arquitetura
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
19
ETL Workflow (Captura de Proveniência)
Publishing Workflow Process
Extract
Transform
Load
Stage
Triplify
Linking
Workflow Implementation Design
Triples
Raw Government
Data
Prospective Provenance Data
Workflow Implementation Execution
Provenance
Triples
Linked Open
Government Data
Retrospective Provenance Data
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
20
Publicação de Dados Abertos Ligados
ABORDAGENS PARA O
ENRIQUECIMENTO SEMÂNTICO
21
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
21
Ausência de preocupação com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
22
Alguma preocupação com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
23
Preocupação mediana com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
24
Muita preocupação com a semântica
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
25
Linked
Exemplo de Cenário de Publicação de
Dados Interligados
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
26
Cenário de Aplicação C&T
Cenário de Financiamentos de Projetos de Pesquisa
Projetos de
Pesquisa
Currículos de
Pesquisadores
Lattes
tem
participação
de
tem
participação
de
RNP
tem
instituição
Instituições de
Pesquisa
eMec
FNDCT
Grupos de
Pesquisa - CNPq
GP-CNPq
27
Exemplo do Processo de Publicação
Tratamento
Triplificação
Ligação
Tratamento
Triplificação
Ligação
Resultado
swrc:Project
Projetos
RNP
Grafos interligados
WGFase
LODBR
temFase
LODBR_Ph1
Participante temParticipacaoDe
CNPq CV Lattes
“Maria Luiza
Machado Campos”
“UFRJ”
2009
Pesquisador
Instituticao
GrupoTrabalho
MLMC
temNome
“LinkedDataBR”
temNome
“Universidade
Federal do Rio
do Janeiro”
temNome
temSigla
“UFRJ”
“Maria Luiza
M. Campos”
swrc:University
eMec Instituições
UFRJ
temNome
MLMC
MLMC0232
temTitulo
Publicacao
swrc:Publication
swrc:ResearchGroup
temLocalOferta
RioJ
MLMC
Grupos de Pesquisa CNPq
temNome
temParticipante
GRECO
temArea
Predominante
temNome
temNome
“UFRJ”
swrc:Person
enderecoProfissional
temPublicacao
temAno
“CrossMDA: a Modeldriven Approach for
Aspect Management”
UFRJ
temInsituicao
“Maria Luiza
M.Campos”
“Grupo
Engenharia do
Conhecimento”
“Knowledge Engineering”
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
temSigla
“Universidade
Federal do Rio
do Janeiro”
Resultado
...
<rdf:Description rdf:about="http://www.rnp.br/resource/LDBR_Ph1">
<rdf:type rdf:resource="http://www.rnp.br/ontology/WGPhase"/>
<rnp:hasParticipationOf rdf:resource="http://www.rnp.br/resource/MLMC"/>
</rdf:Description>
...
<rdf:Description rdf:about="http://www.rnp.br/resource/MLMC">
<rdf:type rdf:resource="http://www.rnp.br/ontology/Participant"/>
<rdf:type rdf:resource="http://swrc.ontoware.org/ontology/Person"/>
<rnp:hasFullName> Maria Luiza Machado Campos </rnp:hasFullName>
<owl:sameAs rdf:resource="http://lattes.cnpq.br/resource/MLMC"/>
<owl:sameAs rdf:resource="http://www.cnpq.br/resource/MLMC"/>
</rdf:Description>
...
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
33
Considerações Finais
• Iniciativas nacionais e internacionais pela transparência das
ações governamentais e participação do cidadão.
• Dado Aberto possui um papel fundamental, mas o valor real
do dado é revelado se os dados são explorados em conjunto.
• LOD é uma abordagem de interoperabilidade e integração
• Em LOGD é essencial considerar algumas garantias de
qualidade e estratégias de interoperabilidade
• Plataforma do LinkedDataBR e a abordagem de
enriquecimento semântico incremental
• Concebida para apoiar os publicadores e gestores de dados de
governo
• O potencial da colaboração do cidadão (wisdom of the
crowds) desempenhará um papel importante no
mapeamento e ligação.
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
34
An approach for managing and
semantically enriching the publication
of Linked Open Governmental Data
http://greco.ppgi.ufrj.br/gtlinkedbr/
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André
Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina
Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria
Luiza Machado Campos1, Giancarlo Guizzardi3
1Graduate
Program in Informatics (PPGI)
Federal University of Rio de Janeiro (UFRJ) – Brazil
2Digital
Enterprise Research Institute (DERI)
National University of Ireland – Galway – Ireland
3Ontology
and Conceptual Modeling Research Group (NEMO) – Computer Science
Department – Federal University of Espírito Santo (UFES) – Brazil
Download

Apresentação