Qualidade de dados na
web
Filipe Fernando Cabral de Melo Souza
Roteiro

Qualidade

Qualidade de dados


Qualidade de dados na web


Critérios da qualidade de dados
Aspectos específicos
Proveniência de dados

Importância da proveniência na qualidade de dados

Modelos de proveniência de dados
Qualidade

Segundo Burgess et al. (2004) quase todo mundo sabe o que é, mas poucos
conseguem definir

Conceito abstrato

Diferentes interpretações em diferentes ocasiões
Principais definições de qualidade na
literatura
JURAN (1990) define qualidade como satisfação do
cliente e ausência de defeitos.
Ou seja, qualidade não se resume a falta de defeitos, qualidade depende também das
necessidades do cliente e da adequação do produto ao uso.
Principais definições de qualidade na
literatura
“Qualidade é tudo aquilo que melhora o produto do
ponto de vista do cliente” (DEMING, 1993).
Então, a percepção que o cliente tem do produto também interfere na qualidade.
Principais definições de qualidade na
literatura
“Qualidade é a conformidade do produto com as
especificações” (CROSBY, 1979).
Isso significa que as necessidades devem ser especificadas, e a qualidade é possível
quando essas especificações são obedecidas.
Principais definições de qualidade na
literatura
“Qualidade é uma característica intrínseca e
multifacetada de um produto. A relevância de cada
faceta pode variar com o contexto e ao longo do
tempo, pois as pessoas podem mudar seus
posicionamentos e atualizar seus referenciais, com
relação a um objeto ou a uma questão. Portanto, a
qualidade não é absoluta e depende da perspectiva
do avaliador” (BELCHIOR, 1992).
Qualidade de dados
O conceito de qualidade de dados indica o quanto as fontes
de dados atendem às demandas de informação das áreas de
negócio. Isso envolve conhecer a qualidade atual de dados,
determinar a qualidade desejada de dados e ajustar a
qualidade atual em função da desejada (FILHO, 2003).
Qualidade de dados

Área de estudo recente que vem crescendo consideravelmente

Conceito multidimensional

Muito importante atualmente

Grande volume de dados

Frequência de atualização da informação

Diversas fontes
Qualidade de dados

É um conceito complexo

Varias definições para expressar este conceito

Não se chegou a um consenso sobre um conjunto de critérios

Os critérios usadas para avaliar qualidade variam com o contexto

Fontes de dados

Necessidade e percepção do usuário

Formato dos dados

Aplicação dos dados

Isso dificulta a definição de um conjunto de características gerais para definir
qualidade de dados e faz com que seja necessário analisar cada caso

Mas ainda é importante conhecer as características gerais
Critérios de qualidade de dados

Primeira etapa na avaliação da qualidade é a seleção dos critérios

Os critérios mais citados na literatura são:

Acurácia

Completude

Consistência

Confiabilidade

Corretude

Relevância

Atualidade
Critérios da qualidade de dados sob a
visão dos principais autores

WAND & WANG (1996) dividem o conjunto de critérios de qualidade em dois
grupos:

Visão interna: confiabilidade, temporalidade, completude, atualidade, consistência
e precisão

Visão externa: relevância, conteúdo, importância, temporalidade, suficiência,
facilidade de uso, utilidade, concisão, clareza, nível de detalhe
Critérios da qualidade de dados sob a
visão dos principais autores

Para ECKERSON (2002), os dados não precisam estar completamente livres de
erros, ele precisa apenas atender aos requisitos do usuário.

Os principais critérios para ele são:

Acurácia

Integridade

Consistência

Completude

Disponibilidade

Acessibilidade

Relevância
Critérios da qualidade de dados sob a
visão dos principais autores

Wang e Strong (1996) definiu uma tabela contendo os critérios de qualidade
de dados segundo os consumidores:
Categoria
Critérios
Intrínseca
Acurácia, objetividade, confiabilidade
e reputação
Acessibilidade
Acessibilidade e segurança
Contextual
Relevância, valor agregado,
temporalidade, completude e
quantidade apropriada
Representacional
Facilidade de interpretação, facilidade
de entendimento, consistência e
concisão
Qualidade de dados na web

Por causa da natureza diferente da web, é importante
analisar com mais cuidado algumas características, pois
elas podem tornar necessário modificações no conjunto
geral de critérios
Aspectos específicos

Grande volume de dados

Facilidade de prove dados

Diversas fontes

Falta de revisão nos dados publicados

Dinâmica de atualização

Disponibilidade dos dados
Proveniência

Termo usado em diversas áreas

Diz respeito a origem ou procedência

Agrega valor e autenticidade ao objeto

Permite compreensão e avaliação com maior precisão a importância do objeto

Tem como principal fundamento recolher e armazenar informações sobre o
objeto
Proveniência de dados
Proveniência de dados é documentação complementar de um
determinado dado que contem a descrição de como, quando,
onde e porque ele foi obtido e quem o obteve.
(BUNEMAN et al, 2000)
Proveniência de dados

Vai muito além da origem do dado

Documentação histórica do dado

Criador do dado

Origem do dado

Objetivo do dado

Processo de criação

Histórico de modificações

Dados de origem

Histórico de movimentação entre bancos de dados
Importância e aplicação da proveniência
de dados

A proveniência é uma métrica de qualidade importante, pois além de se garantir
maior confiança por saber onde e quem produziu o dado, ainda informa como foi o
processo de produção, manutenção e por onde o dado passou.

Fica mais fácil de verificar


Erros nos dados

Contexto da criação do dado

Processo para obter o dado
É uma ferramenta importante

Qualidade de dados

Replicação de dados

Investigação de origem
Modelos de Proveniência de dados

Existem vários modelos

Cada um com objetivos e focos diferentes

Tem como objetivo

Nem sempre dados tem informações históricas vinculadas

Fornecer estrutura pra armazenar e recuperar metadados
Modelos de Proveniência de dados

Exemplos de Modelos de proveniência

Provenance Vocabulary

Provenir Ontology

Open Provenance Model (OPM)
Provenance Vocabulary

Descrito por Hartig e Zhao (2010)

Tem como foco proveniência de dados publicados na web

Leva em consideração o caráter aberto da web

Fornece propriedades armazenar e acessar metadados de dados publicados

Flexível


Núcleo central expansível

Possibilidade de se adaptar a diferentes áreas
Possui os elementos básicos de proveniência

Ator

Processo

Dado

Expresso em forma de grafos

Voltado para rastreamento de dados e na web e avaliação de qualidade desses dados
Provenir Ontology

Proposto por Sahoo e Sheth (2009)

Modelo de proveniência de dados genérico

Tem como objetivos principais

Interoperabilidade entre diferentes sistemas

Adaptação para qualquer aplicação

Flexível

Expresso em forma de grafos
Open Provenance Model (OPM)

Open Source

Resultado de uma série de encontros chamados Provenance Challenge

Voltado para proveniência de qualquer objeto

Tem como objetivo principal

Interoperabilidade entre diferentes sistemas

Definir de forma precisa proveniência

Fornecer representação digital de proveniência

Permitir o acesso a essa representação

Expresso através de grafos

Base para outros modelos

PROV-DM
Considerações finais

Qualidade de dados é um tema recente

Cada vez mais surge a necessidade de obter dados de qualidades para
embasar decisões


Empresa

Academia

Usuários
Não se tem uma definição padronizada ainda


Dificuldade devido a variação de qualidade de acordo com o contexto
Características como a da web devem ser levada em conta na hora de definir
critérios de qualidade
Considerações finais

Proveniência de dados é toda uma documentação histórica sobre o dado

Tem como objetivo


Agregar valor e autenticidade ao dado

Garantir replicabilidade

Rastrear origem

Analise de qualidade de dados
Modelos de proveniência fornecem uma estrutura pra a analise de qualidade
de dados
Referências

Almeida, F. Descrição da Proveniência de Dados para Extração de Conhecimentos
em Sistemas de Informação de Hemoterapia. Tese apresentada ao Programa
Interunidades em Bioinformática. USP, São Paulo, 2012.

Amaral, G. AQUAWARE: Um Ambiente de Suporte à Qualidade de Dados em Data
Warehouse. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2003.

Batini, C.,Scannapieco, M. Data Quality Concepts, Methodologies and Techniques.
New York, Springer, 2006.

Barros, R. Qualidade de Informação na Web: Um Prognóstico Fuzzy Baseado em
Metadados. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2009.

Belchior, A. Controle da Qualidade de Software Financeiro. Dissertação de
Mestrado. UFRJ, Rio de Janeiro, 1992.

Buneman, P., Khanna, S., Tan, W. Data Provenance: Some Basic Issues. In FST TCS
2000: Proceedings of the 20th Conference on Foundations of Software Technology
and Theoretical Computer Science, 2000.
Referências

Burgess, M., Gray, W., Fiddian, N. Quality measures and the information consumer.
International Conference on Information Quality, 2004, MIT. Proceedings. Cambridge: MIT,
2004.

Crosby, P. Quality is free. New York: Mcgraw-Hill, 1979.

Filho, J. Transformando Dados Corporativos em Inteligência Competitiva, 1999. Disponível
em: http://www.crdshop.com.br/files/artigo131.pdf. Ultimo acesso: 23/11/2014.

Hartig, O., Zhao, J. Publishing and consuming provenance metadata on the web of linked
data. Provenance and Annotation of Data and Processes, Springer Berlin Heidelberg, 2010.

Juran, J. Planejando para a qualidade. São Paulo: Pioneira, 1990.

Moreau, L., Groth, P., Miles, S., Vazquez-Salceda, J., Ibbotson, J., Jiang, S., Munroe, S.,
Rana, O., Schereiber, A., Tan, V., Varga, L. The Provenance of eletronic data. Communications
of the ACM 2007, 2007.

NBR ISO 8402: Gestão da qualidade e garantia da qualidade, 1994.

Paula, R. Proveniência de Dados em Workflows de Bioinformática. Dissertação de Mestrado.
UnB, Brasília, 2012.
Referências

Sahoo, S., Sheth, A. Provenir ontology: Towards a framework for escience provenance
management. Microsoft eScience Workshop, Microsoft Research, v. 1, 2009.

Santos, I. Uma proposta de governança de dados baseada em um método de desenvolvimento
de arquitetura empresarial. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2010.

Simmhan, YL., Plate, B., Gannon, D. A Survey of Data Provenance Techniques. Em Technical
Reports TR-618: Computer Science Department; Indiana University, 2005.

Tillman, H. Evaluating Quality on the Net, 2003. Disponível em:
http://www.hopetillman.com/findqual.php. Ultimo acesso: 23/11/2014.

Veregin, H., Lanter, D. Data Quality Enhancement Techniques in Layer-Based Geographic
Information Systems. Computers, Environment and Urban Systems, 1995.

Wand, Y., Wang, R. Data Quality Dimensions in Ontological Foundations. Communications of
the ACM. v. 39, n. 11. November, 1996.

Wang, R., Strong, D. Beyond accuracy: what data quality means to data consumers, Journal
of Management Information Systems, 1996.
Download

Qualidade de dados na web