Qualidade de dados na web Filipe Fernando Cabral de Melo Souza Roteiro Qualidade Qualidade de dados Qualidade de dados na web Critérios da qualidade de dados Aspectos específicos Proveniência de dados Importância da proveniência na qualidade de dados Modelos de proveniência de dados Qualidade Segundo Burgess et al. (2004) quase todo mundo sabe o que é, mas poucos conseguem definir Conceito abstrato Diferentes interpretações em diferentes ocasiões Principais definições de qualidade na literatura JURAN (1990) define qualidade como satisfação do cliente e ausência de defeitos. Ou seja, qualidade não se resume a falta de defeitos, qualidade depende também das necessidades do cliente e da adequação do produto ao uso. Principais definições de qualidade na literatura “Qualidade é tudo aquilo que melhora o produto do ponto de vista do cliente” (DEMING, 1993). Então, a percepção que o cliente tem do produto também interfere na qualidade. Principais definições de qualidade na literatura “Qualidade é a conformidade do produto com as especificações” (CROSBY, 1979). Isso significa que as necessidades devem ser especificadas, e a qualidade é possível quando essas especificações são obedecidas. Principais definições de qualidade na literatura “Qualidade é uma característica intrínseca e multifacetada de um produto. A relevância de cada faceta pode variar com o contexto e ao longo do tempo, pois as pessoas podem mudar seus posicionamentos e atualizar seus referenciais, com relação a um objeto ou a uma questão. Portanto, a qualidade não é absoluta e depende da perspectiva do avaliador” (BELCHIOR, 1992). Qualidade de dados O conceito de qualidade de dados indica o quanto as fontes de dados atendem às demandas de informação das áreas de negócio. Isso envolve conhecer a qualidade atual de dados, determinar a qualidade desejada de dados e ajustar a qualidade atual em função da desejada (FILHO, 2003). Qualidade de dados Área de estudo recente que vem crescendo consideravelmente Conceito multidimensional Muito importante atualmente Grande volume de dados Frequência de atualização da informação Diversas fontes Qualidade de dados É um conceito complexo Varias definições para expressar este conceito Não se chegou a um consenso sobre um conjunto de critérios Os critérios usadas para avaliar qualidade variam com o contexto Fontes de dados Necessidade e percepção do usuário Formato dos dados Aplicação dos dados Isso dificulta a definição de um conjunto de características gerais para definir qualidade de dados e faz com que seja necessário analisar cada caso Mas ainda é importante conhecer as características gerais Critérios de qualidade de dados Primeira etapa na avaliação da qualidade é a seleção dos critérios Os critérios mais citados na literatura são: Acurácia Completude Consistência Confiabilidade Corretude Relevância Atualidade Critérios da qualidade de dados sob a visão dos principais autores WAND & WANG (1996) dividem o conjunto de critérios de qualidade em dois grupos: Visão interna: confiabilidade, temporalidade, completude, atualidade, consistência e precisão Visão externa: relevância, conteúdo, importância, temporalidade, suficiência, facilidade de uso, utilidade, concisão, clareza, nível de detalhe Critérios da qualidade de dados sob a visão dos principais autores Para ECKERSON (2002), os dados não precisam estar completamente livres de erros, ele precisa apenas atender aos requisitos do usuário. Os principais critérios para ele são: Acurácia Integridade Consistência Completude Disponibilidade Acessibilidade Relevância Critérios da qualidade de dados sob a visão dos principais autores Wang e Strong (1996) definiu uma tabela contendo os critérios de qualidade de dados segundo os consumidores: Categoria Critérios Intrínseca Acurácia, objetividade, confiabilidade e reputação Acessibilidade Acessibilidade e segurança Contextual Relevância, valor agregado, temporalidade, completude e quantidade apropriada Representacional Facilidade de interpretação, facilidade de entendimento, consistência e concisão Qualidade de dados na web Por causa da natureza diferente da web, é importante analisar com mais cuidado algumas características, pois elas podem tornar necessário modificações no conjunto geral de critérios Aspectos específicos Grande volume de dados Facilidade de prove dados Diversas fontes Falta de revisão nos dados publicados Dinâmica de atualização Disponibilidade dos dados Proveniência Termo usado em diversas áreas Diz respeito a origem ou procedência Agrega valor e autenticidade ao objeto Permite compreensão e avaliação com maior precisão a importância do objeto Tem como principal fundamento recolher e armazenar informações sobre o objeto Proveniência de dados Proveniência de dados é documentação complementar de um determinado dado que contem a descrição de como, quando, onde e porque ele foi obtido e quem o obteve. (BUNEMAN et al, 2000) Proveniência de dados Vai muito além da origem do dado Documentação histórica do dado Criador do dado Origem do dado Objetivo do dado Processo de criação Histórico de modificações Dados de origem Histórico de movimentação entre bancos de dados Importância e aplicação da proveniência de dados A proveniência é uma métrica de qualidade importante, pois além de se garantir maior confiança por saber onde e quem produziu o dado, ainda informa como foi o processo de produção, manutenção e por onde o dado passou. Fica mais fácil de verificar Erros nos dados Contexto da criação do dado Processo para obter o dado É uma ferramenta importante Qualidade de dados Replicação de dados Investigação de origem Modelos de Proveniência de dados Existem vários modelos Cada um com objetivos e focos diferentes Tem como objetivo Nem sempre dados tem informações históricas vinculadas Fornecer estrutura pra armazenar e recuperar metadados Modelos de Proveniência de dados Exemplos de Modelos de proveniência Provenance Vocabulary Provenir Ontology Open Provenance Model (OPM) Provenance Vocabulary Descrito por Hartig e Zhao (2010) Tem como foco proveniência de dados publicados na web Leva em consideração o caráter aberto da web Fornece propriedades armazenar e acessar metadados de dados publicados Flexível Núcleo central expansível Possibilidade de se adaptar a diferentes áreas Possui os elementos básicos de proveniência Ator Processo Dado Expresso em forma de grafos Voltado para rastreamento de dados e na web e avaliação de qualidade desses dados Provenir Ontology Proposto por Sahoo e Sheth (2009) Modelo de proveniência de dados genérico Tem como objetivos principais Interoperabilidade entre diferentes sistemas Adaptação para qualquer aplicação Flexível Expresso em forma de grafos Open Provenance Model (OPM) Open Source Resultado de uma série de encontros chamados Provenance Challenge Voltado para proveniência de qualquer objeto Tem como objetivo principal Interoperabilidade entre diferentes sistemas Definir de forma precisa proveniência Fornecer representação digital de proveniência Permitir o acesso a essa representação Expresso através de grafos Base para outros modelos PROV-DM Considerações finais Qualidade de dados é um tema recente Cada vez mais surge a necessidade de obter dados de qualidades para embasar decisões Empresa Academia Usuários Não se tem uma definição padronizada ainda Dificuldade devido a variação de qualidade de acordo com o contexto Características como a da web devem ser levada em conta na hora de definir critérios de qualidade Considerações finais Proveniência de dados é toda uma documentação histórica sobre o dado Tem como objetivo Agregar valor e autenticidade ao dado Garantir replicabilidade Rastrear origem Analise de qualidade de dados Modelos de proveniência fornecem uma estrutura pra a analise de qualidade de dados Referências Almeida, F. Descrição da Proveniência de Dados para Extração de Conhecimentos em Sistemas de Informação de Hemoterapia. Tese apresentada ao Programa Interunidades em Bioinformática. USP, São Paulo, 2012. Amaral, G. AQUAWARE: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2003. Batini, C.,Scannapieco, M. Data Quality Concepts, Methodologies and Techniques. New York, Springer, 2006. Barros, R. Qualidade de Informação na Web: Um Prognóstico Fuzzy Baseado em Metadados. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2009. Belchior, A. Controle da Qualidade de Software Financeiro. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 1992. Buneman, P., Khanna, S., Tan, W. Data Provenance: Some Basic Issues. In FST TCS 2000: Proceedings of the 20th Conference on Foundations of Software Technology and Theoretical Computer Science, 2000. Referências Burgess, M., Gray, W., Fiddian, N. Quality measures and the information consumer. International Conference on Information Quality, 2004, MIT. Proceedings. Cambridge: MIT, 2004. Crosby, P. Quality is free. New York: Mcgraw-Hill, 1979. Filho, J. Transformando Dados Corporativos em Inteligência Competitiva, 1999. Disponível em: http://www.crdshop.com.br/files/artigo131.pdf. Ultimo acesso: 23/11/2014. Hartig, O., Zhao, J. Publishing and consuming provenance metadata on the web of linked data. Provenance and Annotation of Data and Processes, Springer Berlin Heidelberg, 2010. Juran, J. Planejando para a qualidade. São Paulo: Pioneira, 1990. Moreau, L., Groth, P., Miles, S., Vazquez-Salceda, J., Ibbotson, J., Jiang, S., Munroe, S., Rana, O., Schereiber, A., Tan, V., Varga, L. The Provenance of eletronic data. Communications of the ACM 2007, 2007. NBR ISO 8402: Gestão da qualidade e garantia da qualidade, 1994. Paula, R. Proveniência de Dados em Workflows de Bioinformática. Dissertação de Mestrado. UnB, Brasília, 2012. Referências Sahoo, S., Sheth, A. Provenir ontology: Towards a framework for escience provenance management. Microsoft eScience Workshop, Microsoft Research, v. 1, 2009. Santos, I. Uma proposta de governança de dados baseada em um método de desenvolvimento de arquitetura empresarial. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2010. Simmhan, YL., Plate, B., Gannon, D. A Survey of Data Provenance Techniques. Em Technical Reports TR-618: Computer Science Department; Indiana University, 2005. Tillman, H. Evaluating Quality on the Net, 2003. Disponível em: http://www.hopetillman.com/findqual.php. Ultimo acesso: 23/11/2014. Veregin, H., Lanter, D. Data Quality Enhancement Techniques in Layer-Based Geographic Information Systems. Computers, Environment and Urban Systems, 1995. Wand, Y., Wang, R. Data Quality Dimensions in Ontological Foundations. Communications of the ACM. v. 39, n. 11. November, 1996. Wang, R., Strong, D. Beyond accuracy: what data quality means to data consumers, Journal of Management Information Systems, 1996.