Qualidade dos dados na Internet Integração de Dados e Warehousing Maio/2009 Felype Santiago Agenda • • • • Qualidade dos dados Proveniência dos dados Confiabilidade e segurança na Web Privacidade na Web Qualidade dos dados • Definições ▫ “A qualidade dos dados refere-se ao grau de excelência apresentado pelo dado em relação ao retrato dos fenômenos atuais” GIS Glossary ▫ “O estado de completude, validade, consistência, atualidade e precisão que torna um dado apropriado para um uso específico” Government of British Columbia Qualidade das informações publicadas • Problemas reconhecidos com qualidade dos dados • Checklists e frameworks propostos para avaliar a qualidade das informações publicadas na Internet Critérios de avaliação • Hawkins (1999) ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ ▫ Atualização Propósito Autoria/Fonte Escopo Exatidão/Relevância Desenho/Formatação Autoridade Unicidade/Estabilidade Estrutura/Indexação Revisão/Classificação Qualidade de escrita Qualidade dos dados Critério de seleção Links de/para outras fontes • Alexander e Tate (1999) – – – – – Autoridade Precisão Atualidade Objetividade Cobertura Dimensões da qualidade dos dados • A qualidade dos dados é um conceito multidimensional • Huh, Keller, Redman e Watkins (1990) definiram quatro dimensões da qualidade dos dados: ▫ ▫ ▫ ▫ Precisão Completude Consistência Atualidade Wand e Wang (1996) • Qualidade dos dados como uma tarefa independente • Quatro dimensões intrínsecas: ▫ ▫ ▫ ▫ Completude Falta de ambigüidade Significância Corretude Observação empírica • Zmud (1978), Madnick e Wang (1992) ▫ ▫ ▫ ▫ Qualidade da informação Relevância da informação Qualidade do formato Qualidade do significado • Componentes da qualidade dos dados ▫ Completude, precisão, adequação e consistência Proveniência dos dados • Qual a origem dos dados? ▫ Cópias de cópias ▫ Edições de conteúdo • O quão confiáveis e atuais eles são? ▫ Fontes não confiáveis ▫ Dados desatualizados Proveniência dos dados - Definição A proveniência de um dado é a descrição das origens dele e do processo pelo qual ele foi produzido, o que auxilia a avaliação da qualidade, da validade e de quão recente é a informação (BUNEMAN et al.,2001) Taxonomia das técnicas de proveniência • Diferentes abordagens para domínios individuais • Aplicações da proveniência dos dados: ▫ ▫ ▫ ▫ Qualidade dos dados Investigação do rastro Receitas de replicação Atribuição Qualidade dos dados • A proveniência dos dados permite avaliar a qualidade deles para uma aplicação • Erros introduzidos por defeitos nos dados tendem a inflar quando propagados • O nível de detalhe da proveniência determina com que grau a qualidade dos dados pode ser estimada • Com um certificado do pedigree do dado, é possível avaliá-lo baseado nas métricas de qualidade Investigação do rastro • A proveniência como um meio de realizar a auditoria dos dados e saber o processo pelo qual ele foi produzido • Por meio de backtrack para localizar a fonte dos dados ou processar as causas de erros encontrados e aplicar correções relevantes Receitas de replicação • Informações de proveniência incluem os passos utilizados para derivar um conjunto de dados e podem ser tidos como uma receita para criação desses dados • Dados detalhados sobre operações, fontes de dados e parâmetros tornam possível repetir a derivação Atribuição • O pedigree do dado pode ajudar a verificar a propriedade de uma fonte de dados • Usuários podem procurar a árvore de variação para ver os criadores de uma fonte de dados • Criadores podem ver na cadeia da linhagem quem está utilizando os dados criados • Também pode ser utilizado como um meio de atribuição de responsabilidade em casos e erros Proveniência na Web • A Internet mudou completamente a forma como os dados circulam ▫ Documentos em folhas de papel -> Documentos online em bases de dados Transformação Papel -> Web • Um documento em papel, em essência, é imodificável ▫ Documentos on-line podem ser (e freqüentemente são) freqüentemente atualizados • Documentos online freqüentemente estão em bases de dados, ou seja, têm uma estrutura explícita • Documentos on-line tipicamente contêm dados extraídos de outros documentos/bases de dados Qualidade na Web • Processos de revisão de conteúdo são freqüentemente ausentes • Dados desatualizados e de baixa qualidade podem causar danos ao mundo dos negócios • Riscos com a falta de qualidade das informações sobre saúde orientadas para o consumidor publicadas na Web Segurança • A segurança de sistemas de informação se refere ao fato de que as metas de proteção são alcançadas mesmo com ataques inteligentes • Informação são seguras se ▫ Não podem ser interceptadas ▫ Se interceptadas, não podem ser entendidas ▫ Não podem ser alteradas ou falsificadas Segurança • Alguns objetivos da proteção ▫ ▫ ▫ ▫ Confidencialidade Integridade Disponibilidade Responsabilidade Encriptação • Os algoritmos de encriptação disponíveis hoje serão bons o suficiente por vários anos • Porém, hashes fracos como o MD5 e chaves curtas devem ser evitados • Embora pareça irreal hoje quebrar uma chave com facilidade, isso pode se tornar fácil em poucos anos Protocolos de criptografia • TLS - Transport Layer Security • SSL - Secure Sockets Layer • Provêem comunicação segura para SMTP, HTTP e outros tipos de transferência de dados • Ambos são basicamente o mesmo • Pequenas diferenças no TLS – sucessor do SSL Objetivos do TLS em ordem de prioridade • • • • Segurança com criptografia Interoperabilidade Extensibilidade Eficiência relativa TLS - Transport Layer Security • Finalidade: Garantir a privacidade e a integridade dos dados em uma comunicação entre duas aplicações • Composto de duas camadas: ▫ Protocolo de registro (TLS Record Protocol) ▫ Protocolos handshaking (TLS Handshaking Protocols) Arquitetura do TLS Processo de estabelecimento de uma conexão TLS Resumo de uma sessão já negociada Confiabilidade • Crença no comportamento de uma das partes envolvidas para algum propósito • Está intimamente ligado a natureza humana • Algo é confiável se ▫ ▫ ▫ ▫ Não pode ser identificado de forma ambígua Opera exatamente como projetado ou esperado Não faz nada que não foi projetado para fazer Opera sem interrupção Segurança e confiabilidade na Web • Crescimento rápido da popularidade do comércio eletrônico • Uso online de informações de valor • Crescimento de ataques e exploração de brechas em mecanismos de segurança • A falta de confiança no comércio eletrônico ainda é o maior empecilho ao seu crescimento Mecanismos de segurança na Web • O modelo de segurança utilizado hoje em browsers, dispositivos móveis etc., em essência, é o mesmo de 10 anos atrás • Baseado em criptografia de chave pública e assinatura confiável e uma implementação dos protocolos SSL e TLS Privacidade dos dados - Definição • É a relação entre a coleta e divulgação de dados, tecnologias e as questões jurídicas e políticas em torno deles • Controle da disponibilidade de informações Privacidade dos dados • A capacidade de controlar que informações podem ser reveladas sobre alguém na Internet, e de controlar quem pode acessar informações • Data Privacy Day ▫ Estados Unidos, Canadá e 27 países europeus • “Privacy is dead - get over it” Steve Rambam (investigador particular especializado em casos de privacidade na Web Privacidade em redes sociais • Facebook ▫ ▫ ▫ ▫ Bloquear participantes Bloquear conteúdo de profile Bloquear fotos e vídeos Escolher amigos • Funcionalidades semelhantes no E-harmony, no MySpace, no Orkut etc. Privacidade na navegação Cookies (1/2) • Dados trocados entre navegador e servidor, colocando em arquivos no computador do usuário dados criados no computador do visitante • Mantém persistência entre sessões HTTP • Bastante utilizado por sites de comércio eletrônico Cookies (2/2) • Pode conter informações confidenciais do usuário • Somente o site que originalmente distribuiu um cookie pode recuperá-lo, retornando apenas informações já cedidas ao site • Na prática, programadores podem contornar isso • Uso de cross-site scripting ou outras técnicas para roubar informações de um usuário Ameaças legais • Utilização de tecnologias projetadas para rastrear e monitorar informações de internautas por agências do governo • Medidas necessárias para manter a lei • Defensores da privacidade e civis libertários X Agências do governo Exemplos específicos • União Européia adota plano que permite a polícia acessar conteúdo pessoal sem um mandado (Janeiro/2009) • FBI lança software (Magic Lantern), cavalo de tróia que registra todas as ações do usuário (Novembro/2001) Google: “You can trust us, really” • Processos automatizados que não têm intervenção humana • Apenas alguns Googlers têm acesso a informações confidenciais Conclusão • Sem a proveniência de um dado, não é possível a avaliação de sua qualidade, validade e atualidade • A Web oferece algumas ameaças ao usuário, porém já há métodos de proteção eficientes que podem aumentar a segurança do usuário Referências • http://findarticles.com/p/articles/mi_qa5495/is _200210/ai_n21323493/?tag=content;col1 • http://news.cnet.com/8301-10784_3-98908477.html • http://wiki.uni.lu/MsCS/Security+and+Trust.ht ml • http://www.csiro.au/resources/Security-AndTrust.html • http://en.wikipedia.org/wiki/Data_quality • http://en.wikipedia.org/wiki/Internet_privacy • http://www.gta.ufrj.br/grad/06_1/ssl/func_tls.ht m • http://www.cin.ufpe.br/~fsf2/dw/