Qualidade dos dados na Internet
Integração de Dados e Warehousing
Maio/2009
Felype Santiago
Agenda
•
•
•
•
Qualidade dos dados
Proveniência dos dados
Confiabilidade e segurança na Web
Privacidade na Web
Qualidade dos dados
• Definições
▫ “A qualidade dos dados refere-se ao grau de
excelência apresentado pelo dado em relação ao
retrato dos fenômenos atuais”
GIS Glossary
▫ “O estado de completude, validade, consistência,
atualidade e precisão que torna um dado
apropriado para um uso específico”
Government of British Columbia
Qualidade das informações publicadas
• Problemas reconhecidos com qualidade dos
dados
• Checklists e frameworks propostos para avaliar a
qualidade das informações publicadas na
Internet
Critérios de avaliação
• Hawkins (1999)
▫
▫
▫
▫
▫
▫
▫
▫
▫
▫
▫
▫
▫
▫
Atualização
Propósito
Autoria/Fonte
Escopo
Exatidão/Relevância
Desenho/Formatação
Autoridade
Unicidade/Estabilidade
Estrutura/Indexação
Revisão/Classificação
Qualidade de escrita
Qualidade dos dados
Critério de seleção
Links de/para outras
fontes
• Alexander e Tate (1999)
–
–
–
–
–
Autoridade
Precisão
Atualidade
Objetividade
Cobertura
Dimensões da qualidade dos dados
• A qualidade dos dados é um conceito
multidimensional
• Huh, Keller, Redman e Watkins (1990)
definiram quatro dimensões da qualidade dos
dados:
▫
▫
▫
▫
Precisão
Completude
Consistência
Atualidade
Wand e Wang (1996)
• Qualidade dos dados como uma tarefa
independente
• Quatro dimensões intrínsecas:
▫
▫
▫
▫
Completude
Falta de ambigüidade
Significância
Corretude
Observação empírica
• Zmud (1978), Madnick e Wang (1992)
▫
▫
▫
▫
Qualidade da informação
Relevância da informação
Qualidade do formato
Qualidade do significado
• Componentes da qualidade dos dados
▫ Completude, precisão, adequação e consistência
Proveniência dos dados
• Qual a origem dos dados?
▫ Cópias de cópias
▫ Edições de conteúdo
• O quão confiáveis e atuais eles são?
▫ Fontes não confiáveis
▫ Dados desatualizados
Proveniência dos dados - Definição
A proveniência de um dado é a descrição das
origens dele e do processo pelo qual ele foi
produzido, o que auxilia a avaliação da qualidade,
da validade e de quão recente é a informação
(BUNEMAN et al.,2001)
Taxonomia das técnicas de
proveniência
• Diferentes abordagens para domínios
individuais
• Aplicações da proveniência dos dados:
▫
▫
▫
▫
Qualidade dos dados
Investigação do rastro
Receitas de replicação
Atribuição
Qualidade dos dados
• A proveniência dos dados permite avaliar a
qualidade deles para uma aplicação
• Erros introduzidos por defeitos nos dados
tendem a inflar quando propagados
• O nível de detalhe da proveniência determina
com que grau a qualidade dos dados pode ser
estimada
• Com um certificado do pedigree do dado, é
possível avaliá-lo baseado nas métricas de
qualidade
Investigação do rastro
• A proveniência como um meio de realizar a
auditoria dos dados e saber o processo pelo qual
ele foi produzido
• Por meio de backtrack para localizar a fonte dos
dados ou processar as causas de erros
encontrados e aplicar correções relevantes
Receitas de replicação
• Informações de proveniência incluem os passos
utilizados para derivar um conjunto de dados e
podem ser tidos como uma receita para criação
desses dados
• Dados detalhados sobre operações, fontes de
dados e parâmetros tornam possível repetir a
derivação
Atribuição
• O pedigree do dado pode ajudar a verificar a
propriedade de uma fonte de dados
• Usuários podem procurar a árvore de variação
para ver os criadores de uma fonte de dados
• Criadores podem ver na cadeia da linhagem
quem está utilizando os dados criados
• Também pode ser utilizado como um meio de
atribuição de responsabilidade em casos e erros
Proveniência na Web
• A Internet mudou completamente a forma como
os dados circulam
▫ Documentos em folhas de papel -> Documentos
online em bases de dados
Transformação Papel -> Web
• Um documento em papel, em essência, é
imodificável
▫ Documentos on-line podem ser (e freqüentemente
são) freqüentemente atualizados
• Documentos online freqüentemente estão em
bases de dados, ou seja, têm uma estrutura
explícita
• Documentos on-line tipicamente contêm dados
extraídos de outros documentos/bases de dados
Qualidade na Web
• Processos de revisão de conteúdo são
freqüentemente ausentes
• Dados desatualizados e de baixa qualidade
podem causar danos ao mundo dos negócios
• Riscos com a falta de qualidade das informações
sobre saúde orientadas para o consumidor
publicadas na Web
Segurança
• A segurança de sistemas de informação se refere
ao fato de que as metas de proteção são
alcançadas mesmo com ataques inteligentes
• Informação são seguras se
▫ Não podem ser interceptadas
▫ Se interceptadas, não podem ser entendidas
▫ Não podem ser alteradas ou falsificadas
Segurança
• Alguns objetivos da proteção
▫
▫
▫
▫
Confidencialidade
Integridade
Disponibilidade
Responsabilidade
Encriptação
• Os algoritmos de encriptação disponíveis hoje
serão bons o suficiente por vários anos
• Porém, hashes fracos como o MD5 e chaves
curtas devem ser evitados
• Embora pareça irreal hoje quebrar uma chave
com facilidade, isso pode se tornar fácil em
poucos anos
Protocolos de criptografia
• TLS - Transport Layer Security
• SSL - Secure Sockets Layer
• Provêem comunicação segura para SMTP, HTTP
e outros tipos de transferência de dados
• Ambos são basicamente o mesmo
• Pequenas diferenças no TLS – sucessor do SSL
Objetivos do TLS em ordem de
prioridade
•
•
•
•
Segurança com criptografia
Interoperabilidade
Extensibilidade
Eficiência relativa
TLS - Transport Layer Security
• Finalidade: Garantir a privacidade e a
integridade dos dados em uma comunicação
entre duas aplicações
• Composto de duas camadas:
▫ Protocolo de registro (TLS Record Protocol)
▫ Protocolos handshaking (TLS Handshaking
Protocols)
Arquitetura do TLS
Processo de estabelecimento de uma
conexão TLS
Resumo de uma sessão já negociada
Confiabilidade
• Crença no comportamento de uma das partes
envolvidas para algum propósito
• Está intimamente ligado a natureza humana
• Algo é confiável se
▫
▫
▫
▫
Não pode ser identificado de forma ambígua
Opera exatamente como projetado ou esperado
Não faz nada que não foi projetado para fazer
Opera sem interrupção
Segurança e confiabilidade na Web
• Crescimento rápido da popularidade do
comércio eletrônico
• Uso online de informações de valor
• Crescimento de ataques e exploração de brechas
em mecanismos de segurança
• A falta de confiança no comércio eletrônico
ainda é o maior empecilho ao seu crescimento
Mecanismos de segurança na Web
• O modelo de segurança utilizado hoje em
browsers, dispositivos móveis etc., em essência,
é o mesmo de 10 anos atrás
• Baseado em criptografia de chave pública e
assinatura confiável e uma implementação dos
protocolos SSL e TLS
Privacidade dos dados - Definição
• É a relação entre a coleta e divulgação de dados,
tecnologias e as questões jurídicas e políticas em
torno deles
• Controle da disponibilidade de informações
Privacidade dos dados
• A capacidade de controlar que informações
podem ser reveladas sobre alguém na Internet, e
de controlar quem pode acessar informações
• Data Privacy Day
▫ Estados Unidos, Canadá e 27 países europeus
• “Privacy is dead - get over it” Steve Rambam
(investigador particular especializado em casos
de privacidade na Web
Privacidade em redes sociais
• Facebook
▫
▫
▫
▫
Bloquear participantes
Bloquear conteúdo de profile
Bloquear fotos e vídeos
Escolher amigos
• Funcionalidades semelhantes no E-harmony, no
MySpace, no Orkut etc.
Privacidade na navegação
Cookies (1/2)
• Dados trocados entre navegador e servidor,
colocando em arquivos no computador do
usuário dados criados no computador do
visitante
• Mantém persistência entre sessões HTTP
• Bastante utilizado por sites de comércio
eletrônico
Cookies (2/2)
• Pode conter informações confidenciais do usuário
• Somente o site que originalmente distribuiu um
cookie pode recuperá-lo, retornando apenas
informações já cedidas ao site
• Na prática, programadores podem contornar isso
• Uso de cross-site scripting ou outras técnicas
para roubar informações de um usuário
Ameaças legais
• Utilização de tecnologias projetadas para
rastrear e monitorar informações de internautas
por agências do governo
• Medidas necessárias para manter a lei
• Defensores da privacidade e civis libertários X
Agências do governo
Exemplos específicos
• União Européia adota plano que permite a polícia
acessar conteúdo pessoal sem um mandado
(Janeiro/2009)
• FBI lança software (Magic Lantern), cavalo de
tróia que registra todas as ações do usuário
(Novembro/2001)
Google: “You can trust us, really”
• Processos automatizados que não têm
intervenção humana
• Apenas alguns Googlers têm acesso a
informações confidenciais
Conclusão
• Sem a proveniência de um dado, não é possível a
avaliação de sua qualidade, validade e atualidade
• A Web oferece algumas ameaças ao usuário,
porém já há métodos de proteção eficientes que
podem aumentar a segurança do usuário
Referências
• http://findarticles.com/p/articles/mi_qa5495/is
_200210/ai_n21323493/?tag=content;col1
• http://news.cnet.com/8301-10784_3-98908477.html
• http://wiki.uni.lu/MsCS/Security+and+Trust.ht
ml
• http://www.csiro.au/resources/Security-AndTrust.html
• http://en.wikipedia.org/wiki/Data_quality
• http://en.wikipedia.org/wiki/Internet_privacy
• http://www.gta.ufrj.br/grad/06_1/ssl/func_tls.ht
m
• http://www.cin.ufpe.br/~fsf2/dw/
Download

GIS Glossary