Data Integration in a
Bandwidth-Rich World
Ian Foster and Robert L. Grossman
Universidade Federal Fluminense
Doutorado em Computação – Engenharia de Redes
Daniela Quitete de Campos Vianna
1
Introdução
Avanços nas tecnologias de redes
Sistemas computacionais cada vez mais velozes
Crescimento do conhecimento
Obtenção de grandes quantidades de dados
Computação em Grid?
E-Science?
2
Computação em Grid
• Objetivo: tornar a computação de alto
desempenho acessível a usuários que não
possuem recursos disponíveis localmente.
• Desafios:
–
–
–
–
–
–
Heterogeneidade;
Múltiplos domínios administrativos;
Escalabilidade;
Natureza dinâmica do ambiente;
Compartilhamento de dados e de recursos;
Transparência.
3
e-Science
• Diversos tipos de pesquisa que envolvem
aplicações científicas de grande escala .
• Classes de Problemas:
– modelagens e simulações sociais, climáticas e de
oceanos;
– bio-informática;
– bio-medicina;
– física de alta energia;
– entre outros.
4
Integração de Dados
• Paradigma Tradicional x Paradigma Atual
• Foco
– middlewares para permitir que organizações
distribuídas acessem e compartilhem dados,
redes e outros recursos de uma maneira
controlada e segura.
5
Integração de Dados
• Dados distribuídos possuem diferentes:
– formatos;
– qualidade;
– mecanismos e políticas de acesso...
• É preciso definir soluções e padrões para:
– acesso e descoberta de dados;
– exploração e análise de dados;
– gerenciamento de recursos e segurança.
6
Acesso e Descoberta de Dados
• Descoberta de dados: middlewares que examinem
metadados;
–
–
–
–
web services;
XML e bancos de dados relacionais;
Serviços de acesso a dados e integração em Grids;
LDAP (Lightweight Directory Access Protocol).
• Mecanismos de acesso
– OPeNDAP (Open source project for a Network Data Access
Protocol);
– SRB (Storage Resource Broker);
– DSTP (DataSpace Transfer Protocol);
– GridFTP;
– OGSA-DAI (OGSA-based Data Access and Integration).
7
Exploração e Análise de Dados
• Necessidade de serviços que identifiquem
a relevância dos dados obtidos;
– estatística;
– exploração visual dos dados...
• Existência de ferramentas que gravam,
organizam e obtêm novos dados a partir
de dados já explorados.
8
Gerenciamento de Recursos e Segurança
• Acesso seguro a dados distribuídos;
• Controle no acesso aos recursos
envolvidos na integração dos dados;
• Técnicas de replicação e distribuição de
dados através da rede;
• Identificação da localização de dados
mais próxima ao ponto de solicitação.
9
Exemplo 1 (iGrid 2002)
• Integração (on the fly)
de dados;
• Taxas de transferência
maiores que 2.4Gbps.
• DataSpace Data Web:
movimentação de dados
através do Atânctico;
• Versão paralela do
SABUL: transporte de
Dados;
• DSTP: gerenciamento
de chaves, metadados e
dados.
10
Sloan Digital Sky Survey (SDSS)
• Estudo de imagens
digitais - até 2007
terá mapeado ¼ do
espaço;
• 250 milhões de
objetos detectados
• 10 TB de imagens
• 2 TB catálogos
11
Sloan Digital Sky Survey (SDSS)
12
Gerenciamento de Dados no Globus
• Componente que fornecem interfaces de
acesso uniformes para vários tipos de
dados
– GridFTP;
– OGSA-DAI;
– Metadata Catalog Service (MCS).
13
Gerenciamento de Dados no Globus
• Componentes para movimentação
transferência de dados
e
– Globus-url-copy;
– Reliable File Transfer (RFT) Service;
– UberFTP: cliente GridFTP;
– GSI-SCP/SFTP: ferramenta OpenSSH que
suporta autenticação no Grid.
14
Gerenciamento de Dados no Globus
• Componentes para otimização do acesso
aos dados
– Replica Location Service (RLS);
– NeST;
– DataCutter.
15
Conclusão
• Avanços nas tecnologias de redes
proporcionando o compartilhamento de
recursos e dados;
• Necessidade de middlewares para
integração de dados.
16
Download

Slide 1 - Instituto de Computação - UFF