Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de Redes Daniela Quitete de Campos Vianna 1 Introdução Avanços nas tecnologias de redes Sistemas computacionais cada vez mais velozes Crescimento do conhecimento Obtenção de grandes quantidades de dados Computação em Grid? E-Science? 2 Computação em Grid • Objetivo: tornar a computação de alto desempenho acessível a usuários que não possuem recursos disponíveis localmente. • Desafios: – – – – – – Heterogeneidade; Múltiplos domínios administrativos; Escalabilidade; Natureza dinâmica do ambiente; Compartilhamento de dados e de recursos; Transparência. 3 e-Science • Diversos tipos de pesquisa que envolvem aplicações científicas de grande escala . • Classes de Problemas: – modelagens e simulações sociais, climáticas e de oceanos; – bio-informática; – bio-medicina; – física de alta energia; – entre outros. 4 Integração de Dados • Paradigma Tradicional x Paradigma Atual • Foco – middlewares para permitir que organizações distribuídas acessem e compartilhem dados, redes e outros recursos de uma maneira controlada e segura. 5 Integração de Dados • Dados distribuídos possuem diferentes: – formatos; – qualidade; – mecanismos e políticas de acesso... • É preciso definir soluções e padrões para: – acesso e descoberta de dados; – exploração e análise de dados; – gerenciamento de recursos e segurança. 6 Acesso e Descoberta de Dados • Descoberta de dados: middlewares que examinem metadados; – – – – web services; XML e bancos de dados relacionais; Serviços de acesso a dados e integração em Grids; LDAP (Lightweight Directory Access Protocol). • Mecanismos de acesso – OPeNDAP (Open source project for a Network Data Access Protocol); – SRB (Storage Resource Broker); – DSTP (DataSpace Transfer Protocol); – GridFTP; – OGSA-DAI (OGSA-based Data Access and Integration). 7 Exploração e Análise de Dados • Necessidade de serviços que identifiquem a relevância dos dados obtidos; – estatística; – exploração visual dos dados... • Existência de ferramentas que gravam, organizam e obtêm novos dados a partir de dados já explorados. 8 Gerenciamento de Recursos e Segurança • Acesso seguro a dados distribuídos; • Controle no acesso aos recursos envolvidos na integração dos dados; • Técnicas de replicação e distribuição de dados através da rede; • Identificação da localização de dados mais próxima ao ponto de solicitação. 9 Exemplo 1 (iGrid 2002) • Integração (on the fly) de dados; • Taxas de transferência maiores que 2.4Gbps. • DataSpace Data Web: movimentação de dados através do Atânctico; • Versão paralela do SABUL: transporte de Dados; • DSTP: gerenciamento de chaves, metadados e dados. 10 Sloan Digital Sky Survey (SDSS) • Estudo de imagens digitais - até 2007 terá mapeado ¼ do espaço; • 250 milhões de objetos detectados • 10 TB de imagens • 2 TB catálogos 11 Sloan Digital Sky Survey (SDSS) 12 Gerenciamento de Dados no Globus • Componente que fornecem interfaces de acesso uniformes para vários tipos de dados – GridFTP; – OGSA-DAI; – Metadata Catalog Service (MCS). 13 Gerenciamento de Dados no Globus • Componentes para movimentação transferência de dados e – Globus-url-copy; – Reliable File Transfer (RFT) Service; – UberFTP: cliente GridFTP; – GSI-SCP/SFTP: ferramenta OpenSSH que suporta autenticação no Grid. 14 Gerenciamento de Dados no Globus • Componentes para otimização do acesso aos dados – Replica Location Service (RLS); – NeST; – DataCutter. 15 Conclusão • Avanços nas tecnologias de redes proporcionando o compartilhamento de recursos e dados; • Necessidade de middlewares para integração de dados. 16