DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
HARVEY B. NEWMAN,
MARK H. ELLISMAN AND
JOHN A. ORCUTT
Alunos:
Leybert Haidar
Nelson Machado Junior
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
A e-science de larga escala
depende de uma
cyberinfrastructure cada vez
mais integrada e distribuída
em uma escala global
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Agenda
 Definição de e-science;
 O porquê do investimento em e-science;
 Conseqüências;
 Evidências e Soluções;
 Modelo de infra-estrutura computacional voltado
para as pesquisas em e-science;
 Aplicações e atividades recentes;
 Conclusão
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
“Assim como a pesquisa em diversas frentes
está se tornando cada vez mais dependente
da computação, toda ciência, ao que parece,
está se tornando ciência da computação” –
George Johnson, 2001
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
O que é e-science?
 Definida por The UK Research Councils
como ciência de larga-escala realizada por
meio de colaborações globais distribuídas
habilitadas por redes de trabalho, que
requerem acesso à coleções de dados muito
grandes, a vários recursos de computação
em larga-escala e a visualização de alta
performance.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
O que incentiva o financiamento da e-science?
• Crescente dependência da tecnologia da
informação;
• Benefícios à pesquisa e à sociedade em grande
parte da colaboração permanente que atravessa
distâncias intercontinentais;
• Habilidade de processar, disseminar, e
compartilhar a informação em escalas sem
precedentes.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Pioneiros no financiamento da e-science:
• National Science Foundation (NSF);
• Department of Energy (DOE);
• National Institutes of Health (NIH);
• NASA;
• The High-Energy and Nuclear Physics (HENP)
Community é a mais avançada nos seus esforços
em desenvolver sistemas data-intensive
globalmente conectados habilitados em Grid.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Conseqüências das experiências em e-science

Experiências da HENP utilizando alta-energia
 Experiências em escalas crescentes de energia, junto com
a crescente sensibilidade e complexidade das medidas,
têm aumentado a escala e o custo de detectores e
aceleradores de partículas, juntamente com a dimensão e
dispersão geográfica das colaborações científicas, a saber:
the Compact Muon Solenoid and A Toroidal LHC ApparatuS
(ATLAS), cada uma realizando experiências para the
European European Laboratory for Particle Physics (CERN)
Large Hadron Collider (LHC), programa que envolve 2.000
físicos de 150 instituições de 36 países. A atual geração de
experiências incluem “BaBar” realizada no the Stanford
Linear Accelerator Center (SLAC) e “Dzero” e “the Collider
Detector” realizadas no Fermilab - the Fermi National
Accelerator Laboratory, Batavia, IL.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Conseqüências:
• Essas experiências foram projetadas por
cientistas da HENP na expectativa de que seus
volumes de dados cresçam da ordem de multipetabyte para exabyte (1018 B) dentro dos
próximos 10 a 15 anos;
• Ao mesmo tempo, espera-se que as
correspondentes exigências de velocidade da
rede em cada um dos principais links usados no
campo de pesquisa cresçam da ordem de 10
Gbps para Tbps.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
O que fica evidenciado:
• As necessidades de uma comunidade de
pesquisa globalmente distribuída, dependente
dos instrumentos científicos que coletam
Terabytes de dados diários, é gerenciável
somente através de uma cyberinfrastructrure
distribuída.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Solução
Model Cyberinfrastructure
Dando forma a essa cyberinfrastructure do futuro, os
pesquisadores da HENP estão trabalhando com
cientistas da computação para co-desenvolver
avançadas redes de testes e sistemas middleware em
Grid. A HENP, junto com outras ciências de ensino,
está estendendo e modernizando este modelo.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Model Cyberinfrastructure
• Os experimentos da LHC (Large Hadron
Collider), por exemplo, adotaram a Data Grid
Hierarchy, ou um conjunto estruturado de
computação e facilidades de manipulação de
dados interconectados por redes,
desenvolvidas no California Institute of
Technology
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Model Cyberinfrastructure
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Model Cyberinfrastructure
• Poder usar este conjunto global de sistemas depende
do desenvolvimento de Data Grids, ou depósitos de
dados distribuídos, conectados via redes de alta
velocidade, capazes de gerenciar e dirigir recursos
Tier-N e apoiar o desenvolvimento de software
colaborativo ao redor do mundo;
• Dado o preço/desempenho de rede disponível hoje,
estimativas indicam que as necessidades das redes
científicas mundiais alcançarão 10 Gbps dentro dos
próximos dois a três anos.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
Os dados da HENP aumentarão de petabytes em
2002 a centenas de petabytes em 2007 e a
exabytes (1018 bytes) de 2012 a 2015
Aumento das transações em volume e em tamanho
de dados extraídos
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
É necessário completar transações de extrações de dados
típicas de 1-10 TB e, eventualmente 100 TB de sub-amostras
de depósitos de dados multi-petabyte em poucos minutos,
ao contrário do que em horas para se evitar gargalos
Centenas de requisições por dia ou milhares de requisições
deixadas pendentes durante longos períodos
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
As transações nesta escala correspondem à vazão de dados
de 10 Gbps a 1 Tbps para 10 transações por minuto e até 10
Tbps para transações de 1 minuto
São requeridas redes com larguras de banda muito maiores,
um sistema distribuído bastante flexível e serviços e
data-intensive Grid middleware
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
• A comunidade HENP é a principal dirigente,
arquiteta e co-desenvolvedora de Data Grids
para definir ferramentas e técnicas de
middleware para manipulação e análise dataintensive e também de infra-estrutura de
rede, ferramentas e técnicas para
transmissão de dados fim-a-fim
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
Atividades recentes:
• Em junho de 2003, uma equipe de Caltech/CERN
conseguiu 0.94 Gbps de vazão sustentada com
um único fluxo de IPv6 à distância de 7.000 Km
(Chicago a Genebra).
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
Atividades recentes:
• Em fevereiro de 2003, uma equipe internacional de físicos e
os cientistas de computação transferiram 1 TB de dados
através de 10.037 Km em menos de 1 h de SLAC em
Sunnyvale, CA, ao CERN em Genebra, sustentando uma
taxa única de fluxo do TCP de 2.38 Gbps. Esta vazão é
equivalente à transferência de um CD cheio em 2,3
segundos, 1.565 CDs por hora, 200 filmes estendidos de
DVD em uma hora, ou um DVD em 18 segundos.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
Atividades recentes:
• Em novembro de 2002 na conferência do SC
2002 em Baltimore, Caltech usou o novo
protocolo FAST TCP para conseguir 8.6 Gbps de
vazão sobre um trajeto de 10.000 Km entre
Sunnyvale e Amsterdam, transferindo 22 TB de
dados em seis horas em 10 fluxos de TCP.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Conclusão
A riqueza da informação prometida por estes esforços
pioneiros em pesquisas na e-science, significa desafios novos
na aquisição, no compartilhamento seguro e no controle de
acesso às bases de dados distribuídas, na distribuição
gerenciada, na visualização multidimensional em larga escala,
e na colaboração interdisciplinar através das redes globais em
uma escala sem precedentes na história da ciência.
DATA-INTENSIVE E-SCIENCE
FRONTIER RESEARCH
Conclusão
Uma cyberinfrastructure integrada promete o primeiro
ambiente de sistemas distribuídos que serve a organizações
virtuais em uma escala global;
Estes novos sistemas poderão também conduzir às modalidades
novas de interação entre povos e a informação permanente em suas
vidas diárias. Aprender a fornecer, administrar, e absorver esta
informação em um ambiente permanente e colaborativo afetará
profundamente todos em termos de comércio, comunicações, saúde,
e entretenimento, e não apenas em cientistas e suas experiências.
FIM
Download

data-intensive e-science frontier research