DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH A e-science de larga escala depende de uma cyberinfrastructure cada vez mais integrada e distribuída em uma escala global DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Agenda Definição de e-science; O porquê do investimento em e-science; Conseqüências; Evidências e Soluções; Modelo de infra-estrutura computacional voltado para as pesquisas em e-science; Aplicações e atividades recentes; Conclusão DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH “Assim como a pesquisa em diversas frentes está se tornando cada vez mais dependente da computação, toda ciência, ao que parece, está se tornando ciência da computação” – George Johnson, 2001 DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH O que é e-science? Definida por The UK Research Councils como ciência de larga-escala realizada por meio de colaborações globais distribuídas habilitadas por redes de trabalho, que requerem acesso à coleções de dados muito grandes, a vários recursos de computação em larga-escala e a visualização de alta performance. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH O que incentiva o financiamento da e-science? • Crescente dependência da tecnologia da informação; • Benefícios à pesquisa e à sociedade em grande parte da colaboração permanente que atravessa distâncias intercontinentais; • Habilidade de processar, disseminar, e compartilhar a informação em escalas sem precedentes. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Pioneiros no financiamento da e-science: • National Science Foundation (NSF); • Department of Energy (DOE); • National Institutes of Health (NIH); • NASA; • The High-Energy and Nuclear Physics (HENP) Community é a mais avançada nos seus esforços em desenvolver sistemas data-intensive globalmente conectados habilitados em Grid. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Conseqüências das experiências em e-science Experiências da HENP utilizando alta-energia Experiências em escalas crescentes de energia, junto com a crescente sensibilidade e complexidade das medidas, têm aumentado a escala e o custo de detectores e aceleradores de partículas, juntamente com a dimensão e dispersão geográfica das colaborações científicas, a saber: the Compact Muon Solenoid and A Toroidal LHC ApparatuS (ATLAS), cada uma realizando experiências para the European European Laboratory for Particle Physics (CERN) Large Hadron Collider (LHC), programa que envolve 2.000 físicos de 150 instituições de 36 países. A atual geração de experiências incluem “BaBar” realizada no the Stanford Linear Accelerator Center (SLAC) e “Dzero” e “the Collider Detector” realizadas no Fermilab - the Fermi National Accelerator Laboratory, Batavia, IL. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Conseqüências: • Essas experiências foram projetadas por cientistas da HENP na expectativa de que seus volumes de dados cresçam da ordem de multipetabyte para exabyte (1018 B) dentro dos próximos 10 a 15 anos; • Ao mesmo tempo, espera-se que as correspondentes exigências de velocidade da rede em cada um dos principais links usados no campo de pesquisa cresçam da ordem de 10 Gbps para Tbps. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH O que fica evidenciado: • As necessidades de uma comunidade de pesquisa globalmente distribuída, dependente dos instrumentos científicos que coletam Terabytes de dados diários, é gerenciável somente através de uma cyberinfrastructrure distribuída. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Solução Model Cyberinfrastructure Dando forma a essa cyberinfrastructure do futuro, os pesquisadores da HENP estão trabalhando com cientistas da computação para co-desenvolver avançadas redes de testes e sistemas middleware em Grid. A HENP, junto com outras ciências de ensino, está estendendo e modernizando este modelo. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Model Cyberinfrastructure • Os experimentos da LHC (Large Hadron Collider), por exemplo, adotaram a Data Grid Hierarchy, ou um conjunto estruturado de computação e facilidades de manipulação de dados interconectados por redes, desenvolvidas no California Institute of Technology DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Model Cyberinfrastructure DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Model Cyberinfrastructure • Poder usar este conjunto global de sistemas depende do desenvolvimento de Data Grids, ou depósitos de dados distribuídos, conectados via redes de alta velocidade, capazes de gerenciar e dirigir recursos Tier-N e apoiar o desenvolvimento de software colaborativo ao redor do mundo; • Dado o preço/desempenho de rede disponível hoje, estimativas indicam que as necessidades das redes científicas mundiais alcançarão 10 Gbps dentro dos próximos dois a três anos. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes Os dados da HENP aumentarão de petabytes em 2002 a centenas de petabytes em 2007 e a exabytes (1018 bytes) de 2012 a 2015 Aumento das transações em volume e em tamanho de dados extraídos DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes É necessário completar transações de extrações de dados típicas de 1-10 TB e, eventualmente 100 TB de sub-amostras de depósitos de dados multi-petabyte em poucos minutos, ao contrário do que em horas para se evitar gargalos Centenas de requisições por dia ou milhares de requisições deixadas pendentes durante longos períodos DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes As transações nesta escala correspondem à vazão de dados de 10 Gbps a 1 Tbps para 10 transações por minuto e até 10 Tbps para transações de 1 minuto São requeridas redes com larguras de banda muito maiores, um sistema distribuído bastante flexível e serviços e data-intensive Grid middleware DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes • A comunidade HENP é a principal dirigente, arquiteta e co-desenvolvedora de Data Grids para definir ferramentas e técnicas de middleware para manipulação e análise dataintensive e também de infra-estrutura de rede, ferramentas e técnicas para transmissão de dados fim-a-fim DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes Atividades recentes: • Em junho de 2003, uma equipe de Caltech/CERN conseguiu 0.94 Gbps de vazão sustentada com um único fluxo de IPv6 à distância de 7.000 Km (Chicago a Genebra). DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes Atividades recentes: • Em fevereiro de 2003, uma equipe internacional de físicos e os cientistas de computação transferiram 1 TB de dados através de 10.037 Km em menos de 1 h de SLAC em Sunnyvale, CA, ao CERN em Genebra, sustentando uma taxa única de fluxo do TCP de 2.38 Gbps. Esta vazão é equivalente à transferência de um CD cheio em 2,3 segundos, 1.565 CDs por hora, 200 filmes estendidos de DVD em uma hora, ou um DVD em 18 segundos. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Centenas de Petabytes, logo Exabytes Atividades recentes: • Em novembro de 2002 na conferência do SC 2002 em Baltimore, Caltech usou o novo protocolo FAST TCP para conseguir 8.6 Gbps de vazão sobre um trajeto de 10.000 Km entre Sunnyvale e Amsterdam, transferindo 22 TB de dados em seis horas em 10 fluxos de TCP. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Conclusão A riqueza da informação prometida por estes esforços pioneiros em pesquisas na e-science, significa desafios novos na aquisição, no compartilhamento seguro e no controle de acesso às bases de dados distribuídas, na distribuição gerenciada, na visualização multidimensional em larga escala, e na colaboração interdisciplinar através das redes globais em uma escala sem precedentes na história da ciência. DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH Conclusão Uma cyberinfrastructure integrada promete o primeiro ambiente de sistemas distribuídos que serve a organizações virtuais em uma escala global; Estes novos sistemas poderão também conduzir às modalidades novas de interação entre povos e a informação permanente em suas vidas diárias. Aprender a fornecer, administrar, e absorver esta informação em um ambiente permanente e colaborativo afetará profundamente todos em termos de comércio, comunicações, saúde, e entretenimento, e não apenas em cientistas e suas experiências. FIM