Monitoração de Desempenho de Redes Curso SCI/RNP Visão Geral do perfSONAR José Augusto Suruagy Monteiro Baseado em slides do Jeff Boote (Internet2) http://wiki.monipe.rnp.br 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR • Motivação – Um cenário típico – Soluções possíveis • O que é perfSONAR? – Primórdios – Introdução à Arquitetura – Exemplo de caso de uso • Quem está envolvido com o perfSONAR? – perfSONAR-MDM – perfSONAR-PS • Quem está adotando o perfSONAR? 2 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Por que se preocupar com desempenho da rede? • As redes não são imunes a falhas – Equipamentos heterogêneos – Custo do projeto (você recebe pelo que paga) – Projeto favorece proteção e disponibilidade sobre desempenho • Os protocolos de comunicação não estão avançando tão rápido como as redes – TCP/IP é a principal pilha de protocolos • Garante transferências confiáveis • Ajusta-se a falhas na rede • Ajusta a velocidade para ser justo para todos • Expectativas dos Usuários – Aplicações científicas (ex. LHC) – A “regra dos 8 segundos” também é válida para as comunidades científicas. 3 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Um Cenário Típico • O usuário e o recurso estão separados geograficamente • Ambos têm acesso à rede de comunicação de alta velocidade – Infraestrutura de rede local – 1Gbps Ethernet – Infraestrutura de longa distância – Troncal óptico de 10Gbps 4 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Um Cenário Típico • O usuário deseja acessar um arquivo no recurso (ex. ~600MB) • Planeja usar ferramentas disponíveis (ex. SCP, mas poderia ser alguma ferramenta científica como o GridFTP ou algo simples como um navegador Web) • Quais são as expectativas do usuário? – Rede de 1Gbps (gargalo na rede local) – 600MB * 8 = 4.800 Mb (tamanho do arquivo) – O usuário espera usar a taxa nominal, 4.800Mb / 1.000Mbps = 4,8 segundos – Consulta: esta expectativa é muito alta? • O que temos na prática? – – – – Congestionamento e outros fatores que afetam o desempenho da rede Desempenho do hospedeiro Desempenho do protocolo Desempenho da aplicação 5 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Um Cenário Típico • Exemplo real (Nova Iorque a Los Angeles) • 10 minutos não parece ser razoável dado o investimento em tecnologia – Rede troncal – LAN de alta velocidade – Hospedeiros de alta capacidade • Desempenho real à medida que a velocidade da rede decresce: – Velocidade de 100 Mbps – 48 segundos – Velocidade de 10 Mbps – 8 minutos – Velocidade de 1 Mbps – 80 minutos • Como isto foi acontecer? • Mais importante: por que não há mais reclamações • Consulta: você reclamaria? Em caso positivo, para quem? 6 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Um Cenário Típico • A expectativa nem chega perto da experiência. Onde começar a depurar o problema? – Aplicação • Outros usuários relataram algum problema? Esta é a versão mais recente? – Protocolo • Os protocolos podem ser ajustados individualmente, consulte o seu sistema operacional. – Hospedeiro • O hardware (placa de rede, etc.) e o software (drivers, SO) estão funcionando como deveriam? – Redes Locais • Consulte os administradores locais sobre o estado e potenciais pontos de estrangulamento – Rede Troncal • Consulte os administradores nas localidades remotas sobre o estado e potenciais pontos de estrangulamento 7 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Um Cenário Típico • Seguindo estes passos, o que normalmente acontece... – Aplicação • Este passo é normalmente pulado, o projetista da aplicação irá culpar a rede – Protocolo • Estas configurações normalmente não são nunca exploradas. – Hospedeiro • Os passos de verificação e de diagnóstico normalmente param após a identificação de que existe conectividade – Redes Locais • Garantirá desempenho interno mas, os administradores da LAN, ignorarão muitas das reclamações do usuário culpando outras fontes no trajeto – Rede Troncal • Garantirá desempenho interno mas, a responsabilidade da rede troncal normalmente param no ponto de demarcação, a culpa é transferida para as outras redes acima ou abaixo do fluxo. 8 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Um Cenário Típico • Empecilhos para a solução de problemas de desempenho – Falta de um procedimento claro • É importante conhecer a ordem correta para abordar os problemas • Este conhecimento não é apenas para os usuários finais – aplica-se também aos desenvolvedores de aplicações e aos operadores de rede – Impaciência • Todos são impacientes, do usuário que quer que as coisas funcionem ao pessoal de rede e desenvolvedores de aplicações que não querem ouvir reclamações – Vácuo de informação • Falta de um local claro que descreva os sintomas e os passos que devem ser tomados para reduzir os risco e resolver os problemas • Falta de informação disponível sobre o desempenho da rede. Por exemplo, o estado atual de uma dada rede num fórum público e facilmente acessível. – Comunicação • Encontrar a pessoa a ser contatada para relatar problemas ou para pedir ajuda pode ser frustrante 9 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Possíveis Soluções • A finalidade deste curso é apresentar e motivar soluções dentro do escopo das redes – Depuração federada – Visão unificada do desempenho de rede fim a fim – Apresentação e recuperação de dados de medição para uso por desenvolvedores, operadores ou usuários. • Mais pesquisa e implementação são necessárias nas demais áreas que não serão mencionadas aqui: – Aplicações • Os desenvolvedores devem estar atentos ao desempenho de TCP e estruturar as suas aplicações de acordo com ele – talvez considerando outros protocolos quando apropriado – Protocolos • O suporte de autoajuste do kernel do Linux está avançando , mas é necessário vigilância para suportar grandes fluxos de rede em sistemas finais – Ajuste do Hospedeiro • Muito trabalho feito aqui para ajuste manual, veja também o guia da Esnet: http://fasterdata.es.net/ 10 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Possíveis Soluções • Encontrar uma solução para os problemas de rede podem ser divididos em dois passos distintos: – Uso de Ferramentas de Diagnóstico para localizar os problemas • Ferramentas que medem o desempenho ativamente (ex. latência, largura de banda disponível) • Ferramentas que observam o desempenho de forma passiva (ex., contadores de erros) – Monitoramento Regular para identificar o funcionamento normal (baseline) e gerar alertas quando cair as expectativas. • Uso de ferramentas de diagnóstico de uma forma estruturada • Visualizações e alarmes para analisar os dados coletados • Incorporação de uma destas técnicas deve ser: – Ubíqua, ex. a solução funciona melhor se estiver disponível em toda parte – Uniforme (ex. federada) ao apresentar as informações de recursos e domínios diferentes 11 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Possíveis Soluções • Características de projeto desejáveis para qualquer solução – Baseada em Componentes • A funcionalidade deve ser dividida em unidades lógicas • Cada função (ex., visualização) deve funcionar de acordo com uma comunicação bem definida com outros componentes (ex., armazenamento dos dados) – Modular • Projetos monolíticos raramente funcionam • Uso de componentes permitem escolher como operar uma solução customizada – Acessível • Interfaces bem definidas (ex., APIs) • O projeto inicial deve facilitar a expansão futura 12 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Motivação – Possíveis Soluções Análise e Visualização Análise e Visualização API Infra-estrutura de Medições Infra-estrutura de Medições API Coleta de Dados Ferramentas de Medição 13 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR O que é perfSONAR? • Muitas organizações realizam monitoração e diagnóstico de suas próprias redes – Monitoração SNMP através de ferramentas comuns (ex., MRTG, Cacti) – Monitoração corporativa (ex. Nagios) • Redes são cada vez mais um esforço que envolve diversos domínios – Colaborações internacionais são comuns em diversas áreas (ex., ciência, artes e humanidades) – Pico de interesse no desenvolvimento e uso de redes de pesquisa e de ensino • Monitoração e diagnósticos deve se tornar também um esforço que envolve diversos domínios 14 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR O que é perfSONAR? • Uma colaboração – Operadores de redes de produção focados em projetar e construir ferramentas que eles instalarão e usarão em suas redes para prover capacidades de monitoração e diagnóstico para eles mesmo e para as suas comunidades de usuários. • Uma arquitetura e conjunto de protocolos de comunicação – Arquitetura de Serviços Web – Protocolos definidos no Open Grid Forum • Grupo de Trabalho em Medições de Redes (NM-WG) • Grupo de Trabalho de Controle de Medições de Redes (NMC-WG) • Diversas implementações de software interoperáveis – perfSONAR-MDM – perfSONAR-PS • Uma infraestrutura de Monitoração instalada. 15 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Primórdios do perfSONAR • perfSONAR se originou de discussões entre a Iniciativa de Desempenho Fim-a-Fim (E2Epi) da Internet2, e o projeto Géant2 em Setembro de 2004. • Membros do NM-WG do OGF (na época GGF) serviram de guia na codificação dos dados de medições de rede. • Parceiros de redes adicionais, incluindo a Esnet e a RNP forneceram recursos de desenvolvimento assim como serviram como implantadores iniciais (early adopters). • A primeira versão de software com a marca perfSONAR foi disponibilizada em Julho de 2006. • Todo o código perfSONAR é aberto • Todos os produtos que desejam ser rotulados como compatíveis como perfSONAR devem estabelecer a sua compatibilidade com os padrões públicos do OGF 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR 16 Visão Geral da Arquitetura do perfSONAR • Middleware de medições de rede interoperável projetado como uma Arquitetura Orientada a Serviços (SOA): – Cada componente é modular – Todos são baseados em Serviços Web – O arcabouço global do perfSONAR assim como suas instalações individuais são descentralizadas – Todas as ferramentas do perfSONAR são controladas localmente • O perfSONAR integra: – Ferramentas de monitoração de rede e arquivos com os resultados das medições – Manipulação dos dados – Serviços de Informação • Descoberta • Topologia – Autenticação e autorização 17 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Visão Geral da Arquitetura do perfSONAR • O conceito chave do perfSONAR é que cada entidade realiza um serviço – Cada serviço provê um conjunto limitado de serviços, ex, coleta de medições entre dois pontos arbitrários ou gerenciando o registro e localização de serviços distribuídos – O serviço é uma entidade autocontida e provê funcionalidades por si só assim como quando instalada com o restante do arcabouço • Os serviços interagem através de diálogos do protocolo – Formatos padrão das mensagens – Padrões de diálogo padronizados • Uma coleção de serviços perfSONAR dentro de um domínio é uma instalação – A instalação do perfSONAR pode ser realizada “a la carte”, ou através de uma solução completa • Os serviços se federam com os demais, localmente e globalmente – Os serviços são projetados para descobrir automaticamente a presença de outros componentes perfSONAR – Os clientes são projetados levando em conta este paradigma distribuído 18 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Visão Geral da Arquitetura do perfSONAR Infraestrutura Serviços de Dados Pontos de Medição Arquivos de Medição Serviços de Informação Descoberta Topologia Configuração Transformações Serviços Auth(n/z) Análise/Visualização Interfaces Gráficas do Usuário Páginas Web Alarmes NOC 19 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Visão Geral da Arquitetura do perfSONAR • Uma implantação do perfSONAR pode incluir qualquer combinação de serviços – É necessária uma instância do Serviço de Descoberta (LS) para compartilhar informações – É possível qualquer combinação de serviços de dados e ferramentas de análise e visualização • Os serviços do perfSONAR automaticamente se federam de forma global – O serviço de descoberta (LS) se comunica com um grupo confederado de serviços de diretório (ex. o Serviço de Descoberta Global – gLS) – A descoberta global é possível através de APIs • O perfSONAR é mais efetivo quando todos os caminhos são monitorados – A depuração do desempenho de rede deve ser realizado fim-a-fim – A falta de informação para domínios específicos podem atrasar ou impedir o processo de depuração 20 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Muitas colaborações são inerentemente multidomínio. Portanto, para que uma ferramenta de monitoramento fim-a-fim possa trabalhar todos devem participar na infraestrutura de monitoração. usuário Interface gráfica de desempenho m1 m1 m4 Ferramenta de Análise Arquivo de medições Arquivo de medições m4 Arquivo de medições m1 m4 Arquivo de medições m3 m3 m3 m1 FNAL (AS3152) [EUA] Arquivo de medições m1 m3 m4 GEANT (AS20965) [Europa] m3 ESnet (AS293) [EUA] m4 DESY (AS1754) [Alemanha] DFN (AS680) [Alemanha] 21 21 Exemplo de Caso de Uso do perfSONAR • O perfSONAR deve ser usado para diagnosticar um problema de desempenho fim-a-fim – O usuário está tentando “baixar” um recurso remoto – O recurso e o usuário estão separados por uma certa distância – Assumimos que ambos estão conectados a redes de alta velocidade • A operação não corre como planejado, por onde começar? 22 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Exemplo de Caso de Uso do perfSONAR • Ferramentas simples como traceroute podem ser usadas para identificar o caminho percorrido • Pode haver um problema de desempenho em qualquer trecho • O problema pode ser algo que consigamos consertar, mas é mais provável que não seja 23 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Exemplo de Caso de Uso do perfSONAR • Cada segmento do caminho é controlado por um domínio diferente • Cada domínio possui pessoal de rede que poderão ajudar a corrigir o problema, mas como contatá-los? • Tudo o que realmente queremos é alguma informação sobre o desempenho 24 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Exemplo de Caso de Uso do perfSONAR • Cada domínio disponibilizou dados de medições através do perfSONAR • O usuário foi capaz de descobrir isto automaticamente • Ferramentas automatizadas como visualizadores e analisadores podem ser alimentados por estes dados da rede 25 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Exemplo de Caso de Uso do perfSONAR • No final o problema é isolado baseado em testes. • O usuário pode contatar o domínio em questão para perguntar sobre este problema de desempenho • Quando tiver sido consertado a transferência pode transcorrer como desejado 26 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Quem está envolvido com o perfSONAR? • O Consórcio perfSONAR é uma colaboração entre – – – – ESnet (Energy Sciences Network) Géant (Rede pan-Europeia) Internet2 (Consórcio americano de redes avançadas) RNP • As decisões a respeito do desenvolvimento dos protocolos, marca do software e interoperabilidade são tratados neste nível organizacional • Há dois esforços independentes de desenvolvimento de software compatível como perfSONAR – perfSONAR-MDM – perfSONAR-PS • Cada projeto trabalha com um plano de desenvolvimento individual e trabalha com o consórcio para avançar o desenvolvimento do protoco e garantir compatibilidade 27 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Quem está envolvido com o perfSONAR-MDM? • O perfSONAR-MDM é formado por participantes do projeto Géant: •Arnes •Belnet •Carnet •Cesnet •CYNet •DANTE •DFN •FCCN •GRNet •GARR •ISTF •PSNC •Nordunet (Uninett) •Renater •RedIRIS •Surfnet •SWITCH • O perfSONAR-MDM está escrito predominantemente em Java e foi projetado para servir como solução de monitoração para o projeto do Grande Colisor de Hádrons (LHC). • O perfSONAR-MDM está disponível como pacotes Debian ou RPM. 28 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Quem está envolvido com o perfSONAR-PS? • O perfSONAR-PS é formado por diversos membros: – – – – – – – ESnet Fermilab Georgia Tech Indiana University Internet2 SLAC The University of Delaware • Os produtos do perfSONAR-PS estão escritos na linguagem de programação perl e estão disponíveis para instalação via código fonte ou pacotes RPM • O perfSONAR-PS é também o componente principal da Caixa de Ferramentas de Desempenho pS da Internet2 – Um Linux que roda direto do CD contendo ferramentas de medições 29 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Quem está adotando o perfSONAR? • O perfSONAR está ganhando visibilidade como uma solução de monitoração interoperável e extensível • A sua adoção tem progredido nas seguintes áreas: – Redes de ensino e pesquisa incluindo redes dorsais, regionais, e pontos de troca – Universidades a nível internacional – Laboratórios e agências federais nos Estados Unidos – Organizações Científicas Virtuais, em particular o projeto LHC • Interesse recente também por parte de: – Parceiros redes internacionais de ensino e pesquisa pontos de troca de tráfego – Provedores comerciais nos Estados Unidos – Fabricantes de hardware 30 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR Quem está adotando o perfSONAR? • • • • • • Redes – APAN, CENIC, CSTNET, ESnet, Geant, Gloriad, GPN, Internet2, JGN2, LONI, MAX, NOX, NSERNET, RNP, Starlight, Transpac2, UEN Laboratórios – ANL, BNL, FNAL **, NERSC, PNNL, PSC, SLAC Sítios Internacionais – Chinese University of Hong Kong, Chonnam National University (Coreia), KISTI (Coreia), Monash University (Melbourne, Victoria, Austrália), MRREE (Lima, Peru), NCHC (Taiwan), NICT (Japão), Simon Frazier (Burnaby, BC, Canada), Thaisarn Nectec (Bangkok, Tailândia), UNIFACS (Salvador, Bahia, Brazil) Outros – Cobham, Northop Gruman, Ocala Electric, Philadelphia Orchestra, REDDnet Lista completa e atualizada: – http://www.perfsonar.net/activeServices/IS/ Universidades • Boston University * • College of William and Mary • George Mason Univ • Georgia Tech University • Hope College • Indiana University * • Leeward Community College • Luisianna State University • Michigan State University * • Middle Tennessee State University • Northwestern ** • Oregon State • Penn State University • Southern Methodist University * • Syracuse • Texas A&M University * • Tufts * • University of California Los Angles • University of California San Diego ** • University of Chicago * • University of Connecticut • University of Delaware • University of Hawaii • University of Michigan * • University of Northern Iowa • University of Oklahoma * • University of Texas * • University of Utah • University of Wisconsin (Condor) • University of Wisconsin (Madison) * ** • Vanderbilt ** • University of Florida ** * USATLAS ** USCMS 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR 31 Monitoração de Desempenho de Redes Curso SCI/RNP Visão Geral do perfSONAR José Augusto Suruagy Monteiro Baseado em slides do Jeff Boote (Internet2) http://wiki.monipe.rnp.br 16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR