Monitoração de Desempenho de Redes
Curso SCI/RNP
Visão Geral do perfSONAR
José Augusto Suruagy Monteiro
Baseado em slides do Jeff Boote (Internet2)
http://wiki.monipe.rnp.br
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
• Motivação
– Um cenário típico
– Soluções possíveis
• O que é perfSONAR?
– Primórdios
– Introdução à Arquitetura
– Exemplo de caso de uso
• Quem está envolvido com o perfSONAR?
– perfSONAR-MDM
– perfSONAR-PS
• Quem está adotando o perfSONAR?
2
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Por que se preocupar com desempenho da rede?
• As redes não são imunes a falhas
– Equipamentos heterogêneos
– Custo do projeto (você recebe pelo que paga)
– Projeto favorece proteção e disponibilidade sobre desempenho
• Os protocolos de comunicação não estão avançando tão rápido
como as redes
– TCP/IP é a principal pilha de protocolos
• Garante transferências confiáveis
• Ajusta-se a falhas na rede
• Ajusta a velocidade para ser justo para todos
• Expectativas dos Usuários
– Aplicações científicas (ex. LHC)
– A “regra dos 8 segundos” também é válida para as comunidades
científicas.
3
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Um Cenário Típico
• O usuário e o recurso estão separados geograficamente
• Ambos têm acesso à rede de comunicação de alta velocidade
– Infraestrutura de rede local – 1Gbps Ethernet
– Infraestrutura de longa distância – Troncal óptico de 10Gbps
4
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Um Cenário Típico
• O usuário deseja acessar um arquivo no recurso (ex. ~600MB)
• Planeja usar ferramentas disponíveis (ex. SCP, mas poderia ser alguma
ferramenta científica como o GridFTP ou algo simples como um
navegador Web)
• Quais são as expectativas do usuário?
– Rede de 1Gbps (gargalo na rede local)
– 600MB * 8 = 4.800 Mb (tamanho do arquivo)
– O usuário espera usar a taxa nominal, 4.800Mb / 1.000Mbps = 4,8
segundos
– Consulta: esta expectativa é muito alta?
• O que temos na prática?
–
–
–
–
Congestionamento e outros fatores que afetam o desempenho da rede
Desempenho do hospedeiro
Desempenho do protocolo
Desempenho da aplicação
5
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Um Cenário Típico
• Exemplo real (Nova Iorque a Los Angeles)
• 10 minutos não parece ser razoável dado o investimento em tecnologia
– Rede troncal
– LAN de alta velocidade
– Hospedeiros de alta capacidade
• Desempenho real à medida que a velocidade da rede decresce:
– Velocidade de 100 Mbps – 48 segundos
– Velocidade de 10 Mbps – 8 minutos
– Velocidade de 1 Mbps – 80 minutos
• Como isto foi acontecer?
• Mais importante: por que não há mais reclamações
• Consulta: você reclamaria? Em caso positivo, para quem?
6
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Um Cenário Típico
• A expectativa nem chega perto da experiência. Onde começar a
depurar o problema?
– Aplicação
• Outros usuários relataram algum problema? Esta é a versão mais recente?
– Protocolo
• Os protocolos podem ser ajustados individualmente, consulte o seu sistema
operacional.
– Hospedeiro
• O hardware (placa de rede, etc.) e o software (drivers, SO) estão
funcionando como deveriam?
– Redes Locais
• Consulte os administradores locais sobre o estado e potenciais pontos de
estrangulamento
– Rede Troncal
• Consulte os administradores nas localidades remotas sobre o estado e
potenciais pontos de estrangulamento
7
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Um Cenário Típico
• Seguindo estes passos, o que normalmente acontece...
– Aplicação
• Este passo é normalmente pulado, o projetista da aplicação irá culpar a rede
– Protocolo
• Estas configurações normalmente não são nunca exploradas.
– Hospedeiro
• Os passos de verificação e de diagnóstico normalmente param após a
identificação de que existe conectividade
– Redes Locais
• Garantirá desempenho interno mas, os administradores da LAN, ignorarão
muitas das reclamações do usuário culpando outras fontes no trajeto
– Rede Troncal
• Garantirá desempenho interno mas, a responsabilidade da rede troncal
normalmente param no ponto de demarcação, a culpa é transferida para as
outras redes acima ou abaixo do fluxo.
8
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Um Cenário Típico
• Empecilhos para a solução de problemas de desempenho
– Falta de um procedimento claro
• É importante conhecer a ordem correta para abordar os problemas
• Este conhecimento não é apenas para os usuários finais – aplica-se também
aos desenvolvedores de aplicações e aos operadores de rede
– Impaciência
• Todos são impacientes, do usuário que quer que as coisas funcionem ao
pessoal de rede e desenvolvedores de aplicações que não querem ouvir
reclamações
– Vácuo de informação
• Falta de um local claro que descreva os sintomas e os passos que devem ser
tomados para reduzir os risco e resolver os problemas
• Falta de informação disponível sobre o desempenho da rede. Por exemplo,
o estado atual de uma dada rede num fórum público e facilmente acessível.
– Comunicação
• Encontrar a pessoa a ser contatada para relatar problemas ou para pedir
ajuda pode ser frustrante
9
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Possíveis Soluções
• A finalidade deste curso é apresentar e motivar soluções dentro do
escopo das redes
– Depuração federada
– Visão unificada do desempenho de rede fim a fim
– Apresentação e recuperação de dados de medição para uso por
desenvolvedores, operadores ou usuários.
• Mais pesquisa e implementação são necessárias nas demais áreas que
não serão mencionadas aqui:
– Aplicações
• Os desenvolvedores devem estar atentos ao desempenho de TCP e estruturar as
suas aplicações de acordo com ele – talvez considerando outros protocolos quando
apropriado
– Protocolos
• O suporte de autoajuste do kernel do Linux está avançando , mas é necessário
vigilância para suportar grandes fluxos de rede em sistemas finais
– Ajuste do Hospedeiro
• Muito trabalho feito aqui para ajuste manual, veja também o guia da Esnet:
http://fasterdata.es.net/
10
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Possíveis Soluções
• Encontrar uma solução para os problemas de rede podem ser
divididos em dois passos distintos:
– Uso de Ferramentas de Diagnóstico para localizar os problemas
• Ferramentas que medem o desempenho ativamente (ex. latência, largura
de banda disponível)
• Ferramentas que observam o desempenho de forma passiva (ex.,
contadores de erros)
– Monitoramento Regular para identificar o funcionamento normal
(baseline) e gerar alertas quando cair as expectativas.
• Uso de ferramentas de diagnóstico de uma forma estruturada
• Visualizações e alarmes para analisar os dados coletados
• Incorporação de uma destas técnicas deve ser:
– Ubíqua, ex. a solução funciona melhor se estiver disponível em toda
parte
– Uniforme (ex. federada) ao apresentar as informações de recursos e
domínios diferentes
11
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Possíveis Soluções
• Características de projeto desejáveis para qualquer
solução
– Baseada em Componentes
• A funcionalidade deve ser dividida em unidades lógicas
• Cada função (ex., visualização) deve funcionar de acordo com
uma comunicação bem definida com outros componentes (ex.,
armazenamento dos dados)
– Modular
• Projetos monolíticos raramente funcionam
• Uso de componentes permitem escolher como operar uma
solução customizada
– Acessível
• Interfaces bem definidas (ex., APIs)
• O projeto inicial deve facilitar a expansão futura
12
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Motivação – Possíveis Soluções
Análise e
Visualização
Análise e
Visualização
API
Infra-estrutura
de Medições
Infra-estrutura de
Medições
API
Coleta de
Dados
Ferramentas
de Medição
13
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
O que é perfSONAR?
• Muitas organizações realizam monitoração e
diagnóstico de suas próprias redes
– Monitoração SNMP através de ferramentas comuns (ex.,
MRTG, Cacti)
– Monitoração corporativa (ex. Nagios)
• Redes são cada vez mais um esforço que envolve
diversos domínios
– Colaborações internacionais são comuns em diversas
áreas (ex., ciência, artes e humanidades)
– Pico de interesse no desenvolvimento e uso de redes de
pesquisa e de ensino
• Monitoração e diagnósticos deve se tornar também
um esforço que envolve diversos domínios
14
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
O que é perfSONAR?
• Uma colaboração
– Operadores de redes de produção focados em projetar e
construir ferramentas que eles instalarão e usarão em suas
redes para prover capacidades de monitoração e diagnóstico
para eles mesmo e para as suas comunidades de usuários.
• Uma arquitetura e conjunto de protocolos de comunicação
– Arquitetura de Serviços Web
– Protocolos definidos no Open Grid Forum
• Grupo de Trabalho em Medições de Redes (NM-WG)
• Grupo de Trabalho de Controle de Medições de Redes (NMC-WG)
• Diversas implementações de software interoperáveis
– perfSONAR-MDM
– perfSONAR-PS
• Uma infraestrutura de Monitoração instalada.
15
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Primórdios do perfSONAR
• perfSONAR se originou de discussões entre a Iniciativa de
Desempenho Fim-a-Fim (E2Epi) da Internet2, e o projeto
Géant2 em Setembro de 2004.
• Membros do NM-WG do OGF (na época GGF) serviram de
guia na codificação dos dados de medições de rede.
• Parceiros de redes adicionais, incluindo a Esnet e a RNP
forneceram recursos de desenvolvimento assim como
serviram como implantadores iniciais (early adopters).
• A primeira versão de software com a marca perfSONAR foi
disponibilizada em Julho de 2006.
• Todo o código perfSONAR é aberto
• Todos os produtos que desejam ser rotulados como
compatíveis como perfSONAR devem estabelecer a sua
compatibilidade com os padrões públicos do OGF
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
16
Visão Geral da Arquitetura do perfSONAR
• Middleware de medições de rede interoperável projetado como
uma Arquitetura Orientada a Serviços (SOA):
– Cada componente é modular
– Todos são baseados em Serviços Web
– O arcabouço global do perfSONAR assim como suas instalações
individuais são descentralizadas
– Todas as ferramentas do perfSONAR são controladas localmente
• O perfSONAR integra:
– Ferramentas de monitoração de rede e arquivos com os resultados
das medições
– Manipulação dos dados
– Serviços de Informação
• Descoberta
• Topologia
– Autenticação e autorização
17
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Visão Geral da Arquitetura do perfSONAR
• O conceito chave do perfSONAR é que cada entidade realiza um serviço
– Cada serviço provê um conjunto limitado de serviços, ex, coleta de
medições entre dois pontos arbitrários ou gerenciando o registro e
localização de serviços distribuídos
– O serviço é uma entidade autocontida e provê funcionalidades por si só
assim como quando instalada com o restante do arcabouço
• Os serviços interagem através de diálogos do protocolo
– Formatos padrão das mensagens
– Padrões de diálogo padronizados
• Uma coleção de serviços perfSONAR dentro de um domínio é uma
instalação
– A instalação do perfSONAR pode ser realizada “a la carte”, ou através de
uma solução completa
• Os serviços se federam com os demais, localmente e globalmente
– Os serviços são projetados para descobrir automaticamente a presença de
outros componentes perfSONAR
– Os clientes são projetados levando em conta este paradigma distribuído
18
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Visão Geral da Arquitetura do perfSONAR
Infraestrutura
Serviços de Dados
Pontos de
Medição
Arquivos de
Medição
Serviços de Informação
Descoberta
Topologia
Configuração
Transformações
Serviços
Auth(n/z)
Análise/Visualização
Interfaces
Gráficas do
Usuário
Páginas
Web
Alarmes
NOC
19
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Visão Geral da Arquitetura do perfSONAR
• Uma implantação do perfSONAR pode incluir qualquer combinação de
serviços
– É necessária uma instância do Serviço de Descoberta (LS) para compartilhar
informações
– É possível qualquer combinação de serviços de dados e ferramentas de
análise e visualização
• Os serviços do perfSONAR automaticamente se federam de forma global
– O serviço de descoberta (LS) se comunica com um grupo confederado de
serviços de diretório (ex. o Serviço de Descoberta Global – gLS)
– A descoberta global é possível através de APIs
• O perfSONAR é mais efetivo quando todos os caminhos são
monitorados
– A depuração do desempenho de rede deve ser realizado fim-a-fim
– A falta de informação para domínios específicos podem atrasar ou impedir
o processo de depuração
20
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Muitas colaborações são
inerentemente multidomínio.
Portanto, para que uma
ferramenta de monitoramento
fim-a-fim possa trabalhar todos
devem participar na
infraestrutura de monitoração.
usuário
Interface gráfica
de desempenho
m1
m1
m4
Ferramenta de
Análise
Arquivo de medições
Arquivo de medições
m4
Arquivo de medições
m1
m4
Arquivo de medições
m3
m3
m3
m1
FNAL (AS3152)
[EUA]
Arquivo de medições
m1
m3
m4
GEANT (AS20965)
[Europa]
m3
ESnet (AS293)
[EUA]
m4
DESY (AS1754)
[Alemanha]
DFN (AS680)
[Alemanha]
21
21
Exemplo de Caso de Uso do perfSONAR
• O perfSONAR deve ser usado para
diagnosticar um problema de
desempenho fim-a-fim
– O usuário está tentando “baixar” um
recurso remoto
– O recurso e o usuário estão separados
por uma certa distância
– Assumimos que ambos estão
conectados a redes de alta velocidade
• A operação não corre como
planejado, por onde começar?
22
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Exemplo de Caso de Uso do perfSONAR
• Ferramentas simples como
traceroute podem ser usadas para
identificar o caminho percorrido
• Pode haver um problema de
desempenho em qualquer trecho
• O problema pode ser algo que
consigamos consertar, mas é mais
provável que não seja
23
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Exemplo de Caso de Uso do perfSONAR
• Cada segmento do caminho é
controlado por um domínio
diferente
• Cada domínio possui pessoal de rede
que poderão ajudar a corrigir o
problema, mas como contatá-los?
• Tudo o que realmente queremos é
alguma informação sobre o
desempenho
24
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Exemplo de Caso de Uso do perfSONAR
• Cada domínio disponibilizou dados
de medições através do perfSONAR
• O usuário foi capaz de descobrir isto
automaticamente
• Ferramentas automatizadas como
visualizadores e analisadores podem
ser alimentados por estes dados da
rede
25
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Exemplo de Caso de Uso do perfSONAR
• No final o problema é isolado
baseado em testes.
• O usuário pode contatar o domínio
em questão para perguntar sobre
este problema de desempenho
• Quando tiver sido consertado a
transferência pode transcorrer como
desejado
26
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Quem está envolvido com o perfSONAR?
• O Consórcio perfSONAR é uma colaboração entre
–
–
–
–
ESnet (Energy Sciences Network)
Géant (Rede pan-Europeia)
Internet2 (Consórcio americano de redes avançadas)
RNP
• As decisões a respeito do desenvolvimento dos protocolos,
marca do software e interoperabilidade são tratados neste nível
organizacional
• Há dois esforços independentes de desenvolvimento de
software compatível como perfSONAR
– perfSONAR-MDM
– perfSONAR-PS
• Cada projeto trabalha com um plano de desenvolvimento
individual e trabalha com o consórcio para avançar o
desenvolvimento do protoco e garantir compatibilidade
27
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Quem está envolvido com o perfSONAR-MDM?
• O perfSONAR-MDM é formado por participantes do projeto
Géant:
•Arnes
•Belnet
•Carnet
•Cesnet
•CYNet
•DANTE
•DFN
•FCCN
•GRNet
•GARR
•ISTF
•PSNC
•Nordunet (Uninett)
•Renater
•RedIRIS
•Surfnet
•SWITCH
• O perfSONAR-MDM está escrito predominantemente em Java e
foi projetado para servir como solução de monitoração para o
projeto do Grande Colisor de Hádrons (LHC).
• O perfSONAR-MDM está disponível como pacotes Debian ou
RPM.
28
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Quem está envolvido com o perfSONAR-PS?
• O perfSONAR-PS é formado por diversos membros:
–
–
–
–
–
–
–
ESnet
Fermilab
Georgia Tech
Indiana University
Internet2
SLAC
The University of Delaware
• Os produtos do perfSONAR-PS estão escritos na linguagem de
programação perl e estão disponíveis para instalação via código
fonte ou pacotes RPM
• O perfSONAR-PS é também o componente principal da Caixa de
Ferramentas de Desempenho pS da Internet2 – Um Linux que
roda direto do CD contendo ferramentas de medições
29
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Quem está adotando o perfSONAR?
• O perfSONAR está ganhando visibilidade como uma
solução de monitoração interoperável e extensível
• A sua adoção tem progredido nas seguintes áreas:
– Redes de ensino e pesquisa incluindo redes dorsais, regionais,
e pontos de troca
– Universidades a nível internacional
– Laboratórios e agências federais nos Estados Unidos
– Organizações Científicas Virtuais, em particular o projeto LHC
• Interesse recente também por parte de:
– Parceiros redes internacionais de ensino e pesquisa pontos de
troca de tráfego
– Provedores comerciais nos Estados Unidos
– Fabricantes de hardware
30
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Quem está adotando o perfSONAR?
•
•
•
•
•
•
Redes
– APAN, CENIC, CSTNET, ESnet, Geant, Gloriad,
GPN, Internet2, JGN2, LONI, MAX, NOX,
NSERNET, RNP, Starlight, Transpac2, UEN
Laboratórios
– ANL, BNL, FNAL **, NERSC, PNNL, PSC, SLAC
Sítios Internacionais
– Chinese University of Hong Kong, Chonnam
National University (Coreia), KISTI (Coreia),
Monash University (Melbourne, Victoria,
Austrália), MRREE (Lima, Peru), NCHC (Taiwan),
NICT (Japão), Simon Frazier (Burnaby, BC,
Canada), Thaisarn Nectec (Bangkok, Tailândia),
UNIFACS (Salvador, Bahia, Brazil)
Outros
– Cobham, Northop Gruman, Ocala Electric,
Philadelphia Orchestra, REDDnet
Lista completa e atualizada:
– http://www.perfsonar.net/activeServices/IS/
Universidades
•
Boston University *
•
College of William and Mary
•
George Mason Univ
•
Georgia Tech University
•
Hope College
•
Indiana University *
•
Leeward Community College
•
Luisianna State University
•
Michigan State University *
•
Middle Tennessee State University
•
Northwestern **
•
Oregon State
•
Penn State University
•
Southern Methodist University *
•
Syracuse
•
Texas A&M University *
•
Tufts *
•
University of California Los Angles
•
University of California San Diego **
•
University of Chicago *
•
University of Connecticut
•
University of Delaware
•
University of Hawaii
•
University of Michigan *
•
University of Northern Iowa
•
University of Oklahoma *
•
University of Texas *
•
University of Utah
•
University of Wisconsin (Condor)
•
University of Wisconsin (Madison) * **
•
Vanderbilt **
•
University of Florida **
* USATLAS
** USCMS
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
31
Monitoração de Desempenho de Redes
Curso SCI/RNP
Visão Geral do perfSONAR
José Augusto Suruagy Monteiro
Baseado em slides do Jeff Boote (Internet2)
http://wiki.monipe.rnp.br
16º Seminário RNP de Capacitação e Inovação | 18 a 22 de outubro de 2010 | Curitiba - PR
Download

Visão Geral