Why do Internet services fail, and
What can be done about it?
David Oppenheimer, Archana Ganapathi ,
and David A. Patterson
University of California at Berkeley
Julho de 2003
Seminário Técnico
Conceitos e Projeto de Sistemas Distribuídos e Paralelos
Adriano Machado ([email protected])
e-speed
Sumário
•
•
•
•
•
•
•
•
Motivação
Objetivo
O que foi feito
Metodologia
Análise e Resultados
Conclusões
Direções Futuras
Pontos Fortes e Pontos Fracos
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Motivação
• Disponibilidade de Serviços Internet se
torna cada dia mais importante;
• Falhas observadas pelos usuários são
relativamente freqüentes;
• Melhorar disponibilidade dos serviços
requer conhecer suas causas.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Objetivo
• Estudo das causas de falhas de
serviços Internet a partir de dados de 3
provedores de serviços Internet de
grande escala;
• Propor técnicas que possam evitar ou
reduzir as falhas identificadas e qual o
impacto de adoção dessas técnicas.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
O que foi feito
• Identificação
de
falhas
nos
componentes dos serviços Internet;
• Análise do tempo de recuperação da
falha (TTR);
• Análise de estudos de caso;
• Análise da aplicabilidade de técnicas
para evitar ou minimizar impactos das
falhas;
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
•
1) Obtenção de dados relativos à
falhas de três provedores de serviços
Internet:
– Portal Internet e serviços on-line (Online);
– Provedor de serviço de hospedagem
(Content);
– Provedor de serviço do tipo mídia on-line
(Read-Mostly).
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Online
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Content
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Read-Mostly
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Comparação dos serviços Internet
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Metodologia
• 2) Análise das falhas dos componentes
a fim de identificar as falhas de serviços.
Online
Content
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Metodologia
• 3) Análise de cada incidente (falha de
serviço)
– Causa da falha por localidade
– Causa da falha por tipo de falha
– Tempo para diagnosticar + reparar
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Causa da falha por localidade
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Causa da falha por tipo de falha
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Tempo para diagnosticar + reparar
Tempo (em horas)
Número entre parênteses: amostra
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Metodologia
• Causa de falhas por % de falha de
serviços
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Metodologia
• Causa de falhas por % de tempo para
reparar dano
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Observações / Conclusões parciais
– Erros de operador: maior causa de falha
dos serviços;
– Erros de operador: mais significativo
levando-se em conta o tempo do serviço
fora do ar;
– Geralmente ocorre por mudanças feitas
pelo operador, não reparos;
– Erros na rede: muito significativo (ReadMostly)
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Metodologia
• 4) Técnicas
observadas:
para
aliviar
falhas
– Propõem;
– Analisam eficácia, considerando 40 falhas
de serviço do “Online”.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Metodologia
e-speed
• Eficácia da Técnica X custo de adoção
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Análise e Resultados
e-speed
• Das técnicas propostas:
– Testes on-line aliviaram 26 falhas das 40
analisadas;
– Instrumentar e monitorar HW/SW: reduziria
TTR em 25% dos casos analisados;
– Aumentar redundância: 22,5% de eficácia;
– Problema: “Online” já utiliza 60% dessas
técnicas (resultado não é fiel à realidade).
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Conclusão
• Por que erros do operador causam
tantas falhas de serviços Internet?
– Técnicas existentes para minimizar essas
falhas são pouco voltadas para auxiliar
erros do operador.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Conclusão
• Por que operador demora tanto a
corrigir falha?
– Detecção da falha e seu diagnóstico são
difíceis devido à falta de ferramentas
adequadas para o operador e dificuldade
em manter serviço 24x7 (muitas vezes o
operador somente volta o serviço sem
corrigir o problema pela causa).
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Conclusão
• Atenção às práticas do operador, oferecer
mais recursos a ele;
• Erros poderiam ser minimizados com:
– Qualidade dos testes;
– Auditoria da configuração do sistema;
– Melhores técnicas para detecção e diagnóstico de
falhas;
• Utilizar metodologia de desenvolvimento que
utilize métodos formais e técnicas de SPE ().
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Direções Futuras
• Quantificar o impacto de práticas
operacionais que vem sendo adotadas;
• Análise de outros diferentes serviços
Internet:
– E-commerce;
– Intranet / Extranet;
– P2P, etc.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Direções Futuras
• Criar um repositório de dados relativos
à falhas de domínio público:
– Taxonomia padrão para classificar falhas;
– Métricas padrão para avaliação de impacto
das falhas;
– Técnicas para “anonimização” automática;
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Pontos Fortes
• Análise de dados reais;
• Boa interpretação dos dados obtidos;
• Boa metodologia de desenvolvimento
do trabalho;
• Boa análise de trabalhos correlatos;
• Boas referências apresentadas.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Pontos Fracos
• Não levaram em conta as falhas
causadas por problemas de segurança;
• Representatividade dos dados:
– não levam em conta aspectos
transacionais;
• Análise das causas: não leva em conta
questões
de
desempenho
e
escalabilidade (será que não ocorreram?)
• Resultado do Read-Mostly não me
convenceu!
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Nota Final
•
•
•
•
•
•
Apresentação do artigo: 9
Relevância do assunto: 10
Metodologia adotada: 10
Contribuições dos autores: 9
Análise bibliográfica: 9
Nota Final: 9,4 / 10,0
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Perguntas
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
Download

seminario_sdp_vFinal..