Why do Internet services fail, and What can be done about it? David Oppenheimer, Archana Ganapathi , and David A. Patterson University of California at Berkeley Julho de 2003 Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado ([email protected]) e-speed Sumário • • • • • • • • Motivação Objetivo O que foi feito Metodologia Análise e Resultados Conclusões Direções Futuras Pontos Fortes e Pontos Fracos e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Motivação • Disponibilidade de Serviços Internet se torna cada dia mais importante; • Falhas observadas pelos usuários são relativamente freqüentes; • Melhorar disponibilidade dos serviços requer conhecer suas causas. e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Objetivo • Estudo das causas de falhas de serviços Internet a partir de dados de 3 provedores de serviços Internet de grande escala; • Propor técnicas que possam evitar ou reduzir as falhas identificadas e qual o impacto de adoção dessas técnicas. e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed O que foi feito • Identificação de falhas nos componentes dos serviços Internet; • Análise do tempo de recuperação da falha (TTR); • Análise de estudos de caso; • Análise da aplicabilidade de técnicas para evitar ou minimizar impactos das falhas; e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • 1) Obtenção de dados relativos à falhas de três provedores de serviços Internet: – Portal Internet e serviços on-line (Online); – Provedor de serviço de hospedagem (Content); – Provedor de serviço do tipo mídia on-line (Read-Mostly). e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Online e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Content e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Read-Mostly e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Comparação dos serviços Internet e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Metodologia • 2) Análise das falhas dos componentes a fim de identificar as falhas de serviços. Online Content e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Metodologia • 3) Análise de cada incidente (falha de serviço) – Causa da falha por localidade – Causa da falha por tipo de falha – Tempo para diagnosticar + reparar e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Causa da falha por localidade e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Causa da falha por tipo de falha e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Tempo para diagnosticar + reparar Tempo (em horas) Número entre parênteses: amostra e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Metodologia • Causa de falhas por % de falha de serviços e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Metodologia • Causa de falhas por % de tempo para reparar dano e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Observações / Conclusões parciais – Erros de operador: maior causa de falha dos serviços; – Erros de operador: mais significativo levando-se em conta o tempo do serviço fora do ar; – Geralmente ocorre por mudanças feitas pelo operador, não reparos; – Erros na rede: muito significativo (ReadMostly) e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Metodologia • 4) Técnicas observadas: para aliviar falhas – Propõem; – Analisam eficácia, considerando 40 falhas de serviço do “Online”. e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Metodologia e-speed • Eficácia da Técnica X custo de adoção e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory Análise e Resultados e-speed • Das técnicas propostas: – Testes on-line aliviaram 26 falhas das 40 analisadas; – Instrumentar e monitorar HW/SW: reduziria TTR em 25% dos casos analisados; – Aumentar redundância: 22,5% de eficácia; – Problema: “Online” já utiliza 60% dessas técnicas (resultado não é fiel à realidade). e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Conclusão • Por que erros do operador causam tantas falhas de serviços Internet? – Técnicas existentes para minimizar essas falhas são pouco voltadas para auxiliar erros do operador. e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Conclusão • Por que operador demora tanto a corrigir falha? – Detecção da falha e seu diagnóstico são difíceis devido à falta de ferramentas adequadas para o operador e dificuldade em manter serviço 24x7 (muitas vezes o operador somente volta o serviço sem corrigir o problema pela causa). e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Conclusão • Atenção às práticas do operador, oferecer mais recursos a ele; • Erros poderiam ser minimizados com: – Qualidade dos testes; – Auditoria da configuração do sistema; – Melhores técnicas para detecção e diagnóstico de falhas; • Utilizar metodologia de desenvolvimento que utilize métodos formais e técnicas de SPE (). e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Direções Futuras • Quantificar o impacto de práticas operacionais que vem sendo adotadas; • Análise de outros diferentes serviços Internet: – E-commerce; – Intranet / Extranet; – P2P, etc. e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Direções Futuras • Criar um repositório de dados relativos à falhas de domínio público: – Taxonomia padrão para classificar falhas; – Métricas padrão para avaliação de impacto das falhas; – Técnicas para “anonimização” automática; e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Pontos Fortes • Análise de dados reais; • Boa interpretação dos dados obtidos; • Boa metodologia de desenvolvimento do trabalho; • Boa análise de trabalhos correlatos; • Boas referências apresentadas. e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Pontos Fracos • Não levaram em conta as falhas causadas por problemas de segurança; • Representatividade dos dados: – não levam em conta aspectos transacionais; • Análise das causas: não leva em conta questões de desempenho e escalabilidade (será que não ocorreram?) • Resultado do Read-Mostly não me convenceu! e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Nota Final • • • • • • Apresentação do artigo: 9 Relevância do assunto: 10 Metodologia adotada: 10 Contribuições dos autores: 9 Análise bibliográfica: 9 Nota Final: 9,4 / 10,0 e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory e-speed Perguntas e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory