Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Por Wendy Torell Victor Avelar Aplicação Técnica Nº 78 Sumário Executivo O Tempo Médio Entre Avarias (MTBF) é um termo de fiabilidade frequentemente utilizado por várias indústrias e a sua banalização levou a que algumas fizessem uma má utilização generalizada do mesmo. Ao longo dos anos, o significado original do termo sofreu adulterações, o que levou a alguma confusão e dúvida. O MTBF é em grande parte baseado em pressupostos e na definição de avaria, e a atenção a estes factos é fundamental para uma correcta interpretação. Este documento explica as complexidades e equívocos relativamente ao MTBF, bem como os métodos existentes para o calcular. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 2 Introdução O Tempo Médio Entre Avarias (MTBF) é utilizado há mais de 60 anos como base para várias decisões. Ao longo dos anos, foram desenvolvidos mais de 20 métodos e procedimentos para previsões de ciclos de vida. Portanto, não admira que o MTBF tenha sido objecto de infindáveis e complicados debates. Se há área em que isso é particularmente evidente é na concepção de instalações cruciais de equipamento TI e telecomunicações. Para casos em que alguns minutos de período de inactividade são suficientes para causar impacto negativo no valor de mercado de uma empresa, é vital que as infra-estruturas físicas de suporte ao ambiente em rede sejam fiáveis. Sem uma compreensão cabal do MTBF, a fiabilidade projectada da empresa pode não ser atingida. Este documento explora os vários aspectos do MTBF, com recurso a vários exemplos, numa tentativa de simplificar a complexidade inerente ao assunto e clarificar os equívocos. O que é uma avaria? Quais são os pressupostos? Estas questões devem ser respondidas imediatamente após examinar qualquer valor de MTBF. Sem responder a estas perguntas, de pouco vale a discussão. O MTBF é muitas vezes citado sem que se adiante uma definição de avaria. Esta prática não só é enganadora, como é completamente inútil. Era o mesmo que definir o consumo de combustível de um automóvel como “quilómetros por depósito” sem especificar a capacidade do depósito em litros ou outra medida qualquer. Para desfazer esta ambiguidade, poderíamos dizer que existem duas definições fundamentais de avaria: 1) Cessação da capacidade de o produto executar a sua função como um todo.1 2) Cessação da capacidade de um determinado componente executar a sua função, sem impedir a capacidade de o produto funcionar como um todo.2 Os dois exemplos seguintes mostram se um determinado modo de avaria de um produto é ou não classificado como avaria, consoante a definição escolhida. Exemplo 1: Se falhar um disco redundante de um sistema RAID, tal não impede que o sistema RAID continue a desempenhar a sua função de fornecimento de dados cruciais. Contudo, a falha no disco impede um dos componentes do sistema de discos de executar a função de fornecimento de capacidade de armazenamento. Como tal, se pela definição 1 isto não pode ser considerado avaria, pela definição 2 já se passa o contrário. 1 2 IEC-50 IEC-50 ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 3 Exemplo 2: Se o inversor de uma UPS falhar e a UPS mudar para bypass estático, a avaria não impede que a UPS execute a sua função de alimentação de energia para a carga crucial. No entanto, a falha no inversor impede um dos componentes do sistema UPS de executar a função de fornecimento de alimentação condicionada. Tal como no exemplo anterior, isto só é considerado avaria pela definição 2. Se só existissem duas definições era bastante fácil definir avaria. Mas, infelizmente, quando está em causa a reputação de um produto, a questão torna-se quase tão complicada como para o MTBF. Mas há mais que duas definições para avaria. Na realidade, há infinitas. Os fabricantes podem ter inúmeras definições para avaria, conforme o tipo de produto. Aqueles que são guiados pela qualidade despistam todo o género de avarias, por uma questão de controlo do processo, o que entre outras vantagens, elimina os defeitos do produto. Assim sendo, é necessário colocar mais questões para poder definir correctamente avaria. A incorrecta utilização do produto pelo cliente é considerada avaria? Quem concebe o produto pode descurar vários factores humanos que potenciem um uso incorrecto do mesmo pelos utilizadores. As quebras de corrente provocadas por um técnico de vendas do serviço contam como avarias? A própria concepção do produto pode aumentar a probabilidade de avaria de um procedimento já de si arriscado? Se um LED (Díodo emissor de luz) de um computador falhasse, isso era considerado avaria mesmo que não impedisse o funcionamento do computador? Se um consumível, como por exemplo uma bateria, se gastar ou deixar de funcionar antes do tempo previsto, isso é considerado avaria? Os danos durante o transporte do produto são considerados avarias? Tal facto pode indiciar um empacotamento mal pensado pelos fabricantes. A importância da definição de avaria deve ser, portanto, uma evidência para todos e deve também ser compreendida antes de se tentar interpretar qualquer valor de MTBF. São questões como as acima colocadas que lançam os fundamentos sobre os quais devem assentar as decisões de fiabilidade. Costuma-se dizer que os engenheiros nunca se enganam; apenas formulam pressupostos errados. Os mesmo se pode dizer dos que tentam calcular os valores de MTBF. São necessários pressupostos para simplificar o processo de cálculo do MTBF. Seria praticamente impossível recolher os dados necessários para calcular um número exacto. Todavia, todos os pressupostos devem ser realistas. Ao longo do documento são descritos alguns pressupostos usados no cálculo do MTBF. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 4 Definição de Fiabilidade, Disponibilidade, MTBF e MTTR O MTBF tem influência tanto sobre a fiabilidade como sobre a disponibilidade. Antes de expor os métodos de MTBF, é importante ter uma base sólida sobre estes conceitos. Em muitos casos, desconhece-se ou interpreta-se mal a diferença entre fiabilidade e disponibilidade. Os conceitos de elevada disponibilidade e elevada fiabilidade andam muitas vezes de mãos dadas, mas nunca querem dizer a mesma coisa. Fiabilidade é a capacidade que um sistema ou componente tem de executar as suas funções sob determinadas condições e durante um certo período de tempo [IEEE 90]. Por outras palavras, é a probabilidade de um sistema ou componente levar a cabo a sua missão dentro do tempo previsto e sem avarias. Uma missão aérea é o exemplo perfeito para ilustrar este conceito. Quando um avião parte para a sua missão, só existe um objectivo em mente: completar o voo, dentro do previsto e em segurança (sem falhas catastróficas). A Disponibilidade, por seu turno, é o grau a que um sistema ou componente está operacional e acessível, quando é necessária a sua utilização [IEEE 90]. Pode ser vista como a probabilidade de o sistema ou componente estar em posição para executar determinada função sob certas condições e numa dada altura. A disponibilidade é determinada pela fiabilidade do sistema, assim como o seu tempo de recuperação quando ocorre uma avaria. Quando os sistemas têm períodos operacionais longos e contínuos (por exemplo, um centro de dados com 10 anos), as avarias são inevitáveis. A disponibilidade é muitas vezes tida em conta, porque quando há uma avaria a variável crucial passa a ser a rapidez com que o sistema recupera. Pegando no exemplo do centro de dados, a variável crucial é ter uma concepção de sistema fiável, mas quando ocorre uma avaria o aspecto mais importante a ter em conta é pôr o equipamento TI e os processos de novo a funcionar, fazendo-o com a máxima rapidez, para reduzir ao mínimo o período de inactividade. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 5 MTBF, ou Tempo Médio Entre Avarias, é a medida básica para a fiabilidade do sistema. A unidade costuma ser exprimida em horas. Quando maior o MTBF, maior a fiabilidade do produto. A Equação 1 mostra esta relação. Fiabilidade = e ⎛ Tempo ⎞ −⎜ ⎟ ⎝ MTBF ⎠ Equação 1 Um equívoco vulgar em relação ao MTBF é dizer que é equivalente ao número estimado de horas de funcionamento antes de uma falha do sistema, ou seja, ao “tempo de validade”. Não é invulgar, no entanto, ver um número de MTBF na ordem de 1 milhão de horas e seria irrealista pensar que o sistema poderia funcionar ininterruptamente 100 anos sem uma única avaria. Estes números são muitas vezes elevados por se basearem na taxa de avaria do produto durante o seu período de “vida útil” ou “vida normal” e parte-se do princípio de que as avarias se manterão a esta taxa indefinidamente. Durante esta fase, os produtos têm a mais baixa (e constante) taxa de avaria. Na realidade, o facto de ser um produto gastável determinaria uma vida mais curta que o número apresentado de MTBF. Como tal, não deve ser estabelecida correlação directa entre o tempo de vida do produto e a taxa de avaria ou o MTBF. É bastante provável ter um produto com elevadíssima fiabilidade (MTBF) e baixo tempo estimado de vida. Veja-se por exemplo um ser humano: Existem 500.000 pessoas de 25 anos na amostra de população. No período de um ano, recolhem-se dados sobre o número de avarias (mortes) nesta amostra da população. A vida funcional da população é de 500.000 x 1 ano = 500.000 pessoas ano. Durante o ano morreram 625 pessoas. A taxa de avaria é de 625 mortes / 500.000 pessoas ano = 0,125 % / ano. O MTBF é a inversão da taxa de avaria ou 1 / 0,00125 = 800 anos. Assim, mesmo que as pessoas de 25 anos tenham valores elevados de MTBF, a sua esperança de vida (vida útil) é muito mais curta e não se correlaciona. A verdade é que os seres humanos não têm taxas de avaria constantes. À medida que as pessoas envelhecem, mais problemas surgem (vão perdendo capacidades). Como tal, a única maneira correcta de calcular um MTBF compatível com o tempo de vida era esperar que toda uma amostra de população de pessoas de 25 anos atingisse a fase final da vida. Só então se poderia calcular a respectiva esperança de vida. Penso que será consenso geral que o número rondaria os 75 - 80 anos. Mas qual é afinal o MTBF das pessoas de 25 anos, é 80 ou 800 anos? Ambos! Mas como é que uma mesma população pode ter valores de MTBF tão díspares? É tudo uma questão de pressupostos! ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 6 Tendo em conta que o MTBF de 80 anos reflecte melhor a vida do produto (neste caso os seres humanos), será este o melhor método? Intuitivamente, assim parece. No entanto, há muitas variáveis que limitam a praticabilidade deste método no que respeita a produtos comercializáveis, como sejam os sistemas UPS. A maior limitação é o tempo. Para pô-lo em prática, todo o conjunto da amostra teria de avariar, e o que acontece é que para muitos produtos isto se dá no espaço de 10 - 15 anos. Além disso, mesmo que fosse mais sensato esperar este tempo para calcular o MTBF, era complicado localizar os produtos. Por exemplo, como é que um fabricante pode saber se os produtos ainda estão em funcionamento, se estes deixarem de ser utilizados sem que isso seja comunicado? Por último, mesmo que tudo acima descrito fosse possível, a tecnologia muda com tal rapidez, que na altura em que o número fosse comunicado, já não teria qualquer utilidade. Quem é que ia querer saber o MTBF de um produto já ultrapassado por várias novas versões? MTTR, ou Tempo Médio de Reparação (ou recuperação), é o tempo estimado de recuperação do sistema perante uma avaria. Pode abranger o tempo que leva a diagnosticar o problema, o tempo que leva a chegar um técnico ao local e o tempo que leva a reparar fisicamente o sistema. Tal como no caso do MTBF, a unidade do MTTR é expressa em horas. Como se vê pela Equação 2, o MTTR tem impacto sobre a disponibilidade e não a fiabilidade. Quando maior o MTTR, maior a avaria do sistema. Pondo de maneira mais simples, quanto mais tempo leva a recuperar o sistema, menos disponibilidade ele tem. A fórmula abaixo ilustra a forma como o MTBF e o MTTR influenciam a disponibilidade geral do sistema. Se o MTBF aumentar, a disponibilidade também aumenta. Se o MTTR aumentar, a disponibilidade diminui. Disponibilidade = MTBF ( MTBF + MTTR) Equação 2 Para as Equações 1 e 2 serem válidas, é preciso efectuar um pressuposto básico ao analisar o MTBF de um sistema. Ao contrário dos sistemas mecânicos, a maioria dos sistemas electrónicos não tem peças móveis. Como tal, é geralmente aceite que os sistemas ou componentos electrónicos possuem taxas de avaria constantes durante o seu período de vida útil. A Figura 1, designada como “curva da banheira” da taxa de avaria, mostra a base do pressuposto de taxa de avaria constante mencionado anteriormente. O “período útil normal” ou “período de vida útil” da curva é a fase em que o produto está a ser usado. É nessa altura que a qualidade do produto está a uma taxa de avaria constante em relação ao tempo. As origens de avaria nesta fase podem ir desde defeitos indetectáveis, a factores de segurança mal concebidos de origem, maior esforço aleatório que o esperado, factores humanos ou avarias naturais. Períodos amplos de selecção dos componentes pelos fabricantes, manutenção cuidada e substituição imediata das peças gastas, devem chegar para prevenir o género de curva de declínio que se vê no “período de desgaste”. A discussão anterior fornece alguma base no que respeita aos conceitos de fiabilidade e disponibilidade e respectivas diferenças, permitindo uma interpretação devida do MTBF. A secção seguinte discute os vários métodos de previsão do MTBF. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 7 Figura 1 – Curva da banheira que mostra as taxas de avaria constantes Período de avaria precoce Período de vida normal Período de desgaste Taxa de avaria Zona de taxa constante de avaria 0 Tempo Métodos de prever e estimar o MTBF Os termos “previsão” e “estimativa” são muitas vezes usados para designar a mesma coisa, o que é incorrecto. Os métodos que prevêem o MTBF calculam um valor com base apenas na concepção do sistema, o que é normalmente feito no início do ciclo de vida do produto. Os métodos de previsão são úteis quando há poucos ou nenhuns dados no terreno, como é o caso do Vaivém Espacial ou de novas linhas de produtos. Quando existem dados suficientes, não se devem usar os métodos de previsão, mas sim métodos que estimam o MTBF, porque estes representam medições de avarias que ocorreram de facto. Os métodos que estimam o MTBF calculam um valor com base numa amostra estudada de sistemas semelhantes, que é normalmente retirada de um grande conjunto acabado de colocar no mercado. O método de estimativa é de longe o mais utilizado para o calcular o MTBF, principalmente por ser baseado em produtos reais, que estão sujeitos a um uso efectivo no terreno. Todos estes métodos são de natureza estatística, o que significa que fornecem apenas uma aproximação do MTBF real. Não existe um método padronizado para toda a indústria. É, portanto, fundamental que o fabricante compreenda e escolha o método mais adequado à respectiva aplicação. Os métodos abaixo apresentados, muito embora não constituam uma lista completa, dão uma ideia das várias maneiras de calcular o MTBF. Métodos de previsão da fiabilidade Os primeiros métodos de previsão da fiabilidade surgiram por volta dos anos 40, através de um cientista alemão chamado Braun e um matemático alemão de seu nome Eric Pieruschka. Na tentativa de fazer face a inúmeros problemas de fiabilidade da bomba voadora V-1, Pieruschka ajudou Von Braun na modelação da fiabilidade da bomba voadora, criando desta forma o primeiro modelo documentado de previsão da fiabilidade. Posteriormente, a NASA, na sequência do crescimento da indústria nuclear, incentivou o aprofundamento no terreno das análises de fiabilidade. Actualmente há vários métodos de previsão do MTBF. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 8 MIL-HDBK 217 Publicado pelo exército americano em 1965, o Guia Militar 217 foi criado para fixar um padrão para estimar a fiabilidade de equipamentos e sistemas electrónicos militares, de maneira a aumentar a fiabilidade do equipamento em estruturação. Estabelece uma base para comparar a fiabilidade de duas ou mais concepções semelhantes. O Guia Militar 217 também é designado de Mil Standard 217, ou simplesmente 217. Há duas maneiras de prever a fiabilidade segundo o 217: Previsão pela contagem das peças ou Previsão de análise de esforço das peças. A Previsão pela contagem das peças é geralmente usada para prever a fiabilidade do produto no início do ciclo de desenvolvimento, para obter uma estimativa aproximada de fiabilidade em relação ao objectivo ou especificação de fiabilidade. É calculada uma taxa de avaria contando literalmente os componentes semelhantes de um produto (ex: condensadores), que são agrupados nos vários tipos de componentes (ex: condensadores de película). O número de componentes de cada grupo é depois multiplicado por uma taxa de avaria genérica e um factor de qualidade existente no 217. Por último, somam-se as taxas de avaria dos diferentes grupos de peças para obter uma taxa de avaria final. Por definição, a Contagem das peças parte do princípio que todos os componentes estão em série e requer que as taxas de avaria dos componentes que não estejam em série sejam calculadas à parte. A Previsão de análise de esforço das peças é normalmente usada muito mais tarde no ciclo de desenvolvimento, quando a concepção dos circuitos reais e o hardware estão próximos da produção. Há semelhanças com a Contagem das peças, porque também se somam as taxas de avaria. Contudo, no Esforço das peças, a taxa de avaria para todo e qualquer componente é calculada individualmente com base nos níveis de esforço específicos a que cada componente é sujeito (ex: humidade, temperatura, vibração, voltagem). De forma a atribuir os níveis de esforço correctos a cada um dos componentes, a concepção de um produto e o seu ambiente esperado têm de ser bem documentados e compreendidos. O Método de esforço das peças dá normalmente uma taxa de avaria mais baixa que o Método de contagem das peças. Devido à extensão de análise necessária, este método, a comparar com os outros, consome imenso tempo. Actualmente o 217 quase não é usado. Em 1996, o exército americano decretou que se devia deixar de utilizar o MIL-HDBK-217, porque “provou ser falível, e a sua utilização pode conduzir a previsões de fiabilidade erradas e enganadoras”3. O 217 foi excluído por várias razões, mas a maior parte prende-se com o facto de a fiabilidade dos componentes melhorar imenso com os anos, ao ponto de já não ser o principal factor de avaria dos produtos. As taxas de avaria dadas pelo 217 são mais cautelosas (elevadas) que as dos componentes electrónicos existentes hoje em dia. Uma investigação exaustiva das avarias actuais dos produtos electrónicos revelaria que as causas mais prováveis de avaria estariam na má aplicação (erro humano), controlo de processos ou concepção do produto. 3 Cushing, M., Krolewski, J., Stadterman, T., and Hum, B., 1996, “U.S. Army Reliability Standardization Improvement Policy and Its Impact”, IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part A, Vol. 19, No. 2, pp. 277-278. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 9 Telcordia O modelo de previsão de fiabilidade Telcordia evoluiu a partir da indústria de telecomunicações e conquistou o seu espaço através de uma série de alterações ao longo dos anos. Foi desenvolvido primeiro pela Bellcore Communications Research sob o nome de Bellcore, como forma de estimar a fiabilidade do equipamento de telecomunicações. Embora o Bellcore se baseasse no 217, os seus modelos de fiabilidade (equações) foram alterados em 1985 de maneira a reflectir as experiências no terreno, de equipamentos de telecomunicações. A última versão do Bellcore foi o TR-332 Número 6, de Dezembro de 1997. A SAIC comprou posteriormente o Bellcore em 1997 e rebaptizou-o de Telcordia. A última versão do Modelo de previsão Telcordia foi o SR-332 Número 1, lançada em Maio de 2001. Disponibiliza vários métodos de cálculo para além dos presentes no 217. Actualmente, o Telcordia continua a ser aplicado como ferramenta de concepção de produtos nesta mesma indústria. HRD5 O HRD5 é o Guia para a fiabilidade dos dados de componentes electrónicos que é utilizado nos sistemas de telecomunicações. O HRD5 foi desenvolvido pela British Telecom e é usado principalmente no Reino Unido. É semelhante ao 217, só que não cobre tantas variáveis ambientais, e fornece um modelo de previsão de fiabilidade que abrange um espectro mais vasto de componentes electrónicos, incluindo telecomunicações. RBD (Diagrama de blocos de fiabilidade) O Diagrama de blocos de fiabilidade, ou RBD, é um desenho representativo e uma ferramenta de cálculo usada para modelar a disponibilidade e fiabilidade do sistema. A estrutura de um diagrama de blocos de fiabilidade determina a interacção lógica de avarias no sistema e não necessariamente a sua interligação lógica ou física. Cada bloco pode representar a falha de um componente individual, subsistema ou qualquer outra avaria representativa. O diagrama pode representar todo um sistema ou qualquer subconjunto ou combinação desse sistema, o que implica uma análise de avaria, fiabilidade ou disponibilidade. Também serve como ferramenta de análise para mostrar como cada um dos elementos funciona e afecta a operacionalidade do sistema. Modelo de Markov O modelo de Markov possibilita a capacidade de analisar sistemas complexos, como arquitecturas eléctricas. Os modelos de Markov também são conhecidos como diagramas de estado espacial ou gráficos de estado. Pode definir-se estado espacial como o conjunto de todos os estados em que um sistema pode estar. Ao contrário dos diagramas de blocos, os gráficos de estado fornecem uma representação mais exacta do sistema. Os gráficos de estado abrangem ramificações das avarias dos componentes, assim como vários estados que os diagramas de blocos não conseguem representar, como o estado de uma UPS a funcionar com bateria. Para além do MTBF, os modelos de Markov fornecem uma série de outras medidas de sistema, incluindo a disponibilidade, MTTR, a probabilidade de estar num determinado estado numa dada altura, e muitas outras. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 10 FMEA / FMECA A FMEA (Análise de modos e efeitos de avarias – Failure Mode and Effects Analysis) é um processo usado para analisar os modos de avaria de um produto. Esta informação é depois usada na determinação do impacto de cada avaria no produto, conduzindo a uma concepção melhorada do produto. A análise pode ser aprofundada se for atribuído um nível de gravidade a cada um dos modos de avaria, passando a chamar-se FMECA (Análise de modos, efeitos e criticidade de avarias – Failure Mode, Effects and Criticality Analysis). A FMEA utiliza uma abordagem de baixo para cima. Por exemplo, no caso de uma UPS, a análise começa com o componente ao nível da placa de circuito e vai subindo na escala até abranger o sistema todo. Para além de ser usada como ferramenta de concepção de produto, também pode ser utilizada para calcular a fiabilidade do sistema geral. Para muitas das peças de equipamento, os dados de probabilidade necessários aos cálculos podem ser difíceis de obter, especialmente se tiverem vários estados ou modos de funcionamento. Árvore de falhas A análise por árvore de falhas foi uma técnica desenvolvida pela Bell Telephone Laboratories para executar aferições de segurança no Sistema de Controlo de Lançamento do Minuteman. Foi mais tarde aplicada às análises de fiabilidade. As árvores por falhas podem ajudar a dissecar os vários passos dos acontecimentos, no que respeita às falhas ou ao funcionamento normal, que conduzem até à falha ao nível dos componentes ou ao acontecimento indesejado que está a ser investigado (abordagem de cima para baixo). A fiabilidade é calculada através da conversão da árvore por falhas final num conjunto de equações equivalente, que por sua vez se obtém através da álgebra de acontecimentos, também conhecida como álgebra booleana. Tal como na FMEA, os dados de probabilidade necessários aos cálculos podem ser difíceis de obter. HALT O Teste de Vida Ultra-rápido (HALT – Highly Accelerated Life Testing) é um método usado para aumentar a fiabilidade geral de uma concepção de produto. O HALT é usado para aferir o tempo que um produto demora a atingir literalmente o ponto de ruptura, pela submissão a condições extremas meticulosamente medidas e controladas, por exemplo de temperatura ou de vibração. É usado um modelo matemático para estimar o tempo real que um produto no terreno demoraria a ter falhas. Embora o HALT permita estimar o MTBF, a sua principal função é melhorar a fiabilidade da concepção do produto. Métodos de estimativa de fiabilidade Método de Previsão de Itens Semelhantes Este método permite estimar, de forma rápida, a fiabilidade com base em dados históricos de fiabilidade de itens semelhantes. A eficácia deste método depende acima de tudo do grau de semelhança entre o novo equipamento e o actualmente existente, ou seja, aquele para o qual existem dados no terreno. Deve haver similaridade de processos de fabrico, ambientes de funcionamento, funções do produto e concepção. Este método de previsão é especialmente útil para produtos que seguem uma linha evolutiva, já que tira partido da experiência passada no terreno. Todavia, as diferenças apresentadas pelas novas concepções devem ser meticulosamente estudadas e tidas em conta para a previsão final. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 11 Método de Medição de Dados no Terreno O método de medição de dados no terreno baseia-se na experiência factual de produtos no terreno. Este método é talvez o mais utilizado pelos fabricantes, por ser parte integrante do programa de controlo de qualidade. Estes programas são muitas vezes designados no geral como Gestão de crescimento de fiabilidade. Pela despistagem da taxa de avaria de produtos no terreno, o fabricante consegue rapidamente identificar e combater os problemas, suprimindo os defeitos dos produtos. Como é baseado em avarias reais no terreno, este método abarca modos de avaria que escapam por vezes aos métodos de previsão. O método consiste em seguir um grupo de amostragem de novos produtos e recolher os dados de avaria. Uma vez recolhidos os dados, calcula-se a taxa de avaria e o MTBF. A taxa de avaria é a percentagem de um conjunto de unidades que se estima que vão “falhar” num ano civil. Para além de os dados serem usados para controlo de qualidade, eles servem igualmente para informar clientes e parceiros sobre a fiabilidade e processos de qualidade dos produtos. Como é um método muito banalizado entre fabricantes, serve como base de comparação de valores MTBF. Tais comparações permitem aos utilizadores avaliarem as diferenças de fiabilidade entre produtos, o que é um instrumento importante na hora de fazer especificações ou tomar decisões de compra. Tal como em qualquer outra comparação, é imperativo que as variáveis fundamentais sejam iguais para todos os sistemas em avaliação. Quando isto não acontece, é mais provável que se tomem decisões erradas e que daí resultem impactos financeiros negativos. ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 12 Conclusões MTBF é uma palavra de gíria vulgarmente utilizada pela indústria TI. São lançados números sem a devida compreensão daquilo que representam. Embora o MTBF seja um indicador de fiabilidade, nada tem a ver com a vida útil estimada de um produto. Em última análise, um valor de MTBF de pouco ou nada serve se a avaria for indefinida e os pressupostos forem irrealistas ou não existirem de todo. Referências 1. Pecht, M.G., Nash, F.R., “Predicting the Reliability of Electronic Equipment”, Procedimentos do IEEE, Vol. 82, No. 7, Julho 1994 2. Leonard, C., “MIL-HDBK-217: It’s Time To Rethink It”, Electronic Design, 24 Outubro, 1991 3. http://www.markov-model.com 4. MIL-HDBK-338B, Electronic Reliability Design Handbook, 1 Outubro, 1998 5. IEEE 90 – Institute of Electrical and Electronics Engineers, Dicionário informático standard do IEEE: Compilação dos glossários informáticos standard do IEEE. New York, NY: 1990 Acerca dos autores: Wendy Torell é Engenheira de Disponibilidade da APC em W. Kingston, RI. Faz consultadoria na área de estratégias científicas de disponibilidade e concepção de práticas para optimizar a disponibilidade dos ambientes de centros de dados. Completou o bacharelato em Engenharia mecânica pela Union College em Schenectady, NY. Wendy é uma Engenheira de qualidade certificada pela ASQ. Victor Avelar é Engenheiro de Disponibilidade da APC. É responsável pela consultoria de disponibilidade e análise de arquitecturas eléctricas e concepção de centros de dados para clientes. Victor completou o bacharelato em Engenharia mecânica no Rensselaer Polytechnic Institute em 1995 e é membro da ASHRAE e da Sociedade americana para a qualidade (ASQ). ©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0 13