Tempo Médio
Entre Avarias
(MTBF – Mean Time
Between Failures):
Explicações e
Normalizações
Por Wendy Torell
Victor Avelar
Aplicação
Técnica Nº 78
Sumário Executivo
O Tempo Médio Entre Avarias (MTBF) é um termo de fiabilidade frequentemente utilizado
por várias indústrias e a sua banalização levou a que algumas fizessem uma má utilização
generalizada do mesmo. Ao longo dos anos, o significado original do termo sofreu adulterações, o que levou a alguma confusão e dúvida. O MTBF é em grande parte baseado
em pressupostos e na definição de avaria, e a atenção a estes factos é fundamental para
uma correcta interpretação. Este documento explica as complexidades e equívocos relativamente ao MTBF, bem como os métodos existentes para o calcular.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
2
Introdução
O Tempo Médio Entre Avarias (MTBF) é utilizado há mais de 60 anos como base para várias decisões.
Ao longo dos anos, foram desenvolvidos mais de 20 métodos e procedimentos para previsões de ciclos
de vida. Portanto, não admira que o MTBF tenha sido objecto de infindáveis e complicados debates. Se há
área em que isso é particularmente evidente é na concepção de instalações cruciais de equipamento TI e
telecomunicações. Para casos em que alguns minutos de período de inactividade são suficientes para
causar impacto negativo no valor de mercado de uma empresa, é vital que as infra-estruturas físicas de
suporte ao ambiente em rede sejam fiáveis. Sem uma compreensão cabal do MTBF, a fiabilidade projectada da empresa pode não ser atingida. Este documento explora os vários aspectos do MTBF, com recurso a
vários exemplos, numa tentativa de simplificar a complexidade inerente ao assunto e clarificar os equívocos.
O que é uma avaria? Quais são os pressupostos?
Estas questões devem ser respondidas imediatamente após examinar qualquer valor de MTBF. Sem
responder a estas perguntas, de pouco vale a discussão. O MTBF é muitas vezes citado sem que se
adiante uma definição de avaria. Esta prática não só é enganadora, como é completamente inútil. Era
o mesmo que definir o consumo de combustível de um automóvel como “quilómetros por depósito” sem
especificar a capacidade do depósito em litros ou outra medida qualquer. Para desfazer esta ambiguidade,
poderíamos dizer que existem duas definições fundamentais de avaria:
1)
Cessação da capacidade de o produto executar a sua função como um todo.1
2)
Cessação da capacidade de um determinado componente executar a sua função, sem impedir a
capacidade de o produto funcionar como um todo.2
Os dois exemplos seguintes mostram se um determinado modo de avaria de um produto é ou não classificado como avaria, consoante a definição escolhida.
Exemplo 1:
Se falhar um disco redundante de um sistema RAID, tal não impede que o sistema RAID continue a desempenhar a sua função de fornecimento de dados cruciais. Contudo, a falha no disco impede um dos componentes do sistema de discos de executar a função de fornecimento de capacidade de armazenamento.
Como tal, se pela definição 1 isto não pode ser considerado avaria, pela definição 2 já se passa o contrário.
1
2
IEC-50
IEC-50
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
3
Exemplo 2:
Se o inversor de uma UPS falhar e a UPS mudar para bypass estático, a avaria não impede que a UPS
execute a sua função de alimentação de energia para a carga crucial. No entanto, a falha no inversor
impede um dos componentes do sistema UPS de executar a função de fornecimento de alimentação
condicionada. Tal como no exemplo anterior, isto só é considerado avaria pela definição 2.
Se só existissem duas definições era bastante fácil definir avaria. Mas, infelizmente, quando está em causa
a reputação de um produto, a questão torna-se quase tão complicada como para o MTBF. Mas há mais que
duas definições para avaria. Na realidade, há infinitas. Os fabricantes podem ter inúmeras definições para
avaria, conforme o tipo de produto. Aqueles que são guiados pela qualidade despistam todo o género de
avarias, por uma questão de controlo do processo, o que entre outras vantagens, elimina os defeitos do
produto. Assim sendo, é necessário colocar mais questões para poder definir correctamente avaria.
A incorrecta utilização do produto pelo cliente é considerada avaria? Quem concebe o produto pode descurar vários factores humanos que potenciem um uso incorrecto do mesmo pelos utilizadores. As quebras
de corrente provocadas por um técnico de vendas do serviço contam como avarias? A própria concepção
do produto pode aumentar a probabilidade de avaria de um procedimento já de si arriscado? Se um LED
(Díodo emissor de luz) de um computador falhasse, isso era considerado avaria mesmo que não impedisse
o funcionamento do computador? Se um consumível, como por exemplo uma bateria, se gastar ou deixar
de funcionar antes do tempo previsto, isso é considerado avaria? Os danos durante o transporte do produto são considerados avarias? Tal facto pode indiciar um empacotamento mal pensado pelos fabricantes.
A importância da definição de avaria deve ser, portanto, uma evidência para todos e deve também ser
compreendida antes de se tentar interpretar qualquer valor de MTBF. São questões como as acima colocadas que lançam os fundamentos sobre os quais devem assentar as decisões de fiabilidade.
Costuma-se dizer que os engenheiros nunca se enganam; apenas formulam pressupostos errados. Os
mesmo se pode dizer dos que tentam calcular os valores de MTBF. São necessários pressupostos para
simplificar o processo de cálculo do MTBF. Seria praticamente impossível recolher os dados necessários
para calcular um número exacto. Todavia, todos os pressupostos devem ser realistas. Ao longo do documento são descritos alguns pressupostos usados no cálculo do MTBF.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
4
Definição de Fiabilidade, Disponibilidade, MTBF e MTTR
O MTBF tem influência tanto sobre a fiabilidade como sobre a disponibilidade. Antes de expor os métodos
de MTBF, é importante ter uma base sólida sobre estes conceitos. Em muitos casos, desconhece-se ou
interpreta-se mal a diferença entre fiabilidade e disponibilidade. Os conceitos de elevada disponibilidade
e elevada fiabilidade andam muitas vezes de mãos dadas, mas nunca querem dizer a mesma coisa.
Fiabilidade é a capacidade que um sistema ou componente tem de executar as suas funções sob
determinadas condições e durante um certo período de tempo [IEEE 90].
Por outras palavras, é a probabilidade de um sistema ou componente levar a cabo a sua missão dentro do
tempo previsto e sem avarias. Uma missão aérea é o exemplo perfeito para ilustrar este conceito. Quando
um avião parte para a sua missão, só existe um objectivo em mente: completar o voo, dentro do previsto e
em segurança (sem falhas catastróficas).
A Disponibilidade, por seu turno, é o grau a que um sistema ou componente está operacional
e acessível, quando é necessária a sua utilização [IEEE 90].
Pode ser vista como a probabilidade de o sistema ou componente estar em posição para executar determinada função sob certas condições e numa dada altura. A disponibilidade é determinada pela fiabilidade do
sistema, assim como o seu tempo de recuperação quando ocorre uma avaria. Quando os sistemas têm
períodos operacionais longos e contínuos (por exemplo, um centro de dados com 10 anos), as avarias são
inevitáveis. A disponibilidade é muitas vezes tida em conta, porque quando há uma avaria a variável crucial
passa a ser a rapidez com que o sistema recupera. Pegando no exemplo do centro de dados, a variável
crucial é ter uma concepção de sistema fiável, mas quando ocorre uma avaria o aspecto mais importante
a ter em conta é pôr o equipamento TI e os processos de novo a funcionar, fazendo-o com a máxima
rapidez, para reduzir ao mínimo o período de inactividade.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
5
MTBF, ou Tempo Médio Entre Avarias, é a medida básica para a fiabilidade do sistema. A unidade costuma
ser exprimida em horas. Quando maior o MTBF, maior a fiabilidade do produto. A Equação 1 mostra esta
relação.
Fiabilidade = e
⎛ Tempo ⎞
−⎜
⎟
⎝ MTBF ⎠
Equação 1
Um equívoco vulgar em relação ao MTBF é dizer que é equivalente ao número estimado de horas de
funcionamento antes de uma falha do sistema, ou seja, ao “tempo de validade”. Não é invulgar, no entanto,
ver um número de MTBF na ordem de 1 milhão de horas e seria irrealista pensar que o sistema poderia
funcionar ininterruptamente 100 anos sem uma única avaria. Estes números são muitas vezes elevados por
se basearem na taxa de avaria do produto durante o seu período de “vida útil” ou “vida normal” e parte-se
do princípio de que as avarias se manterão a esta taxa indefinidamente. Durante esta fase, os produtos têm
a mais baixa (e constante) taxa de avaria. Na realidade, o facto de ser um produto gastável determinaria
uma vida mais curta que o número apresentado de MTBF. Como tal, não deve ser estabelecida correlação
directa entre o tempo de vida do produto e a taxa de avaria ou o MTBF. É bastante provável ter um produto
com elevadíssima fiabilidade (MTBF) e baixo tempo estimado de vida. Veja-se por exemplo um ser humano:
Existem 500.000 pessoas de 25 anos na amostra de população.
No período de um ano, recolhem-se dados sobre o número de avarias (mortes)
nesta amostra da população.
A vida funcional da população é de 500.000 x 1 ano = 500.000 pessoas ano.
Durante o ano morreram 625 pessoas.
A taxa de avaria é de 625 mortes / 500.000 pessoas ano = 0,125 % / ano.
O MTBF é a inversão da taxa de avaria ou 1 / 0,00125 = 800 anos.
Assim, mesmo que as pessoas de 25 anos tenham valores elevados de MTBF,
a sua esperança de vida (vida útil) é muito mais curta e não se correlaciona.
A verdade é que os seres humanos não têm taxas de avaria constantes. À medida que as pessoas envelhecem, mais problemas surgem (vão perdendo capacidades). Como tal, a única maneira correcta de
calcular um MTBF compatível com o tempo de vida era esperar que toda uma amostra de população de
pessoas de 25 anos atingisse a fase final da vida. Só então se poderia calcular a respectiva esperança
de vida. Penso que será consenso geral que o número rondaria os 75 - 80 anos.
Mas qual é afinal o MTBF das pessoas de 25 anos, é 80 ou 800 anos? Ambos! Mas como é que uma
mesma população pode ter valores de MTBF tão díspares? É tudo uma questão de pressupostos!
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
6
Tendo em conta que o MTBF de 80 anos reflecte melhor a vida do produto (neste caso os seres humanos),
será este o melhor método? Intuitivamente, assim parece. No entanto, há muitas variáveis que limitam a
praticabilidade deste método no que respeita a produtos comercializáveis, como sejam os sistemas UPS.
A maior limitação é o tempo. Para pô-lo em prática, todo o conjunto da amostra teria de avariar, e o que
acontece é que para muitos produtos isto se dá no espaço de 10 - 15 anos. Além disso, mesmo que fosse
mais sensato esperar este tempo para calcular o MTBF, era complicado localizar os produtos. Por exemplo,
como é que um fabricante pode saber se os produtos ainda estão em funcionamento, se estes deixarem de
ser utilizados sem que isso seja comunicado?
Por último, mesmo que tudo acima descrito fosse possível, a tecnologia muda com tal rapidez, que na altura
em que o número fosse comunicado, já não teria qualquer utilidade. Quem é que ia querer saber o MTBF
de um produto já ultrapassado por várias novas versões?
MTTR, ou Tempo Médio de Reparação (ou recuperação), é o tempo estimado de recuperação do sistema
perante uma avaria. Pode abranger o tempo que leva a diagnosticar o problema, o tempo que leva a chegar um técnico ao local e o tempo que leva a reparar fisicamente o sistema. Tal como no caso do MTBF,
a unidade do MTTR é expressa em horas. Como se vê pela Equação 2, o MTTR tem impacto sobre a
disponibilidade e não a fiabilidade. Quando maior o MTTR, maior a avaria do sistema. Pondo de maneira
mais simples, quanto mais tempo leva a recuperar o sistema, menos disponibilidade ele tem. A fórmula
abaixo ilustra a forma como o MTBF e o MTTR influenciam a disponibilidade geral do sistema. Se o MTBF
aumentar, a disponibilidade também aumenta. Se o MTTR aumentar, a disponibilidade diminui.
Disponibilidade =
MTBF
( MTBF + MTTR)
Equação 2
Para as Equações 1 e 2 serem válidas, é preciso efectuar um pressuposto básico ao analisar o MTBF de
um sistema. Ao contrário dos sistemas mecânicos, a maioria dos sistemas electrónicos não tem peças
móveis. Como tal, é geralmente aceite que os sistemas ou componentos electrónicos possuem taxas
de avaria constantes durante o seu período de vida útil. A Figura 1, designada como “curva da banheira”
da taxa de avaria, mostra a base do pressuposto de taxa de avaria constante mencionado anteriormente.
O “período útil normal” ou “período de vida útil” da curva é a fase em que o produto está a ser usado.
É nessa altura que a qualidade do produto está a uma taxa de avaria constante em relação ao tempo.
As origens de avaria nesta fase podem ir desde defeitos indetectáveis, a factores de segurança mal concebidos de origem, maior esforço aleatório que o esperado, factores humanos ou avarias naturais. Períodos amplos de selecção dos componentes pelos fabricantes, manutenção cuidada e substituição imediata das peças gastas, devem chegar para prevenir o género de curva de declínio que se vê no “período de
desgaste”. A discussão anterior fornece alguma base no que respeita aos conceitos de fiabilidade e disponibilidade e respectivas diferenças, permitindo uma interpretação devida do MTBF. A secção seguinte
discute os vários métodos de previsão do MTBF.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
7
Figura 1 – Curva da banheira que mostra as taxas de avaria constantes
Período de
avaria precoce
Período de
vida normal
Período de
desgaste
Taxa
de
avaria
Zona de taxa
constante de avaria
0
Tempo
Métodos de prever e estimar o MTBF
Os termos “previsão” e “estimativa” são muitas vezes usados para designar a mesma coisa, o que é incorrecto. Os métodos que prevêem o MTBF calculam um valor com base apenas na concepção do sistema,
o que é normalmente feito no início do ciclo de vida do produto. Os métodos de previsão são úteis quando
há poucos ou nenhuns dados no terreno, como é o caso do Vaivém Espacial ou de novas linhas de produtos. Quando existem dados suficientes, não se devem usar os métodos de previsão, mas sim métodos que
estimam o MTBF, porque estes representam medições de avarias que ocorreram de facto. Os métodos que
estimam o MTBF calculam um valor com base numa amostra estudada de sistemas semelhantes, que é
normalmente retirada de um grande conjunto acabado de colocar no mercado. O método de estimativa é
de longe o mais utilizado para o calcular o MTBF, principalmente por ser baseado em produtos reais, que
estão sujeitos a um uso efectivo no terreno.
Todos estes métodos são de natureza estatística, o que significa que fornecem apenas uma aproximação
do MTBF real. Não existe um método padronizado para toda a indústria. É, portanto, fundamental que o
fabricante compreenda e escolha o método mais adequado à respectiva aplicação. Os métodos abaixo
apresentados, muito embora não constituam uma lista completa, dão uma ideia das várias maneiras de
calcular o MTBF.
Métodos de previsão da fiabilidade
Os primeiros métodos de previsão da fiabilidade surgiram por volta dos anos 40, através de um cientista
alemão chamado Braun e um matemático alemão de seu nome Eric Pieruschka. Na tentativa de fazer face
a inúmeros problemas de fiabilidade da bomba voadora V-1, Pieruschka ajudou Von Braun na modelação
da fiabilidade da bomba voadora, criando desta forma o primeiro modelo documentado de previsão da
fiabilidade. Posteriormente, a NASA, na sequência do crescimento da indústria nuclear, incentivou o aprofundamento no terreno das análises de fiabilidade. Actualmente há vários métodos de previsão do MTBF.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
8
MIL-HDBK 217
Publicado pelo exército americano em 1965, o Guia Militar 217 foi criado para fixar um padrão para estimar a fiabilidade de equipamentos e sistemas electrónicos militares, de maneira a aumentar a fiabilidade do equipamento em estruturação. Estabelece uma base para comparar a fiabilidade de duas ou
mais concepções semelhantes. O Guia Militar 217 também é designado de Mil Standard 217, ou simplesmente 217. Há duas maneiras de prever a fiabilidade segundo o 217: Previsão pela contagem das peças ou
Previsão de análise de esforço das peças.
A Previsão pela contagem das peças é geralmente usada para prever a fiabilidade do produto no início
do ciclo de desenvolvimento, para obter uma estimativa aproximada de fiabilidade em relação ao objectivo
ou especificação de fiabilidade. É calculada uma taxa de avaria contando literalmente os componentes
semelhantes de um produto (ex: condensadores), que são agrupados nos vários tipos de componentes
(ex: condensadores de película). O número de componentes de cada grupo é depois multiplicado por uma
taxa de avaria genérica e um factor de qualidade existente no 217. Por último, somam-se as taxas de avaria
dos diferentes grupos de peças para obter uma taxa de avaria final. Por definição, a Contagem das peças
parte do princípio que todos os componentes estão em série e requer que as taxas de avaria dos componentes que não estejam em série sejam calculadas à parte.
A Previsão de análise de esforço das peças é normalmente usada muito mais tarde no ciclo de desenvolvimento, quando a concepção dos circuitos reais e o hardware estão próximos da produção. Há semelhanças
com a Contagem das peças, porque também se somam as taxas de avaria. Contudo, no Esforço das peças,
a taxa de avaria para todo e qualquer componente é calculada individualmente com base nos níveis de
esforço específicos a que cada componente é sujeito (ex: humidade, temperatura, vibração, voltagem). De
forma a atribuir os níveis de esforço correctos a cada um dos componentes, a concepção de um produto e o
seu ambiente esperado têm de ser bem documentados e compreendidos. O Método de esforço das peças
dá normalmente uma taxa de avaria mais baixa que o Método de contagem das peças. Devido à extensão
de análise necessária, este método, a comparar com os outros, consome imenso tempo.
Actualmente o 217 quase não é usado. Em 1996, o exército americano decretou que se devia deixar
de utilizar o MIL-HDBK-217, porque “provou ser falível, e a sua utilização pode conduzir a previsões de
fiabilidade erradas e enganadoras”3. O 217 foi excluído por várias razões, mas a maior parte prende-se
com o facto de a fiabilidade dos componentes melhorar imenso com os anos, ao ponto de já não ser o
principal factor de avaria dos produtos. As taxas de avaria dadas pelo 217 são mais cautelosas (elevadas)
que as dos componentes electrónicos existentes hoje em dia. Uma investigação exaustiva das avarias
actuais dos produtos electrónicos revelaria que as causas mais prováveis de avaria estariam na má aplicação (erro humano), controlo de processos ou concepção do produto.
3
Cushing, M., Krolewski, J., Stadterman, T., and Hum, B., 1996, “U.S. Army Reliability Standardization
Improvement Policy and Its Impact”, IEEE Transactions on Components, Packaging, and Manufacturing
Technology, Part A, Vol. 19, No. 2, pp. 277-278.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
9
Telcordia
O modelo de previsão de fiabilidade Telcordia evoluiu a partir da indústria de telecomunicações e conquistou o seu espaço através de uma série de alterações ao longo dos anos. Foi desenvolvido primeiro pela
Bellcore Communications Research sob o nome de Bellcore, como forma de estimar a fiabilidade do equipamento de telecomunicações. Embora o Bellcore se baseasse no 217, os seus modelos de fiabilidade
(equações) foram alterados em 1985 de maneira a reflectir as experiências no terreno, de equipamentos
de telecomunicações. A última versão do Bellcore foi o TR-332 Número 6, de Dezembro de 1997. A SAIC
comprou posteriormente o Bellcore em 1997 e rebaptizou-o de Telcordia. A última versão do Modelo de
previsão Telcordia foi o SR-332 Número 1, lançada em Maio de 2001. Disponibiliza vários métodos de
cálculo para além dos presentes no 217. Actualmente, o Telcordia continua a ser aplicado como ferramenta de concepção de produtos nesta mesma indústria.
HRD5
O HRD5 é o Guia para a fiabilidade dos dados de componentes electrónicos que é utilizado nos sistemas de telecomunicações. O HRD5 foi desenvolvido pela British Telecom e é usado principalmente no
Reino Unido. É semelhante ao 217, só que não cobre tantas variáveis ambientais, e fornece um modelo
de previsão de fiabilidade que abrange um espectro mais vasto de componentes electrónicos, incluindo
telecomunicações.
RBD (Diagrama de blocos de fiabilidade)
O Diagrama de blocos de fiabilidade, ou RBD, é um desenho representativo e uma ferramenta de cálculo usada para modelar a disponibilidade e fiabilidade do sistema. A estrutura de um diagrama de blocos de
fiabilidade determina a interacção lógica de avarias no sistema e não necessariamente a sua interligação
lógica ou física. Cada bloco pode representar a falha de um componente individual, subsistema ou qualquer
outra avaria representativa. O diagrama pode representar todo um sistema ou qualquer subconjunto ou
combinação desse sistema, o que implica uma análise de avaria, fiabilidade ou disponibilidade. Também
serve como ferramenta de análise para mostrar como cada um dos elementos funciona e afecta a operacionalidade do sistema.
Modelo de Markov
O modelo de Markov possibilita a capacidade de analisar sistemas complexos, como arquitecturas eléctricas. Os modelos de Markov também são conhecidos como diagramas de estado espacial ou gráficos de
estado. Pode definir-se estado espacial como o conjunto de todos os estados em que um sistema pode
estar. Ao contrário dos diagramas de blocos, os gráficos de estado fornecem uma representação mais
exacta do sistema. Os gráficos de estado abrangem ramificações das avarias dos componentes, assim
como vários estados que os diagramas de blocos não conseguem representar, como o estado de uma UPS
a funcionar com bateria. Para além do MTBF, os modelos de Markov fornecem uma série de outras medidas de sistema, incluindo a disponibilidade, MTTR, a probabilidade de estar num determinado estado numa
dada altura, e muitas outras.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
10
FMEA / FMECA
A FMEA (Análise de modos e efeitos de avarias – Failure Mode and Effects Analysis) é um processo
usado para analisar os modos de avaria de um produto. Esta informação é depois usada na determinação
do impacto de cada avaria no produto, conduzindo a uma concepção melhorada do produto. A análise pode
ser aprofundada se for atribuído um nível de gravidade a cada um dos modos de avaria, passando a chamar-se FMECA (Análise de modos, efeitos e criticidade de avarias – Failure Mode, Effects and Criticality Analysis). A FMEA utiliza uma abordagem de baixo para cima. Por exemplo, no caso de uma UPS,
a análise começa com o componente ao nível da placa de circuito e vai subindo na escala até abranger
o sistema todo. Para além de ser usada como ferramenta de concepção de produto, também pode ser
utilizada para calcular a fiabilidade do sistema geral. Para muitas das peças de equipamento, os dados de
probabilidade necessários aos cálculos podem ser difíceis de obter, especialmente se tiverem vários estados ou modos de funcionamento.
Árvore de falhas
A análise por árvore de falhas foi uma técnica desenvolvida pela Bell Telephone Laboratories para executar aferições de segurança no Sistema de Controlo de Lançamento do Minuteman. Foi mais tarde aplicada
às análises de fiabilidade. As árvores por falhas podem ajudar a dissecar os vários passos dos acontecimentos, no que respeita às falhas ou ao funcionamento normal, que conduzem até à falha ao nível dos
componentes ou ao acontecimento indesejado que está a ser investigado (abordagem de cima para baixo).
A fiabilidade é calculada através da conversão da árvore por falhas final num conjunto de equações equivalente, que por sua vez se obtém através da álgebra de acontecimentos, também conhecida como álgebra
booleana. Tal como na FMEA, os dados de probabilidade necessários aos cálculos podem ser difíceis de
obter.
HALT
O Teste de Vida Ultra-rápido (HALT – Highly Accelerated Life Testing) é um método usado para aumentar
a fiabilidade geral de uma concepção de produto. O HALT é usado para aferir o tempo que um produto
demora a atingir literalmente o ponto de ruptura, pela submissão a condições extremas meticulosamente
medidas e controladas, por exemplo de temperatura ou de vibração. É usado um modelo matemático para
estimar o tempo real que um produto no terreno demoraria a ter falhas. Embora o HALT permita estimar o
MTBF, a sua principal função é melhorar a fiabilidade da concepção do produto.
Métodos de estimativa de fiabilidade
Método de Previsão de Itens Semelhantes
Este método permite estimar, de forma rápida, a fiabilidade com base em dados históricos de fiabilidade de
itens semelhantes. A eficácia deste método depende acima de tudo do grau de semelhança entre o novo
equipamento e o actualmente existente, ou seja, aquele para o qual existem dados no terreno. Deve haver
similaridade de processos de fabrico, ambientes de funcionamento, funções do produto e concepção. Este
método de previsão é especialmente útil para produtos que seguem uma linha evolutiva, já que tira partido
da experiência passada no terreno. Todavia, as diferenças apresentadas pelas novas concepções devem
ser meticulosamente estudadas e tidas em conta para a previsão final.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
11
Método de Medição de Dados no Terreno
O método de medição de dados no terreno baseia-se na experiência factual de produtos no terreno. Este
método é talvez o mais utilizado pelos fabricantes, por ser parte integrante do programa de controlo de
qualidade. Estes programas são muitas vezes designados no geral como Gestão de crescimento de fiabilidade. Pela despistagem da taxa de avaria de produtos no terreno, o fabricante consegue rapidamente
identificar e combater os problemas, suprimindo os defeitos dos produtos. Como é baseado em avarias
reais no terreno, este método abarca modos de avaria que escapam por vezes aos métodos de previsão.
O método consiste em seguir um grupo de amostragem de novos produtos e recolher os dados de avaria.
Uma vez recolhidos os dados, calcula-se a taxa de avaria e o MTBF. A taxa de avaria é a percentagem de
um conjunto de unidades que se estima que vão “falhar” num ano civil. Para além de os dados serem
usados para controlo de qualidade, eles servem igualmente para informar clientes e parceiros sobre a
fiabilidade e processos de qualidade dos produtos. Como é um método muito banalizado entre fabricantes,
serve como base de comparação de valores MTBF. Tais comparações permitem aos utilizadores avaliarem
as diferenças de fiabilidade entre produtos, o que é um instrumento importante na hora de fazer especificações ou tomar decisões de compra. Tal como em qualquer outra comparação, é imperativo que as variáveis
fundamentais sejam iguais para todos os sistemas em avaliação. Quando isto não acontece, é mais provável que se tomem decisões erradas e que daí resultem impactos financeiros negativos.
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
12
Conclusões
MTBF é uma palavra de gíria vulgarmente utilizada pela indústria TI. São lançados números sem a devida
compreensão daquilo que representam. Embora o MTBF seja um indicador de fiabilidade, nada tem a ver
com a vida útil estimada de um produto. Em última análise, um valor de MTBF de pouco ou nada serve se
a avaria for indefinida e os pressupostos forem irrealistas ou não existirem de todo.
Referências
1.
Pecht, M.G., Nash, F.R., “Predicting the Reliability of Electronic Equipment”, Procedimentos do IEEE,
Vol. 82, No. 7, Julho 1994
2.
Leonard, C., “MIL-HDBK-217: It’s Time To Rethink It”, Electronic Design, 24 Outubro, 1991
3.
http://www.markov-model.com
4.
MIL-HDBK-338B, Electronic Reliability Design Handbook, 1 Outubro, 1998
5.
IEEE 90 – Institute of Electrical and Electronics Engineers, Dicionário informático standard do
IEEE: Compilação dos glossários informáticos standard do IEEE. New York, NY: 1990
Acerca dos autores:
Wendy Torell é Engenheira de Disponibilidade da APC em W. Kingston, RI. Faz consultadoria na área
de estratégias científicas de disponibilidade e concepção de práticas para optimizar a disponibilidade dos
ambientes de centros de dados. Completou o bacharelato em Engenharia mecânica pela Union College
em Schenectady, NY. Wendy é uma Engenheira de qualidade certificada pela ASQ.
Victor Avelar é Engenheiro de Disponibilidade da APC. É responsável pela consultoria de disponibilidade
e análise de arquitecturas eléctricas e concepção de centros de dados para clientes. Victor completou
o bacharelato em Engenharia mecânica no Rensselaer Polytechnic Institute em 1995 e é membro da
ASHRAE e da Sociedade americana para a qualidade (ASQ).
©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida,
fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário
dos direitos de autor. www.apc.com
Rev 2004-0
13
Download

Tempo Médio Entre Avarias (MTBF – Mean Time Between