XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. DETERMINAÇÃO DO TEMPO MÉDIO ATÉ A FALHA PARA UM SISTEMA EM COLD STANDBY COM MANUTENÇÃO CORRETIVA BASEADO NA TEORIA DE SEMI-MARKOV Angelica Alebrant Mendes (UFRGS) [email protected] Jose Luis Duarte Ribeiro (UFRGS) [email protected] Este artigo desenvolve um método para estabelecer o tempo médio até a falha para um sistema formado por dois componentes idênticos em cold standby com manutenção corretiva. Processos de semi-Markov e regenerativo são usados para definir os estados do sistema e a probabilidade de transição entre os estados. Na sequência, transformadas de Laplace são aplicadas para determinar a função da distribuição cumulativa do tempo até a primeira falha do sistema. Finalmente, o tempo médio até a falha do sistema, como uma função da taxa de falha e de reparo dos componentes, é obtido através da fórmula de ganho de Mason. Um exemplo numérico é apresentado e resultados para diferentes parâmetros são comparados. A análise revela o efeito da taxa de falha e reparo dos componentes no tempo médio até a falha do sistema. Ainda que amplamente utilizados na indústria, modelos para a otimização da manutenção de sistemas reparáveis em cold standby ainda são pouco explorados na literatura brasileira. A determinação do tempo médio até a falha do sistema constitui-se no primeiro passo para a otimização da manutenção desses sistemas. Palavras-chave: confiabilidade, manutenção, cold standby, processos de semiMarkov XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. 1. Introdução Um sistema em cold standby é um sistema com dois ou mais componentes, onde m de n componentes estão em operação e os outros n - m componentes podem iniciar a operação assim que um ou mais componentes em operação falharem. Sistemas em cold standby têm sido amplamente utilizados em locais onde a segurança operacional é muito importante, como, por exemplo, em controles de aeronaves, plantas nucleares e grandes redes de telecomunicações. Estas estruturas são usadas para aumentar a confiabilidade do sistema, visto que, quando o componente em operação falha, o componente em posição de standby inicia a operação imediatamente, evitando a falha do sistema. Falhas em sistemas em cold standby normalmente possuem impactos significativos em termos de custos de produção, segurança humana e segurança ambiental. Em muitos sistemas em cold standby, os componentes podem ser reparados após a falha por custos menores que aqueles incorridos com a sua substituição. A determinação da confiabilidade e do tempo médio até a falha nesses sistemas se torna mais complexa do que em sistemas não reparáveis, visto que componentes em falha são reparados e repostos no sistema muitas vezes antes da falha completa do sistema. Um processo regenerativo é um processo estocástico que possui pontos no tempo onde o processo se reinicia probabilisticamente. Ou seja, existe um tempo T1 onde a continuação do processo além de T1 é probabilisticamente igual ao do processo iniciando em t = 0 (ROSS, 2007). Um sistema em cold standby em que o componente que falha é reparado, pode ser considerado como um processo regenerativo. Supondo-se que um processo pode estar em qualquer um dos N estados 1, 2,...., N, e que cada vez que ele entre no estado i ele permanece neste estado por uma quantidade de tempo aleatório e então faz uma transição para o estado j com probabilidade Pij. Este tipo de processo é chamado processo de semi-Markov. Se a quantidade de tempo gasta em cada estado antes da transição for 2 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. igual a 1, tem-se uma Cadeia de Markov (ROSS, 2007). Muitas publicações internacionais já há algum tempo utilizam estes métodos para modelar e otimizar diferentes sistemas redundantes. Exemplos são os trabalhos desenvolvidos por Osaki (1972) e por Zhong e Jin (2014). Osaki (1972) desenvolveu um modelo para determinar a política de manutenção mais apropriada para um sistema em cold standby com reparo. Neste sistema, manutenções preventivas são aplicadas no componente em operação para manter o nível de confiabilidade do sistema. Quando este componente falha, o componente em standby se torna ativo e o componente em falha é enviado para reparo imediatamente. O autor usou processos de renovação de Markov e transformada de Laplace-Stieltjes para determinar o tempo até a primeira falha do sistema como uma função do tempo entre manutenções preventivas. Por sua vez, Zhong e Jin (2014) desenvolveram um modelo similar para um sistema equivalente, com exceção de que os tempos até a falha dos componentes seguem uma distribuição de Weibull. Os autores utilizaram processos de semi-Markov e processos regenerativos para determinar as probabilidades de transição e transformadas de Laplace para resolver as equações de renovação de Markov. O ciclo ótimo de manutenção preventiva é definido maximizando-se o tempo médio entre o início do sistema no estado inicial até sua falha. É importante salientar que Processos de Markov é o método mais utilizado para modelar sistemas reparáveis com diferentes políticas de manutenção, fato que se justifica pelo fato deste método possuir a capacidade de caracterizar estes sistemas e facilitar o seu modelamento (ZHONG; JIN, 2014). Desta forma, este artigo tem por objetivo determinar o tempo médio até a falha de um sistema em cold standby com manutenção corretiva baseando-se na teoria de semi-Markov. A determinação deste parâmetro é o primeiro passo para a otimização das manutenções deste tipo de sistema e ainda é pouco abordada na literatura brasileira. Neste estudo, Processo de semi-Markov e a técnica do ponto de regeneração foram utilizadas para definir os possíveis estados e suas probabilidades de transição. Na sequência, transformadas de Laplace foram aplicadas para determinar a distribuição da função cumulativa (cdf) para a 3 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. primeira falha do sistema. Finalmente, a fórmula do ganho de Mason (OSAKI, 1972) foi aplicada para calcular o tempo médio até a falha do sistema. Ainda, exemplos numéricos comparando resultados para diferentes parâmetros do sistema são apresentados e analisados. Através destas análises é possível identificar o efeito doa tempos de reparo e falha dos componentes no tempo médio até a falha do sistema. Este artigo está organizado da seguinte forma: na Seção 2 são descritas as suposições básicas para o modelamento do sistema e seus estados são determinados. Na Seção 3, são calculadas as probabilidades de transição entre os estados. Na Seção 4, o tempo médio até a falha do sistema é determinado. Na Seção 5, um exemplo numérico é apresentado juntamente com uma análise de sensibilidade do efeito do tempo de reparo e tempo até a falha do componente no tempo médio até a falha do sistema. Na Seção 6 são apresentadas as conclusões do trabalho. As notações utilizadas neste artigo são as seguintes: Nomenclatura Componente i, i = 1, 2 Função distribuição cumulativa (CDF) do tempo de sobrevivência do componente Função distribuição cumulativa (CDF) do tempo de reparo do componente em falha X Variável aleatória que representa o tempo de sobrevivência do componente R * ^ MTTF Variável aleatória que representa o tempo de reparo Parâmetro da distribuição exponencial de F(t), taxa de falha Parâmetro da distribuição exponencial de G(t), taxa de reparo CDF da transição do sistema do estado Si para Sj CDF do tempo entre a entrada no estado Si e a falha do sistema Tempo médio da distribuição incondicional desconsiderando o próximo estado visitado Tempo médio para a primeira falha do sistema dado que o sistema iniciou no estado Si Operador da convolução de integrais Símbolo denotando o resultado da transformada de Laplace para uma variável Tempo médio entre falhas 4 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. 2. Descrição do sistema e suposições O sistema estudado neste artigo é composto por dois componentes idênticos onde um está em operação e o outro está em posição de cold standby. Visto que os componentes são idênticos, eles possuem as mesmas características e a mesmas distribuições de probabilidade de tempos falha e de reparo. Um mantenedor está disponível e pode reparar somente um componente por vez. As seguintes suposições são consideradas neste estudo: Suposição 1. Inicialmente, os dois componentes são novos. O componente C1 inicia a operação enquanto o componente C2 é mantido inoperativo. Uma vez que o componente C1 falha, o componente C2 assume a operação até que este também falhe. O reparo do componente em estado de falha inicia imediatamente após sua falha. Suposição 2. O tempo de transição entre operações do componente C1 para o componente C2 e vice-versa é negligenciável. A transição é perfeita e não afeta a confiabilidade do sistema. Também se assume que o componente enquanto em cold standby não se deteriora e nem falha. Suposição 3. Os tempos de reparo são variáveis aleatórias que seguem uma distribuição de probabilidade exponencial. Distribuições exponenciais têm sido utilizadas em muitos trabalhos similares como Osaki (1972), Mahmoud & Moshref (2010) e Zhong & Jin (2014), o que confirma a habilidade desta distribuição para caracterizar tempos de reparo. Suposição 4. O reparo dos componentes é considerado perfeito, ou seja, após o reparo o componente volta a ser considerado “tão bom quanto novo” e é enviado para a posição de cold standby. Quando o componente está em reparo, o sistema opera em nível inferior de confiabilidade, dado que a falha de um único componente leva a falha do sistema. Considerando estas suposições, três estados foram definidos para o sistema em estudo: S0: um componente em operação (O) e o outro em cold standby (S); S1: um componente em operação (O) e outro em reparo (R); 5 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. S2: um componente em reparo (R) e outro em estado de falha (F). Esse estado representa a falha do sistema. O diagrama de transição de estados é apresentado na Figura 1. O sistema inicia a operação e entra no estado S0 em t = 0. Quando o componente em operação falha, o componente em cold standby inicia a sua operação e o componente em falha é enviado para reparo. O sistema vai para o estado S1. O sistema permanecerá neste estado até que o reparo seja concluído ou que o componente em operação falhe. Se o componente em operação sobreviver até a conclusão do reparo do outro componente, o componente reparado é colocado em posição de cold standby e o sistema vai para o estado S0, iniciando todo o processo novamente. Contudo, se o componente falhar antes da conclusão do reparo, o sistema falha e vai para o estado S3. Uma vez no estado S3, o processo é finalizado. Este estado é chamado de estado de absorção. Figura 1 – Diagrama de transição de estados S0 O,S S1 R,O S2 R,F 3. Formulação do problema Considerando que são tempos em que o sistema entra em qualquer estado Si e Zn é o 6 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. estado visitado no período , é o processo de renovação de Markov com espaço de estados E e é o semi-Markov kernel em E (MAHMOUD e MOSHREF, 2010). Inicialmente, o sistema está no estado S0 com um componente em operação e outro em posição de cold standby. O sistema realiza uma transição para o estado S1 quando o componente em operação falha. O componente em cold standby inicia a operação imediatamente após a falha e não interfere nas probabilidades de transição entre estados. O reparo é iniciado imediatamente após a falha do componente. Assim, a probabilidade de transição do estado S0 para S1 é baseada na probabilidade de falha do componente em operação e pode ser expressa por: Dado que o sistema está no estado S1, onde um componente está em operação e outro em reparo, o sistema muda para o estado S0 quando o reparo é finalizado se o componente em operação se mantiver em funcionamento. O componente reparado vai para a posição de cold standby em S0. Consequentemente, a probabilidade de transição do sistema do estado S1 para o estado S0 é a probabilidade do reparo do componente ser concluído antes da falha do componente em operação. Esta probabilidade é representada pela Equação 2. Contudo, se o componente em operação falhar antes da finalização do reparo, o sistema como um todo irá falhar, pois não haverá componente disponível para continuar a sua operação. Esta probabilidade pode ser representada pela probabilidade do reparo do componente não ser concluído antes do tempo de falha do componente em operação. A probabilidade de transição do estado S1 para o estado S2 é dada pela Equação 3: Pode-se observar que as probabilidades definidas estão de acordo com a propriedade fundamental 7 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. de Markov que estabelece . Visto que todas as probabilidades de transição entre estados foram determinadas, o semi-Markov kernel do sistema foi estabelecido. O próximo passo é determinar o tempo médio até a falha do sistema. 4. Tempo médio até a falha do sistema As Equações 1, 2 e 3 mostram que o tempo até a falha de cada componente, bem como o tempo de reparo afetam o tempo até a falha do sistema. O objetivo é determinar a intensidade do efeito dessas duas variáveis no tempo médio até a falha do sistema. Para solucionar este problema, os argumentos da teoria do ponto de regeneração e as equações estabelecidas na seção anterior são utilizadas para determinar a distribuição de tempo até a absorção do sistema (S2), iniciando no estado Si (i = 0 ou 1), onde * é o símbolo da convolução de integrais: Aplicando a transfomada de Laplace nas Equações 4 e 5, é possível substituir a convolução por multiplicações, resultando em: Dado que o tempo médio entre a entrada no estado Si até a falha é dado por: Há duas maneiras de solucionar este problema e ambas conduzem a mesma solução. Uma é a diferenciação das Equações 6 e 7 em função de s e igualar s = 0 (ZHONG e JIN, 2014). Outra maneira é a utilização da fórmula de ganho de Mason (Equação 9), como apresentado por Osaki 8 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. (1972), onde é a transformada de Laplace de fixando s = 0. Resolvendo as equações lineares, o tempo médio até a falha do sistema, dado que ele inicia em S0, é expressado pela Equação 10: Onde visitado. é o tempo médio da distribuição incondicional desconsiderando-se o próximo estado pode ser interpretado como o tempo médio em que o sistema permanece no estado Si, podendo ser calculado por: Para o modelo estudado neste artigo, e são expressados como: Usando as Equações 12 e 13, é possível calcular o tempo médio até a falha do sistema, dado que ele inicia em S0, aplicando a Equação 10. 5. Exemplo Numérico Nesta seção um exemplo numérico é apresentado para validar o modelo proposto e uma análise de sensibilidade é conduzida para verificar os efeitos das taxas de falha e reparo dos componentes na confiabilidade do sistema. Assume-se que F(t) e G(t) seguem uma distribuição exponencial 9 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. com parâmetros e , respectivamente. A probabilidade de falha do componente é igual a e a probabilidade de reparo é igual a . As transformadas de Laplace das Equações 1, 2 e 3 são: Aplicando a transformada de Laplace e fixando-se s = 0, obtém-se: O próximo passo é resolver as Equações 12 e 13 para calcular o tempo médio que o sistema irá permanecer em cada estado Si. Os seus resultados são: e . Calculando-se a Equação 10, pode-se determinar o tempo médio até a falha do sistema em termos dos parâmetros e . A Equação 10 pode ser reescrita como: A Figura 2 apresenta uma análise de sensibilidade do tempo médio até a falha do sistema em termos do parâmetro para = 1, 2 e 10. Como esperado, valores menores de taxa de falha 10 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. proporcionam um maior tempo médio até a falha do sistema, visto que os componentes possuem uma vida mais longa, independentemente do tempo de reparo. Taxas de reparo maiores também elevam o tempo médio até a falha do sistema, visto que o sistema fica desprotegido (trabalhando com apenas um componente) por menos tempo. Figura 2 – Tempo médio até a falha do sistema em função do parâmetro Tempo médio até a falha do sistema Figura 3 – Tempo médio até a falha do sistema em função do parâmetro 11 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. Tempo médio até a falha do sistema A Figura 3 apresenta uma análise do tempo até a falha do sistema em função de para = 0,5, 1 e 2. As Figuras 2 e 3 mostram que melhorias no componente são mais eficazes para aumentar o tempo médio até a falha do sistema do que melhorias no processo de reparo. Ainda, para que o reparo seja eficiente no sistema, é necessário que este tenha uma taxa maior que a taxa de falha, ou seja, seja realizado, em média, em tempo inferior ao tempo de falha do componente. 6. Conclusão O modelo desenvolvido neste artigo possibilita a determinação e análise do tempo médio até a falha de sistemas em cold standby que sofrem manutenção corretiva de componentes. A determinação deste índice para este tipo de sistema não pode ser realizada de maneira trivial, visto os reparos realizados nos componentes que falham. Tanto os tempos até a falha dos componentes, como os tempos de reparo são variáveis aleatórias que seguem uma distribuição de probabilidade. Neste estudo, processos de semi-Markov e a técnica do ponto regenerativo foram usados para definir os estados e suas probabilidades de transição. Na sequencia, transformadas de Laplace foram aplicadas para determinar a distribuição de probabilidade da primeira falha do sistema. Por fim, a fórmula de ganho de Mason foi utilizada para calcular o tempo médio até a falha do sistema como função dos parâmetros e . Exemplos numéricos foram apresentados e seus 12 XXXV ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO Perspectivas Globais para a Engenharia de Produção Fortaleza, CE, Brasil, 13 a 16 de outubro de 2015. resultados foram analisados. Através destas análises é possível identificar o efeito dos tempos até a falha e de reparo dos componentes no tempo médio até a falha do sistema. Para pesquisas futuras, sistemas mais complexos com maior número de componentes e diferentes políticas de manutenção podem ser modelados. REFERÊNCIAS MAHMOUD, M. A. W.; Moshref, M. E. On a two-unit cold standby system considering hardware, human error failures and preventive maintenance. Mathematical and Computer Modelling, vol. 51, p. 736-745. 2010. OSAKI, S. Reliability Analysis of a Two-Unit Standby-Redundant System with Preventive Maintenance. IEEE Transaction on Reliability, vol. R-21, n. 1, p. 24-29. 1972. ROSS, S. M. Introduction to Probability Models. 9th Ed. Burlington: Academic Press, 2007. ZHONG, C.; JIN, H. A novel optimal preventive maintenance policy for a cold standby system based on semiMarkov theory. European Journal of Operational Research, vol. 232, p. 405-411. 2014. 13