X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil DETECÇÃO DE FALHAS NO PROCESSO DE LINGOTAMENTO CONTÍNUO UTILIZANDO MÁQUINA DE APRENDIZADO E AUTÔMATO FINITO Daniel Lúcio de Souza Borba∗, Walmir Matos Caminhas∗, Fernando Marcos Andrade de Resende†, Gilberto Henrique dos Reis Marçal†, Fabricio Domith Rodrigues† ∗ Avenida Presidente Antônio Carlos, 6627 Universidade Federal de Minas Gerais - Departamento de Engenharia Eletrônica Belo Horizonte, Minas Gerais, Brasil † Av. Pedro Linhares Gomes, 5431 Usiminas - Usina Intendente Câmara Ipatinga, Minas Gerais, Brasil Emails: [email protected], [email protected], [email protected], [email protected], [email protected] Abstract— Breakout is the major problem in steel continuous casting process because it represents a big danger to people and equipments. Therefore all continuous casting machine has a Breakout Detection System (BDS). This paper shows a new breakout detection system based on computational intelligence methods. It uses machine learning and finite-state automaton approaches. The system doesn’t differ the steel grade that machine casts. This is the main system property because it minimizes the number of system inputs, enables the use of unique rules to breakouts’s detection for all steel grades and eliminates the necessity of additional training to add new steel grade in product mix. Keywords— Continuous Casting, Breakout, Fault Detection, Learning Machine Resumo— O breakout é o maior problema no processo de lingotamento contı́nuo de aço devido ao alto risco de dano às pessoas e aos equipamentos associado a ele. Por esse motivo, toda máquina de lingotamento contı́nuo deve ser dotada de um sistema de detecção de breakout (BDS). Este artigo apresenta um novo sistema de detecção de breakouts baseado em técnicas de inteligência computacional, utilizando máquina de aprendizado e autômato finito. A principal caracterı́stica do BDS apresentado neste artigo é a não necessidade de diferenciação do tipo de aço que a máquina está lingotando, o que reduz o número de informações que devem ser passadas ao BDS, possibilita a utilização de regras únicas de detecção de breakouts para todos os tipos de aço e elimina a necessidade de se treinar o BDS toda vez que um novo tipo de aço é incorporado ao mix de produtos. Palavras-chave— 1 Lingotamento Contı́nuo, Breakout, Detecção de Falhas, Máquina de Aprendizado Introdução O lingotamento contı́nuo é uma importante etapa na produção de aço. No Brasil, 91,9% do aço é produzido por lingotamento contı́nuo, segundo dados de 2003 (de Oliveira Cravo, 2006). Ele é o processo responsável por transformar o aço lı́quido em lingotes sólidos. Para isso, o aço lı́quido é vazado dentro de um molde de cobre ou de grafite que é refrigerado por água (Machado et al., 2003). Dentro do molde, devido ao contato com a parede dele, o aço é solidificado, formando uma fina camada sólida chamada pele. Para evitar a abrasão do aço ao molde, é utilizado óleo ou pó fluxante pra lubrificar a interface entre eles. Além disso, o molde é oscilante, o que ajuda ainda mais a evitar o abrasamento. A medida que o aço vai passando pelo molde, a espessura da pele vai crescendo. Ao sair do molde, a pele deve ter uma espessura tal que suporte a pressão ferrostática do aço lı́quido dentro do lingote, confinando assim esse aço lı́quido em seu interior. Se a pele não suportar essa pressão, ela se rompe depois de sair do molde e o aço lı́quido presente no interior do lingote vaza, danificando os rolos extratores da máquina de lingotamento contı́nuo e outros equi- ISSN: 2175-8905 - Vol. X pamentos que possam estar próximos à máquina. A esse fenômeno de rompimento da pele e vazamento do aço lı́quido do interior do lingote é dado o nome de breakout. A figura 1 apresenta o diagrama esquemático simplificado de uma máquina de lingotamento contı́nuo com dois veios que ilustra este processo. Figura 1: Máquina de lingotamento contı́nuo - (1) Panela, (2) Distribuidor, (3) Molde, (4) Rolos Extratores e de Suporte e (5) Cortador. Devido ao potencial de danos que o breakout pode causar (perda de produção, danos em equipamentos, risco à segurança dos operadores etc.), toda a máquina de lingotamento contı́nuo deve ser dotada de um sistema de detecção de breakout ou 839 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil BDS (Breakout Detection System), como são comumente chamados. O BDS proposto neste trabalho traz a vantagem de ser autoadaptativo e de não diferenciar o tipo de aço que está sendo lingotado. Ele analisa o comportamento do aço que está sendo lingotado pela máquina e a partir dessa análise define o comportamento normal do aço, se autoadaptando a este comportamento. Dessa maneira, não é necessário informar ao sistema o tipo de aço que está sendo lingotado e nem as condições de operação da máquina, pois ele vai se adaptar a esses dois fatores automaticamente. Para isso, o sistema utiliza uma máquina de aprendizado para analisar o comportamento do aço e definir o seu comportamento normal, e utiliza um autômato finito para determinar se uma novidade no comportamento do aço (comportamento fora do normal) é ou não um potencial breakout. Essas caracterı́sticas apre sentam um avanço nos sistemas de detecção de breakout, pois simplificam o funcionamento deles, possibilitando a utilização de um menor número de entradas e de regras únicas de detecção de breakouts para todos os de tipos de aço. 2 Breakout Há diversos tipos de breakouts, mas, para o contexto que o BDS proposto foi desenvolvido e testado, o único tipo que se está interessado em detectar é o por agarramento de pele (sticker ). Estima-se que 79% dos breakouts que ocorrem no mundo são desse tipo (Emling, 2003). Em ordem cronológica, ele se caracteriza por: 1. um crescimento abrupto da temperatura no ponto de agarramento da pele (ponto quente); 2. um crescimento da temperatura em regiões vizinhas ao ponto de agarramento e no ponto logo abaixo do ponto de agarramento; 3. um decrescimento da temperatura no ponto onde ocorreu o agarramento; 4. um decrescimento da temperatura nas regiões vizinhas ao ponto de agarramento. A figura 2 mostra o padrão de temperatura que seria medido por um termopar em um ponto fixo do molde onde ocorreu o agarramento. Este mesmo padrão de temperatura, após um certo tempo, seria observado em termopares vizinhos ao que onde primeiro apareceu o agarramento e também no termopar logo abaixo dele. O crescimento abrupto da temperatura se deve ao fato da pele no ponto de agarramento apresentar uma pequena espessura. Por isso, ao sair do molde, esse ponto não suporta a pressão ferrostática e se rompe, provocando assim o breakout. A temperatura cai após a passagem do ponto de agarramento, pois na vizinhança dele a pele se torna mais espessa. ISSN: 2175-8905 - Vol. X Figura 2: Variação da temperatura no breakout por agarramento de pele. 3 Sistema de Detecção de Breakout Como cada tipo de aço apresenta um comportamento diferente durante o lingotamento, a primeira coisa que o sistema detecção deve fazer é identificar o comportamento normal do aço. Dessa maneira, o primeiro estágio do BDS proposto é um analisador de comportamento. Esse analisador observa o comportamento das curvas temperaturas dos termopares ao longo do molde e obtém as componentes principais delas. A partir das componentes principais, o sistema gera o modelo de comportamento normal, definindo a região de comportamento normal do sistema. Gerado o modelo normal, o sistema passa a comparar os valores das componentes principais de cada nova amostra de temperatura com o modelo. Se a nova amostra estiver dentro da região normal descrita pelo modelo, a amostra é incorporada a ele. Se não, a amostra é classificada como uma anormalidade, ou seja, uma novidade no comportamento do aço. Essa técnica de detecção de novidade utilizada pelo sistema é chamada de Classificação de Uma Classe (Lemos, 2007). A figura 3 mostra um exemplo de análise das componentes principais do comportamento da temperatura para um lingotamento no qual ocorreu o breakout, evidenciando um dos modelos de comportamento normal que podem ser gerados. Nela se pode ver claramente a separação entre os pontos de comportamento normal (pontos azuis) e os do comportamento durante o breakout (cruzes vermelhas), além da definição da região de comportamento normal (delimitada pelo retângulo verde). Como o comportamento normal do aço é dinâmico e variável no tempo, o modelo tem que se adaptar às mudanças dele. Para isso, o sistema utiliza janelas deslizantes. O tamanho da janela é algo crı́tico de se escolher, pois não pode ser pequeno demais de forma que o sistema tome como 840 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil Figura 3: Análise de componentes principais para um lingotamento no qual ocorreu o breakout. normal um comportamento de potencial breakout e nem grande demais de forma que o sistema confunda uma mudança normal de comportamento com o de um breakout. Não há um regra definida para a escolha do tamanho da janela, pois o tamanho ideal pode variar com o tipo de modelo escolhido e com as particularidades de cada processo de lingotamento (limite de velocidade de lingotamento, tipos de aços lingotados, tipo de lubrificante da interface molde-aço etc.) (Borba, 2011). No caso do sistema desenvolvido, foram feitos testes do sistema com diversos tamanhos de janela para determinar o tamanho ideal. O teste consistiu em apresentar o conjunto de testes ao sistema, determinando o número de alarmes verdadeiros e falsos. Repetiu-se esse teste para cada um dos tamanhos de janelas avaliados, o que obteve o maior número de alarmes verdadeiros com o menor número de alarmes falsos foi definido como o tamanho ideal. Após os testes se chegou que, para o conjunto de testes, o tamanho ideal da janela era de 40 amostras. Para atualizar o modelo, se uma nova amostra for classificada como pertencente ao comportamento normal do sistema, ela é incorporada ao modelo e a amostra mais antiga no modelo é retirada, através da geração de um novo modelo com a janela de amostras mais recente. O modelo é gerado com pequenas folgas, de forma a comportar pequenas variações de comportamento consideradas como normais. Dessa forma, mudanças suaves no comportamento normal são incor- ISSN: 2175-8905 - Vol. X poradas automaticamente ao modelo. No caso de uma nova amostra ser considerada como uma novidade no comportamento do aço, o modelo de comportamento normal é mantido e o analisador de comportamento fica esperando os estágios posteriores do sistema definirem se essa novidade representa uma mudança normal do comportamento do aço ou um potencial breakout. Se for definido que as amostras consideradas como novidade são uma mudança normal do comportamento do aço, o analisador de comportamento analisa a janela de amostras mais recente e gera um novo modelo de comportamento normal. Para iniciar o analisador de comportamento, a primeira janela de amostras adquirida, ou seja, as 40 primeiras amostras, são sempre definidas como normais, gerando assim um primeiro modelo a partir do qual as amostras posteriores serão avaliadas. Como se pode ver, o analisador de comportamento é uma a máquina de aprendizado. Essa máquina de aprendizado apresenta um aprendizado por reforço (Ribeiro, 1999). O aprendizado pode ser dito como por reforço, pois pois a máquina só atualiza o modelo gerado, ou seja, aprende, se o novo comportamento da temperatura identificado por ela for considerado como normal pelos estágios posteriores do sistema de detecção, que representam a resposta do ambiente. Como não há nenhum treinamento inicial da máquina para identificar o que é um comportamento normal e nem pode haver, pois este comportamento é diferente para cada tipo de aço, que não é conhecido previamente, não se pode dizer que o aprendizado é supervisionado. Sendo assim, as respostas dos estágio posteriores representam o reforço necessário para o aprendizado da máquina, indicando o quão bom é o modelo gerado por ela. O segundo estágio do BDS proposto é um analisador de novidade ou anomalia. Esse analisador irá determinar se o comportamento anormal da temperatura que está sendo observado em um termopar é compatı́vel com o comportamento da curva caracterı́stica de agarramento de pele e, se sim, em que ponto da curva ele se encontra. Sendo assim, o que esse classificador faz é identificar o padrão da curva caracterı́stica do agarramento de pele. Para conseguir determinar em qual parte da curva caracterı́stica um certo comportamento de temperatura se encontra, o classificador a separa em cinco regiões: ‘c’, ‘u’, ‘r’, ‘v’ e ‘e’ (Kempf and Adamy, 2004). Essa separação é mostrada na figura 4. Cada uma dessas regiões apresentam caracterı́sticas próprias em relação à pertubação do comportamento (variação das componentes principais em relação aos limites normais definidos pelo modelo), sendo possı́vel assim, determinar em qual dessas regiões se encontra um conjunto de dados anormais. Para cada uma dessas regiões, o 841 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil Figura 4: Associação entre a curva caracterı́stica de agarramento de pele e as suas respectivas regiões. classificador associa um valor chamado breakoutability, que mede numericamente em qual região da curva o comportamento se encontra e o quão perto ou longe ele se encontrada das regiões vizinhas. Ele varia entre 0 (inı́cio da curva caracterı́stica) e 1 (fim da curva caracterı́stica). É importante destacar que um valor alto de breakoutability neste trabalho não significa necessariamente que um breakout está ocorrendo, ao contrário do conceito original definido por Bhattacharya et al. (Bhattacharya et al., 2004). Para caracterizar um comportamento de curva caracterı́stica de agarramento, o conjunto de dados apresentados em sequência ao analisador de novidade deve passar por todas as regiões da curva, podendo permanecer por mais de um perı́odo de amostragem em uma mesma região e caminhar por regiões vizinhas sem restrições. Essas caracterı́sticas fazem com que a melhor escolha para implementar o analisador seja uma autômato finito. Figura 5: Autômato finito para identificação do comportamento de uma curva caracterı́stica de agarramento de pele. Observa-se pela figura 5 que o autômato possui 6 estados. Quanto mais alto o número do estado, mais perto do final da curva caracterı́stica o comportamento observado se encontra. Iniciando sempre o autômato no estado 1, a cada interação do sistema, a região da curva na qual a amostra adquirida se encontra é determinada através da pertubação dela e, de acordo com ela, o estágio do autômato é definido, conforme as regras de transição apresentadas na figura 5. Por exemplo, se uma série de amostras for associada a sequência de regiões ‘ccurrvve’, ela será identificada como uma curva caracterı́stica de agarramento completa, fazendo o autômato alcançar o estado 6. Por outro lado, se uma série de amostras for associada ISSN: 2175-8905 - Vol. X à sequência de regiões ‘cuurvr’, ela não será identificada como uma curva caracterı́stica de agarramento completa e o estado final alcançado pelo autômato será o estado 1. Como a pertubação do comportamento é dada em forma de razão, as caracterı́sticas da curva ficam independentes do comportamento normal do aço, permitindo assim a definição de regras únicas para a detecção dela. O terceiro e último estágio do BDS proposto é o detector de breakout. Ele é responsável por, dada a região da curva caracterı́stica de agarramento em que cada um dos termopares do molde se encontra, determinar se o arranjo dessas regiões ao longo do molde caracteriza ou não um comportamento de breakout. Se sim, ele toma as providências necessárias para evitar o breakout e dispara um alarme de aviso para o operador. O detector de breakout gera dois tipos de alarmes: de agarramento e de canto. O alarme de agarramento pode ser gerado em qualquer parte do molde e é disparado quando as caracterı́sticas descritas anteriormente para o breakout por agarramento de pele são verificadas. O alarme de canto só pode ser gerado pelos pontos de medição de temperatura localizados nos cantos do molde. Ele se caracteriza por não esperar a propagação do ponto quente para a parte inferior do molde. Isso ocorre, pois os cantos são as partes onde a refrigeração do molde é menos eficiente, devido ao menor contato do aço com o molde, então quando um agarramento ocorre no canto do molde, a propagação do ponto quente para a parte inferior do molde pode demorar muito, ou a temperatura pode subir de forma tão lenta que o sistema pode não detectar o breakout a tempo de evitá-lo. Quando um alarme é acionado, o analisador de comportamento e o analisador de novidade são levados aos seus respectivos estados iniciais, reiniciando o seu funcionamento quando o alarme é desacionado. O diagrama resumo do sistema desenvolvido é apresentado na figura 6 com os seus componentes funcionais e as interações entre eles. 4 Resultados O BDS proposto foi desenvolvido visando substitui o BDS originalmente instalado nas máquinas de lingotamento contı́nuo da Usina Intendente Câmara. A substituição do BDS original foi motivada por várias falhas apresentadas por ele na detecção de agarramentos de pele. Inicialmente, o BDS proposto foi desenvolvido utilizando dados de sete corridas nas quais ocorreu o breakout. Posteriormente, foi realizado um pré-teste no sistema. O pré-teste foi realizado com dados históricos de um mês de três máquinas de lingotamento da Usiminas. Deste perı́odo, foram separados os dados das corridas nas quais ocorre- 842 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil Figura 6: Diagrama resumo do BDS proposto. ram um alarme verdadeiro ou um falso no BDS proposto ou no BDS original, cuja a veracidade foi comprovada pelos especialistas da Usiminas. Posteriormente, mais dados de corridas nas quais houve breakout ou alarmes verdadeiros ou falsos foram incorporados. O conjunto formado pelos dados dessas corridas foi denominado conjunto de testes e possui no total 38 corridas. Esse conjunto possui corridas de aços peritéticos e nãoperitéticos, variando também bastante a velocidade de lingotamento entre elas, mas por motivo de sigilo, esses dados não podem ser divulgados. Os resultados referentes aos testes realizados com este conjunto, para o BDS original e para o BDS proposto, são apresentados na tabela 1. onou o alarme durante o agarramento de pele. O alarme falso 1 foi definido como aquele cuja placa referente ao instante do alarme não apresentou nenhuma marca. O alarme falso 2 foi definido como aquele no qual a placa referente ao instante do alarme apresentou marcas, mas que não eram marcas caracterı́sticas de agarramento de pele. Além do agarramento de pele, marcas na placa podem ser causadas por falta de lubrificação momentânea ou pelo aparecimento de uma pequena trinca. Estes fatores podem causar variações na temperatura que podem ser confundidas com um agarramento de pele. Verifica-se uma clara vantagem do BDS proposto sobre o BDS original. O BDS proposto apresenta um número de alarmes verdadeiros bem maior (80%) do que o BDS original. Além disso, o BDS proposto conseguiu detectar todos os agarramentos contidos no conjunto de testes, não apresentando nenhum alarme tardio ou não acionado. Quanto aos alarmes falsos, o BDS proposto apresentou um alarme falso a menos do que o original, sendo importante notar que o BDS proposto não teve nenhum alarme falso do tipo 2, ou seja, ele não confundiu nenhum outro comportamento comprovadamente anormal com um comportamento de agarramento de pele. Comparando o horário de acionamento do alarme no BDS original e no proposto para os alarmes verdadeiros, verificou-se que o BDS proposto conseguiu detectar o agarramento de pele sempre antes do que o original. Isso é uma grande vantagem, pois quanto antes se detectar o agarramento, maior a probabilidade de evitar o breakout. Estes resultados são mostrados na tabela 2. BDS Original Corrida Tipo alarme BDS Original BDS Proposto Verdadeiro Tardio Não acionado Falso 1 Falso 2 10 3 5 6 1 18 0 0 6 0 Total falso Total 7 25 6 24 Tabela 1: Comparação entre o número de alarmes do BDS original e do proposto para o perı́odo de testes. O alarme verdadeiro foi definido como aquele cujo agarramento de pele foi confirmado pelos especialistas da Usiminas e o alarme foi acionado a tempo de evitar o breakout. O alarme tardio se refere àquele cujo o acionamento não ocorreu a tempo de evitar o breakout. O não acionado é referente às corridas nas quais o BDS não aci- ISSN: 2175-8905 - Vol. X A B C D E F G H I J BDS Proposto Instante do alarme (s) 1550 1207 1960 675 808 7761 2382 298 1784 1626 Antecipação média BDS proposto 1543 1185 1945 639 802 774 2367 295 1769 1615 13,2 s Tabela 2: Comparação entre o instante de acionamento do alarme no BDS original e no proposto. Em comparação com um BDS comercial, de 1 Para a corrida F, o instante de disparo do alarme do BDS original não foi fornecido, por isso, o instante definido como o máximo aceitável para o disparo do alarme foi utilizado. 843 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil três corridas analisadas, o BDS proposto detectou o agarramento de pele mais rapidamente que o BDS comercial em duas delas. Os resultados são mostrados na tabela 3. BDS Comercial Corrida BDS Proposto Instante do alarme L M N 2035 1130 1435 2029 1122 1442 Tabela 3: Comparativo entre o instante de acionamento do alarme em um BDS comercial e no BDS proposto. maneira viável e eficiente de detectar e evitar breakouts. Agradecimentos Os autores agradecem a FAPEMIG e o CNPq pelo financiamento do Laboratório de Detecção de Falhas, Controle, Otimização e Modelagem da Escola de Engenharia de UFMG (DIFCOM), onde foi desenvolvido este trabalho. Agradecem também a toda a equipe Usiminas pelo financiamento deste trabalho e em especial à Superintendência de Automação, à Superintendência de Manutenção e à Superintendência de Aciaria pelo apoio fundamental prestado durante todo o perı́odo de desenvolvimento e testes do sistema. Referências 5 Conclusões Pode-se ver através dos resultados que o BDS proposto apresenta grandes vantagens em relação ao BDS original da Usiminas. Ele têm um desempenho semelhante ao do BDS original quanto ao número de alarmes falsos, conseguiu detectar agarramentos de pele que o BDS original não foi capaz de detectar ou não detectou em tempo hábil para evitar o breakout, e conseguiu detectar todos os agarramentos de pele antes do que o original. É importante ressaltar que um breakout, segundo a Usiminas, tem o custo de aproximadamente um milhão de reais só em reparo de equipamentos. A isso ainda se soma a perda de produção devido ao tempo de parada do veio, que pode durar entre 8 e 24 horas. Já o alarme falso, custa a perda de um ou dois lingotes devido a defeitos pela parada da máquina e no máximo 30 minutos de parada de produção. Assim, é melhor serem gerados alarmes falsos do que ter breakouts não detectados. Em comparação com um BDS comercial, o BDS proposto apresentou bons resultados. Ele foi capaz de detectar o breakout antes que o BDS comercial em duas das três corridas avaliadas, apresentando uma antecipação média de 3,5 segundos. Como a metodologia utilizada pelo BDS proposto não necessita que o tipo de aço lingotando seja conhecido previamente, a utilização de uma regra única para detecção de breakouts se tornou possı́vel. Isso é importante, pois simplifica a detecção e facilita a configuração do sistema. Além disso, por não precisar necessariamente ser treinado toda vez que um novo tipo de aço é incluı́do no mix de produção, o sistema ganha em confiabilidade e reduz o seu tempo de indisponibilidade. Então se pode concluir que a abordagem utilizada para o BDS proposto, de detecção através de máquina de aprendizado e classificação de novidades através de autômato finito, se mostrou uma ISSN: 2175-8905 - Vol. X Bhattacharya, A. K., Chithra, K., Jatla, S. and Srinivas, P. (2004). Fuzzy diagnostics system for breakout prevention in continuous casting of steel, Proceedings of the 5◦ World Congress on Intelligent Control and Automation, Hangzhou, P.R. China pp. 3141–3145. Borba, D. L. S. (2011). Sistema de detecção de breakouts em máquinas de lingotamento contı́nuo, Master’s thesis, UFMG, Belo Horizonte, MG, Brasil. Submetida à banca. de Oliveira Cravo, V. (2006). Modelamento matemático da zona de mistura de aços em lingotamento contı́nuo, Master’s thesis, Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Emling, W. H. (2003). Breakout prevention, in A. Cramb (ed.), The Making, Shaping and Treation of Steel, 11 edn, Association of Iron and Steel Engineers, Pittsburgh, USA, chapter 19. Kempf, R. and Adamy, J. (2004). Sequential pattern recognition employing recurrent fuzzy systems, Fuzzy sets ans systems (146): 451– 472. Lemos, A. P. (2007). Proposta de um algoritmo genérico de detecção de novidades em séries temporais utilizando modelos de previsão, Master’s thesis, UFMG, Belo Horizonte, MG, Brasil. Machado, M. L. P., de Paulo Ferreira Marques Sobrinho, V. and Arrivabene, L. F. (2003). Sinderurgia para não sinderurgistas, CEFETES, Vitória, ES, Brasil. Ribeiro, C. H. C. (1999). Aprendizado por reforço, V Escola de Redes Neurais pp. 28–72. 844