Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística José Edson Rodrigues Guedes Gondim1 Joab de Oliveira Lima2 1 Introdução Atualmente existem vários métodos estatísticos que buscam a classificação de uma variável de interesse para um determinado estudo (variável dependente, variável resposta ou variável desfecho) em determinados grupos. Essa classificação é obtida através de um modelo que correlaciona algumas variáveis independentes para determinar a que grupo a variável dependente tem a maior chance de pertencer. Entre esses métodos citam-se a regressão logística, a analise discriminante, redes neurais, algoritmo genético entre outros. Mais especificamente a regressão logística modela a relação entre o logit da 1 variável resposta (Y) dicotômica e uma combinação linear de algumas variáveis explicativas (X1, X2, ..., Xp), de modo que a probabilidade estimada de ocorrer o “sucesso” (ou seja, em (P(Y=1)) na variável resposta poderá ser usada para classificar um indivíduo em um dos dois grupos possível (“sucesso” ou “fracasso”). No entanto uma das grandes dificuldades no uso da regressão logística, para fins de classificação, é a determinação, baseado na probabilidade estimada de sucesso, do melhor ponto de corte que produz a melhor classificação possível para o modelo proposto. Assim, a ideia desse trabalho é apresentar uma metodologia alternativa que encontre o “melhor” ponto de corte, de modo que maximize a taxa de acerto do modelo logístico. A metodologia proposta envolverá o uso de algoritmos genéticos para a determinação do ponto de corte ótimo. 2 Materiais e métodos Na regressão logística tem-se como variável resposta uma variável binária, e o como objetivo é determinar uma função em que calcula a probabilidade de que a variável resposta assuma o valor 1. Logo é necessário escolher uma regra de predição. É intuitivo pensar que valores de grande classifica-se como 1 e valores de pequeno classifica-se como 0, No entanto a grande dificuldade é encontrar o ponto para que valores de acima desse ponto seja 1 2 DEINFO-UFRPE. e-mail: [email protected] Departamento de Estatística/UFPB. e-mail: [email protected]. classificado como 1 e menores do que ele seja classificado como 0. Esse ponto é conhecido como ponto de corte. Várias técnicas existem na literatura brasileira para a escolha do ponto de corte. Uma delas é a escolha do ponto de corte sendo meio (0.5); outro é escolher este ponto como sendo a probabilidade dentro da sua amostra de ser 1, ou seja, é o número de casos dentro de sua amostra que são 1´s dividido pelo total da amostra, entre outros. Neste trabalho é proposto o uso de um algoritmo genético para otimizar a escolha desse ponto de corte, de modo que venha maximizar a taxa de acerto do modelo logístico. Os conceitos teóricos dessa metodologia são descritos a seguir. 2.1 Algoritmo Genético O Algoritmo Genético começou a ser desenvolvido por John Henry Holland (1975) juntamente com seus alunos da Universidade de Michigan em meados da década de 60, que buscavam desenvolver modelos em sistemas computacionais baseados na teoria de seleção natural proposta por Charles Darwin (FERNEDA, 2009). Segundo Darwim (1858), os seres vivos que mais se adaptavam as novas condições da terra tinham uma maior probabilidade de permanecer na população, já os com menores probabilidades desapareciam da população. Com isso, só os “melhores” indivíduos sobreviviam e geravam novos indivíduos (filhos) mais aptos às condições encontradas. Este processo de evolução levou centenas de gerações e até hoje vem acontecendo (PACHECO, 1999). Isso é possível, pois se sabe que cada ser vivo é constituído de células e cada uma delas é formada por um conjunto de cromossomos que, por sua vez, são formados por genes que carregam as informações do ser vivo a qual ele pertence. Os genes com maior adaptação são predominantes nos cromossomos, de modo que a geração de um novo indivíduo (filho), com grande chance, trará tais genes na composição desse novo. ser. De forma semelhante, os filhos gerados produzirão, a partir do cruzamento com outros filhos, novos entes, cada vez mais aptos que os seus pais. Esse processo é chamado de crossover, que é justamente a recombinação desses cromossomos (FERNEDA, 2009). Baseado nessa teoria evolucionista, o algoritmo genético se inspirou nessa evolução para achar soluções aproximadas para problemas que envolvessem a otimização de parâmetros. De uma forma geral, os algoritmos genéticos podem ser divididos em 7 (sete) etapas, todas elas levando em consideração a evolução dos seres vivos (PACHECO, 1999).A FIGURA 1 mostra a sequência de execução de um algoritmo genético. FIGURA 1: Sequência de execução de um Algoritmo Genético 3 Resultados e discussões Para essa análise foi utilizado um banco de dados contendo 160 observações com 9 (nove) variáveis explicativas contínuas e uma variável dependente dicotômica. O evento que representa o sucesso da variável resposta para o banco de dados estudado é a presença de artéria alterada (Y=1). A partir de uma análise descrita da variável dependente, sabe-se que 91 pacientes têm as artérias coronarianas alteradas (56,88%), enquanto que 69 pacientes têm artérias normais (43,12%). É essa partição que se denomina partição à priori dos dados e que serve para classificar as probabilidades estimadas de sucesso.Além disso, foram consideradas 5 partições, chamadas aqui de cenários, para a definição das Bases de Dados de Treinamento e de Validação: • CENÁRIO 1: Dividiu-se a base de dados original na proporção 50% (BT) e 50% (BV); • CENÁRIO 2: Dividiu-se a base de dados original na proporção 60% (BT) e 40% (BV); • CENÁRIO 3: Dividiu-se a base de dados original na proporção 70% (BT) e 30% (BV); • CENÁRIO 4: Dividiu-se a base de dados original na proporção 80% (BT) e 20% (BV); • CENÁRIO 5: Dividiu-se a base de dados original na proporção 90% (BT) e 10% (BV); Em todos os cenários, a Base de Dados de Treinamento (BT) foi utilizada para ajustar o modelo de regressão logística, enquanto a Base de Dados de Validação (BV) foi utilizada para encontrar o ponto de corte ótimo, via algoritmo genético, para a classificação do “sucesso” e “fracasso” estimados. Além disso, para cada cenário, foi realizada uma simulação de Monte Carlo, com 2000 iterações, para a escolha aleatória das bases BT e BV. Para facilitar o entendimento dos resultados, convencionou-se rotular cada método utilizado para calcular o ponto de corte e sua respectiva taxa de acerto de: Método 1 para o ponto de corte 0,5; Método 2 para o ponto de corte que utiliza a partição à priori dos dados e Método 3 para o ponto de corte gerado através do algoritmo genético proposto. Depois das análises realizadas observou-se que os maiores percentuais médios de acerto foi encontrado pelo método 3, como também os menores desvios padrão e, consequentemente, os menores tamanhos de intervalos de confiança. A tabela abaixo demonstra este resultado como também o gráfico. TABELA 1: Desempenho geral dos percentuais de acerto obtidos pelos três métodos por cenário Cenário 1 2 3 4 5 Método Percentual de acerto médio Desvio Padrão IC 95% LI IC 95% LS Tamanho IC Método 1 57,02 4,53 48,05 65,48 17,43 Método 2 55,65 5,01 45,12 64,71 19,59 Método 3 63,65 3,55 56,79 70,73 13,94 Método 1 57,71 4,92 48,33 66,69 18,36 Método 2 56,08 5,36 45,32 66,15 20,83 Método 3 64,88 3,94 57,38 72,88 15,50 Método 1 57,92 6,29 45,28 70,00 24,72 Método 2 55,63 6,68 41,17 67,86 26,69 Método 3 66,17 4,88 57,45 76,47 19,02 Método 1 57,86 7,80 41,93 72,73 30,80 Método 2 55,06 8,80 36,67 70,97 34,30 Método 3 68,19 5,98 57,14 80,00 22,86 Método 1 57,81 12,37 33,33 81,82 48,49 Método 2 51,38 14,21 20,00 76,92 56,92 Método 3 73,03 9,07 57,11 92,30 35,19 FIGURA 2: Gráfico da taxa de acerto por método versus o cenário . 4 Conclusões Este trabalho propôs o uso de algoritmos genéticos como uma ferramenta alternativa para encontrar o ponto de corte ótimo que maximize a proporção estimada de acerto de classificação do modelo logístico. Os resultados mostraram que os pontos de corte gerados pelo algoritmo genético forneceram taxas de acerto superiores àquelas produzidas por dois outros métodos tradicionalmente utilizados nos softwares estatísticos. Essas comparações foram efetuadas em cinco cenários diferentes, sendo que em todos eles, sem exceção, os resultados produzidos pelo algoritmo genéticos foram expressivamente superiores aos demais métodos avaliados. Verificou-se, ainda que o algoritmo genético classificou corretamente as observações 16,50% a mais em relação ao método da proporção 50%; e 23% a mais ao método que utiliza o ponto de corte baseado na proporção amostral (à priori) de 1’s observada na amostra estudada. Além disso, nas 2000 iterações realizadas para cada cenário, o algoritmo genético só gerou taxas de acertos inferiores aos outros métodos em apenas 0,30% das simulações. Por fim, entende-se que o trabalho proposto atingiu os seus objetivos, e que, apesar da simplicidade do problema de aplicação, foi demonstrada a real capacidade que os algoritmos evolutivos têm de encontrar soluções ótimas para os mais variados problemas de otimização. 1 Bibliografia [1] FERNEDA, E. Applying Genetic Algorithms in Information Retrieval. DataGramaZero – Revista da Ciência da Informação, Rio de Janeiro, v. 10, n. 1, 2009 [2] PACHECO, M. A. C. Algoritmos Genéticos: Princípios e Aplicações. ICA: Laboratório de Inteligência Computacional Aplicada. Departamento de Engenharia Elétrica. Pontifícia Universidade Católica do Rio de Janeiro.