Uso de Algoritmo Genético para a otimização do ponto de corte da
probabilidade de sucesso estimada do modelo de Regressão Logística
José Edson Rodrigues Guedes Gondim1
Joab de Oliveira Lima2
1 Introdução
Atualmente existem vários métodos estatísticos que buscam a
classificação de uma variável de interesse para um determinado estudo (variável
dependente, variável resposta ou variável desfecho) em determinados grupos. Essa
classificação é obtida através de um modelo que correlaciona algumas variáveis
independentes para determinar a que grupo a variável dependente tem a maior chance
de pertencer. Entre esses métodos citam-se a regressão logística, a analise
discriminante, redes neurais, algoritmo genético entre outros.
Mais especificamente a regressão logística modela a relação entre o logit da
1
variável resposta (Y) dicotômica e uma combinação linear de algumas variáveis
explicativas (X1, X2, ..., Xp), de modo que a probabilidade estimada de ocorrer o
“sucesso” (ou seja, em (P(Y=1)) na variável resposta poderá ser usada para classificar
um indivíduo em um dos dois grupos possível (“sucesso” ou “fracasso”).
No entanto uma das grandes dificuldades no uso da regressão logística, para fins
de classificação, é a determinação, baseado na probabilidade estimada de sucesso, do
melhor ponto de corte que produz a melhor classificação possível para o modelo
proposto.
Assim, a ideia desse trabalho é apresentar uma metodologia alternativa que encontre
o “melhor” ponto de corte, de modo que maximize a taxa de acerto do modelo logístico.
A metodologia proposta envolverá o uso de algoritmos genéticos para a determinação
do ponto de corte ótimo.
2 Materiais e métodos
Na regressão logística tem-se como variável resposta uma variável binária, e o
como objetivo é determinar uma função em que calcula a probabilidade de que a
variável resposta assuma o valor 1.
Logo é necessário escolher uma regra de predição. É intuitivo pensar que valores
de grande classifica-se como 1 e valores de pequeno classifica-se como 0, No entanto a
grande dificuldade é encontrar o ponto para que valores de acima desse ponto seja
1
2
DEINFO-UFRPE. e-mail: [email protected]
Departamento de Estatística/UFPB. e-mail: [email protected].
classificado como 1 e menores do que ele seja classificado como 0. Esse ponto é
conhecido como ponto de corte.
Várias técnicas existem na literatura brasileira para a escolha do ponto de corte.
Uma delas é a escolha do ponto de corte sendo meio (0.5); outro é escolher este ponto
como sendo a probabilidade dentro da sua amostra de ser 1, ou seja, é o número de
casos dentro de sua amostra que são 1´s dividido pelo total da amostra, entre outros.
Neste trabalho é proposto o uso de um algoritmo genético para otimizar a
escolha desse ponto de corte, de modo que venha maximizar a taxa de acerto do modelo
logístico. Os conceitos teóricos dessa metodologia são descritos a seguir.
2.1
Algoritmo Genético
O Algoritmo Genético começou a ser desenvolvido por John Henry Holland
(1975) juntamente com seus alunos da Universidade de Michigan em meados da década
de 60, que buscavam desenvolver modelos em sistemas computacionais baseados na
teoria de seleção natural proposta por Charles Darwin (FERNEDA, 2009).
Segundo Darwim (1858), os seres vivos que mais se adaptavam as novas
condições da terra tinham uma maior probabilidade de permanecer na população, já os
com menores probabilidades desapareciam da população. Com isso, só os “melhores”
indivíduos sobreviviam e geravam novos indivíduos (filhos) mais aptos às condições
encontradas. Este processo de evolução levou centenas de gerações e até hoje vem
acontecendo (PACHECO, 1999).
Isso é possível, pois se sabe que cada ser vivo é constituído de células e cada
uma delas é formada por um conjunto de cromossomos que, por sua vez, são formados
por genes que carregam as informações do ser vivo a qual ele pertence. Os genes com
maior adaptação são predominantes nos cromossomos, de modo que a geração de um
novo indivíduo (filho), com grande chance, trará tais genes na composição desse novo.
ser. De forma semelhante, os filhos gerados produzirão, a partir do cruzamento com
outros filhos, novos entes, cada vez mais aptos que os seus pais. Esse processo é
chamado de crossover, que é justamente a recombinação desses cromossomos
(FERNEDA, 2009).
Baseado nessa teoria evolucionista, o algoritmo genético se inspirou nessa
evolução para achar soluções aproximadas para problemas que envolvessem a
otimização de parâmetros.
De uma forma geral, os algoritmos genéticos podem ser divididos em 7 (sete)
etapas, todas elas levando em consideração a evolução dos seres vivos (PACHECO,
1999).A FIGURA 1 mostra a sequência de execução de um algoritmo genético.
FIGURA 1: Sequência de execução de um Algoritmo Genético
3 Resultados e discussões
Para essa análise foi utilizado um banco de dados contendo 160 observações
com 9 (nove) variáveis explicativas contínuas e uma variável dependente dicotômica. O
evento que representa o sucesso da variável resposta para o banco de dados estudado é a
presença de artéria alterada (Y=1). A partir de uma análise descrita da variável
dependente, sabe-se que 91 pacientes têm as artérias coronarianas alteradas (56,88%),
enquanto que 69 pacientes têm artérias normais (43,12%). É essa partição que se
denomina partição à priori dos dados e que serve para classificar as probabilidades
estimadas de sucesso.Além disso, foram consideradas 5 partições, chamadas aqui de
cenários, para a definição das Bases de Dados de Treinamento e de Validação:
•
CENÁRIO 1: Dividiu-se a base de dados original na proporção 50% (BT) e
50% (BV);
•
CENÁRIO 2: Dividiu-se a base de dados original na proporção 60% (BT) e
40% (BV);
•
CENÁRIO 3: Dividiu-se a base de dados original na proporção 70% (BT) e
30% (BV);
•
CENÁRIO 4: Dividiu-se a base de dados original na proporção 80% (BT) e
20% (BV);
•
CENÁRIO 5: Dividiu-se a base de dados original na proporção 90% (BT) e
10% (BV);
Em todos os cenários, a Base de Dados de Treinamento (BT) foi utilizada para
ajustar o modelo de regressão logística, enquanto a Base de Dados de Validação (BV)
foi utilizada para encontrar o ponto de corte ótimo, via algoritmo genético, para a
classificação do “sucesso” e “fracasso” estimados. Além disso, para cada cenário, foi
realizada uma simulação de Monte Carlo, com 2000 iterações, para a escolha aleatória
das bases BT e BV.
Para facilitar o entendimento dos resultados, convencionou-se rotular cada método
utilizado para calcular o ponto de corte e sua respectiva taxa de acerto de: Método 1
para o ponto de corte 0,5; Método 2 para o ponto de corte que utiliza a partição à priori
dos dados e Método 3 para o ponto de corte gerado através do algoritmo genético
proposto.
Depois das análises realizadas observou-se que os maiores percentuais médios de
acerto foi encontrado pelo método 3, como também os menores desvios padrão e,
consequentemente, os menores tamanhos de intervalos de confiança. A tabela abaixo
demonstra este resultado como também o gráfico.
TABELA 1: Desempenho geral dos percentuais de acerto obtidos pelos três
métodos por cenário
Cenário
1
2
3
4
5
Método
Percentual de
acerto médio
Desvio
Padrão
IC 95% LI
IC 95% LS
Tamanho
IC
Método 1
57,02
4,53
48,05
65,48
17,43
Método 2
55,65
5,01
45,12
64,71
19,59
Método 3
63,65
3,55
56,79
70,73
13,94
Método 1
57,71
4,92
48,33
66,69
18,36
Método 2
56,08
5,36
45,32
66,15
20,83
Método 3
64,88
3,94
57,38
72,88
15,50
Método 1
57,92
6,29
45,28
70,00
24,72
Método 2
55,63
6,68
41,17
67,86
26,69
Método 3
66,17
4,88
57,45
76,47
19,02
Método 1
57,86
7,80
41,93
72,73
30,80
Método 2
55,06
8,80
36,67
70,97
34,30
Método 3
68,19
5,98
57,14
80,00
22,86
Método 1
57,81
12,37
33,33
81,82
48,49
Método 2
51,38
14,21
20,00
76,92
56,92
Método 3
73,03
9,07
57,11
92,30
35,19
FIGURA 2: Gráfico da taxa de acerto por método versus o cenário .
4 Conclusões
Este trabalho propôs o uso de algoritmos genéticos como uma ferramenta
alternativa para encontrar o ponto de corte ótimo que maximize a proporção estimada de
acerto de classificação do modelo logístico.
Os resultados mostraram que os pontos de corte gerados pelo algoritmo genético
forneceram taxas de acerto superiores àquelas produzidas por dois outros métodos
tradicionalmente utilizados nos softwares estatísticos. Essas comparações foram
efetuadas em cinco cenários diferentes, sendo que em todos eles, sem exceção, os
resultados produzidos pelo algoritmo genéticos foram expressivamente superiores aos
demais métodos avaliados. Verificou-se, ainda que o algoritmo genético classificou
corretamente as observações 16,50% a mais em relação ao método da proporção 50%; e
23% a mais ao método que utiliza o ponto de corte baseado na proporção amostral (à
priori) de 1’s observada na amostra estudada.
Além disso, nas 2000 iterações realizadas para cada cenário, o algoritmo
genético só gerou taxas de acertos inferiores aos outros métodos em apenas 0,30% das
simulações.
Por fim, entende-se que o trabalho proposto atingiu os seus objetivos, e que, apesar da
simplicidade do problema de aplicação, foi demonstrada a real capacidade que os algoritmos
evolutivos têm de encontrar soluções ótimas para os mais variados problemas de otimização.
1 Bibliografia
[1]
FERNEDA,
E.
Applying
Genetic
Algorithms
in
Information
Retrieval.
DataGramaZero – Revista da Ciência da Informação, Rio de Janeiro, v. 10, n. 1, 2009
[2] PACHECO, M. A. C. Algoritmos Genéticos: Princípios e Aplicações. ICA:
Laboratório de Inteligência Computacional Aplicada. Departamento de Engenharia
Elétrica. Pontifícia Universidade Católica do Rio de Janeiro.
Download

Uso de Algoritmo Genético para a otimização do ponto de