BAGGING HETEROGÊNEO EVOLUTIVO: CARACTERIZAÇÃO E ANÁLISE
COMPARATIVA COM ENSEMBLES HOMOGÊNEAS DE REDES NEURAIS RBF
Diego S. C. Nascimento∗, André L. V. Coelho∗
∗
Universidade de Fortaleza – UNIFOR
Mestrado em Informática Aplicada – MIA
Av. Washington Soares, 1321, Bairro Edson Queiroz
CEP: 60811-905, CE – Brasil
Emails: [email protected], [email protected]
Abstract— In this paper, we characterize and empirically assess the behavior of a novel committee machine
algorithm named as heterogeneous bagging. According to this approach, which aims at increasing the diversity
levels of the resulting ensemble models, different base learning algorithms may be recruited to induce the ensemble
components over the resampled data produced via standard bagging. For the automatic configuration of the
heterogeneous ensemble models, we have resorted to a customized genetic algorithm engine. As a manner to
validate the approach, experiments involving 10 well-known learning algorithms and 18 well-known pattern
classification datasets taken from the UCI repository have been conducted. The accuracy levels achieved with
the heterogeneous ensembles are contrasted with those produced by homogeneous bagging with RBF neural
networks, and the empirical results indicate a prevalence of the novel approach.
Keywords—
Committee Machines, Heterogeneous Bagging, Genetic Algorithms, RBF Neural Networks.
Resumo— O foco deste artigo está na caracterização e avaliação empı́rica de um novo algoritmo de comitês de
máquinas denominado de bagging heterogêneo. Segundo essa abordagem, diferentes algoritmos de aprendizado de
máquina (indutores) podem ser utilizados para fins de indução dos componentes da ensemble a serem treinados
por bagging padrão sobre os dados reamostrados, almejando-se o incremento da diversidade do modelo composto
resultante. Como meio de configuração automática dos diferentes tipos de componentes, adota-se um algoritmo
genético customizado. Para fins de validação da proposta, foi conduzido um estudo empı́rico envolvendo 10
diferentes tipos de indutores e 18 problemas de classificação extraı́dos do repositório UCI. Os valores de acuidade
obtidos via bagging heterogêneo são analisados com base naqueles produzidos por modelos de ensembles homogêneas compostos exclusivamente por redes neurais RBF, sendo que os resultados evidenciam melhor desempenho
por parte da nova abordagem.
Palavras-chave—
1
Comitês de Máquinas, Bagging Heterogêneo, Algoritmos Genéticos, Redes Neurais RBF.
Introdução
Em vez de se fixar no uso de estimadores (i.e.
classificadores ou regressores) operando de forma
isolada quando do tratamento de um dado problema, o conceito de comitês de máquinas (ou sistemas multiclassificadores) (Haykin, 1999; Kuncheva, 2004; Coelho, 2004) estipula a fusão de módulos independentes de estimação (denominados
de componentes ou especialistas) em busca de uma
decisão global que seja potencialmente mais eficaz.
Essa linha de pesquisa vem ganhando notoriedade
nos últimos anos, tendo sido aplicada com sucesso
em diferentes áreas, tais como reconhecimento de
padrões (Mao, 1998), aproximação/regressão de
funções complexas (Lima et al., 2002) e previsão
de séries temporais (Inoue and Narihisa, 2004).
Dentre os diferentes arranjos de comitês de
máquinas existentes, destacam-se os de natureza estática, conhecidos como ensembles (Haykin,
1999; Kuncheva, 2004), sendo que um dos trabalhos seminais nesse tema foi conduzido por Hansen
e Salomon (Hansen and Salamon, 1990). Nesse
estudo envolvendo redes neurais feedforward em
problemas de classificação binária, foram apresentadas justificativas teóricas para a combinação por
voto majoritário (VM) de diferentes modelos neu-
rais. Basicamente, os autores apontaram que, se
as taxas de erro relativas a K modelos disponı́veis são todas independentemente distribuı́das e
menores que 50%, então a probabilidade de que
a saı́da produzida pela fusão esteja errada será
menor que a menor das taxas de erro dos classificadores atuando isoladamente. Testes empı́ricos
atestaram os efetivos ganhos de generalização incorridos pela combinação.
Mais recentemente, duas classes de abordagens destinadas à geração de ensembles vêm recebendo bastante atenção na literatura, quais sejam
as baseadas no conceito de redistribuição aleatória dos dados e as baseadas em arquiteturas heterogêneas integrando diferentes tipos de algoritmos de aprendizado. Dentre os métodos da primeira classe, destaca-se bagging (de bootstrap aggregation and combining), proposto por (Breiman,
1996). De acordo com esse método, diferentes conjuntos de treinamento são produzidos a partir de
um repositório comum via reamostragem aleatória com reposição das amostras. Cada um dos
novos conjuntos de dados terá o mesmo número
de amostras do original; entretanto, uma vez que
algumas amostras deverão ser escolhidas repetidamente ao passo que outras não serão aproveitadas,
o seu tamanho efetivo será menor que o do origi-
nal, não havendo praticamente nenhuma chance
de eles serem idênticos. Desse modo, garantese que diferentes estimadores treinados sobre os
diferentes conjuntos derivados representarão hipóteses distintas sobre a função geratriz dos dados (Breiman, 1996; Opitz and Maclin, 1999; Dietterich, 2000b). Os modelos treinados sobre os diferentes conjuntos derivados têm suas saı́das combinadas via VM.
Por outro lado, a principal motivação por trás
da segunda classe de abordagens está no fato de
que o uso apropriado de diferentes técnicas de
aprendizado (indutores) pode levar à geração de
componentes com diferentes nı́veis de especialidade e precisão, capazes de explorar diferentes regiões do espaço de hipóteses (Canuto et al., 2007).
Desse modo, diferentes vieses (bias) em termos
de representação e busca podem levar a diferentes padrões de generalização, incorrendo em ganho de diversidade do modelo de ensemble resultante (Dietterich, 2000a).
Apesar de complementares, até o presente,
não há na literatura estudos empı́ricos sistemáticos avaliando a combinação dessas duas abordagens em uma só arquitetura conceitual, tendo
em vista o incremento ainda maior da diversidade
do modelo composto resultante. Como um passo
nesse sentido, o objetivo do presente artigo está na
caracterização e avaliação preliminar de uma nova
abordagem hı́brida de comitês de máquinas, denominada de bagging heterogêneo, segundo a qual
diferentes algoritmos de aprendizado podem ser
recrutados para a indução dos componentes da ensemble sobre os dados reamostrados gerados por
bagging padrão. Como meio de seleção automática dos diferentes tipos de indutores (componentes) de acordo com as nuances do problema em
vista, adota-se um algoritmo genético (AG) customizado.
Uma breve discussão conceitual sobre ensembles, focando no conceito de diversidade e abarcando trabalhos relacionados a bagging e modelos
heterogêneos, é conduzida na Seção 2. Já a Seção 3 é destinada à abordagem bagging heterogêneo, dando ênfase aos componentes do AG e aos
diferentes algoritmos de aprendizado utilizados.
Para fins de validação da proposta, foi conduzido
um estudo empı́rico envolvendo 18 problemas de
classificação de diferentes origens e nı́veis de dificuldade, o qual é descrito na Seção 4. Como forma
de análise dos resultados, os valores de desempenho obtidos via bagging heterogêneo são contrastados com aqueles produzidos por modelos de
ensembles homogêneas compostas exclusivamente
por redes neurais RBF, uma vez que esse tipo de
indutor é tipicamente instável (Breiman, 1996) e
vem sendo usado com sucesso em problemas de
classificação (Haykin, 1999; Harpham et al., 2004).
O artigo é concluı́do na Seção 5, a qual traz perspectivas sobre outros trabalhos em andamento.
2
Ensembles de estimadores
Em uma arquitetura tı́pica de ensembles, cada
novo padrão de entrada é tratado de forma redundante por diferentes módulos-componentes, os
quais produzirão independentemente suas estimativas, sendo estas fundidas por um módulo de combinação para dar origem à decisão consensual final. Para se combinar as respostas individuais,
é comumente utilizado em problemas de classificação o VM simples ou ponderado, ao passo que
em problemas de regressão, a média simples ou
ponderada (Haykin, 1999; Coelho, 2004).
Uma questão primordial nesse contexto é a
da diversidade. Cada componente deve apresentar um bom desempenho quando aplicado isoladamente; porém, o grupo deve apresentar alta dissimilaridade no que tange aos padrões de erro individuais sobre as diferentes regiões do espaço de
entrada, de forma que a diversidade das respostas
produzidas possa contribuir na sı́ntese de uma melhor hipótese sobre os dados (Kuncheva and Whitaker, 2003; Kuncheva, 2004; Coelho, 2004). Caso
não haja essa diversidade, o papel dos componentes será praticamente o mesmo, não compensando
o custo computacional de se ter um modelo mais
granuloso para se obter um mesmo nı́vel de desempenho.
Existem várias abordagens para se promover diversidade em ensembles, sendo as mais comuns (Dietterich, 2000a; Kuncheva and Whitaker, 2003): 1) métodos que manipulam os dados de
treinamento, ou seja, variam a apresentação dos
dados por estratégias de reamostragem; 2) métodos que atuam sobre o ponto de partida para a
busca realizada sobre o espaço de hipóteses; 3)
métodos que manipulam a arquitetura dos componentes, ou seja, variam a arquitetura de cada
componente de forma que diferentes conjuntos de
hipóteses estejam acessı́veis a cada um deles; e
4) métodos que atuam sobre a forma de exploração do espaço de hipóteses, ou seja, sobre como a
busca pela melhor hipótese é realizada.
Notadamente, o algoritmo bagging e a ideia
de ensembles heterogêneas pertencem às classes
1 e 3, respectivamente. No caso de bagging,
(Breiman, 1996) argumenta que os estimadores
mais propı́cios para serem combinados via este
método são os de gênero instável, dentre os quais
figuram os modelos neurais, os de árvore de decisão e os baseados em noções de vizinhança. Estimadores instáveis apresentam alta sensibilidade a
pequenas mudanças nas condições de treinamento;
por exemplo, perturbações no conjunto de dados
ou condições iniciais podem acarretar a geração
de hipóteses bastante discrepantes no que tange
à sua capacidade de generalização. Contudo, o
autor nada menciona sobre o impacto de se ter diferentes tipos de estimadores sobre o desempenho
do algoritmo. Em (Opitz and Maclin, 1999), a efi-
cácia de bagging padrão é comparada com a de outro método poderoso baseado em reamostragem,
boosting, sobre 23 conjuntos de dados (a maioria
retirada do repositório UCI (Asunción and Newman, 2007)), tomando como base o desempenho
de dois tipos de indutores, redes neurais e árvores
de decisão. Dentre várias conclusões, os autores
apontam que bagging é quase sempre mais preciso
que o seu melhor componente simples, ao passo
que às vezes é muito menos preciso que boosting.
Por outro lado, (Dietterich, 2000b) compara a eficácia de bagging com a de boosting e outra abordagem aleatória (denominada de randomização),
tomando como base o ganho de desempenho em
árvores de decisão. O autor aponta que, em situações de alto nı́vel de ruı́do sobre os dados, bagging
tende a ser muito superior a boosting.
Com relação a abordagens de ensembles heterogêneas, em (Wang et al., 2000), é realizado um
estudo envolvendo a combinação de redes neurais e
árvores de decisão para incremento da diversidade;
os autores concluem que um número relativamente
maior de redes neurais parece ser uma boa estratégia para se obter ganhos. Já (Soares et al., 2006)
utilizaram como componentes redes neurais MLP,
redes neurais RBF, classificadores Naı̈ve Bayes,
máquinas de vetores-suporte (SVM) e classificadores de regras proposicionais, propondo duas técnicas de seleção de componentes com algoritmos de
agrupamento e k-nearest neighbours (KNN). Por
sua vez, no estudo de (Canuto et al., 2007), foram
utilizadas redes MLP (padrão e fuzzy) e RBF, o
algoritmo KNN, SVMs, árvores de decisão e o algoritmo JRIP, analisando-se o impacto da escolha
dos membros sobre o modelo final de ensemble.
Essa investigação, porém, não considerou métodos de reamostragem para treinamento dos componentes.
Uma das métricas mais comuns para mensurar diversidade em ensembles é a Estatı́sticaQ (Kuncheva and Whitaker, 2003), pela qual o
grau de divergência entre dois classificadores k e
k 0 pode ser calculado como:
Qk,k0 =
N 11 N 00 − N 01 N 10
,
N 11 N 00 + N 01 N 10
sendo que N 11 e N 00 denotam, respectivamente, o
número de amostras classificadas corretamente e
incorretamente por k e k 0 , ao passo que N 10 indica
o número de amostras classificadas corretamente
por k e incorretamente por k 0 . O inverso se aplica
a N 01 . A Estatı́stica-Q assume valores em [−1, 1],
sendo que valores positivos altos indicam forte correlação entre os padrões de erro, valores negativos
indicam não-correlação, ao passo que valores próximos a zero indicam independência. A diversidade final é calculada pela média sobre todos os
possı́veis pares de componentes (Coelho, 2004).
3
Bagging heterogêneo evolutivo
Como já mencionado, a ideia principal por
trás de bagging heterogêneo é a de combinar K
módulos-componentes inferidos a partir da aplicação de diferentes tipos de indutores sobre conjuntos de dados derivados do repositório original de
amostras, estes obtidos via reamostragem aleatória com reposição. Desse modo, bagging heterogêneo combina em um só arcabouço conceitual duas
estratégias distintas para a geração de ensembles
diversas, conforme discutido na seção anterior.
Particularmente neste estudo, foram adotados
M = 10 diferentes algoritmos de aprendizagem,
representativos de cinco classes distintas de indutores (Witten and Frank, 2005): o algoritmo
Naı̈ve Bayes simples (1), baseado em estatı́stica
bayesiana; redes neurais RBF (2) e máquinas de
vetores-suporte (3) treinadas via algoritmo SMO,
que se baseiam em funções numéricas não-lineares;
algoritmos J48 (4) e REP Tree (5), baseados em
árvores de decisão; algoritmo IBk (6), baseado nos
conceitos de vizinhança e aprendizado local; e algoritmos Decision Stump (7), OneR (8), PART
(9) e Decision Table (10), basedos em regras. Esse
repertório abrange indutores simples e complexos;
além disso, abarca indutores notadamente instáveis (redes neurais RBF, J48, IBk) como também
os de certa estabilidade (SVM) e os reconhecidamente estáveis (Naı̈ve Bayes). O objetivo dessa
escolha é o de avaliar se a fusão de indutores simples com complexos, instáveis com estáveis, via
bagging heterogêneo produz ganhos de eficácia.
Como a configuração adequada dos diferentes tipos de componentes (indutores) depende do
problema de estimação em questão, passou-se a
modelá-la como um problema tı́pico de otimização combinatória (particularmente, como um problema de alocação). Dado que o espaço de busca
de configurações factı́veis é de grandeza exponencial (O(K M )), a resolução desse problema via métodos tradicionais torna-se intratável computacionalmente, o que nos motivou lançar mão de um
AG customizado (Coelho, 2004). Algoritmos evolutivos, dentre os quais os AGs, representam uma
classe de métodos metaheurı́sticos de busca e otimização inspirados nos mecanismos evolutivos naturais. Seguem de perto os princı́pios do Neodarwinismo. A sua aplicação no contexto de ensembles vem aumentando nos últimos anos, sendo
que uma revisão de diferentes abordagens pode ser
encontrada em (Coelho, 2004).
No que segue, são descritos os componentes conceituais do AG modificado proposto aqui.
Cada indivı́duo da população é composto por K
genes, sendo que o valor assumido pelo k-ésimo
gene indica qual dos indutores será usado para gerar o k-ésimo componente da ensemble sobre o késimo conjunto de dados produzido via reamostragem. A codificação dos indivı́duos é, portanto, ve-
torial e inteira, com cada elemento assumindo um
valor (alelo) dentre M + 1 possı́veis. Além de um
alelo representando cada um dos M tipos de indutor (segundo a lista apresentada acima), existe
um reservado, indicado pelo valor 0, para a possibilidade de poda; ou seja, caso esse alelo especial
apareça na k-ésima posição, isso indicará que o késimo componente não será gerado. Essa ideia de
poda de componentes (Inoue and Narihisa, 2004)
é comumente usada em uma etapa posterior à geração dos componentes, denominada de seleção —
por exemplo, (Kim and Oh, 2008) utilizaram um
AG hı́brido para esse fim. A abordagem adotada
aqui, por sua vez, é diferente, uma vez que realiza
as etapas de geração e seleção (poda) conjuntamente via um único AG.
Para fins de avaliação da qualidade dos indivı́duos, adotou-se como função de fitness uma
combinação linear convexa entre dois termos: o
primeiro relativo à taxa de erro de validação cruzada produzida pelo modelo de ensemble resultante (como descrito na Seção 4) e o segundo relativo à complexidade do modelo. Assim, quanto
menor for o erro de validação cruzada e o número
de componentes de um dado modelo de ensemble,
maior será o seu grau de aptidão (problema de
minimização). O que se espera é que ao final do
processo evolutivo ensembles diversas e parcimoniosas sejam obtidas.
Com relação à população inicial, esta é gerada
aleatoriamente. Tanto para fins de seleção de indivı́duos para reprodução em uma geração como
para substituição dos indivı́duos entre gerações,
foi utilizado o operador da roleta, que é de natureza estocástica (Coelho, 2004). Por outro lado,
para a geração de novos indivı́duos via recombinação, adotou-se o operador de crossover de um
ponto. Já o operador de mutação simples (creep)
foi adotado para fins de modificação do material
genético dos novos indivı́duos produzidos, como
meio de se garantir diversidade na população. O
critério de parada usado foi o de se atingir um
número máximo prefixado de gerações.
4
Experimentos e análise de resultados
Um protótipo da abordagem bagging heterogêneo evolutivo foi implementado na linguagem
Java, lançando-se mão dos insumos providos pelo
ambiente WEKA (Witten and Frank, 2005). É
válido mencionar que esse framework vem sendo
recentemente bastante adotado como base de desenvolvimento e validação de novas abordagens
de aprendizado de máquina, notadamente aquelas baseadas em comitês de máquinas (Soares
et al., 2006; Canuto et al., 2007).
Para fins de validação da proposta, foram conduzidos experimentos sobre 18 problemas de classificação extraı́dos do repositório UCI (Asunción
and Newman, 2007), a maioria dos quais (se-
não todos) também já serviu de alvo de investigação em trabalhos correlatos na linha de comitês de máquinas (Opitz and Maclin, 1999; Dietterich, 2000b; Canuto et al., 2007). As bases de dados relativas a esses problemas estão indicadas na
primeira coluna da Tabela 1, sendo que uma descrição das suas propriedades em termos de número
de amostras, número e tipos de atributos, número
e distribuição das classes, e existência de atributos
faltantes pode ser encontrada em (Coelho, 2004).
Tendo em mente a obtenção de resultados
estatisticamente significantes, para cada um dos
problemas foram criados aleatoriamente (i.e. mediante diferentes sementes para o gerador de números aleatórios) 10 conjuntos de partições de
treinamento e teste, observando-se a divisão de
66,6% e 33,4%, respectivamente. O particionamento feito foi do tipo estratificado, ou seja, respeitando as proporções originais das classes em
cada partição. Sobre os dados de treinamento, foram conduzidos tanto o processo evolutivo da nova
abordagem como a geração de ensembles homogêneas de redes neurais RBF via bagging padrão,
sendo ambos baseados em validação cruzada estratificada de 10 folds (Witten and Frank, 2005).
Já os dados de teste foram usados para se avaliar a
generalização dos modelos de ensemble resultantes
da fase de treinamento, estes por sua vez treinados
sobre toda a partição de treinamento.
Para os experimentos, os parâmetros de configuração do AG adotado foram: tamanho da população de 20 indivı́duos; probabilidade de cruzamento de 80%; probabilidade de mutação de 10%;
e número máximo de 20 gerações. Vale frisar também que os resultados discutidos na sequência dizem respeito às melhores combinações de pesos da
combinação linear convexa usada como função de
fitness para o AG (Seção 3).
A Tabela 1 traz os ı́ndices de desempenho exibidos pela abordagem bagging heterogêneo evolutivo comparando-os com aqueles obtidos por bagging padrão sobre redes neurais RBF. A análise é
feita em termos das taxas médias de erro de validação cruzada e de teste, bem como em termos
da Estatı́stica-Q. Valores em negrito indicam melhor desempenho para o critério em questão. A
coluna “Tipo” exibe o tipo de componente que integrou com mais frequência os ensembles heterogêneos ótimos produzidos para cada conjunto de
dados. Já a última coluna da tabela contém os
valores de significância (p-values) resultantes da
aplicação do Teste-T pareado sobre as taxas de
erro de teste produzidas por ambas as abordagens
para os 10 conjuntos de partições. Esse teste estatı́stico tem como objetivo testar a equivalência
entre duas médias amostrais, supondo independência e normalidade das observações — no caso,
das taxas de erro (Witten and Frank, 2005). No
nosso caso, adotou-se um nı́vel de confiabilidade
de 95%; ou seja, se o valor de significância ficar
Tabela 1: Comparação de desempenho entre bagging homogêneo composto por redes neurais RBF e
bagging heterogêneo evolutivo.
Base
anneal
breast-cancer
bupa
colic
credit-a
diabetes
glass
haberman
heart-c
hepatitis
ionosphere
iris
segment
sick
sonar
vehicle
vote
zoo
Treino
0,0951±0,0236
0,2755±0,0451
0,3975±0,0193
0,2238±0,0376
0,1855±0,0199
0,2645±0,0315
0,3795±0,0581
0,2619±0,0263
0,1606±0,0317
0,1679±0,0449
0,1067±0,0207
0,0451±0,0132
0,1134±0,0079
0,0373±0,0048
0,2437±0,0535
0,3250±0,0241
0,0622±0,0171
0,1457±0,0211
Homogêneo
Teste
0,0880±0,0236
0,2803±0,0207
0,3630±0,0402
0,2178±0,0105
0,1969±0,0198
0,2599±0,0173
0,3348±0,0342
0,2522±0,0102
0,1714±0,0260
0,1578±0,0301
0,0978±0,0189
0,0495±0,0111
0,1121±0,0104
0,0364±0,0025
0,2460±0,0467
0,3398±0,0188
0,0672±0,0184
0,1303±0,0424
Est.-Q
0,8845
0,7977
0,5395
0,8842
0,9693
0,8899
0,5779
0,8474
0,9226
0,6179
0,9456
0,4344
0,9381
0,9793
0,3855
0,8523
0,9620
0,1741
(a)
Treino
0,0251±0,0059
0,2224±0,0333
0,3102±0,0302
0,1206±0,0284
0,1128±0,0156
0,2237±0,0270
0,3000±0,0326
0,2333±0,0197
0,1413±0,0231
0,1132±0,0487
0,0650±0,0146
0,0294±0,0139
0,0380±0,0034
0,0157±0,0031
0,1746±0,0416
0,2497±0,0170
0,0385±0,0115
0,0886±0,0250
Heterogêneo
Teste
0,0289±0,0109
0,2798±0,0309
0,3458±0,0313
0,1591±0,0178
0,1435±0,0111
0,2375±0,0126
0,3305±0,0362
0,2677±0,0155
0,1658±0,0197
0,1490±0,0239
0,0693±0,0121
0,0455±0,0109
0,0412±0,0070
0,0178±0,0023
0,2241±0,0457
0,2857±0,0158
0,0415±0,0074
0,0773±0,0338
Teste-T
Est.-Q
0,3042
0,7039
0,2799
0,7394
0,7734
0,6065
0,3543
0,7210
0,6185
0,5004
0,5332
0,2986
0,6754
0,8860
0,0436
0,4628
0,6940
0,0991
Tipo
10
4
6
2
8
3
1
5
1
4
4
1
9
2
5
9
6
3
0,00
0,96
0,20
0,00
0,00
0,00
0,70
0,04
0,46
0,50
0,00
0,10
0,00
0,00
0,27
0,00
0,00
0,01
(b)
Figura 1: Processo de convergência tı́pico exibido pelo AG para: (a) base credit-a; e (b) base glass.
abaixo de 5%, então a hipótese nula (i.e. equivalência de desempenho entre as abordagens) é
rejeitada. Na tabela, valores em itálico indicam
essa situação.
Em geral, os resultados apontam ganhos por
parte da abordagem bagging heterogêneo evolutivo. Em se tratando do desempenho na fase de
treinamento, para todos os problemas, os valores do erro de validação cruzada produzidos pela
abordagem evolutiva foram inferiores, em termos
de média, àqueles dos modelos homogêneos de ensemble de redes RBF. Já em termos de capacidade
de generalização, a abordagem heterogênea foi estatisticamente superior em 10 problemas, equivalente aos modelos homogêneos em sete deles, e
inferior em um único, o que pode ser atestado
observando-se os valores do Teste-T.
Comparando-se as abordagens quanto aos valores da Estatı́stica-Q (vide Seção 2), pode-se depreender que a adoção de componentes heterogêneos em bagging incorreu em aumento de diversidade para todos os casos, sendo que para alguns
deles (notadamente, as bases anneal, sonar, vehicle e zoo) o incremento foi bem significativo. Esse
resultado é interessante, pois, segundo (Kuncheva
and Whitaker, 2003), a diversidade é um fator primordial para ganhos de generalização em ensembles. Vale também notar que os diferentes tipos
de componentes foram recrutados com diferentes
frequências para os diferentes problemas, não havendo um único tipo que prevalecesse sobre os demais. Isso reforça o papel do AG em localizar os
tipos mais adequados de componentes de acordo
com as nuances do problema-alvo.
De certo modo, esses resultados também corroboram as conclusões de (Canuto et al., 2007),
que atestam que a escolha dos tipos de componentes da ensemble pode ser também um fator-chave
para se garantir incrementos de desempenho do
sistema. No nosso caso, essa escolha foi feita de
forma automática por meio do AG customizado,
algo não explorado no trabalho citado, uma vez
que os arranjos heterogêneos foram definidos manualmente pelos autores. Como meio de se observar como a configuração automática de componentes é tipicamente conduzida pelo AG ao longo
de suas gerações, a Figura 1 exibe o seu processo
de convergência para duas das bases investigadas.
5
Conclusão
Neste artigo, uma nova abordagem heterogênea e evolutiva destinada à sı́ntese de ensembles
de classificadores via bagging foi caracterizada e
empiricamente avaliada, tomando por base o desempenho exibido por ensembles homogêneas de
redes neurais RBF. Os resultados experimentais
apontam ganhos tanto em termos de ı́ndices de
precisão (taxas de erro de validação cruzada e generalização) como de diversidade (Estatı́stica-Q).
Como extensão da análise apresentada aqui,
está sendo conduzida uma comparação mais
abrangente envolvendo outros modelos homogêneos de ensemble produzidos via bagging sobre os
demais tipos de indutores (instáveis e estáveis)
empregados neste estudo. Uma análise detalhada
das configurações heterogêneas ótimas produzidas
pelo AG para cada problema também está em andamento, assim como a condução de experimentos
envolvendo heterogeneidade em outros métodos de
sı́ntese de ensembles via reamostragem de dados,
tais como boosting (Opitz and Maclin, 1999).
Agradecimento
Os autores agradecem à Fundação Cearense
de Apoio ao Desenvolvimento Cientı́fico e Tecnológico (Funcap) pela ajuda financeira referente a
uma bolsa de mestrado.
Referências
Asunción, A. and Newman, D. J. (2007). UCI
Machine Learning Repository, University of
California at Irvine, http://ics.uci.edu/
~mlearn/MLRepository.html.
Breiman, L. (1996). Bagging predictors, Mach.
Learn. 24(2): 123–140.
Canuto, A. M. P., Abreu, M. C. C., de M. Oliveira, L., Jr., J. C. X. and de M. Santos,
A. (2007). Investigating the influence of the
choice of the ensemble members in accuracy
and diversity of selection-based and fusionbased methods for ensembles, Pattern Recognit. Lett. 28(4): 472–486.
Coelho, A. L. V. (2004). Evolução, simbiose e hibridismo aplicados à engenharia de sistemas
inteligentes modulares: Investigação em redes neurais artificiais, comitês de máquinas
e sistemas multiagentes, PhD thesis, Faculdade de Engenharia Elétrica e Computação,
Universidade Estadual de Campinas.
Dietterich, T. G. (2000a). Ensemble methods
in machine learning, Procs. of the First Int.
Workshop on Multiple Classifier Systems,
Springer-Verlag, London, UK, pp. 1–15.
Dietterich, T. G. (2000b).
An experimental
comparison of three methods for constructing ensembles of decision trees: Bagging,
boosting and randomization, Mach. Learn.
40(2): 139–158.
Hansen, L. K. and Salamon, P. (1990). Neural network ensembles, IEEE Trans. Pattern
Anal. Mach. Intell. 12(10): 993–1001.
Harpham, C., Dawson, W. and Brown, R. (2004).
A review of genetic algorithms applied to
training radial basis function networks, Neural Comput. & Appl. 13(3): 193–201.
Haykin, S. (1999). Neural Networks–A Comprehensive Foundation, Prentice Hall.
Inoue, H. and Narihisa, H. (2004). Effective online
pruning method for ensemble self-generating
neural networks, Procs. of the 47th Midwest
Sympos. on Circuits and Systems, pp. 85–88.
Kim, Y.-W. and Oh, I.-S. (2008). Classifier ensemble selection using hybrid genetic algorithms,
Pattern Recognit. Lett. 29(6): 796–802.
Kuncheva, L. I. (2004). Combining Pattern Classifiers: Methods and Algorithms, Wiley.
Kuncheva, L. I. and Whitaker, C. J. (2003). Measures of diversity in classifier ensembles,
Mach. Learn. 51: 181–207.
Lima, C. A. M., Coelho, A. L. V. and Zuben, F. J. V. (2002). Ensembles of support vector machines for regression problems,
Procs. of the IEEE Int. Joint Conf. on Neural Networks, pp. 2381–2386.
Mao, J. (1998). A case study on bagging, boosting
and basic ensembles of neural networks for
OCR, Procs. of the IEEE Int. Joint Conf. on
Neural Networks, pp. 1828–1833.
Opitz, D. and Maclin, R. (1999). Popular ensemble methods: An empirical study, J. Artif.
Intell. Res. 11: 169–198.
Soares, R. G. F., Santana, A., Canuto, A. M. P.
and de Souto, M. C. P. (2006). Using accuracy and diversity to select classifiers to build
ensembles, Procs. of the IEEE Int. Joint
Conf. on Neural Networks, pp. 2289–2295.
Wang, W., Jones, P. and Partridge, D. (2000). Diversity between neural networks and decision
trees for building multiple classifier systems,
Procs. of the First Int. Workshop on Multiple
Classifier Systems, pp. 240–249.
Witten, I. H. and Frank, E. (2005). Data Mining:
Practical Machine Learning Tools and Techiniques, 2a. edn, Elsevier.