BAGGING HETEROGÊNEO EVOLUTIVO: CARACTERIZAÇÃO E ANÁLISE
COMPARATIVA COM ENSEMBLES HOMOGÊNEAS DE REDES NEURAIS RBF
Diego S. C. Nascimento∗, André L. V. Coelho∗
∗
Universidade de Fortaleza – UNIFOR
Mestrado em Informática Aplicada – MIA
Av. Washington Soares, 1321, Bairro Edson Queiroz
CEP: 60811-905, CE – Brasil
Emails: [email protected], [email protected]
Abstract— In this paper, we characterize and empirically assess the behavior of a novel committee machine
algorithm named as heterogeneous bagging. According to this approach, which aims at increasing the diversity
levels of the resulting ensemble models, different base learning algorithms may be recruited to induce the ensemble
components over the resampled data produced via standard bagging. For the automatic configuration of the
heterogeneous ensemble models, we have resorted to a customized genetic algorithm engine. As a manner to
validate the approach, experiments involving 10 well-known learning algorithms and 18 well-known pattern
classification datasets taken from the UCI repository have been conducted. The accuracy levels achieved with
the heterogeneous ensembles are contrasted with those produced by homogeneous bagging with RBF neural
networks, and the empirical results indicate a prevalence of the novel approach.
Keywords—
Committee Machines, Heterogeneous Bagging, Genetic Algorithms, RBF Neural Networks.
Resumo— O foco deste artigo está na caracterização e avaliação empı́rica de um novo algoritmo de comitês de
máquinas denominado de bagging heterogêneo. Segundo essa abordagem, diferentes algoritmos de aprendizado de
máquina (indutores) podem ser utilizados para fins de indução dos componentes da ensemble a serem treinados
por bagging padrão sobre os dados reamostrados, almejando-se o incremento da diversidade do modelo composto
resultante. Como meio de configuração automática dos diferentes tipos de componentes, adota-se um algoritmo
genético customizado. Para fins de validação da proposta, foi conduzido um estudo empı́rico envolvendo 10
diferentes tipos de indutores e 18 problemas de classificação extraı́dos do repositório UCI. Os valores de acuidade
obtidos via bagging heterogêneo são analisados com base naqueles produzidos por modelos de ensembles homogêneas compostos exclusivamente por redes neurais RBF, sendo que os resultados evidenciam melhor desempenho
por parte da nova abordagem.
Palavras-chave—
1
Comitês de Máquinas, Bagging Heterogêneo, Algoritmos Genéticos, Redes Neurais RBF.
Introdução
Em vez de se fixar no uso de estimadores (i.e.
classificadores ou regressores) operando de forma
isolada quando do tratamento de um dado problema, o conceito de comitês de máquinas (ou sistemas multiclassificadores) (Haykin, 1999; Kuncheva, 2004; Coelho, 2004) estipula a fusão de módulos independentes de estimação (denominados
de componentes ou especialistas) em busca de uma
decisão global que seja potencialmente mais eficaz.
Essa linha de pesquisa vem ganhando notoriedade
nos últimos anos, tendo sido aplicada com sucesso
em diferentes áreas, tais como reconhecimento de
padrões (Mao, 1998), aproximação/regressão de
funções complexas (Lima et al., 2002) e previsão
de séries temporais (Inoue and Narihisa, 2004).
Dentre os diferentes arranjos de comitês de
máquinas existentes, destacam-se os de natureza estática, conhecidos como ensembles (Haykin,
1999; Kuncheva, 2004), sendo que um dos trabalhos seminais nesse tema foi conduzido por Hansen
e Salomon (Hansen and Salamon, 1990). Nesse
estudo envolvendo redes neurais feedforward em
problemas de classificação binária, foram apresentadas justificativas teóricas para a combinação por
voto majoritário (VM) de diferentes modelos neu-
rais. Basicamente, os autores apontaram que, se
as taxas de erro relativas a K modelos disponı́veis são todas independentemente distribuı́das e
menores que 50%, então a probabilidade de que
a saı́da produzida pela fusão esteja errada será
menor que a menor das taxas de erro dos classificadores atuando isoladamente. Testes empı́ricos
atestaram os efetivos ganhos de generalização incorridos pela combinação.
Mais recentemente, duas classes de abordagens destinadas à geração de ensembles vêm recebendo bastante atenção na literatura, quais sejam
as baseadas no conceito de redistribuição aleatória dos dados e as baseadas em arquiteturas heterogêneas integrando diferentes tipos de algoritmos de aprendizado. Dentre os métodos da primeira classe, destaca-se bagging (de bootstrap aggregation and combining), proposto por (Breiman,
1996). De acordo com esse método, diferentes conjuntos de treinamento são produzidos a partir de
um repositório comum via reamostragem aleatória com reposição das amostras. Cada um dos
novos conjuntos de dados terá o mesmo número
de amostras do original; entretanto, uma vez que
algumas amostras deverão ser escolhidas repetidamente ao passo que outras não serão aproveitadas,
o seu tamanho efetivo será menor que o do origi-
nal, não havendo praticamente nenhuma chance
de eles serem idênticos. Desse modo, garantese que diferentes estimadores treinados sobre os
diferentes conjuntos derivados representarão hipóteses distintas sobre a função geratriz dos dados (Breiman, 1996; Opitz and Maclin, 1999; Dietterich, 2000b). Os modelos treinados sobre os diferentes conjuntos derivados têm suas saı́das combinadas via VM.
Por outro lado, a principal motivação por trás
da segunda classe de abordagens está no fato de
que o uso apropriado de diferentes técnicas de
aprendizado (indutores) pode levar à geração de
componentes com diferentes nı́veis de especialidade e precisão, capazes de explorar diferentes regiões do espaço de hipóteses (Canuto et al., 2007).
Desse modo, diferentes vieses (bias) em termos
de representação e busca podem levar a diferentes padrões de generalização, incorrendo em ganho de diversidade do modelo de ensemble resultante (Dietterich, 2000a).
Apesar de complementares, até o presente,
não há na literatura estudos empı́ricos sistemáticos avaliando a combinação dessas duas abordagens em uma só arquitetura conceitual, tendo
em vista o incremento ainda maior da diversidade
do modelo composto resultante. Como um passo
nesse sentido, o objetivo do presente artigo está na
caracterização e avaliação preliminar de uma nova
abordagem hı́brida de comitês de máquinas, denominada de bagging heterogêneo, segundo a qual
diferentes algoritmos de aprendizado podem ser
recrutados para a indução dos componentes da ensemble sobre os dados reamostrados gerados por
bagging padrão. Como meio de seleção automática dos diferentes tipos de indutores (componentes) de acordo com as nuances do problema em
vista, adota-se um algoritmo genético (AG) customizado.
Uma breve discussão conceitual sobre ensembles, focando no conceito de diversidade e abarcando trabalhos relacionados a bagging e modelos
heterogêneos, é conduzida na Seção 2. Já a Seção 3 é destinada à abordagem bagging heterogêneo, dando ênfase aos componentes do AG e aos
diferentes algoritmos de aprendizado utilizados.
Para fins de validação da proposta, foi conduzido
um estudo empı́rico envolvendo 18 problemas de
classificação de diferentes origens e nı́veis de dificuldade, o qual é descrito na Seção 4. Como forma
de análise dos resultados, os valores de desempenho obtidos via bagging heterogêneo são contrastados com aqueles produzidos por modelos de
ensembles homogêneas compostas exclusivamente
por redes neurais RBF, uma vez que esse tipo de
indutor é tipicamente instável (Breiman, 1996) e
vem sendo usado com sucesso em problemas de
classificação (Haykin, 1999; Harpham et al., 2004).
O artigo é concluı́do na Seção 5, a qual traz perspectivas sobre outros trabalhos em andamento.
2
Ensembles de estimadores
Em uma arquitetura tı́pica de ensembles, cada
novo padrão de entrada é tratado de forma redundante por diferentes módulos-componentes, os
quais produzirão independentemente suas estimativas, sendo estas fundidas por um módulo de combinação para dar origem à decisão consensual final. Para se combinar as respostas individuais,
é comumente utilizado em problemas de classificação o VM simples ou ponderado, ao passo que
em problemas de regressão, a média simples ou
ponderada (Haykin, 1999; Coelho, 2004).
Uma questão primordial nesse contexto é a
da diversidade. Cada componente deve apresentar um bom desempenho quando aplicado isoladamente; porém, o grupo deve apresentar alta dissimilaridade no que tange aos padrões de erro individuais sobre as diferentes regiões do espaço de
entrada, de forma que a diversidade das respostas
produzidas possa contribuir na sı́ntese de uma melhor hipótese sobre os dados (Kuncheva and Whitaker, 2003; Kuncheva, 2004; Coelho, 2004). Caso
não haja essa diversidade, o papel dos componentes será praticamente o mesmo, não compensando
o custo computacional de se ter um modelo mais
granuloso para se obter um mesmo nı́vel de desempenho.
Existem várias abordagens para se promover diversidade em ensembles, sendo as mais comuns (Dietterich, 2000a; Kuncheva and Whitaker, 2003): 1) métodos que manipulam os dados de
treinamento, ou seja, variam a apresentação dos
dados por estratégias de reamostragem; 2) métodos que atuam sobre o ponto de partida para a
busca realizada sobre o espaço de hipóteses; 3)
métodos que manipulam a arquitetura dos componentes, ou seja, variam a arquitetura de cada
componente de forma que diferentes conjuntos de
hipóteses estejam acessı́veis a cada um deles; e
4) métodos que atuam sobre a forma de exploração do espaço de hipóteses, ou seja, sobre como a
busca pela melhor hipótese é realizada.
Notadamente, o algoritmo bagging e a ideia
de ensembles heterogêneas pertencem às classes
1 e 3, respectivamente. No caso de bagging,
(Breiman, 1996) argumenta que os estimadores
mais propı́cios para serem combinados via este
método são os de gênero instável, dentre os quais
figuram os modelos neurais, os de árvore de decisão e os baseados em noções de vizinhança. Estimadores instáveis apresentam alta sensibilidade a
pequenas mudanças nas condições de treinamento;
por exemplo, perturbações no conjunto de dados
ou condições iniciais podem acarretar a geração
de hipóteses bastante discrepantes no que tange
à sua capacidade de generalização. Contudo, o
autor nada menciona sobre o impacto de se ter diferentes tipos de estimadores sobre o desempenho
do algoritmo. Em (Opitz and Maclin, 1999), a efi-
cácia de bagging padrão é comparada com a de outro método poderoso baseado em reamostragem,
boosting, sobre 23 conjuntos de dados (a maioria
retirada do repositório UCI (Asunción and Newman, 2007)), tomando como base o desempenho
de dois tipos de indutores, redes neurais e árvores
de decisão. Dentre várias conclusões, os autores
apontam que bagging é quase sempre mais preciso
que o seu melhor componente simples, ao passo
que às vezes é muito menos preciso que boosting.
Por outro lado, (Dietterich, 2000b) compara a eficácia de bagging com a de boosting e outra abordagem aleatória (denominada de randomização),
tomando como base o ganho de desempenho em
árvores de decisão. O autor aponta que, em situações de alto nı́vel de ruı́do sobre os dados, bagging
tende a ser muito superior a boosting.
Com relação a abordagens de ensembles heterogêneas, em (Wang et al., 2000), é realizado um
estudo envolvendo a combinação de redes neurais e
árvores de decisão para incremento da diversidade;
os autores concluem que um número relativamente
maior de redes neurais parece ser uma boa estratégia para se obter ganhos. Já (Soares et al., 2006)
utilizaram como componentes redes neurais MLP,
redes neurais RBF, classificadores Naı̈ve Bayes,
máquinas de vetores-suporte (SVM) e classificadores de regras proposicionais, propondo duas técnicas de seleção de componentes com algoritmos de
agrupamento e k-nearest neighbours (KNN). Por
sua vez, no estudo de (Canuto et al., 2007), foram
utilizadas redes MLP (padrão e fuzzy) e RBF, o
algoritmo KNN, SVMs, árvores de decisão e o algoritmo JRIP, analisando-se o impacto da escolha
dos membros sobre o modelo final de ensemble.
Essa investigação, porém, não considerou métodos de reamostragem para treinamento dos componentes.
Uma das métricas mais comuns para mensurar diversidade em ensembles é a Estatı́sticaQ (Kuncheva and Whitaker, 2003), pela qual o
grau de divergência entre dois classificadores k e
k 0 pode ser calculado como:
Qk,k0 =
N 11 N 00 − N 01 N 10
,
N 11 N 00 + N 01 N 10
sendo que N 11 e N 00 denotam, respectivamente, o
número de amostras classificadas corretamente e
incorretamente por k e k 0 , ao passo que N 10 indica
o número de amostras classificadas corretamente
por k e incorretamente por k 0 . O inverso se aplica
a N 01 . A Estatı́stica-Q assume valores em [−1, 1],
sendo que valores positivos altos indicam forte correlação entre os padrões de erro, valores negativos
indicam não-correlação, ao passo que valores próximos a zero indicam independência. A diversidade final é calculada pela média sobre todos os
possı́veis pares de componentes (Coelho, 2004).
3
Bagging heterogêneo evolutivo
Como já mencionado, a ideia principal por
trás de bagging heterogêneo é a de combinar K
módulos-componentes inferidos a partir da aplicação de diferentes tipos de indutores sobre conjuntos de dados derivados do repositório original de
amostras, estes obtidos via reamostragem aleatória com reposição. Desse modo, bagging heterogêneo combina em um só arcabouço conceitual duas
estratégias distintas para a geração de ensembles
diversas, conforme discutido na seção anterior.
Particularmente neste estudo, foram adotados
M = 10 diferentes algoritmos de aprendizagem,
representativos de cinco classes distintas de indutores (Witten and Frank, 2005): o algoritmo
Naı̈ve Bayes simples (1), baseado em estatı́stica
bayesiana; redes neurais RBF (2) e máquinas de
vetores-suporte (3) treinadas via algoritmo SMO,
que se baseiam em funções numéricas não-lineares;
algoritmos J48 (4) e REP Tree (5), baseados em
árvores de decisão; algoritmo IBk (6), baseado nos
conceitos de vizinhança e aprendizado local; e algoritmos Decision Stump (7), OneR (8), PART
(9) e Decision Table (10), basedos em regras. Esse
repertório abrange indutores simples e complexos;
além disso, abarca indutores notadamente instáveis (redes neurais RBF, J48, IBk) como também
os de certa estabilidade (SVM) e os reconhecidamente estáveis (Naı̈ve Bayes). O objetivo dessa
escolha é o de avaliar se a fusão de indutores simples com complexos, instáveis com estáveis, via
bagging heterogêneo produz ganhos de eficácia.
Como a configuração adequada dos diferentes tipos de componentes (indutores) depende do
problema de estimação em questão, passou-se a
modelá-la como um problema tı́pico de otimização combinatória (particularmente, como um problema de alocação). Dado que o espaço de busca
de configurações factı́veis é de grandeza exponencial (O(K M )), a resolução desse problema via métodos tradicionais torna-se intratável computacionalmente, o que nos motivou lançar mão de um
AG customizado (Coelho, 2004). Algoritmos evolutivos, dentre os quais os AGs, representam uma
classe de métodos metaheurı́sticos de busca e otimização inspirados nos mecanismos evolutivos naturais. Seguem de perto os princı́pios do Neodarwinismo. A sua aplicação no contexto de ensembles vem aumentando nos últimos anos, sendo
que uma revisão de diferentes abordagens pode ser
encontrada em (Coelho, 2004).
No que segue, são descritos os componentes conceituais do AG modificado proposto aqui.
Cada indivı́duo da população é composto por K
genes, sendo que o valor assumido pelo k-ésimo
gene indica qual dos indutores será usado para gerar o k-ésimo componente da ensemble sobre o késimo conjunto de dados produzido via reamostragem. A codificação dos indivı́duos é, portanto, ve-
torial e inteira, com cada elemento assumindo um
valor (alelo) dentre M + 1 possı́veis. Além de um
alelo representando cada um dos M tipos de indutor (segundo a lista apresentada acima), existe
um reservado, indicado pelo valor 0, para a possibilidade de poda; ou seja, caso esse alelo especial
apareça na k-ésima posição, isso indicará que o késimo componente não será gerado. Essa ideia de
poda de componentes (Inoue and Narihisa, 2004)
é comumente usada em uma etapa posterior à geração dos componentes, denominada de seleção —
por exemplo, (Kim and Oh, 2008) utilizaram um
AG hı́brido para esse fim. A abordagem adotada
aqui, por sua vez, é diferente, uma vez que realiza
as etapas de geração e seleção (poda) conjuntamente via um único AG.
Para fins de avaliação da qualidade dos indivı́duos, adotou-se como função de fitness uma
combinação linear convexa entre dois termos: o
primeiro relativo à taxa de erro de validação cruzada produzida pelo modelo de ensemble resultante (como descrito na Seção 4) e o segundo relativo à complexidade do modelo. Assim, quanto
menor for o erro de validação cruzada e o número
de componentes de um dado modelo de ensemble,
maior será o seu grau de aptidão (problema de
minimização). O que se espera é que ao final do
processo evolutivo ensembles diversas e parcimoniosas sejam obtidas.
Com relação à população inicial, esta é gerada
aleatoriamente. Tanto para fins de seleção de indivı́duos para reprodução em uma geração como
para substituição dos indivı́duos entre gerações,
foi utilizado o operador da roleta, que é de natureza estocástica (Coelho, 2004). Por outro lado,
para a geração de novos indivı́duos via recombinação, adotou-se o operador de crossover de um
ponto. Já o operador de mutação simples (creep)
foi adotado para fins de modificação do material
genético dos novos indivı́duos produzidos, como
meio de se garantir diversidade na população. O
critério de parada usado foi o de se atingir um
número máximo prefixado de gerações.
4
Experimentos e análise de resultados
Um protótipo da abordagem bagging heterogêneo evolutivo foi implementado na linguagem
Java, lançando-se mão dos insumos providos pelo
ambiente WEKA (Witten and Frank, 2005). É
válido mencionar que esse framework vem sendo
recentemente bastante adotado como base de desenvolvimento e validação de novas abordagens
de aprendizado de máquina, notadamente aquelas baseadas em comitês de máquinas (Soares
et al., 2006; Canuto et al., 2007).
Para fins de validação da proposta, foram conduzidos experimentos sobre 18 problemas de classificação extraı́dos do repositório UCI (Asunción
and Newman, 2007), a maioria dos quais (se-
não todos) também já serviu de alvo de investigação em trabalhos correlatos na linha de comitês de máquinas (Opitz and Maclin, 1999; Dietterich, 2000b; Canuto et al., 2007). As bases de dados relativas a esses problemas estão indicadas na
primeira coluna da Tabela 1, sendo que uma descrição das suas propriedades em termos de número
de amostras, número e tipos de atributos, número
e distribuição das classes, e existência de atributos
faltantes pode ser encontrada em (Coelho, 2004).
Tendo em mente a obtenção de resultados
estatisticamente significantes, para cada um dos
problemas foram criados aleatoriamente (i.e. mediante diferentes sementes para o gerador de números aleatórios) 10 conjuntos de partições de
treinamento e teste, observando-se a divisão de
66,6% e 33,4%, respectivamente. O particionamento feito foi do tipo estratificado, ou seja, respeitando as proporções originais das classes em
cada partição. Sobre os dados de treinamento, foram conduzidos tanto o processo evolutivo da nova
abordagem como a geração de ensembles homogêneas de redes neurais RBF via bagging padrão,
sendo ambos baseados em validação cruzada estratificada de 10 folds (Witten and Frank, 2005).
Já os dados de teste foram usados para se avaliar a
generalização dos modelos de ensemble resultantes
da fase de treinamento, estes por sua vez treinados
sobre toda a partição de treinamento.
Para os experimentos, os parâmetros de configuração do AG adotado foram: tamanho da população de 20 indivı́duos; probabilidade de cruzamento de 80%; probabilidade de mutação de 10%;
e número máximo de 20 gerações. Vale frisar também que os resultados discutidos na sequência dizem respeito às melhores combinações de pesos da
combinação linear convexa usada como função de
fitness para o AG (Seção 3).
A Tabela 1 traz os ı́ndices de desempenho exibidos pela abordagem bagging heterogêneo evolutivo comparando-os com aqueles obtidos por bagging padrão sobre redes neurais RBF. A análise é
feita em termos das taxas médias de erro de validação cruzada e de teste, bem como em termos
da Estatı́stica-Q. Valores em negrito indicam melhor desempenho para o critério em questão. A
coluna “Tipo” exibe o tipo de componente que integrou com mais frequência os ensembles heterogêneos ótimos produzidos para cada conjunto de
dados. Já a última coluna da tabela contém os
valores de significância (p-values) resultantes da
aplicação do Teste-T pareado sobre as taxas de
erro de teste produzidas por ambas as abordagens
para os 10 conjuntos de partições. Esse teste estatı́stico tem como objetivo testar a equivalência
entre duas médias amostrais, supondo independência e normalidade das observações — no caso,
das taxas de erro (Witten and Frank, 2005). No
nosso caso, adotou-se um nı́vel de confiabilidade
de 95%; ou seja, se o valor de significância ficar
Tabela 1: Comparação de desempenho entre bagging homogêneo composto por redes neurais RBF e
bagging heterogêneo evolutivo.
Base
anneal
breast-cancer
bupa
colic
credit-a
diabetes
glass
haberman
heart-c
hepatitis
ionosphere
iris
segment
sick
sonar
vehicle
vote
zoo
Treino
0,0951±0,0236
0,2755±0,0451
0,3975±0,0193
0,2238±0,0376
0,1855±0,0199
0,2645±0,0315
0,3795±0,0581
0,2619±0,0263
0,1606±0,0317
0,1679±0,0449
0,1067±0,0207
0,0451±0,0132
0,1134±0,0079
0,0373±0,0048
0,2437±0,0535
0,3250±0,0241
0,0622±0,0171
0,1457±0,0211
Homogêneo
Teste
0,0880±0,0236
0,2803±0,0207
0,3630±0,0402
0,2178±0,0105
0,1969±0,0198
0,2599±0,0173
0,3348±0,0342
0,2522±0,0102
0,1714±0,0260
0,1578±0,0301
0,0978±0,0189
0,0495±0,0111
0,1121±0,0104
0,0364±0,0025
0,2460±0,0467
0,3398±0,0188
0,0672±0,0184
0,1303±0,0424
Est.-Q
0,8845
0,7977
0,5395
0,8842
0,9693
0,8899
0,5779
0,8474
0,9226
0,6179
0,9456
0,4344
0,9381
0,9793
0,3855
0,8523
0,9620
0,1741
(a)
Treino
0,0251±0,0059
0,2224±0,0333
0,3102±0,0302
0,1206±0,0284
0,1128±0,0156
0,2237±0,0270
0,3000±0,0326
0,2333±0,0197
0,1413±0,0231
0,1132±0,0487
0,0650±0,0146
0,0294±0,0139
0,0380±0,0034
0,0157±0,0031
0,1746±0,0416
0,2497±0,0170
0,0385±0,0115
0,0886±0,0250
Heterogêneo
Teste
0,0289±0,0109
0,2798±0,0309
0,3458±0,0313
0,1591±0,0178
0,1435±0,0111
0,2375±0,0126
0,3305±0,0362
0,2677±0,0155
0,1658±0,0197
0,1490±0,0239
0,0693±0,0121
0,0455±0,0109
0,0412±0,0070
0,0178±0,0023
0,2241±0,0457
0,2857±0,0158
0,0415±0,0074
0,0773±0,0338
Teste-T
Est.-Q
0,3042
0,7039
0,2799
0,7394
0,7734
0,6065
0,3543
0,7210
0,6185
0,5004
0,5332
0,2986
0,6754
0,8860
0,0436
0,4628
0,6940
0,0991
Tipo
10
4
6
2
8
3
1
5
1
4
4
1
9
2
5
9
6
3
0,00
0,96
0,20
0,00
0,00
0,00
0,70
0,04
0,46
0,50
0,00
0,10
0,00
0,00
0,27
0,00
0,00
0,01
(b)
Figura 1: Processo de convergência tı́pico exibido pelo AG para: (a) base credit-a; e (b) base glass.
abaixo de 5%, então a hipótese nula (i.e. equivalência de desempenho entre as abordagens) é
rejeitada. Na tabela, valores em itálico indicam
essa situação.
Em geral, os resultados apontam ganhos por
parte da abordagem bagging heterogêneo evolutivo. Em se tratando do desempenho na fase de
treinamento, para todos os problemas, os valores do erro de validação cruzada produzidos pela
abordagem evolutiva foram inferiores, em termos
de média, àqueles dos modelos homogêneos de ensemble de redes RBF. Já em termos de capacidade
de generalização, a abordagem heterogênea foi estatisticamente superior em 10 problemas, equivalente aos modelos homogêneos em sete deles, e
inferior em um único, o que pode ser atestado
observando-se os valores do Teste-T.
Comparando-se as abordagens quanto aos valores da Estatı́stica-Q (vide Seção 2), pode-se depreender que a adoção de componentes heterogêneos em bagging incorreu em aumento de diversidade para todos os casos, sendo que para alguns
deles (notadamente, as bases anneal, sonar, vehicle e zoo) o incremento foi bem significativo. Esse
resultado é interessante, pois, segundo (Kuncheva
and Whitaker, 2003), a diversidade é um fator primordial para ganhos de generalização em ensembles. Vale também notar que os diferentes tipos
de componentes foram recrutados com diferentes
frequências para os diferentes problemas, não havendo um único tipo que prevalecesse sobre os demais. Isso reforça o papel do AG em localizar os
tipos mais adequados de componentes de acordo
com as nuances do problema-alvo.
De certo modo, esses resultados também corroboram as conclusões de (Canuto et al., 2007),
que atestam que a escolha dos tipos de componentes da ensemble pode ser também um fator-chave
para se garantir incrementos de desempenho do
sistema. No nosso caso, essa escolha foi feita de
forma automática por meio do AG customizado,
algo não explorado no trabalho citado, uma vez
que os arranjos heterogêneos foram definidos manualmente pelos autores. Como meio de se observar como a configuração automática de componentes é tipicamente conduzida pelo AG ao longo
de suas gerações, a Figura 1 exibe o seu processo
de convergência para duas das bases investigadas.
5
Conclusão
Neste artigo, uma nova abordagem heterogênea e evolutiva destinada à sı́ntese de ensembles
de classificadores via bagging foi caracterizada e
empiricamente avaliada, tomando por base o desempenho exibido por ensembles homogêneas de
redes neurais RBF. Os resultados experimentais
apontam ganhos tanto em termos de ı́ndices de
precisão (taxas de erro de validação cruzada e generalização) como de diversidade (Estatı́stica-Q).
Como extensão da análise apresentada aqui,
está sendo conduzida uma comparação mais
abrangente envolvendo outros modelos homogêneos de ensemble produzidos via bagging sobre os
demais tipos de indutores (instáveis e estáveis)
empregados neste estudo. Uma análise detalhada
das configurações heterogêneas ótimas produzidas
pelo AG para cada problema também está em andamento, assim como a condução de experimentos
envolvendo heterogeneidade em outros métodos de
sı́ntese de ensembles via reamostragem de dados,
tais como boosting (Opitz and Maclin, 1999).
Agradecimento
Os autores agradecem à Fundação Cearense
de Apoio ao Desenvolvimento Cientı́fico e Tecnológico (Funcap) pela ajuda financeira referente a
uma bolsa de mestrado.
Referências
Asunción, A. and Newman, D. J. (2007). UCI
Machine Learning Repository, University of
California at Irvine, http://ics.uci.edu/
~mlearn/MLRepository.html.
Breiman, L. (1996). Bagging predictors, Mach.
Learn. 24(2): 123–140.
Canuto, A. M. P., Abreu, M. C. C., de M. Oliveira, L., Jr., J. C. X. and de M. Santos,
A. (2007). Investigating the influence of the
choice of the ensemble members in accuracy
and diversity of selection-based and fusionbased methods for ensembles, Pattern Recognit. Lett. 28(4): 472–486.
Coelho, A. L. V. (2004). Evolução, simbiose e hibridismo aplicados à engenharia de sistemas
inteligentes modulares: Investigação em redes neurais artificiais, comitês de máquinas
e sistemas multiagentes, PhD thesis, Faculdade de Engenharia Elétrica e Computação,
Universidade Estadual de Campinas.
Dietterich, T. G. (2000a). Ensemble methods
in machine learning, Procs. of the First Int.
Workshop on Multiple Classifier Systems,
Springer-Verlag, London, UK, pp. 1–15.
Dietterich, T. G. (2000b).
An experimental
comparison of three methods for constructing ensembles of decision trees: Bagging,
boosting and randomization, Mach. Learn.
40(2): 139–158.
Hansen, L. K. and Salamon, P. (1990). Neural network ensembles, IEEE Trans. Pattern
Anal. Mach. Intell. 12(10): 993–1001.
Harpham, C., Dawson, W. and Brown, R. (2004).
A review of genetic algorithms applied to
training radial basis function networks, Neural Comput. & Appl. 13(3): 193–201.
Haykin, S. (1999). Neural Networks–A Comprehensive Foundation, Prentice Hall.
Inoue, H. and Narihisa, H. (2004). Effective online
pruning method for ensemble self-generating
neural networks, Procs. of the 47th Midwest
Sympos. on Circuits and Systems, pp. 85–88.
Kim, Y.-W. and Oh, I.-S. (2008). Classifier ensemble selection using hybrid genetic algorithms,
Pattern Recognit. Lett. 29(6): 796–802.
Kuncheva, L. I. (2004). Combining Pattern Classifiers: Methods and Algorithms, Wiley.
Kuncheva, L. I. and Whitaker, C. J. (2003). Measures of diversity in classifier ensembles,
Mach. Learn. 51: 181–207.
Lima, C. A. M., Coelho, A. L. V. and Zuben, F. J. V. (2002). Ensembles of support vector machines for regression problems,
Procs. of the IEEE Int. Joint Conf. on Neural Networks, pp. 2381–2386.
Mao, J. (1998). A case study on bagging, boosting
and basic ensembles of neural networks for
OCR, Procs. of the IEEE Int. Joint Conf. on
Neural Networks, pp. 1828–1833.
Opitz, D. and Maclin, R. (1999). Popular ensemble methods: An empirical study, J. Artif.
Intell. Res. 11: 169–198.
Soares, R. G. F., Santana, A., Canuto, A. M. P.
and de Souto, M. C. P. (2006). Using accuracy and diversity to select classifiers to build
ensembles, Procs. of the IEEE Int. Joint
Conf. on Neural Networks, pp. 2289–2295.
Wang, W., Jones, P. and Partridge, D. (2000). Diversity between neural networks and decision
trees for building multiple classifier systems,
Procs. of the First Int. Workshop on Multiple
Classifier Systems, pp. 240–249.
Witten, I. H. and Frank, E. (2005). Data Mining:
Practical Machine Learning Tools and Techiniques, 2a. edn, Elsevier.
Download

BAGGING HETEROGÊNEO EVOLUTIVO: CARACTERIZA¸C