EVERTON
TAVARES
STELLA MARA CARVALHO
DATA MINING BASEADO
NO SISTEMA
CURITIBA
2002
SILVA
IMUNOLOGICO
ARTIFICIAL
EVERTON TAVARES
STELLA MARA CARVALHO
DATA MINING BASEADO
SILVA
NO SISTEMA IMUNOLOGICO
MQnog~fia
oorlclu~o
ARTIFICIAL
apre$entada.
como
00
Curso
de
Proceuamento de Oados d.,
re<luisilO pan:ial b
Tecnokloia
em
Unilo'l!irsidade
luiu!i
do Parana
Orjentooora:
CURITIBA
2002
ProP. Dr-. Deboolh
Ribeiro Carvalho
EVERTON TAVARES
STELLA MARA CARVALHO
DATA MINING BASEADO
Monografia
SILVA
NO SISTEMA IMUNOLOGICO
aprovada como requisi10 parcial a conclusao
ARTIFICIAL
do CurSD de Tecnologia
em Processamento de Dados da Universidade Tuiuti do Parana,
fannada pelos professares:
Orientadora:
ProF'.
Dr'.
Deborah Ribeiro Carvalho
Universidade
Tuiuti do Parana, UTP
Prof. Or. Eduardo Raul Hruschka
Universidade Tuiuti do Parana, UTP
Prof. Dr. Leandro dos Santos Coelho
Universidade
Tuiuti do Parana, UTP
ProfD. Elaini Simoni Angeletti
Universidade
Tuiuti do
Parana, UTP
Curitiba, 29 de novembro de
2002
pete comissao
AGRADECIMENTOS
A nossa orientadora ProP'. Dr-. Deborah Ribeiro
Carvalho, par sua competencia
e por ter acreditado em
nosso potencial.
A minha esposa, meu am or, per seu apoio e pacillncia.
A Deus, aos meus pais. e especialmente
a urn
amigo que me ajudou em hora5 dificeis, Sergio Martenetz, e
seu filho Marcelo Martenetz, meu companheiro,
meu am or.
~.s
"Tudo tem Jell t~I1WO 8 afi! Gsrtas rrniIJ;'e~t1J¢Je. trn'tis
tI Oliginnil enlrnm em vog.l au SOlJm de modtl. ,\11/11II
sabedorM rom umit Vflllt4!gem: ~ e/C!mtt."
BJliiu,."r Grl3cijn
SUMARIO
LlSTA DE FIGURAS
.
LlSTA DE TABELAS
.
.
vii
...................................................
viii
LlSTA DE ABREVIATURAS
ix
RESUMO
x
1. INTRODUc;:Ao
1
2. KDD - KNOWLEDGE
2.1
DISCOVERY
FROM DATABASES
ETA PAS DO KDD - KNOWLEDGE
2.1.1
DISCOVERY
SELEc;:AO DE DADOS
2.1.2
LlMPEZA OU PRE-PROCESSAMENTO
TRANSFORMAc;:AO
2.1.4
DATA MINING
2.1.5
INTERPRETAc;:AO
2.1.6
CONSOLlDAc;:AO
..
..
OU ENRIQUECIMENTO
5
DOS DADOS
6
7
E AVALlAc;:AO
8
DO CONHECIMENTO
DESCOBERTO
DE DATA MINING
8
10
3.1 CLUSTERING
10
3.2
DESCOBERTAS
3.3
CLASSIFICAc;:Ao
3.4
TECNICAS
DE REGRAS DE ASSOCIAc;:Ao
11
DE DADOS
12
DE CLASSIFICAc;:Ao
3.4.1
ARVORES
3.4.2
ALGORITMOS
3.4.3
SISTEMA
ARTIFICIAL
4
.4
2.1.3
3. TAREFAS
4
FROM DATABASES
14
DE DECISAO
14
GENETICOS
IMUNOL6GICO
...
E SISTEMA
..
16
IMUNOL6GICO
..
4. METODOLOGIA
DE DESENVOLVIMENTO
4.1
DA MODELAGEM
DEFINIc;:Ao
..
DO SIA
DO PROTOTIPO
20
27
27
4.1.1
ALGORITMO
IMUNOL6GICO
PARA PEQUENOS
4.2
4.3
PARA DESCOBERTA
DISJUNTOS
4.1.2
REPRESENTA<;;Ao
4.1.3
FUN<;;AO DE AVALlA<;;AO..
4.1.4
SELE<;;AO CLONAL..
4.1.5
DEFINI<;;AO DA BASE DE DADOS ORIGINAL
4.1.6
DEFINI<;;Ao DA BASE DE TREINAMENTO
4.1.7
DEFINI<;;AO DA BASE DE TESTES
4.1.8
ARQUIVO
4.1.9
DEFINI<;;AO DAS ESTATisTICAS
4.1.10
PSEUDOC6DIGO
REALlZA9AO
DE REGRAS
...................................
..
DO ANTICORPO..
27
.... 29
..31
.
31
.
34
.
.....................................................
NAMES ..
34
35
DA BASE DE DADOS
35
35
36
DOS EXPERIMENTOS
38
4.2.1
EXPERIMENTO
COM A BASE HOUSE-VOTES
4.2.2
EXPERIMENTO
COM A BASE HEPATITIS
41
4.2.3
EXPERIMENTO
COM A BASE CRX
41
ANALISE
DOS RESULTADOS
.40
46
5. CONCLUSAO
48
REFERENCIAS
49
vi
LlSTA DE FIGURAS
o PROCESSO
EXEMPLOS
KDD E SUAS ETAPAS
.4
DE CLUSTERING
11
TIPOS DE CRUZAMENTO
ESTRUTURA
DO ANTICORPO
19
(ANTECEDENTE
DA REGRA)
REGRA CRIADA ATRAVES DA BASE DE TREINAMENTO
30
43
LlSTA DE TABELAS
DISTRIBUI<;:AO DOS ATRIBUTOS
METAS DA BASE HOUSE-VOTES
DISTRIBUI<;:Ao
DOS ATRIBUTOS
METAS BASE HEPATITIS
.. 40
.41
DISTRIBUI<;:Ao
DOS ATRIBUTOS
METAS BASE CRX.
.42
ANALISE
DOS RESULTADOS
DO SIA COMPARADO
AO C4.5
.46
ANALISE
DOS RESULTADOS
DO SIA COMPARADO
AO C4.5/AI
.47
viii
USTA DE ABREVIATURAS
AG
ALGORITMO GENETICO
AGs
ALGORITMOS GENETICOS
AI
ALGORITMO IMUNOL6GICO
AIS
ARTIFICIAL
SIA
SISTEMA IMUNOL6GICO
IMMUNE SYSTEMS
ARTIFICIAL
;,
RESUMO
o foco deste trabalho esta centrado na tarefa de classifica9ao, cnde deseja-se
atribuir a urn exemplo (re9i5tro) urna dasse, dentre urn conjunto de classes predefinidas, com base nos valores de atributos daquele exemplo. No contexto da
tarera de classifica~o,
0 conhecimento
descoberto pode ser expresso atraves de
urn oonjunto de regras "se..<condiyao>..
entao ..<atyao> ..". Este tipo de
representa~o
tern a vantagem de ser intuitivamente compreensivel
para 0
usuario. Existem varios algoritmos que pod em construir classificadores a partir do
conhecimento implicito em urna base de dadas, entre eles, algoritmos de arvare
de decisao, algoritmos geneticos, algoritmos
imunol6gicos, etc. 0 sistema
imunologico biol6gico pode ser a base para a constru9Bo de algoritmos que
cumpram a tarefa de classificayao em Data Mining. Apesar de seu alto grau de
complexidade trata-se de uma "inspiray:.io" de grande interesse pela comunidade
cientifica da area de computayao.O objetivo principal deste trabalho e propor urn
novo algoritmo
que construa urn classificador
a partir da implementac;ao
computacional de alguns dos principais conceitos do Sistema Imunol6gico. Os
resultados obtidos a partir dos experimentos realizados no escopo deste projeto
poderao ser comparados com os resultados obtidos pelo C4.S e 0 C4.5/AI,
apresentado no artigo Urn Algoritrno Imunol6gico para descobrir regras para
pequenos disjuntos em Data Mining, da ProF'. Dr-. Deborah Ribeiro Carvalho e
Prof. Dr. Alex Alves Freitas.
1. INTRODUC;;AO
e
A atual "era da informaC;:8o"
caracterizada
clados que esta.o sendo gerados e armazenados
pelo aumento
(CARVALHO;
no volume
FREITAS,
Esta expansao deve-se a falares de baixo custo no arrnazenarnento
as novas tecnologias
maior
velocidade
armazenamenlo
armazenados,
desenvolvidas,
na
des
recuperayao
dados
t~111 crescido
extrac;ao de conhecimento
existe a necessidade
com maior capacidade
e
dados.
clestes
crescimento
0
a necessidade
de desenvolvimento
descoberta
e extrayao
de
tarnando-os
explicitos e objetivando
a
facilidade
expressivo
de ferramentas
destes
implicito
e
no
dados
que possibilitem
Devido
a
nestas
a
esla realidade,
de novas metodos e algoritmos
conhecimento
0
de dados e
de armazenamento
Com
destas bases de informa~6es.
de
2001).
bases
de
para a
dados,
auxflio na tomada de decisao.
As empresas. cada vez mais, necessitam de uma correta interpretac;ao das
informa¢es
para auxilia-Ias
crescimento
FAYYAD.
do
neg6cio
cilado
por
(i) a identificaqao
dados
de qual
decis6rios
empresa
(2001).
base
(iii} a transforrnoceo
(Data
disponibilizac;ao
e a etapa
GURECK
da
0
e, conseqOentemente,
(GURECK.
processo
de
2001).
no
Segundo
descoberta
de
em base de dados constitui um conjunto de eta pas Que 'lao desde:
conhecimento
envolvidos,
nos processos
principal
Mining),
(v)
a
do conhecimento.
sera
e
0
antllise
utilizada,
(ii) a sele~o
prc-processamento,
do
conhecimento
A etapa que "realmente·
de Data Mining {mineraya.o de dado.s}.
dos atributos
(iv) a minera~a.o de
extraido,
extrai
0
e
(vi)
conhecimento
a
Segundo FAYYAD et ai., citado por CARVALHO
larefas usuais de Data Mining
cJassificayao e
o
0
agrupamento
(registro) urna dasse,
com base nos valores
a
(clustering).
e a tarefa
foeo des!e trabalho
urn exemplo
(2002b), algumas das
sao a descoberta de regras de associa~o,
de atributos
de cIassifica<;ao, cnde deseja·se
dentre urn conjunto de classes
daquele
exemplo.
atribuir a
pre-definidas,
Cabe ressaltar
que e5sa
urn banco poderia
classificar
tarefa tern verias aplicac;6es em diversas areas.
Em urna aplicac;:lo financeira,
por exemplo,
seus clientes em duas classes, ~credito ruim" au ~credito born", Em urna aplicayao
na area da medicina, um medico poderia classificar
duas classes:
importantes
alguns de seus pacientes
"tern" au Knao tern" urna certa doen<;a. Assim,
do mundo real podem ser tralados
como tarefas
em
varias problemas
de classificac;.ao.
Essa tarefa e discutida de forma mais detalhada na seC;;ao3.3.
No contexto
ser
expresso
enlao ..<a~o> ..
intuitivamente
da larefa de dassificac;;ao, 0 conhecimento
atraves
M.
Este
de
tipo
compreensivel
urn
de
de
representa<;ao
regras
tern
a
descoberto
vantagem
que podem construir
classificadores
implicito em urna base de dados, entre eles, algoritmos
de decisao, algoritmos geneticos, algoritmos imunol6gicos,
Este trabalho
tern como objetivo
construa urn dassificador
pode
~se..<condic;ao> ..
de
ser
para 0 usuario.
Existem varios algoritmos
conhecimento
conjunlo
principal
a partir do
de arvore
etc.
propor urn novo algoritmo
a partir da implementac;;ao computacional
que
de alguns dos
princlpais conceitos do Sistema Imunol6gico Artificial.
A proposta
urna das pesquisas
deste trabalho de gradua~o
desenvolvidas
constitui
pela Universidade
urn desdobramento
de
Tuiuti do Parana, que tem
como pesquisadora
pesquisa
responsavel
aponta algumas
a Prof".
dire~s
Or-.
Deborah Ribeiro Carvalho.
de pesquisas
futuras,
Esta
sendo
uma delas
realizados
no escopo
desenvolvida no presente trabalho.
Os resultados
obtidos a partir dos experirnentos
deste projeto poder:lo ser cornparados nao apenas com as resultados obtidos
pel a pesquisa, bem como com os resultados obtidas a partir de um outro projeto
de graduaC;ao que foi desenvolvido
algoritrnos geneticos.
em para lela a este, que se bas.eia em
2. KDD - KNOWLEDGE
ADRIAANS,
de atividades
DISCOVERY
FROM DATABASES
citado par GURECK (2001), conceitua KOD como um conjunto
contlnuas que compartilham a conhecimento descoberto a partir de
bases de dad as. Segundo
FAYYAD,
composto de seis etapas:
selee;ao dos dadas, limpeza ou pre-processamento,
transformayao,
Data
Mining,
citado par GURECK
interpreta~o
e
avalia~o
(2001),
0
dos
conjunto
relat6rios
e
e
consolidaytio do conhecimento e.tescoberto (Figura 1).
FIGURA 1 - 0 PROCESSO
KDQ E Sl)AS ETAPAS (FAYYAD, c:i1iH:lopar GURECK, 2t101)
2.1
ETAPAS DO KDD - KNOWLEDGE
2.1.1
5ele<;1lo de Dados
DISCOVERY
FROM DATABASES
Urna vez definido 0 dominic sabre a qual se pretende
de descoberta,
0 proximo passo
variiweis necessarias.
nem
sempre
e seiecionar
executar
a processo
e coletar 0 conjunto de dados ou as
A maiaria das ernpresas passui a base de dedas, pOrB:m
lodos as dados necessarios
estao dispon[veis
nestas
bases.
ConseqOentemente,
neste contexto
e exigido
seja, os dados que sao necessarios,
um trabalho de compatibilizac;.ao, ou
os que ja esta.o disponiveis,
de obten9ao dos dados que nao estao disponiveis
Quando se dispOe de uma quantidade
sao importantes,
tenta-se
e/ou incansistentes
substituir
- par valares
0
consistentes
tenta~se eliminar
fazem-se
campos
necessarias
com
desconsidera-Ios
2.1.2
ruido
a
as dadas
e,
de
ao dominio
ruido.
de tecnicas
acordo
- dados estranhos
em questao
au ate
caSa em que a quanti dade de dados e
que contem
utilizayao
(GURECK,
0
1999).
de dados, onde todos os exemplos
ruido ou perturba90es
mesmo gerar dad os manual mente. Para
grande,
(CARVALHO,
e a possibilidade
com
a
Em ambos
estatisticas
para
conveni~ncia,
os casas,
detectar
substitui-Ios
os
ou
2001).
Limpeza ou Pre-Processamenta
Oepois
estabelecer
de coletar
as estrategias
os dados,
pas so seguinte
0
para resolver
0
problema
e tratar
da aus~ncia
os rufdos
causas que levam a situayao de aus~ncia de dados sao a nao disponibilidade
dado ou a inexistencia
do mesmo.
Uma situac;ao de nao disponibilidade
quando nao ha divulga<;ao do dado, como, par exemplo,
uma pessoa fisica em fun<;ao da obrigatoriedade
A
inexist~ncia
necessaries
dos
dados
pode
dades sobre determinados
de organizayao
ocorre
exemplo,
produtos de empresas
1999).
quando
sao
que, no momenta
e gerayAo da base original, ainda n~o haviam sido criados.
Os dad os devem ser relevantes
consistentes
per
do
os dados da renda de
do sigilo (CARVALHO,
ocorrer,
e
dos dados. As
e livres de excessivas
para as necessidades
nulidades (CRUZ, 2000).
do LJ5uario, limpos,
Quando existe limitac;tio computacional
dados,
e
recomendado
selecionar
obter uma ideja do que pode ser esperado.
grandes empresas
perspectiva
relacianada
algumas amostras
a fim de se
Quase todas as bases de dados ern
sao ~poluidas~, e quando comeyam
de Data Mining.
ao temanho da base de
aleatoriamente,
jdejas quanta
a
a ser olhadas atraves da
consist~ncia
dos dados
mUdam
(CRUZ, 2000), em rela9ao a05 conceitos cU.lssicos de banco de dados.
2.1.3
Transformavao
Ap6s
0
au Enriquecimento
dos Dados
dado do banco de dados ter sido pre-processado
fazer uma analise sobre a necessidade
podem enriquecer a base (MARATH;
Segundo ADRIAANS,
de dados adicionais,
MAYER, 2001).
citado por GURECK
acesso a outras bases de dados adicionais
comerciais
e pode prover
em diversos
(2001).
esM disponivel
informa\1Ao de uma grande
incluindo dados demogrilficos,
(filtrada), deve-se
que eventual mente
variedade
tipos de seguros que as pessoas
outros. 0 estudo de uma situa~o
ande companhias
paises, 0
em bases de dados
de assuntos,
possuem,
entre
trocam dados para coordenar
suas operayOes de marketing tem side urn segmento em desenvolvimento.
A privacidade
e
urn aspecto
nesta area, esta se desenvolvendo
nao
e
permitida
importante
neste contexto.
rapidamente,
a venda de dados individuais
A jurisprud~ncja,
e na maiaria dos paises onde
sem a permissao
do individuo,
e
perrnitida a venda de informac;Oes de grupos de pessaas, mesma nao sendo alga
desejflVel
(2001).
do ponto de vista eticQ, segundo
ADRIAANS,
citado
por GURECK
Exemplificando~se atraves de suposic;C5es,as conversOes de dados podem
ser realizadas na entrada de um illgoritmo de Data Mining que receba as idades
dos clientes de ullla empresa. Entretanto, se a base de dados de estudo possui
somente as datas de nascimento dos clientes, faz~se necessaria a realizagAo de
uma transformayao
sobre esses dados, adequando~os
a
entrada do algoritmo,
efetuando urn calculo da idade a partir da data de nascimento
2.1.4
(GURECK,
2001).
Data Mining
Data Mining
objelivo
consiste em um conjunto de conceitos
de encontrar
uma
padrC>ese regularidades
descriC;ao, preferencialmente
em um determinado
e metodos
com 0
compreensfvel,
de
conjunto de dados (CARVALHO,
2002b).
Nesta
etapa
do processo
se define
a escolha
do algoritmo
ou dos
algoritmos de Data Mining, de acordo corn IJm ou mars metodo(s} adequado(s) ao
tratamento dos dados do problema que se esta resolvendo.
Relativamente
as
eta pas anteriores mencionadas de 2.1.1 a 2.1.3, 0 tempo utilizado por esta etapa
~ substancialmente menor.
Data Mining
e uma
das fases. do processo de descoberta de conhecimento,
para a qual tern side descritos varios metod os. Dentre as metod os, destacam~se:
tecnicas
estatisticas,
visualizayao.
decis~o,
descoberta
de
geneticos (CARVALHO,
regras
baseado
em casas,
neurais
aNoreS
de
e algoritmos
1999).
Nesta etapa. as algoritmos
capacidade
raciocinio
de associac:;ao, redes
de Data Mining,
de e)(trair 0 conhecimento,
se bem projetados,
mesmo sem ter conhecimento
tl!m a
total ou
parcial da queslao.
sislemas de apoio
2.1.5
Esta capacidade
a decisM
faz com que Data Mining agregue valor aos
(GURECK, 2001).
Inlerprela<;ao e Avalia\'llo
Nesta etapa deve-se
saber se 0 conhecimento
gerado
e
util, relevante
e
valida, pais se nao for, sera necessaria repelir todo au parte do processo de KDD.
Esla descricaa
KDD. No entanla,
pade sugerir que exista uma trajet6ria
isla geralmente
pode ser identificada
anteriores.
Mining,
e
n~a se verifica,
a necessidade
Por exemplo,
identificado
de retorno para qualqlJer uma das eta pas
se na etapa
de transformayao
que as dados na.o estAo tolalmente
verificada a necessidade
dos dados (GURECK,
pelo especialista
2.1.6
do Conhecimento
Nesta elapa de conhecimento,
devell1 ser analisados,
forem satisfat6rios,
informac;ao
de Data
au se for
interpretados
e
au mesmo de
desempenhada
Descoberto
as resLlltados dos algoritmos
e bem avaliados.
de Data Mining
Se estes resultados
empresa (GURECK, 2001).
qLle auxilie
nao
para efetuar uma melhor
e limpeza dos dados. Este novo resultado
util e desconhecida,
e
em questao.
deve-se retornar as fases anteriores
sele<;a,o, enriquecimento
limpeza
2001). Lembrar que esla larefa
da area de contlecirnento
Consolida~o
au mesmo
consislentes,
de um dado que nao havia sido previsto anteriarmente,
isso pode levar ao retorno para a fase de consistllncia.
sele\'llo
linear do processo
uma vez que em cada elapa
nos processes
deve gerar
decis6rios
de uma
A realiza~o
qualquer
n:io deve ser seqLiencial, pais em cada etapa
das atividades
devem ser avaliados
os resultados,
e caso seja necessaria,
uma das eta pas anteriore-s, para recupera~o
para uma nova consist~ncia au limpeza dos dados (GURECK,
Segundo FAYYAD et aI., citado por CARVALHO
desenvolvidas
em Data Mining t~rn como objetiva
descric;aa de dadas
valares
e/ou sistemas.
futuros de uma au mais variaveis
contempla
a que foi descoberto
retarnar
a
2001).
(2002b), as varias tarefas
essencial
A predi<;aa llsa
deve-se
de dados nao previstos,
a
atributas
predi~a
e/au a
para preyer
{a1ributas) de interesse.
as
A descrivaa
nas dados sob a ponto de vista da interpretac;aa
humana.
As eta pas do processo
KDD nao sao
possuimos
as dad os a serem
Repository,
disponiveis
utilizados.
0
foeo deste trabalho.
Estes
dados
visto que ja
sao oriundos
do UCI
em: <http://I,WIW.ics.uGi.edu/-mlearn/MLRepository.html>.
A unica etilpa abordada neste trabalho
suas tarefas, a tarefa de classificaytio.
e a do
Data Mining, onde utiliza-sa
Ulna
de
3. TAREFAS
Para
DE DATA MINING
trabalhar
com
Data Mining
e
preciso
conhecer
suas
tarefes,
a
utilizac;ao de cada uma del as e selecionar a que mel her ira se adequar ao objetivo
em queslao (MARA TH; MAYER. 2001).
Segundo ADRIAANS,
o objetivQ da descri~o,
algumas
das
descoberta
o
tarefas
FAYYAD el.1. e FU, cilado por CARVALHO
bem como 0 da previsao,
principais
de
Data
sao atendidos
Mining:
(2002b),
atraves
classificac;Ao,
de
clustering,
de regras de associac;ao, etc.
foco deste Irabalho
ea
tarefa de classificaC;ao.
Esla tarefa
e detalhada
na subsec;:ao 3.3.
3.1 CLUSTERING
A tarefa de clustering oonsiste na identificactao de um conjunto finita de grupos
ou
dusters, baseada nos atributos de objelos
e
cluster
basicamente
um conjunto
as
previamente
naD
de objetos
agrupados
OOjetos sao agrupados
dassiftcados.
Urn
em fun~o
de sua
de tal forma
que as
similaridade
ou proximidade.
similaridades
intradusters
(dentro de um mesmo cluster) sao maximizadas
similaridades
interclusters
(entre clusters diferentes)
sao rninirnizadas.
e as
A Figura 2
mostra urn exemplo do resultado de uma tarefa de dusten·ng, onde quatro clusters
foram identificados (CARVALHO,
2002b).
Urna vez definidos os clusters, os objetos sao identificados
correspondente,
e as caracteristicas
surnarizadas para formar a descri~o
definido
como uma classe.
comuns
dos objetos
com seu cluster
no cluster podem ser
do grupo, que podera subseqOentemente
Por exemplo,
urn conjunto
de pacientes
ser
pede ser
11
agrupado em varias grupos (clus-te,~), bas.e.ado nas similaridades dos seus sintomas,
e as sintoll1as comuns
descrever
a
padentes de cada cluster podem ser usados para
aos
qual chisler urn novo paciente pertencer~. Assim, urn dado paciente
seria atribuido aD cluster cujos pacientes tt.!!m sintomas 0 mais similar posslvel com
as sintornas
resultado
e
daquele
dado paciente.
a identifica~o
processamento
Oessa forma,
de novas
dasses,
a tarefa de clustering,
pode
ser
realizada
como
cujo
pre-
it realizac;ao da tarefa de classificayao, segundo KUBAT et aI., citada
por CARVALHO
(2002b).
A,
A,
FIGURA 2- EXEMPLO DE CLUSTERING (CARVAlHO.
3.2
aD
DESCOBERTAS
DE REGRAS DE ASSOCIAi;l\O
Para exemplificar
as regras de associa~o,
supermercado
de um ctiente,
2OO2b)
imagine um consumidor
que vai
e compra varias produ1os. Uma compra indica as prefer~ncias
porem dillersas
consumidores
compras
as
outras
informa95es
mesmos,
e sendo
assim,
consumidor
compra produtos diferentes e em momentos
diferentes.
As regras de
associa~o
usam as informayoes
0
sao
diversas
Os
lentar mostrar quem sao
nao
possuem
relevantes.
sobre 0 que os consumidores
compraram
cada
para
porque oles com pram (BERRY; LIN OFF, 1997, p. 124).
12
Neste sentido, cada registro de urna venda no supermercado
transa<;ao efetuacta pelo consumidor,
falso, dependendo
se
0
consumidor
c6digo de barras (GURECK,
o algoritmo
comprou
(au na.o) aquele produto
e freqOentemente
transa9ao. Esse tipo de dado
corresponde
a urna
cnde cada item tern valor verdadeiro
ou
naquela
coletado atraves da tecnologia
de
2001).
para descoberla
de regras de associB930
idenlifica
afinidades
entre itens de urn subconjunto de dados. Essas afinidades
sao expressas na
forma de regras, por exemplo: 72% de lodes as registros que
contem as itens A,
Bee
tambem contem 0 e E. A porcentagem
representa
0
tend~ncias
algoritmo
dentro
fator de confian98
fracas,
voltado
mantendo
a
apenas
as regras
analise de mercado,
de urn grande
numero
de ocorr~ncia
da regra, e costuma
(72 neste exemplo),
ser usado
mais
fortes.
para eliminar
Trata-se
com a objetivo de encontrar
de registros.
Essas tend~ncjas
de urn
tendencias
pod em ajudar a
entender e explorar pad roes de compra naturais, e no exemplo citado de cornpras
em
urn
superrnercado,
propagandas,
3.3
podem
ser
CLASSIFICAI;AO
A classificayao
pertencente
a uma
para
e
prateleiras
(FIGUEIRA,
a tarefa de Data Mining estudada
determinada
0 principal objetivo
ou
1998).
cia sse
e descobrir
e a divisao
ao longo do tempo.
um item de dado (exemplo ou registro) como
dentre
varias
classes
previamenie
algum tipo de relayao entre os atributos
e as classes, conforme FREITAS, citado por CARVALHO
conceito dessa tarefa
modificar
especificas
DE DADOS
Essa larefa consiste em classificar
definidas.
usadas
e induzir atividades promocionais
(2002b). Um importante
dos dados em bases de treinamento
e de teste.
13
Inicialmente,
um conjunto de dados de treinamento
e um rl1odelo de classificayao
e
construido
modele construido
e
de teste, as quais
sao independentes
que
0
utilizado para classificar
e disponibilizado
QUtros dados, denominados
dos dados de treinamento.
modelo construido a partir dos dado5 de treinamento
born mode 1o, do ponto de vista de precisao
corretamente
uma alta porcentagelll
e analisado,
baseado nestes dados. Entao 0
preditiva,
e
Cabe ressaltar
considerado um
se 0 modele
dos exemplos (registros)
classificar
dos dodos de teste.
Em Qutres palavras, a modele deve representar conhecimento
que passa ser
generalizado para dados de teste e que nao tenham side utilizados
treinamento
(CARVALHO,
e
conhecimento
geralmente
do conhecimento
representado
na
satisfazem
preYista pel. regra" (CARVALHO,
de
regras
"se as valores
as condir;:Oes da regra entao a exemplo
petience
a
compreensibilidade
2002b).
Os dais criterias mais usadas sao precisao
do conhecimento
e
A precis2lo preditiva
de teste classificados
teste (CARVALHO,
Segundo
dos
classe
Existem varios criterios para avaliar a qualidade das regras descobetias
tarefa de classifica92lo.
0
descoberto,
forma
e:
~se..<condir;:oes:::... entao ..<cia sse> ..-", cuja interpretayao
atnbutos
durante
2002b).
A fim de contribuir para a compreensibilidade
esse
dadas
descoberto (CARVALHO,
normalmente
corretamente,
medida como
0
preditiva
na
e a
2002b).
numero de exemplos
dividido pela numero total de exemplos
de
2002b).
HAND, citado por CARVALHO
fannas rnais sofisticadas
descrita anterionnente
(2002b),
de se medir a precisao preditiva,
e, em
cabe ressaltar
que M
mas a forma simples
sua essencia, a forma mais usada na pratica.
14
A compreensibilidade,
geralmente,
e medida
em funyao
regras e do numero
de condic;:Oes por regra. Quanta
menos cornpreensivel
e a conjunto
estes
de regras ern questao (CARVALHO.
Essa forma de representay80
em virtude de ser intuitivamente
do numero
maiores
e
de conhecimento
compreensl\lel
para
0
adotada
de
numeros,
2002b).
neste trabalho,
usuario.
o algoritrno proposto cum pre a larefa de classificac;:ao,
e par iSSQ e utilizado
neste trabalho.
3.4
TECNICAS DE CLASSIFICAI;)\O
Denlre as hknicas
as arvores
trabalho,
posslveis que tratam da questao de classifica<;ao estao:
de decisao,
utiliza-se
0
algoritmos
sistema
geneticos
imunol6gico
e sistemas
artificial,
imunol6gicos.
conforme
Neste
exposto
na
introdu9Ao.
3.4.1
Arvores de Decisao
As arvores
de decis;'!.io sao meios de representar
os resultados
Mining na forma de arvores. Dado urn grupo de dados com numerosas
Hnhas, uma ferramenta
de arvore de decisao pede ao usuario para escolher uma
das colunas como objeto de saida (atributo meta), e entao mostra
importante
de Data
colunas e
tat~r correlacionado
0
(mica e mais
com aquele objeto de saida como primeiro ramo
(no) da arvore de decisao. Os outros fatores sao 5ubseqOentemente
como nos doCs) no{s) anterior(es).
Desta maneira
porqu~ do fator escolhido, e vai permitir que
0
0 usuario
classificados
pode entender
0
usuario explore a arvore de acordo
15
com a sua vontade, do mesmo modo como ele podera. encontrar grupos alv05. Os
usuarios
podem tambem
arvore, movendo-os
(MARATH;
selecionar
em qualquer
n6 da
MAYER, 2001).
Conforme QUINLAN
simples
as dados fundamentais
para uma planilha au outra ferrall1enta para posterior analise
(1993), uma "rvore
de um ciassificador
e
de decisao
utHizada par diversos
sistemas
uma representac;ao
de aprendizado
de
a partir de urn conjunto de exemplos
de
n1aquina, como par exempto, 0 C4.5.
e induzida
Urna arvore de decisao
treinamento
onde as classes
sao previamente conhecidas. A estrutura da arvore
organizada da seguinle forma (CARVALHO,
e
2002b):
cada 110interna (nao-folha) e rotulado com
0
nome de urn dos atributos
previsores;
os ramos (au arestas) saindo de urn n6 interno
sao rotulados
com
valores do atributo naquele n6:
e
cada folha
rotulada com uma cia sse, a qual
e
a classe prevista para
exemplos que perten<;am aquele n6 folha.
o
processo
de
classificac;ao
de
um
exemplo
ocorre
exemplo percorrer a arvore, a partir do n6 raiz, proeurando
fazendo
aquele
avaliar os arcos que
unem as nos, de acordo com as eondic;Oes que estes rnesrnos areas representam.
Ao atingir urn no folha, a classe que rotula aquele n6 folha
exemplo (CARVALHO,
2002b).
e
atribufda
aquele
16
3.4.2
Algoritmos
Geneticos
Na natureza, 0 processo de sele<;ao natural controla a evoluyao
vivos. Os organismos
suficiente para
S8
mais adaptados
reproduzirem,
ao seu ambiente
enquanto organismos
tendem
menes adaptados sao
mais propensos a morrer antes de sua reprodUl;lIo (CARVALHO,
Segundo
geneticos
FALKENAUER,
(AGs) sao algoritmos
natural e na genetiea.
candidata
para
normalmente
conjunto
individuos
de busca baseados
2002b).
(2002b),
urn determinado
representadas
e
problema.
par individuos.
criado
usanda
gera<;ao anterior, conforme
As
da
selec;ao
da melhor
soluc;ao
solu<;6es candidatas
A cada
nova
segmentos
avaliado
os algoritmos
no mecanismo
Os AGs se baseiam na sobreviv~ncia
de individuos
da
citado por CARVALHO
de seres
a viver tempo
gerayao
(partes)
urn novo
dos
por uma funyao
sao
melhores
de fitness
(funo;ao de avaliao;aolfuno;ao objetivo).
Um AG difere dos algoritmos
seguintes aspectos (GOLDBERG,
de buscas
tradicionais
principalmente
nos
1989):
AGs realizam uma busca usando uma popula(fao de solu(fao, e nao
uma unica solugao;
AGs
usam
deterministioos;
operadores
probabilisticos
AGs usam diretamente
a informa~o
nao
operadores
de uma funcao objetivo, e nao
dependem de derivadas ou conhecimento
A primeira
e
e
e a segunda
robustez dos AGs, ajudando-os
caracteristica
a escaparem
auxiliar sobre 0 problema.
mencionadas
contribuem
para a
de pontos de olimo locais, a tim de
alcanc;arem pontos de otimos globais. A lerceira
caracteristica
contribui
para a
17
generalidade
problemas
de AGs
que
de otimizayao,
pod em
busca
ser aplicados
em
e aprendizagem
urn largo
de maquina
espectro
de
(CARVALHO,
2002b).
Os principais mecanismos
pais envolvem
de urn AG convencional
apenas trocas parciais entre individuos
sao faceis de entender,
e pequenas
altera90es
de
elementos dos individuos (CARVALHO. 2002b).
Conforme
caracteristicas
BERSON.
citado
por
CARVALHO
(2002b).
usuais em sistemas que utilizam algoritmos
geneticos
algumas
sao as
seguintes:
(i)
Definir
0
problema
a ser resolvido
candidata em urn individuo artificial, e especificar
- codificar
uma solu~o
urna func;ao de avaliac;ao
(fltne ••):
(ii)
Inicializar
a
populacyao
aleatorios aos individuos da popula<;ao
-
lipicamente
atribuindo
valores
inicial;
(iii)
Permitir a selec;ao dos mais aptos
(iv)
Permitir
e extin<;ao dos menDS
aptos;
procedimentos
solu¢es
que uma nova gerac;.ao seja formada
(ou operadores)
(individuos) da gera~o
(v)
Parar
quando
de selec;ao, cruzamento
aplicando
e mutayao
os
das
anterior;
algum(ns)
do(s)
criterio(s)
mencionados
a
seguir forem atingidos:
-
A soluc;ao e suficientemenle
apropriada
para
° problema
em
questao;
- 0 sistema atingiu um numero de gerar;5es pre-determinado;
- 0 sistema nao consegue rnais evoluir (estagna'1ao);
18
-
Quando a valor media da funyao de avaliac;ao esta proximo
ao ll1elhor valor da funya.o de avaliac;:ao de urn individuo da populilr;ao;
-
Sen:io, retornar
aD
basicas:
cruzamenta
e muta~o
item (iii}.
e cor1stituido
Um algoritmo genetico simples
(GOLDBERG,
de dais operadores geneticos
1989). A seguir. serao descritas
algumas versOes desles operadores.
3.4.2.1
Cruzamento
Segundo
cruzamento
seus
BACK,
citado
por
permite a troca do material
indivfduos.
Urn cruze menlo
Primeiro
paSSDS.
{crossover)
individuos
sao
escolhidos
de
genes).
PAWLOWSKI
cruzamento
Dois
novos
11-1,
individuQs,
onde
um individua
descritos nesta sLlbse<;ao, assume-se
"filhos~, sao gerados
inclusive,
entre 1 e
que comp6em
opera~o
cham ados
11
(nos
e
0 nllmera
denominados
em ponto simples
(2000). Est.
au cruzamento
metoda
p e
operadores
e
de
de
tt§m 0
indivfduos
pels troca de todos os val ores entre a posi~o
(1995) e BOOKER
entre
uma posiyao
que ambos as individuos
individuos,
de
na populay:io
dais
como urn numero aleatorio
a
pode ser feito em dais
Segundo,
caracteristicas)
numero
disponfvei
simples
aleatoriarnente
selecionada
mesmo
(2002b).
para cruzarem.
genes
cruzamento
genetico
(crossover)
·pais" au antecessores,
(ou
CARVALHO
p+1 e n
denominado
em um ponto (ver Figura 3.(a})
(CARVALHO,2002b).
Outro tipa de cruzamento,
(2002b),
e
0 cruzamento
segundo
uniforme,
SYSWERDA,
onde
todos
as
citado par CARVALHO
genes
tem
a
mesma
19
probabilidade de serem trocados,
independentemente
genoma (ver Figura 3.(1))) (CARVALHO,
de suas posic;6es no
2002b).
Em geral existe uma ta)(a de cruzamento que centrola a freqU~ncia com
que as cruzamentos
3.4.2.2
ocorrerem (CARVALHO. 2002b).
Mutao;:;o
Conforme
BACK, citado par CARVALHO
(2002b), a operador
nlutac;ao introduz novo material genetico de forma aleat6ria
AGs existem varios modos de implementar
genetico de
na populayao.
Em
mutat;ao. Per exemplo, se
0 operador
o individllo consiste de genes binarios, a mutar;ao consiste em inverter 0 valor de
um bit (CARVALHO,
A muta~o
2002b).
pede introduzir material genetico que nao esta presente em
nenhum
individuo da populayao:
material
existente
entre
dais
aD contrario do cruzamento,
individuos.
Assim,
a
que apenas
l11utac;ao
aumentar a diversidade gen_tica da populaO;:;o (CARVALHO,
contribui
taxa de cruremento
Normalmente.
(CARVALHO,
a taxa de muta~
e
mfi\[][1
Llta1~~
FIGURA 3 TlPOS DE CRUZAME~nO(CARVALHO.
lClJ2b}
corn que
bern menor que a
2oo2b).
ltbj
para
2002b).
Em geral. e)(iste uma taxa de muta9ao que controla a freqOencia
as mutaQ6es ocorrerem.
treca
20
Os AGs tambem podem gerar as regras de conjuntos
seguem a induc;ao de protocolos
de dadas, mas nao
de regras de explosao orientada.
Ao contrario,
eles contarn com a ideia de "muta9aO~ para fazer trocas nos padr6es ale que uma
forma apropriada de modelo seja obtida via educa<;ao seletiva (POLITO,
Os AGs nada conhecem
sendo que a (mica informayao
a respeito
disponlvel
do problema
que estao
~ uma avalia<;ao de cada indiv;duo da
populayao. Esta infom1ac;.ao inf1uencia a seley:io dos cromassomos,
aqueles corn melhores avaJia¢es
tem maiores possibilidades
do que aquetes com piores avaliay6es.
conceber
condi¢es
natureza (GURECK,
3.4.3
de se reproduzirem
Com a utilizayao
nas quais a otimiza~o
de modo que
de AGs.
ocorre, inspirada
pode-se
ao que ocorre na
2001).
Sistema Irnunol6gico e Sistema Imunol6gico Artificial
o
sistema iOlunol6gico gera interesse pela pesquisa
processar
inforOla~o.
distribuida,
e possui a propriedade
DASGUPTA,
Rowe,
1997).
resolvendo,
0 sistema
armazenar
citado
processos
complexes
de forma
paralela,
de interagir localmente.
por CARVALHO
imunol6gico
as experi~ncia$
componentes
age
como
passadas,
(2002a),
menciona
urn ·segundo
fortalecer
que,
cerebro"
as interayees
segundo
pOis pode
de suas celulas
e gerar uma nova resposta para novos padrOes de antigenos.
o Sistema
hipermuta~o
Ele executa
dado 0 seu poder de
Imunol6gico
Artificial
(SIA)
e expansao clonal (CARVALHO;
o conceite de hipennutac;ao
e
constituldo
de dois operadores:
FREITAS, 2001).
consiste no fato de que 0 me sma anticorpo
pede gerar 50 clones, e que cada gene do clone pede ser mutado.
Na proxima
21
gera~o,
cada
urn destes
sucessivamente.
50 clones
Isto signifiea
podera gerar Qutros 50 clones,
que cada
gene
muta9llo diversas vezes entre a primeira
gerado a partir de clonagem,
samente se,
0
0
mecanisme
processo de hipermuta<;tlo,
anticorpo
e a ultima.
a popula~o
de avalia~o,
se, e
FREITAS, 2001).
de expansao
clonal pode prover a reguta<;ao do
a qual e dependente
a processo
soffer
Urn anticorpo,
de anticorpos
da afinidade
com baixo valor de avalia<;ao deve ser eliminado.
alto valor
e assim
pode
funr;ao de avaliaC;Bo for maior au igual ao
threshold de expansao clonal (CARVALHO;
Note que
itera~o
s6 e adicionado
valor da sua respectiva
de urn anticorpo
de seleC;Bo clonal
e
do anticorpo.
Em anticorpos
inidado
Urn
com
(CASTRO;
ZUBEN, 2000a).
o
valor de match
Algoritmo
match
e
Imunol6gico
e
importante
para 0 processo
(SIA), citado em CARVALHO
de expans30
obtido atraves da func;ao de avaliac;ao. Urn anticorpo
56
e
este anticorpo tern seu valor de avalia<;ao maior que pre-determinado
cada itera~o
do algoritmo de seleffao clonal, se urn anticorpo
da ex pan sao clonal, 0 sistema
submetidos
gera clones deste anticorpo.
ao processo de hipermuta<;~o (CARVALHO;
Aplica/fOes de sistemas imunol6gicos
o
sistema imunol6gico
complexidade
e pouco
e objeto
entendimento
0
valor de
cion ado se
threshold. A
obtem
° threshold
Estes
clones s~o
FREITAS,
numero de threshold quanto 0 numero de clones sao estabelecldos
3.4.3.1
clonal. No
e FREITAS (2001),
2001). Tanto
0
previamente.
na computac;ao
de grande interesse mesmo diante de sua
de
seu
mecanismo.
Entretanto.
suas
22
caracteristicas
gerais
prov~m um excelerlte
Que tanto operam a nivellocal
Trata-se
ende
de urn sistema evolutivo
nao se conhece
5uficientemente
exemplo,
principal
0
por complete
biol6gico
e
caracteristica
corpa e classifica-Ias
adaptativo
0 caminho
r1ada rnais
reconhecer
todas
soluc;ao de problemas
da solu~ao.
a diversos
e
para processes
2002a).
a
que se aplica
flexive1 para se adaptar
sistema
modele
quanto global (CARVALHO,
tipos
~ urn metoda
de problemas.
do que urn classificador,
as celulas
como sendo proprias au externas.
Por
pois sua
(au molekulas)
em seu
As celulas externas
sao
par sua vez identificadas
de forma a estimular a um au a outro sistema defensivo.
Desta forma, 0 sistema
imunol6gico
aprende,
atraves
da elloluyao,
entre antlgenos e celulas do proprio organismo (CARVALHO.
Segundo SOMPAYRAC,
citado por CARVALHO
a distinguir
200221).
(2002a), a arquitetura
sistema imune e corn posta de tr~s niveis. A primeira forma de preven~o
elementos
edernos
aos organismos
e
a barreira natural, a pele. A segunda
sistema imune inato, que consiste primariarnente
dos animais
vertebrados
sabrevivem
apenas com estes dais niveis de proteyaa.
varias tipos de celulas e moleculils:
adaptativo
adaptativamente
porque
e adquirida
A resposta
0
responsavel
primaria
quando
pela primeira vez e reage contra ele.
aprende
sobre
os antigenos
e
a qual
irnunidade
pas sui dais tipos de respostas:
ocorre
antigeno
resposta secundaria
Poram, os
e envolvendo
adaptativo,
pela
0
que
durante a tempo de vida do organismo.
sistema imune adaptativo
secundaria.
0 sistema imunol6gico
e
e
Cerca de 99%
possuem urn terceiro nivel de defesa, mais sofisticado
denominado
o
de macr6fagos.
do
contra
desenvolvendo
0
sistema
a primaria e a
imune
en contra
0
0 sistema imune gradualmente
anlicorpos
ocorre quando 0 mesmo antfgeno
cada
vez melhores.
e encontrado
A
novamente.
23
Eta e caracterizada
pela produ~o
de anticorpos
de forma rapida e abundante,
resullado da ativactao de anticorpos da resposla primaria (CARVALHO;
FREITAS,
2001).
Existem
baseadas
varias
no sistema
experi~ncias
de
desenvolvimento
imune. para tratar de problemas
de
metodologias,
complexos
(CARVALHO,
2002a). Alguns exemplos:
• ImunizB9aO contra fraudes
Conforme
organiza90es
HUNT
financeiras
et
aI.,
est:io
cHado
utilizando
por
CARVALHO
hknicas
(2oo2a),
de imuniza!fao
prevenir contra fraudes em processos de hipotecas e emprestimos.
mais critica
e extrair
conhecimento
para
A tarefa
a partir dos dados, au seja:
- identificar a fraude em novas aplica90es;
- explicar a fraude existente; e
visualization)
- possibilitar
uma visualizac;a.o
para auxiliar
0
especialista
169ica dos dad as (logical data
humane na descoberta
de padrOes
da fraude.
As potencialidades
do AIS (Arlificiallmmune
Systems) para identifica~o
de
fraudes sao:
que
0
usuario
explicitar os pad rOes aprendidos
examine
estes
no dados. Assim, permite
pad rOes a fim
de
tomar
as
atitudes
necessarias;
- gerar detectores
de fraudes.
novas aplica90es sejam automaticamente
Oesta forma,
processadas;
permitem
que
24
expJicitos
incorporar
denlro
do
domInies
padrao
de
de
conhecimento
reconhecimento
e
preexistentes
processos
de
aprendizado;
ser capaz de generalizar
as padraes que sejam similares
sem perde-Ios.
Detecyao de virus de computadores
Da mesma forma que
viral
e
no organismo,
detectar
a
presenc;a
0
sistema
passivel
de virus
desenvolver
apresentado
nao
(SOMAYAJI
e !lanseJf
e
Os virus,
capaz
de
em geral,
setores de boot e arquiyos em geral. A
problema
de prote~o
detecrraa self-nonself,
interpretado
e
semelhante
ao
onde self sao dados
como alguma alteray:io do self
et aI., 1997).
Processo de prote~o
o
0
nos organismos.
corrompidos
uma apljca~ao
em computadores.
infect8m programas de computador,
partir deste ponto de vista
imune pode prever uma infec<;<3o
atjva sabre um unico host
e constituido
sistema il11uneadaptativo
de celulas que monitoram
e interagem com outras celulas. Se cada processo ativo no computador for
como
executando
multiplos processos como um organismo
conjunto
uma
e
visualizado
celula,
de computadores
Tradicionalmente,
como
mecanismos
de
posslvel
imaginar
uma populayao
seguran<;a,
um
computador
multicelular,
e urn
de tais organismos.
tais
COmo senhas
e
25
permissOes a arquivos podem ser considerados
como barreiras
naturals e
o sistema imune inato, urna analogia ao sistema imune biol6gico.
Para
criar
implementar
estarao
a
0 conceito
habilitados
funcionando
de
sistema
de linf6citos,
a questionar
normalmente.
e
biol6gico,
nivel
assumido
imune
as quais com
Quiros
auxilio do Kernel,
processos,
Da mesma forma
preciso
adaptativD,
se
estao
esla ocorrendo
que se urn processo
au
que no sistema
nao
imune
de forma
anormal,
ele pode estar sendo objeto de urn alaque
momento
pode ser gerada urna res posta imune de forma a torna-Io lento,
suspende-Io,
aborta-Io
aleatoriamente,
podendo
gerar
au
reinicia-Io.
conjuntos
ser substituido
Cada
de detectores,
viral. A partir deste
"linf6cito·
devera,
sobrevida
limitada,
com
par outro tipo de Mlinf6cito~ (SOMAYAJI
et aI.,
1997).
Protec;ao a urna rede de cornputadores
e
Urna outra abordagem
irnaginar que cada computador
orgao em urn animal. Cada processo
celula, como
confiaveis.
seguranc;a
urn anticorpo
de urna rede de cornputadores
baseado
imune adaptativo
, PJlra
neCworh.
maier.,
e cornposto
Este modelo de sistema imune
em
servidor,
seguranC;8 de rede, tais como
oomputer
poderia ser considerado
pede ser implementado
in!onn"90u
IEEE Communiosliom
cornbinado
Kerberos
coruutLllr
B.C. Neuman
32 (~): 3J-.lJ,
M.l!}3~n •.
lind
1
de
mecanismos
de
0 nivel do sistema
par urn linfocito
T. Tso.
S.pllHTlOqr
Kerberos:
1 GOot.
rnutuarnente
de mecanisrnos
com
e firewall.
como urn
como urna
An
assistido
lIurhonlic1lioo
pelo
S1Qrvice lor
26
Kamel,
corn uma caracteristica
computadores,
seleciona
tornar,do-os
e propaga
adicional
de poderem
os linf6citos,
Segundo KIM, citado por CARVALHO
negativa, desempenhada
um servidor centralizado
conforme
necessaria,
coordenando
circulando
entre
as
de computadores
cada um com a responsabilidade
pesquisar urn padr~o especifico de anormalidade
de deteclftio
migrar
agentes m6veis. 0 conjunto
(SOMAYAJI
de
et aI., 1997).
(2002a), dada a caracteristiea
pelos linf6citos.
as respostas.
e replicando
nao
e necessario
ter
pois as linf6citos agem
a 5i proprios
em busca de
problemas em Qutros servidores.
Existe um grande numero de rnetodologias,
voltadas
Sistemas
a resolver
problemas.
Imunol6gicos
Computa«;ao Imullologica,
o
ocorreu
primeiro
Estes metodos
Artificiais,
recebem
Sistemas
entre outros (CARVALHO.
congresso
internacional
em 1996, onde se concluiu
atenc;ao dos pesquisadores
como
inspiradas
sistemas biol6gicos, segundo DASGUPTA,
distintas
Baseados
imune,
designa90es:
na
Imunologia,
2002a).
em Sistemas
que esta firea,
outras
no sistema
abordagens
Imunol6gicos
em breve
tambem
citado por CARVALHO
Artificiais
recebera
baseadas
[2002a).
tanta
em
4. METODOLOGIA
4.1
DE DESENVOLVIMENTO
DEFINI9AO
DA MODELAGEM
A metodologia
adotada
ulilizada em CARVALHO
para deixar
0
a
4.1.1
mas
metodologia
a abordagem
for relativo
DO SIA
para a desenvolvimento
e FREITAS
texlo autocontido,
a seguir se refere
DO PROTOTIPO
Imunol6gioo
SIA e a mesma
as ponlos comuns
sao refon;ados as pontcs diferentes. 0 texlo
citada. No entanto,
e
de pequeno disjunto, que nao
Algoritmo
deste
(2001). SerAo repelidos
para Descoberta
desconsiderado
e foco
tudo
0
que
deste trabalho.
de Regras
para Pequenos
Disjuntos
A arquitetura
do sistema
imune
natural
e composta
de
tres niveis de
defesa: pele e mucosa, sistema imune inato e resposta imune adaptativa
(SOMAYAJI
el aI., 1997).
No algoritmo
disjuntos
imunol6gico
a tarefa desempenhada
para descoberta
pelo sistema
de
imune
regras
inato
e
para
pequenos
executada
pela
arvore de decisao. 0 algoritmo imunol6gico
incorpora algumas das caracteristicas
da resposta imune adaptativa: a diversidade
- a qual melhora a robustez, tanto ao
nivel de popula9aO como ao nivel de anticorpo;
aprender a reconhecer
destes antigenos
para facilitar futuras respostas
Neste SIA, os antigenos
(CARVALHO;
e a adaptabilidade
e a responder a novos antigenos,
sao representados
FREITAS, 2001).
- ele pede
e a reter uma mem6ria
(HOFMEYR;
por exemplos
FORREST,
do pequeno
1999).
disjunto
26
que
o
reconhecimento
sao
representados
por
regras
·se .<>..
adaplativD passui dois tipos de respostas:
primaria ocorre quando
0
na popular;ao
e
vez
melhores
caracterizada
resultado
esla fase
criado e estes antioorpos
cobrir
quando
peta
as
e
antigeno
0
equivalente
do
pequeno
e
ant/gena
pela primeira vez e
da resposta
neste algoritmo.
anticorpos
disjunto.
encontrado
mais
dos ell:emplos de teste poderia ser comparada
rapida
prirmlria.
(regras),
previamente
descobertos
anticorpo.
prirneiro passo no projeto de
lim
No caso do SIA, cada anticorpo
Este estagio
resposta
(durante
Ela
e
nao tern
secundaria.
Embora,
0 sistema usa
a fase de treinamento),
FREITAS, 2001).
SIA, ~ decidir 0 que representa
representa
se) e de urn conseqOente de regra (parte entao).
de regra que maximizem
resposta
e abundanternente,
de regra (parte
0 objetivo do SIA
a precisao preditiva
um
uma regra de pequeno
disjunto. A estrutura deste anticorpo consiste de um antecedente
condi90es
cada
De certa forma, a classificayao
a
para classificac;ao de novas exemplos (CARVALHO;
o
A
nOl/amente.
neste momento nao exista uma produyao abundante de anticorpos,
anticorpos
imune
A resposta
lentam cobrir as antigen os. 0 sistema
de anticorpos
de antioorpos
sistema
simulada quando urn novo anticorpo
exemples
0 mesma
produyao
da ativay:lo
uma representaf,(iio
0
a prima ria e a secundaria.
aprende sabre as anUgenos desenvolvendo
para
secunda ria ocorre
entaO ..<>.,M,
sistema imune encontra
reage contra ele. No algoritmo,
imune graduatmente
sao executados par anticorpos
e a resposta ao antlgeno
e desenvolver
da regrat avaliada
pel a
funt;ao de avalia930 - descrita a seguir. 0 conseqQente da regra (parte enta.o), a
qual especifica
a classe predi1a, nao
fixe em cada eJ(ecu~o
e
representada
no anticorpo.
do SIA, desta forma todos os anticorpos
Esta parte
e
t~rn 0 mesmo
29
conseqOente
durante toda uma determinada
(CARVALHO;
execuc;ao
FREITAS.
2001).
Cada execUC;ao do algoritmo descobre uma (mica re9ra (a melhor da ultima
iterayao) prevendo uma determinada
determinado
cobrir
periencentes a urn
cia sse para os exemplos
pequeno disjunto. Dado que precisa·se
descobrir as regras para
lodos as exemplos de varias classes em varios
pequenos
disjunlos,
0
algoritmo precisa ser executado varias vezes para uma dada base de dad os. Mais
precisamente,
0
algoritmo
e
pequenos disjuntos e ceo
executado
pequeno disjunto, a k-esima execuyao
predizendo
a k-esima
d ••c vezes,
classe.
do SIA,
Pequenos
pequeno ntlmero de exemplos (CARVALHO;
Nas pr6ximas
subse¢es
k
sao descritas
irnunol6gico
de
uma regra
sao regras que oobrem
urn
de
as representa~6es
a
de seleyao clonal, utilizados no
regras
para
pequenos
disjuntos
FREITAS, 2001).
Relembrando
4.1.2
0 numero
Para urn dado
descobre
C,
em detalhes
algoritmo
descoberta
e
FREITAS, 2001).
a Funyao de Avalia~ao e a mecanismo
para
= 1, ... ,
disjuntos
Anticorpo,
(CARVALHO;
ende d
numero de classes a serem preditas.
que neste trabalho nao trataremos as pequenos disjuntos.
Representa~o
Para representaytlo
a mesma
metodologia
anticorpo
representa
do Anticorpo
do anticorpo na abordagern
adotada em CARVALHO
0 anlecedente
conjunt;;Ao de condic;Oes compondo
cada condi9C1o
e urn par atributo-valor.
de SIA adotada,
e FREITAS
(2001),
da regra. Cada anlicorpo
urn dado antecedente
utiliza-se
onde cada
represenla
uma
da regra, sendo que
o
antecedente
da regra contem urn numero variavel
que nao se sabe a priori quantas condiyaes
regra
de
boa
especificar
nao
qualidade.
sO
0
o
numero
on de m e
para
a implementaQ~o
numero
minimo.
mas
tambem
da regra (CARVALHO;
maximo
de condi96es
numero de atributos
maximo
previsores
longas,
0
que contra ria a inten~o
uma
aumentar
estrutura
tempo
0
longa
representar
de processamento
maximo
e rnais
comptexo
de
de ser
de condic;Ges poderia
(i) conduzir a descoberta
de descoberta
para
0 numero
ser m,
na base de dados. Entretanto,
valor de m pode acarretar duas desvantagens:
exigir
~ necessario
FREITAS, 2001).
na regra
esta numero
dado
para compor uma
pratica,
Em principio,
0
de condi90es,
necessaries
Na
condi<;6es do antecedente
determinado.
se~o
de regras compreenslveis,
os anticorpos,
do algoritmo
0 que
(CARVALHO;
este
de regras
e (il)
tende
a
FREITAS,
2001).
Na abordagem
representar
de SIA e utilizada
urn antecedente
para cada execuc;ao do SIA descobre
dados (CARVALHO:
Cada gene representa
atributo; Vij e
de tamanho
variavel.
uma regra associada
fixe para
Relembrando
a um dado grupo de
uma condicao de regra (Figura 4) na forma Ai Opi
i identifica a condi~o
0 j-esimo
da regra,
valor do dominic de Ai; e Op eo
i = 1,... , n; Ai e
0
i-esimo
0
operador 16gico/relacional
ao atributo Ai - Figura 4. A variavel Bi representa
urn bit a1lvo, 0 qual
pode assumir valor 1 au 0 para indicar se a i·~sima condic;ao esta presente
nao no antecedente
1 A,
Op,(v,.J
que
FREITAS, 2001).
Vij, onde 0 subscrito
compativel
uma estrutura
de regra de tamanho
da regra (CARVALHO:
•B,
I·..
ou
FREITAS, 2001).
1 Ai °Pi(V!l
FIGURA 4: ESTRUTURA DO ANTICORPO(ANTECEOENTE
•B,
1···1
A, Op,,(V,.j
•B"
1
DA REGRA) (CARVALHO; FREITAS. 1001)
31
4.1.3
Funy:io de AvaJiac;ao
Sera assumido
sendo rninerada.
C"-")
negativa
(CARVALHO;
que sxistirao
Classe positiva
qualquer
outra
duas classes
("+") a classe
classe
na base de dados
predita
a
distinta
que esta
pela re9ra, e a Classe
classe
predita
pela
regra
FREITAS. 2001).
Para avaliar a quaJidade de urn anticorpo, nasso SIA usara a fun9aO:
f
= (TP / (TP + FN)} •(TN I (FP + TN)}. onde:
TP (TIIN.!Poiitive)
FP (Hi'.
= n(U1l2ro d<::lwum;>lOJ
~+"que .aooorllMmer;l,&
oomo exernplo5 "+~;
cJM"ifi~
Pociril'fl) = r.urnelO de eJilflmpt05".~quI! do 'mQl1f!liHlM:!nl~claulflCllo;;sa:mo ~mp/()I
FN (Fl1llV1 ~ft-e)
'"
nCIl1'lMOdef!)'~pfl'»
TN(TrIA Ni!9ltj~) :: n(JTfleft)
de ~p1.»
Na formula
anterior.
observa que 0 termo (TP'
enquanto
"+" 'iU@ sc\O£rn)Ileli!mld1tedondiClKlc,w,wnlQ
A."
'I'.le Rlog::r~nient~
HAND.
(TP + FN))
tanto alta sensibilidade
relativamente
4.1.4
o
popula~o
c:cmoellImpq
par (CARVALHO;
e geralmente
0 termo (TN I (FP + TN)) ~ geralmente
Estes dais term os sao multiplicados
tenilam
citado
d"uifiCOldol
~-";
...w.
FREITAS.
denominado
denominado
2001).
de sensibilidade,
especificidade.
para foryar 0 SIA a descobrir
quanto alta especificidade.
"t";
~mDjOi
regras que
uma vel. que seria
simples maximizar urn dos termos pela reduyao do outro.
Sele<;~o Clonal
aprendizado
no sistema
de anticorpos
antlgeno (CASTRO;
imunol6gico
significa
e a afinidade destes anticorpos
ZUBEN. 2000b). No SIA.
0
aumentar
0 tamanilo
em reconhecer
aprendizado
da
qualquer
implica em descobrir
32
anticorpos
(regras)
que reconhecem
(cobrem)
antigenos
(conjuntos
de cladas)
(CARVALHO; FREITAS, 2001).
o
SIA pede ser considerado
como um tipo de algoritmo
evolutivo), baseado em principios da varia~o
(GOLDBERG,
SIA
1989). Entretanta,
e baseado
na
Segundo
procedimento
qual
e
ele nao inclui
genetica
0
(ou
natural
pois
0
selec;:ao clonal e seu mecanismo de hipermutac;ao.
SALAVOV,
citado
de seleQao clonal
influenciado
por
(CARVALHO:
e conduzido
pela concentrayfto
na iteraC;:lio, de forma que eles auto-regulam
evolul;ao
da resposta
da
2001).
0
popula~o
0
Os clones de anticorpos
pad roes.
A
FREITAS,
pele interat;ao anticorpo-antigeno,
de antigenos.
aprender
amadurecimento
e de seleyao
operador de cruzamento,
participam
media
evoilicionario
de
suas habilidades
anticorpos
imune, a qual e caracterizada
do valor de rnatch (valor medio do valor da funt;ao
para
conduz
aD
pelo aumento
de avalialt:io)
da
dos
antigenos.
o
e
valor de match
irnportante
para 0 processo
de expansao
clonal. No
SIA. 0 valor de match e obtido atraves de funyao de avaliac;:ao. Urn anticorpo s6 e
clonado se este anticorpo tern seu valor de avaliayao
maior que pre-determinado
tflreshold. A cada iterac;ao do algoritrno de seleyao clonal. 5e urn anticorpa abtam
o throshold da expansao clonal, 0 sistema gera 50 clones deste anticorpo.
estes
clones
FREITAS,
sao
submetidos
ao
processo
de
hipermutac;ao
Ap6s,
(CARVALHO;
2001). Tanto 0 numero de threslJold quanta 0 numero de clones s~o
parametros de projeto e sao estabelecidos
A tlipermutayAo
e
implementada
previamente.
atraves
de uma
relativa
alta taxa de
muta<;a.o (taxa de mutayao de 10%) sobre um anticorpo. Como dito anteriormente,
o conceito
de hipermuta~o
consiste
no fato de que 0 mesmo
anticorpo
pade
33
gerar 50 clones, e que cada gene do clone pade ser rnutado. Na proxima
gerac;ao,
cada
e
urn
destes
sucessivamente.
50
clones
podera
gerar
Qutros
50
clones.
Isto significa que cada gene de um anticorpo
muitas \lezes desde a primeira iterat;ao ate a ultima. Urn anticorpo,
de clonagem,
e
56
a
adicionado
valor da sua respectiva fun~o
expansao clonal (CARVALHO;
Note que
0
de avalia~o
alto valor
mecanismo
se, 0
for maior au igual ao tl1res/Jold
de
de
clonal pade prover a regula9ao
e)(panSaO
e
dependente da afinidade do anticorpo.
com baixo valor de ava1ia<;:aodeve ser eliminado.
de avaliayao.
gerado a partir
se e somente
FREITAS, 2001).
processo de hiperrl1ular;ao, que
anlicorpo
populaQBo de anticorpos,
assim
pade ser mutado
0 procesSD de seler;lio
clonal
Em anticorpos
e
iniciado
do
Um
com
(CASTRO;
ZUBEN. 2000a).
No SIA, tambem
algoritmos
e
evolucionarios.
utilizado a noryao de elitismo,
0 melhor anticorpo
proxima (elitismo cam fator 1 -
OU
seja,
0
e
em geral utilizada
mantido de uma jtera~o
melhor anticorpo
repassado inalterado para a pr6xima gerayao) (CARVALHO;
Alem dos operadores
operador
especialmente
imunol6gicoslevolucionarios
projetado
para
melhorar
regras. A ideia basica deste operador denominado
remover algumas
em
para a
e
de cada gera<;ao
FREITAS, 2001).
descritos,
e
utilizado um
a campreensibilidade
des
e
operador de peda de regra,
condic;Oes da regra para torna-Ia menor. Em um alto nivel de
abstra9aO, ao remover condi90es da regra pode-se torna-Ia mais compreensivel,
de acordo com a literatura
anticorpo
de Data Mining. 0 operador
da populac;ao. em seguida aD anticorpo
e
aplicado
para cada
ter sido gerado (CARVALHO;
FREITAS, 2001).
Conforme
QUINLAN
(1993),
este pracedimenta
de pada
e
baseada
na
34
teoria
da jnforma~o.
primeiramente,
Em geral
ele calcula
0
este
operador
trabalha
da seguinte
ganho de informar;ao de cada urna das
(gene) da regra, no genoma do anticorpo.
Entao
0
procedimento
iterativamente
tenta remover urna condic;ao por vez a partir da regra. As condi~oes
valor de ganho de informClc;:io
regra (CARVALHO;
4.1.5
Mm alta probabilidade
forma:
n condi<;Oes
de serem
de menor
removidas
da
FREITAS, 2001).
Definiy:1o da Base de Dados Original
e composta
A base de dados original
algoritl11o descobrir
regras.
Para que
dividida em base de treinamento
70% da base de dados original,
0
por todos as dados disponiveis
resultado
seja consistente,
e base de testes. A base de treinamento
para criar regras com um maior
registros. A base de testes consiste de 30% da base original,
com as regras
descobertas,
verificando
assim.
para
a base
0
e
pas sui
nDmero de
mas ~ executada
a consist~ncia
dos resultados
obtidos da base de treinamento.
4.1.6
Definiyao da Base de Treinamento
Para que a algoritmo
uma base
de dados.
descoberta
destas
contem os registros
regras.
COrTI
dados original, porem com
e
posse descobrir as regras
Este trabalho
Esta base esta descrita
os casos tratados.
lIm
necessario
testa-las em
utiliza uma base de treinamento
em
Esta base
e
Unl
arquivo
para a
.data que
uma c6pia da base de
volume menor de dados (cerca de 70%).
35
4.1.7
Oefini<;t\o da Base de Testes
Apos a descoberta
executada.
de regras na base de treinamento,
a base de testes
Como esla base possui as regras, ela verifica
resultados trazidos pela base de treinamento.
4.1.8
a consistl!ncia
e
dos
e gera uma matriz de confusao.
Arquiva Names
o arquivo names armazena as names dos atributos meta e previsores,
juntamente
com seus valores.
a serem observadas.
sao
arquivos texto. com caracteristicas
Tudo que aparece antes do caraetere
M
e
:"
importantes
atributo, e
que vern depois sao as valores destes atributos. Estes valores sao separados
0
por
virgulas e podem ser categ6ricos au continuos. Toda vez que 0 algoritmo for
executado
em uma nova base de dados,
e
necessaria
ler 0 arquivo names para
obler-se as novos alributos e seus valores, e desta forma, descobrir-se
4.1.9
Para
Defini9ao das Estatisticas da Base de Dados
0
algoritmo
descobrir
necessario criar uma fun~o
Na
as regras.
proxima
aleatoriamente
etapa
0
regras
a partir de uma
base
de dados,
e
que mostra 0 menor e 0 maior valor de cada atributo.
algoritmo
inicia
a
descoberta
os valores de cada atributo, respeitando
de
regras
buscando
os limites definidos.
36
4.1.10 Pseudoc6digo
E
a sintese do c6digo, e serve para facilitar a compreensao
do algoritmo.
FUNr;!i.O_PRINCIPAL_ ALGORI TMO_ GEAA_ REC.flAS~ Cl.A$~IFlCA.<;AO 0 {
CARREGA_AROUIVO_NAMES
It
CARAEGA_-'OOUVlO_DATA
0
GERA _EnATISTICA
(j
C-ER.A_PCPULA('.J..O_II4ICIAL
n
1/
Il
H
II
PflIlIlIJ::ir
il,twtura
qUfl c1i: Uill"09 1r.tIQr ea<lA urn QO:J atribut ••
Pf!i!jNii'a :l.,ll\Jlur,loom
Ol(\a!XJI os t~rt:lrMf'itoque '6r.l)c~uiflcad;Jll;
Gef;j Iffi4tit.lic;a dOl ""mlNlo. CCIOtin~ f9f.;10
Pcpul::t
0 'ri!kIor an!ic,cjrp.O oom $) J!rimei~.J ~J
Cie dlHosifl(411
!,
AVAWU-CPUU.cAQ
REPtTA
5cE_IIAO-'~J:ISTE_MntCOAPO_COM_VAlOR_DE_AVAlIAC;Ao "''' 1
FAr;A
REPlTA
E.XPAI'I$I\O ClONALtt
AVALIA
,M)Pul..ACAO{)
ITEAAClo"
\TE~O
+ 1;
FII!I-SE
~~~~i~
~~~~~
c N(Jti'~~~Ax~~~~r~J.ge)-s~
-FACA-
-
-
E {tJAo_EXISTE_AtmCORPO==
1))
--
SALV.••.•
_MElHOR_AIITlCORPO I)
ElIr'lltlA_LI~~HAS_CLASSIFICAOAS_CO"RETAACE'ITe_PElO_t.tElHORj,IITICORPO
SEHJ..o
EXECUcA.o_AlGORITMO_SEt.l_RESUlTAOO~+;
FtM-SE
EHQUAIITO
TAOO
(EltEcvcAo_AlGOOITI,K)_SEM_RESUL
EXPArlsAo_ClCUAlO
5)
<
{
ANTICORPO_IIAO_lERO
= PR,OCURA_ArmCORPO_
VAlOft_ A.VAlIAc;AQ_01FERErITEJ)E_ZEROO
SE_AI.TICORPO_r-lAO_lERO
== VEROADEIRO
FM;A
~AAA_CAOl\jVITlCORPO_c:o.\l_YAlOR_oe_AVAl.IACAOJGUAl_""_lERO
CR~
OUPUCATA
FIM-PARA
SEII..\O
PItRA CADI. AHTlCORPO
eRI"
DUI'UCATA
CRI"-OUPUCATA
FIM-PARA
FIM-.'iE
PARA_CAOA_ANTrCOOPO_OUE_EXl5TE
FAl_MUTM;Ao
FtM-PAAA
TESTA
~ROBAeILIOADE
SE_POSITIVO
TESTA
-
PA.AA "ERIFICAR
-
PROeABILlDr.l.DE
-
-
FOt ELII.mv.aO
TE.sTA_PRo8.AllIlIoAoeJiAAA_YERIFICAR_SE
EM
CASO
SE
-
fP,A.f1I.A E'SCOlHER
-
SE ATR16UTO AI/IDA ~I~
SE
(ORiGIIIAL....E_OUPUCATA)
seRA
--
ATRIBUTO
ATRllruTO
-
OUE
-
-
ElIMIN,tU)()
UM
!Jom
_ATRIIiUTO_SOFRE_'.IUTAeJ,o
oP€RAOOR
SEI~-ESCOlHE_UI·U.OVO_VA.lOR....EIITRE_OS_POSSI\IEI8_PARA_O_ATRIBUTO_CATEGORtCO
FIM -SE
FIM..sEFIM-Po\R.A
Pnlt»t!ilidJdtl
alit
10%
IfP<tr:.u.daarributo
I\FIRMATI\IO
-se':O_ATRTBUTOfOR_CONTlrIUO
GERA_UM_NOVO_
AlQR_(OEtmW_DO_lPITERVAlOI
GERA
1/
SERA~lIMlrlAOO
IIP"o:f&Mfumt:!\.Ilj,foi
elirt'liI'JlXumoulro.~ooor~mulo';olo
/I
P'robAbi1i~ dt 10,..
37
AYA.LIA_f'OPU!..ACAOO(
P"ARA_CAOA..,II/ITICORPO
YJliLOR_ AVALI.Af;AO '" AVAJ..tAj,t
ITlCORPO
(VAlOR_REfORli.4.00_00_META_',IAIS_FREOUEI4TEI
•••
AA_Ojl.rmCORPOll.:
PREENCHE_OS_VAlORES_RETOiUl,'Omu·
FIM-PARA
)
FLOAT_AVAUA.j.rmCQRPO
ICHAR 'Mi::::T.',._UAIS]REQUEIHEI
{
2ERA_MATRIZ_DE_C:()NFU$AO
X: PARA_CAOA_LlIIHA_OAJ!ASE_DE_TREIIL"MEUTO
SE_lII-<HAJV.O_FOI_ELlr~HNAOA_AIIIOA
PARA CADA ATRIBUTO
00 NntC(jRPO
SE_Oj\TRIBUTO_'I.(OjOU:::U'JIIIAOOII
Cemp..'ffl
c:om
Irt;rQtl\
nta,
lIfllitcrpl)
•
UNndo
'*
;;cIulla
QOrrUlJOfl!Jrtlll!il
IIi)
~1a'"..iO~1UKIt!
aP!f1ldOr
W~
(Ie
.:Hrit:lIl!)
rIO
FIM·SE
SEJLA.O_ClASSIFtCOU_CORRET_COMF.CA_,WAUAcAO_PftOXlMA._Ll'IH~.JRETORJIA]AAA_Xl
FIM-$E
FIM·PARA
SE lOCOS OS ATRlaUTOS
OA UIIH" Fow,M AVALIADOS CQRRETAME!lTE
GUARoA_OC-JAl_~_Oj.1ETA3;ESTA=UtiHA
t+au -,
Ftr.hSE
"ElO
--
A'lTICQRPO
FIM·SE
FIM·P ••••
RA
~~~=~~!~~:=~~~~*~~~i;a~~~:~~~~~~:B!~1~1;r.~ESTE_Ar'TICORPO
FALSE
0
NEGATIVE::
-
-
-
-
~~~~~~'6~~o~~~~~~~ci~t~~~~-~!~:~:~~:~~~~~u~~:~~r:'T~;~~
;)boldsldli
RETORNA_
VAl~DE-"'\VAlLA~'
-
-
1'0 Cipilulo
-
-
,(.1.3 tlHIe
Ir.llHlho.
j
ElIMII-U\CAO_OM_WIHAS_CUEf
RIo."I_CLASStFICAOAS_POR_UM-'\NTICORPOU~
)1;: PARA_CADA_LlNHA_OA_IJASE_DE_ TREI~IAMEI"lTO
SE_A_111IHAJIAO_F01_ClASSIFICAOA_CORRETAI.\E~lrE
P"~-~_~R~~~~~_~~~di'~~~~~
cc.nl
lf9in,mento..
II Compgrit
3 CQ4un\i("qtMplinOOnle
ut.iIDilo 0 oper;l:lor
r~iomI
~
b~
dele
d@
o:IlnbulO
110;ll1Uo:.rllO
SE
,",J.o CLASSIFICOIJ CORfltETAMEI4TE
CoMEt;A_AVAlIA<;..(U)/I·]ROJUfllA_UPIHA
(RETORNA?A.RA
X)
FIM.$e
FIr-.4iE
FtM-PA/VI
SE_TODOS_OS_ATRIBUT01_IM_LlIIH."JORAI,jj,\IAllAOOS_COR1tETAMEIITE_PELOjlNTICORPO
EUlllltlA A UtIH~
F1M.se
-
-
Ftl.1·PAR.\
FUNCo'O_PRI"CIPAL_
PROC.,RM,I,,_OUE_
TESTA...f<..5_REORAS_GERADA$
CARREGA_A_BASE_DE_TESTES
CARREGAJ
••
S_REGRAS_GERAMS
PAAA_CADA_LlIIHA._OA_BASE_DE_TESTE
PARA_CAOA_REGRA_GERAD
..••
flMtli50mel:l
QUill:; ~-ava(i"u
'¥ER1FtCA_s€_A_R£GRA_CLASSIFICA_A_lumA
SE-;~~~PA.RA_" _PRC»l:Il.lA _LltlHA _DA_aA.'E _ OE_ TESTE
FIM...sE
FIM·PARA
SE../.tA.o_EXISTEM_REGRAS_OUE_CLASSIFtCAM_ESTA_LlI4H
..••
ERRO DE CLASSIFIOIO ++
FtM-sE FtM-fJARA
TA.U,_DEj.CERTO"
ERRO_DE_C~SIFlCACJ,o
J IIUMEPD_
TOTAlJ}E_U~lrlA:!UI."_BASE_OE_
TESTE:
4.2
REALlZA9AO
Para
de
a
dados,
DOS EXPERIMENTOS
realizac;:ao dos
que
podem
ser
experil11entos
enoontradas
foram
no
<http://w.vw.ics.uci.edu/-mlearn/MLRepository.html>.
escolha destes bases fo;
outra equipe que tarnbem
0
utilizadas
reposit6rio
da
tres
UCI
bases
no
site
0 motivD que determinou a
de permit;r a compara<;ao
dos resultados obtidos per
esta desenvolvendo um algoritmo para constru9:io de
um classificador, bem como, com os resultados obtidos por outra versao
de urn
algoritmo de Data Mining atraves do Sistema Imunol6gico Artificial, desenvolvido
pel. Prof". Dr". Deborah Ribeiro Carvalho (CARVALHO:
FREITAS, 2001).
As bases usadas sao as seguintes:
(i)
Base l1ouse votes
M
Titulo:
1984.
Estados
Unidos.
Banco
de dados
de Registros
de Votac;ao
Congressional.
Fonte de Infonnac;ao: Almanaque Trimestral congressional, 980 Congresso,
211
sessao 1984, Volume XL: Congressional Quarterly Inc., Washington, D.C., 1985.
Doador: Jeff Schtimmer [email protected]}.
Data: 27 de abril de 1987.
Informa~o
Pertinente: Este conjunto de dad as inclui votos para cada Casa
Congressisla norte-americana representantes dos 16 votos chaves identificados
peto Congressional Quarterly Inc.
39
(ii)
Base hepatitis
Titulo: Dominic de hepatite.
Fonte de Informayao:
Oesconhecida.
Deader: G. Gong - Universidade
Informa<;:ao Pertinente:
Esle
de Carnegie-Mellon.
conjunto
de dados
trata as probabilidades
de
mortalidade em individuos que contrairam a doenc;.a hepatite.
(iii)
Base
crx
Titulo: Aprovac;:ao de eredilo.
Fonle de Informa<;:ao: Confidencial
Informa~o
Pertinente:
Esle
pertinentes a aprova<;ao de eredilo.
- Submetido par: [email protected]
conjunto
de
dados
Os valores fcram
contem
informayOes
alterados para proteger
confid~ncia dos dad os.
Para possibilitar
tralamentos,
o
dados
a uliliz8</aO das bases aeima, (oram necessarios
como elimina<;ao dos dados inconsistentes
criterio utilizado para elimina~o
foi a substituiyao
atributos
categ6ricos
dos mesmos.
foram substituidas
sendo escolhidos aleatoriamente;
continuos,
foram substituidas
alguns
nas bases (?, !, etc.).
dos dados inconsistentes
Para as inconsist~ncias
as inconsist~ncias
e para as inconsistencias
nas bases de
de dados
em
par urn dos atributos
de dados em atrlbutos
as inconsistE!Ocias par um valor obtido pela media
dos valores daquele atributo tentando ao maximo
nao descaracterizar
as bases
de dados utilizadas.
Para cada base de dad os, as seguintes constantes
alteradas nos algoritmos:
simb61icas deverao ser
numero de atributos, valores (quantidade
de valores que
40
urn atributo
categ6rico
pode
receber),
tamanho
(nO de caracteres
do maior
exemplo) e dados (quantidades de eX6mpios na base).
4.2. 1 Experimento
A base house-votes,
com a base house-votes
ap6s
0
tratamento
dos dad as, foi dividida
em dUBs
bases: IlOuse.data - que contem 70% dos exemplos da base original, e house. test
-
que
30% dos exemplos
contem
proporcionalmente
a
ORIGINAL
I
I
I
I
Democrat
267
Republican
168
Total
435
TA8ELA 1
da
base
A
divisao
foi
feita
TESTE
TREINAMENTO
187
80
118
50
305
130
DlSTRIBUICAO DOS ",TRIBUTOS METAS DA BASE HOUSE·I/OTES
Ap6s a divisao da base. foram executados
reg res, variando-se
original.
base original, conforme tabela a seguir:
tr~s processos
a semente aleatoria de cOl1struyao
de obteny:Jo de
do classificador
para cada
base de dadas.
Foram identificados
iniciar
0
PREVISORES
VALORES
0
016
3
TAMANHOo
DADOS
os seguintes
processo de criayao das regras:
0
305
12
valores das constantes
simb61icas para
41
4.2.2
Experimento com a base hepatitis
A bases hepatitis,
bases:
hepatiiis.dat8
-
ap6s
0
tratamento
que contem
dcs dados,
70% dos exemplos
foi dividida
da base
em duas
original,
e
IJspatitis. test - que contem 30% dos exemplos de base original. A divisao foi feita
proporcionalmente
a
base original, conforme tabela a seguir:
ORIGINAL
Die
32
Live
123
155
Tolal
I
I
I
I
TREINAMENTO
TESTE
22
10
86
37
108
47
TABELA 2 - DISTRI8UIy,AO DOS ATRIBUTOS METAS BASE HEPATITIS
Ap6s a divisao da base, fcram executados
regras, variando-se
tr~s processos
1
de obtenc:ao de
a semen1e aleatoria da oonstru~ao do classificador
para cada
base de dedos.
Foram identificados
iniciar
0
PREVISORES
3
TAMANHO;
12
108
4.2.3
Experimento
A base crJt, ap6s
crx.data
das Gonstantes simb61icas para
; 19
VALORES;
DADOS;
as seguintes valores
processo de criayao das regras:
com a base crx
0
tratamento
dos dados, foi dividida
- que contern 70% dos exemplos
da base original,
em duas bases:
e crx.test
- que
42
contem 30% dos exemplos da base original. A divisao fai feita proporcionalmenle
it base original, conforme tabela a seguir:
ORIGINAL
TREINAMENTO
TESTE
Classe +
307
215
92
Classe -
383
268
115
690
483
207
Total
TABELA 3 - DISTRIBUIc;AO DOS ATRIBUTOS METAS BASE CRX
Ap6s a divisilo da base, fcram executados
regras, variando-se
Ires processos
a semente aleat6ria da constru~o
de obtenyao
do classificador
de
para cada
base de dadas.
Foram identificados
iniciar
0
processo de
criac;ao das regras:
12
= 483
Ap6s a gerac;ao das regras, fai necessaria
mesmas.
simb61icas para
15
TAMANHO=
DADOS
valores das constantes
= 15
PREV/SORES
VALORES=
as seguintes
Para esla verifica<;<1o. foi executado
0
verificar
algoritmo
que
a qualidade
1~
contem as regras, e testa qual regra cobre qual exemplo, possibilitando
das estatisticas
(acertos e erras), e com isso, validando
geradas pelo algoritmo classificador
SIA.
das
0 arquivo que
a qualidade
a gera~o
das regras
43
As regras geradas foram gravadas em urn arquivo de lexto, conforme figura
a seguir:
0: ==:: b: 1;> =:15. 170000:2:
<:20. 930000:8:==:1.'
1 0: <."8. 580000:
11 :==:1.' 13:<: 191 IS.56D946;+.
FIGURA 5: REGRA CRIADA ATRAV S DA BASE DE TREINAMENTO
A figura 5 representa urna regra criada atraves da base de treinamento.
exemplo
mencionado,
formata de grava~o
foi utilizada urna regra criada atraves
da base
No
crx. Esle
das regras foi utitizado para (aeilitar a leitura no algoritmo
que testa as regras.
Para (acililar 0 entendimento,
-
descrevemos
a seguir a formata~o
0 primeiro caractere de cada linha representa
previsor que sera testado.
No casa des!e exemplo,
adotada:
a primeiro atributo
representa
a at rib uta
o caractere ":" divide a atributo previsor do operador,
que pade
previsor 0;
ser
"==" para atribulos previsores categ6rios, e ">=" au "<" para atributos
previsores continuos.
-
0 caractere ";" representa que 0 proximo conjunto de caracteres
o atributo meta da regra, eo caractere ".M delimita a final da regra.
A regra na figura 5 elida da seguinte forma:
Atributo -> 0
== b
Atributo -> 1 >= 6.170000
Atributo -> 2 < 20.930000
Atributo
->
8
== t
Atributo -> 10 < 8.580000
e
44
Atributo -> 11
t
=:;::;
Atributo -> 13 < 1916.569946
Atributo ->
meta == +
Teslando
sucesso,
esla
regra sobre a base
cnde urn exemplo
exemple da base
e coberto
nao e coberto
crx, pode-se obler duas situa~oes:
pela regra; e sem sucesso,
foi coberto por nenhuma das regras geradas, esle
A seguir
e
mostrado
0
quando
urn
pela regra. Na exist~ncia de urn exemplo que n~o
e considerado
como urn erro.
teste com sucesso de urna regra gerada,
de urn
exemplo da base de testes CRX.
A regra testada sabre a observaC;ao de numera 121 (Iinha 121 da base de
teste). obteve sucesso.
Exemple - Base CRX
Observa~ao de numera 121
b,32.08,4,u,g,m,v,2.5,t,f,O,t,9,360,O,+
(0 caractere
",M
atributos previsores, eo ultimo valor e 0 atributo meta)
Regra 05
Atributo -> 0
== b
At(ibuto -> 1 >= 6.170000
Atributo -> 2
<
Atributo
== t
->
8
20.930000
Atributo -> 10 < 8.580000
Atributo -> 11
== t
Atributo -> 13 < 1916.569946
Atributo
->
meta == +
separa
os
valores
dos
45
Onde
o
atributo previsor 0 do exemplo
e == 0
o
atributo previsor 1 do exemplo
e >=
o atributo
e < 20.930000
previsor 2 do exemplo
atribulo previsor 10 do exemplo
o atributo
(4)
e == t (t)
a atributo previsor 8 do exemplo
o
6.170000 (32.08)
e < 8.580000
(0)
previsor 11 do exemplo
e == t (I)
o atributo
previsor 13 do exemplo
e < 1916.569946
o
meta do exemplo e == + (+)
atributo
Nota-se na regra exemplificada
atributos
previsores
(0)
acima, que nao fcram utilizados
para validac;:ao, paiS seria praticamente
impassivel
de gerar as regras no perfodo planejado de conclusao deste trabalho.
algumas
cria~o
bases possuiam
16 atributos
previsores
lodes as
categ6ricos,
terminar
Islo porque
dificullando
a
de uma regra que cobrisse as 16 atributos e nao garantindo a qualidade
da regra.
Para avaliar qual atributo previsor deveria ser testado,
simular uma situac;ao de poda, onde para cada regra (anticorpo)
algoritmo
que aleatoriamente
estivesse
no intervalo
entre
gerava um valor entre
°
rodado nova mente 0 algoritmo
°
foi rodado um
e 100. Se este numero
e 10, esta regra poderia ser podada.
baseado em transic;Oes aleat6rias
previsor. Caso 0 valor aleat6r10 esteja no intervalo entre
podado.
foi necessaria
°
Entao, era
para 0 atributo
e 10, este atributo
e
46
4.3 ANALISE
DOS RESULTADOS
A seguir e demon strada
a tabela
5 com
as resultados
obtidos
pela
compara<;llo do SIA em rela<;llo ao C4.5.
Classilieador
Qtde.
C4.5
SIA (Media)
Qlde.
Taxa de
Erros
Acerto
18
3
97,43%
Crx
9
2
Hepatitis
15
3
Regras
House-votes
TABELA .(
Conforme
desenvolvido
ANAlISE
demonstrado
Otd •. Folhas
na
Acerto
14
97.69°/~
98,87';'
10
82,98%
91.49%
41
76,33%
DOS RESULTADOSOO SlA COMPARAOO
atraves da pesquisa
Taxa de
(Arvore Oecisao)
tabela
4,
0
deste trabalho
algoritmo
mostrou-se
MJ C",.5
classificador
eficaz em
SIA
relavao
aDs resultados obtidos no C4.S.
A (mica base que se rnostrou melhor classificada
votes. Fa! verificado
que lodes seus atributos
previsores
pelc C4.5 foi a housesao categ6ricos,
fater a
ser destacado.
o
rtumero de regras geradas foi na sua malaria equivalente.
apenas
0
destacando-se
numero de regras geradas pelo C4.5 para base IJepatitis, que foi quase
3 vezes
maior
dassificador
o classificador
em
rela~o
ao
numero
de
regras
SIA. Porem, 0 C4.5 cobriu uma quantidade
SIA.
geradas
pelo
algoritmo
inferior de exemplos
que
47
A
seguir
e
demonstrada
a tabela
com
as
resultados
obtidos
pela
compara<;ao do SIA em relac;ao ao C4.5/A1.
Classifieador
C4.S/AI
SIA (Media)
Taxa de Acerto
5=5
5=10
5=15
House.votes
97,43"~
89,90%
88,00%
88,69%
Crx
98,87%
77,07%
85,21%
86,83%
Hepatitis
91,490/.
80,58%
86,21%
85,34%
TABELA 5 -ANALISE
DOS RESULTADOS DO SLACOMPARADO AO C4.51Al
Conforme demon strada na tabela 5,
eficaz em relayao aos resultados
0
obtidos no C4.S/AI. 0 C4.S/AI
hibrido de awore de decisaolimunol6gico,
disjuntos.
algoritmo classificador
que trata do problema
SIA mostrou-se
e
um algoritmo
dos pequenos
Os pequenos disjunlos sao regras que cobrem urn pequeno numero de
exemplos.
o
C4.5/AI foi deserwolvido
pel a Profo, Or-. Deborah Ribeiro Carvalho - Data
Minmg atraves do Sistema Imunol6gico Artificial (CARVALHO;
Note que a taxa de acerto do SIA
do pequeno disjunto (valor de $).
e
independente
FREITAS, 2001).
da definic;ao do 1amanho
5. CONCLUSAO
No initio deste trabalho foi mostrado
lecnicas.
Mostrou·se
resultados,
principais
que
existem
atraves de varias hknicas
tarefas
Imunologico
(classifica~o)
Artificial.
obtidos mostraram
0 conceito
muitas
de
apresentar
bons
de Data Mining. A partir de uma de suas
propoo-se
urn algoritmo
Este algoritmo toi implementado
que a algoritmo
de Data Mining e suas
maneiras
baseado
no Sistema
e testado, e as resultados
proposto constitui-se
numa alternativa
eficaz
para a tarefa de cJassificac;~o. ~Eficiente~ nao apenas no quesito taxa de acerto,
mas tarnbem
na questao
conforme apresentado
Durante
0
da compreensibilidade
do conhecimento
descoberto
nas tabelas 4 e 5.
desenvolvimento
deste trabalho fcram encontradas
dificuldades,
lais como material de pesquisa escasso e de dificil obtenc;;ao.
PropOe-se
heuristicas
como
trabalhos
de poda elaboradas
de expansao
experimentos
clonal
futuros
nesta
area
a
implementa~o
como, par exemplo, a otimizayao
e hipermuta~o,
etc. Uma outra
sugestao,
de
dos parametros
seria
realizar
com outras bases de dados para validar a comparac;:ao, bern como
comparar os resultados deste trabalho com outros sirnilares.
49
REFERENCIAS
BERRY, M. J. A; LlNOFF, G.
and customer
support.
Data Mining
Techniques:
for marketing,
BOOKER, L. B.; FOGEL, O. 8.; WHITLEY, O. et at. Recombination.
Fogel,
sales,
USA: John Wiley & Sons, Inc. 1997.
D. B., Michalewicz
T. (Eds),
Evolutionary
Computer
I,
In: Back, T.,
Philadelphia:
Institute of Physics Publishing, 2000. p. 256-307.
CARVALHO,
Deborah Ribeiro.
Algoritmos
Geneticos.
Data Mining Atraves de Indw;;ao
1999.
Dissertat;;ao
para obten~o
de Regras
e
do grau Mestre -
PUCPR. Curitiba. 1999.
CARVALHO,
Debcrah
para Descobrir
Ribeiro; FREITAS,
Regras para Pequenos
Alex A
Um Algoritmo
Disjuntos
Imunol6gico
em Data Mining.
8intese do
Artigo - 2001.
CARVALHO, Deborah Ribeiro. 0 que sao Sistemas Imunol6gicos
suas Aplica-;oes.
CARVALHO,
Algoritmo
Artificiais e
Paper - 2002a.
Deborah Ribeiro.
Genetico
Urn Metoda
para Data Mining.
Hibrido
2002.
Arvore
de Decisao
Tese parcial para obtencao
I
do
titulo de Doutor - PUCPR, Curitiba, 2002b.
CASTRO,
for
Leandro N.: ZUBEN. Fernando J. An Evolutionary
Data
Aftificial
Clustering.
Neural
Networks,
Proc.
Rio
SBRN
de
2000,
Janeiro,
Brazilian
Brazil.
<http://WW\Y.dca.fee.unicamp.brJ-lnuneslimmune.htm/>.
2oo2a.
Immune Network
Symposium
Disponivel
on
em:
Acesso em: 06 out. 2002.
50
CASTRO,
Leandro N.; ZUBEN,
witll Engineering
Evolutionary
Program
2000b.
-
Applications,
Fernando
Computation
Conference.
WorkslJop Immune
Disponivel
em:
The Clonal Selection
J.
Algorithm
In: Wu, A S. (Ed.) Proc. of the 2000 Genetic and
Systems,
(GECCO-2000),
p. 36-37.
Workshop
Las Vegas, NV, USA. July
<http://www.dca.fee.unicamp.br/-lnunes/imrnune.html>.
Acesso em: 06 out. 2002.
CRUZ, Priscila Gomes Bast05.
Data Mining atraves de Regras
e Arvores
Monografia
de Decisao.
em Processamer'lto
FIGUEIRA,
2000.
de AssociaC;ao
do grau de Tecn61ogo
de Oados - UTP, Curitiba, 2000.
Rafael.
Minerac;:ao
a
Objetos.
Orientados
para obtenc;ao
de
Dados
Banco
1998.
Disponivel
<http://WW\v.cos.ufrj.br/-rafael/mestrado/bdnclMonografia.
html>.
de
Dados
em:
Acesso
em:
07
out. 2002.
GOLDBERG,
D. E. Genetic Algorithms
Learning. New York: Addison-Wesley,
GURECK,
Banco
Eleazar
de Dados.
Processamento
HOFMEYR,
Artificial
Lucas.
2001.
Data Mining - Aquisic;:ao
Monografia
Steven;
FORREST,
System.
Conference
MARATH. Alexandre;
Stephanie.
Sabine.
Immunity
of
Proc.
GECC099,
MAYER,
ao Vestibular.
Processamento
de Conhecimento
para obtenGao do grau de Tecn6logo
p.
<http://wvvw.cs.unm.eduf-forresVpapers.html>.
Candidatos
and Machine
em
em
de Dados - UTP, Curitiba, 2001.
Immune
Cornputation
in Search, Optimization,
1989.
the
Genetic
'1289-1296.
·f999.
by
Design:
and
An
Evolutionary
Disponivel
em:
Acessa em: 06 aut. 2002.
Perfil
de
Monografia para obtenGao do grau de Tecnologo
Data Mining
em
de Oados - UTP, Curitiba. 2001.
para
Avaliar
51
PAWLOWSKY,
Handbook
M. A.
of Genetic
Crossover Operators, In: Lance Chambers
Algorithms
Aplications
(Ed.), Praticat
I, Boca Raton: eRG Press. 1995,
p.101-114.
POLITO, M. Data Mining.
Monagrafia - UFRJ, Rio de Janeiro, 1997. Disponivel
em: <http://hps.infolink.com.br/mpolitolmining/mining.htm>.
Acesso em: 07 out.
2002.
QUINLAN,
J. R.
C4.5: Programs
for Machine Learning,
Morgan Kaufmann
Publisher, 1993.
SOMAYAJI,
Computer
ACM
-
Anil; HOFMEYR,
Immune
1998.
System.
Steven;
New
DisponiveJ em:
Acesso em: 06 out. 2002.
FORREST,
Stephanie.
Security Paradigms
Workshop,
Principles
of a
p. 75-82. 1997.
<http://YM'W.cs.unm.edu/-forresVpapers.html>.
quarta-feira,
20 de
Le concess
est
aisons
tre.
une
(BIR
recherche
07600130)
fiftHS
Transmission
quarta-feira,
#H##
novembro
pour
vers
de
20
Ie
groupe
de
Groupe
vers
2002
de
2002
SAID
-
Groupe
27 de novembro
de
par
expediteur
vers
PILOUNIXl
Groupe
10: 21: 23 a183908
###H
2002
10:35:28
SAlOl
quarta-feira.
27 de novembro
de 2002
TMA EW
merci
de voir
cela
svp.
Transmission
10:09:11
a183908
RENAULT_SITE####
par
####
PILOUNIXl
HH##
de 2002 10:22:40
la TMA si possible
#*HH
SAID
a183908
-
####
10: 36: 16 a183908
RENAULT_SITE~##H
Paqina
1
mas
concess
par MARTINS
10: 08: 56
2002
quarta-feira.
Reprise
Ie
ESI_UNIX##H#
de novembro
SAID!
LBOOl92
et region,
EXPL_PIL_UNIX
de
20 de novembro
celA
aupres de
Transmission
09,33,04
(CAHPINAS),
PILOUNIXl PlLOUNIX -
novembro
par
2002
territoire
ville
novembro
par
de
de
Ie fichier
vers
Acceptation
quarta-feira,
HErci
de voir
####
20
Transmission
quarta-feira,
H###
20
Acceptation
quarta-feira,
####
dans
quand
est
nous
pas
ELl1.o -
mon
##H#
f
Download

EVERTON TAVARES STELLA MARA CARVALHO SILVA DATA