UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Tese de Doutorado
Agrupamento de Dados Simbólicos Intervalares
usando funções de Kernel
Anderson Fabiano B. F. da Costa
Recife - Pernambuco - Brasil
Agosto de 2011
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Anderson Fabiano Batista Ferreira da Costa
Agrupamento de Dados Simbólicos Intervalares usando
funções de
Kernel
Tese apresentada à Coordenação do Programa de Pós-Graduação em
Ciência da Computação do Centro de Informática Universidade Federal de Pernambuco, em cumprimento às exigências do Programa de
Doutorado em Ciência da Computação.
Renata Souza, Dra.
Orientadora
Recife - Pernambuco - Brasil
Agosto de 2011
iv
Catalogação na fonte
Bibliotecária Jane Souto Maior, CRB4-571
Costa, Anderson Fabiano Batista Ferreira da
Agrupamento de dados simbólicos intervalares usando funções de Kenel /
Anderson Fabiano Batista Ferreira da Costa - Recife: O Autor, 2011.
xiv, 107 folhas: Il., fig., tab.
Orientador: Renata Maria Cardoso Rodrigues de Souza.
Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da
Computação, 2011.
Inclui bibliografia e apêndice.
1. Ciência da Computação. 2 Inteligência Computacional. 3. Análise de dados
simbólicos. I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título.
004
CDD (22. ed.)
MEI2011 – 187
A Deus por seu el apoio, à minha esposa Maria,
à meus pais Luiz e Valdete e meus irmãos Alysson,
Alessandro, Arllington e Juninho, DEDICO.
AGRADECIMENTOS
Primeiramente a Deus, por todos os propósitos que tem reservado para minha vida.
À minha esposa Maria, pelo seu incentivo, compreensão, companheirismo e carinho, sem
os quais as diculdades encontradas no decorrer deste trabalho não teriam sido superadas.
À minha mãe Valdete e aos meus irmãos Alysson, Alessandro, Arllington e Juninho pelos
ensinamentos de vida de grande valia que contribuíram sobremaneira na formação de meu
caráter.
Um agradecimento especial a professora Renata Souza pela orientação neste trabalho, bem
como pela participação valiosa em minha formação acadêmica e prossional. Agradeço a ela
pelos ensinamentos, conselhos e pela motivação mesmo nos momentos mais difíceis.
Aos membros da banca examinadora pelas contribuições e direcionamentos que vieram no
intuito de enriquecer este trabalho.
Aos meus companheiros de doutorado Marco, Jeísa, Reinaldo, Luciana, Carlos e Germano
pela nossa grande amizade e pelas discussões que resultaram em melhorias neste trabalho.
Ao meu parceiro de pesquisa e amigo Bruno Pimentel pela grande contribuição nas discussões técnicas e publicações durante o doutorado.
Aos amigos Daniella, César, Iana Daya, Petrônio, Mary Roberta, Alex, Ianna, José Antônio,
Luciana, Marcelo Siqueira e Kléber pelo grande incentivo e pela amizade cultivada entre nós.
A todos os outros amigos que contribuíram de maneira direta ou indireta para realização
deste trabalho.
RESUMO
A Análise de dados simbólicos (ADS) ou
Symbolic Data Analysis é uma nova abordagem na área
de descoberta automática de conhecimentos que visa desenvolver métodos para dados descritos
por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade.
O objetivo deste trabalho é estender métodos de agrupamento clássicos para dados simbólicos
intervalares baseados em funções de
kernel.
A aplicação de funções de
kernel
tem sido am-
plamente utilizado na classicação não supervisionada para dados clássicos e apresenta bons
resultados quando o conjunto apresenta uma disposição não-linear dos dados.
No entanto,
na literatura de ADS ainda necessita de métodos para identicar grupos não lineares.
hard )
trabalho engloba os paradigmas de agrupamento rígido (
agrupamentos utilizando as funções de
kernel
e difuso (
fuzzy ),
Este
e realiza tais
em um espaço de alta dimensão, conhecido como
espaço de características. Os métodos propostos neste trabalho consideram duas variantes comumente utilizadas em abordagens de
kernel, onde uma considera que o protótipo dos grupos
está denido neste espaço de características de alta dimensão e outra que considera o protótipo
denido no espaço original de entradas. Os métodos propostos são comparados com variações
do método K-médias existentes na literatura de ADS através de experimentos realizados com
dados simulados e dados reais intervalares fazendo uso do experimento Monte Carlo e métricas
estatísticas que evidenciam o desempenho superior dos métodos propostos.
Palavras-chave:
Análise de Dados Simbólicos, Agrupamento, Kernel, K-médias, Dados Sim-
bólicos do tipo Intervalo
ABSTRACT
Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that aims
to provide suitable methods for data described through multi-valued variables, where there are
sets of categories, intervals, or weight (probability) distributions. The objective of this work
is to extend classical clustering methods for symbolic interval data based on kernel functions.
The application of kernel functions have been widely used in unsupervised classication for data
classics and gives good results when the data set is presented in non-linear shapes. However,
the literature still needs ADS methods for identifying non-linear groups. This work includes
the hard and fuzzy clustering paradigms, and performs them using the kernel functions in a
high dimensional space, called feature space. The methods proposed in this paper considers two
approaches commonly used in kernel methods, where one, clustering in feature space, is made
by mapping each pattern using the non-linear function and then computing centroids in feature
space and another one look for centroids in input space. The proposed methods are compared
with K-means adaptive methods existing literature ADS through experiments with simulated
data and real data interval of the experiment using Monte Carlo and statistical metrics that
show a better performance of the proposed methods.
Keywords:
Symbolic Data Analysis, Clustering, Kernel, K-means, Interval data, Non-linear.
SUMÁRIO
Capítulo 1 Introdução
3
1.1
Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2
Organização da Tese
8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Capítulo 2 Fundamentação Teórica
2.1
2.2
10
Análise de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.1.1
Medidas de Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.1.2
Métodos para Agrupamento de Dados
. . . . . . . . . . . . . . . . . . .
14
2.1.3
K-médias e suas extensões . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.1.3.1
K-médias
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.1.3.2
c-médias Difuso . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.1.3.3
Kernel K-médias
. . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.1.3.4
Kernel Difuso c-médias . . . . . . . . . . . . . . . . . . . . . . .
23
Análise de Agrupamento para Dados Simbólicos . . . . . . . . . . . . . . . . . .
23
2.2.1
Tabela de Dados Simbólicos
24
2.2.2
Tipos de Variáveis Simbólicas
2.2.3
Métodos para Agrupamento de Dados Simbólicos
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
27
. . . . . . . . . . . . .
28
2.2.3.1
Métodos Hierárquicos
. . . . . . . . . . . . . . . . . . . . . . .
29
2.2.3.2
Métodos Particionais . . . . . . . . . . . . . . . . . . . . . . . .
30
Capítulo 3 Métodos de Agrupamento baseados em funções Kernel para Dados
Simbólicos Intervalares
36
Sumário
x
Kernel
3.1
Funções de
3.2
Métodos baseados em
3.3
para Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . .
kernel
para particionamento no espaço de características .
39
3.2.1
Método K-médias (MKM-EC) . . . . . . . . . . . . . . . . . . . . . . . .
40
3.2.2
Método c-médias difuso (McM-EC) . . . . . . . . . . . . . . . . . . . . .
41
Métodos baseados em
Kernel
para particionamento no espaço de entrada . . . .
43
3.3.1
Método K-médias (MKM-EE) . . . . . . . . . . . . . . . . . . . . . . . .
44
3.3.2
Método c-médias difuso (McM-EE)
47
. . . . . . . . . . . . . . . . . . . . .
Capítulo 4 Apresentação e Análise dos Resultados
4.1
37
52
Cálculo do Índice de Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.1.1
Índice Corrigido de Rand (CR)
. . . . . . . . . . . . . . . . . . . . . . .
53
4.1.2
Índice de Davies e Bouldin (DB)
. . . . . . . . . . . . . . . . . . . . . .
54
4.2
Considerações sobre o Kernel Gaussiano
. . . . . . . . . . . . . . . . . . . . . .
54
4.3
Experimentos e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
4.3.1
56
Conjunto de Dados Sintéticos
4.3.1.1
Análise dos resultados para as funções de
componentes
4.3.1.2
. . . . . . . . . . . . . . . . . . . . . . . .
xo . . . . . . . . . . .
63
Resultados dos métodos de agrupamento considerando o parâmetro
sigma
xo e calculado
. . . . . . . . . . . . . . . . . . . . . . .
68
Resultados para os métodos de agrupamento com abordagem
difusa (
4.3.2
61
Resultados dos métodos de agrupamento com abordagem rígida
hard ) considerando o parâmetro sigma
4.3.1.4
de uma e duas
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
(
4.3.1.3
kernel
fuzzy )
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conjunto de Dados Reais do Tipo Intervalo
72
. . . . . . . . . . . . . . . .
75
4.3.2.1
Conjunto de Dados: Agaricus . . . . . . . . . . . . . . . . . . .
75
4.3.2.2
Conjunto de Dados: Fluxos de Água
. . . . . . . . . . . . . . .
77
4.3.2.3
Conjunto de Dados: Temperatura das Cidades . . . . . . . . . .
79
4.3.2.4
Conjunto de Dados: Carros
82
. . . . . . . . . . . . . . . . . . . .
Sumário
xi
4.3.2.5
Conjunto de Dados: Peixes
. . . . . . . . . . . . . . . . . . . .
Capítulo 5 Considerações Finais e Trabalhos Futuros
5.1
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
86
88
Referências Bibliográcas
90
Apêndice A Resultados Complementares
99
Apêndice B Testes de Hipóteses
103
LISTA DE FIGURAS
1.1
Conjunto de Dados não linear descrito por duas variáveis intervalares
. . . . . .
7
1.2
Conjunto de Dados não linear descrito por três variáveis intervalares . . . . . . .
7
2.1
Mapeamento do espaço de entradas para o espaço de características
4.1
Conjunto de Dados 1 do tipo Intervalo com classes de tamanho e forma diferentes 58
4.2
Conjunto de Dados 2 do tipo Intervalo com quatro classes
4.3
Conjunto de Dados 3 do tipo Intervalo com três classes dispostos de maneira não
. . . . . . .
. . . . . . . . . . . .
20
59
linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.4
Conjunto de Dados 4 do tipo Intervalo com quatro classes
. . . . . . . . . . . .
60
4.5
Conjunto de Dados 5 do tipo Intervalo com quatro classes
. . . . . . . . . . . .
60
4.6
DB
Kernel
x sigma (σ ) para conjunto de dados 1 utilizando método MKM-EC .
61
4.7
DB
Kernel
x sigma (σ ) para conjunto de dados 2 utilizando método MKM-EC .
62
4.8
DB
Kernel
x sigma (σ ) para conjunto de dados 3 utilizando método MKM-EC .
62
4.9
DB
Kernel
x sigma (σ ) para conjunto de dados 4 utilizando método MKM-EC .
62
4.10 DB
Kernel
x sigma (σ ) para conjunto de dados 5 utilizando método MKM-EC .
63
4.11 Conjunto de Dados 2 com as variações de intervalo. . . . . . . . . . . . . . . . .
65
Kernel
x sigma (σ ) para conjunto de dados 1 utilizando método MKM-EC .
69
4.13 Família dos Cogumelos Agaricus . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
4.14 Conjunto de dados: Temperatura das cidades
81
4.12 DB
. . . . . . . . . . . . . . . . . . .
LISTA DE TABELAS
Kernel. .
2.1
Exemplos de Funções de
. . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Tabela com dados clássicos (BILLARD; DIDAY, 2006)
. . . . . . . . . . . . . .
25
2.3
Descrição dos dados da Tabela 2.2 . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.4
Tabela de Dados Simbólicos (Descrições dos conceitos
4.1
Resultado do Índice CR para os métodos de agrupamento baseado em
wu )
. . . . . . . . . . . .
Resultado do Índice CR para os métodos de agrupamento baseado em
Resultado do Índice CR para os métodos de agrupamento baseado em
Resultado do Índice CR para os métodos de agrupamento baseado em
Resultado do Índice CR para os métodos de agrupamento baseado em
Resultado do Índice CR para os métodos de agrupamento baseado em
Resultado do Índice CR para os métodos de agrupamento baseado em
Resultado do Índice CR para os métodos de agrupamento baseado em
70
Kernel
para abordagem DBSig: Conjunto de Dados 4 com 2 classes. . . . . . . . . . . .
4.8
67
Kernel
para abordagem DBSig: Conjunto de Dados 3 com 3 classes. . . . . . . . . . . .
4.7
67
Kernel
(rígido) e métodos adaptativos (a direita): Conjunto de Dados 5 com 2 classes. .
4.6
66
Kernel
(rígido) e métodos adaptativos (a direita): Conjunto de Dados 4 com 2 classes. .
4.5
64
Kernel
(rígido) e métodos adaptativos (a direita): Conjunto de Dados 3 com 3 classes. .
4.4
64
Kernel
(rígido) e métodos adaptativos (a direita): Conjunto de Dados 2 com 4 classes. .
4.3
26
Kernel
(rígido) e métodos adaptativos (a direita): Conjunto de Dados 1 com 4 classes. .
4.2
21
70
Kernel
(rígido): Conjunto de Dados 2 com 4 classes. . . . . . . . . . . . . . . . . . . . .
71
LISTA DE TABELAS
4.9
xiv
Resultado do Índice CR para os métodos de agrupamento baseado em
Kernel
(rígido): Conjunto de Dados 3 com 3 classes. . . . . . . . . . . . . . . . . . . . .
4.10 Resultado do Índice CR para os métodos de agrupamento baseado em
71
Kernel
(rígido): Conjunto de Dados 5 com 2 classes. . . . . . . . . . . . . . . . . . . . .
71
4.11 Resultado do Índice CR para os métodos de agrupamento difuso baseado em
Kernel
e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 2
com 4 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.12 Resultado do Índice CR para os métodos de agrupamento difuso baseado em
Kernel
e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 3
com 3 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.13 Resultado do Índice CR para os métodos de agrupamento difuso baseado em
Kernel
e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 4
com 2 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.14 Resultado do Índice CR para os métodos de agrupamento difuso baseado em
Kernel
e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 5
com 2 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.15 Cogumelos da família
Agaricus
. . . . . . . . . . . . . . . . . . . . . . . . . . .
74
76
4.16 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados
Agaricus.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
4.17 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de
Dados Agaricus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.18 Fluxo de Água da cidade de Barcelona
. . . . . . . . . . . . . . . . . . . . . . .
77
78
4.19 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados
Fluxos de Água. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
4.20 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de
Dados Fluxos de Água. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
4.21 Valores mínimo e máximo de temperatura de 37 cidades (em graus centígrado) .
81
LISTA DE TABELAS
xv
4.22 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados
Temperatura das Cidades.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
4.23 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de
Dados Temperatura das Cidades.
. . . . . . . . . . . . . . . . . . . . . . . . . .
4.24 Conjunto de Dados Carros com 8 variáveis do tipo intervalo
. . . . . . . . . . .
82
82
4.25 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados
Carros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
4.26 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de
Dados Carros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.27 Conjunto de dados de Peixes descritos por 13 variáveis intervalares.
. . . . . . .
83
84
4.28 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados
Peixes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
4.29 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de
Dados Peixes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1
Resultado complementares do Índice DB referente ao gráco da Figura 4.6: Conj.
de Dados 1.
A.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Resultado complementares do Índice DB referente ao gráco da Figura 4.9: Conj.
de Dados 4.
A.5
99
Resultado complementares do Índice DB referente ao gráco da Figura 4.8: Conj.
de Dados 3.
A.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resultado complementares do Índice DB referente ao gráco da Figura 4.7: Conj.
de Dados 2.
A.3
84
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Resultado complementares do Índice DB referente ao gráco da Figura 4.10:
Conj. de Dados 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
A.6
Partições geradas para o conjunto de dados Temperatura das cidades. . . . . . . 101
A.7
Partições geradas para o conjunto de dados Agaricus
A.8
Partições geradas para o conjunto de dados Carros.
. . . . . . . . . . . . . . . 101
. . . . . . . . . . . . . . . . 102
LISTA DE TABELAS
1
A.9
Partições geradas para o conjunto de dados Peixes.
B.1
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.1
B.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.8
B.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.7
B.8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.6
B.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.5
B.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.4
B.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.3
B.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.2
B.3
. . . . . . . . . . . . . . . . 102
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B.10 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.10
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.11 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.11
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.12 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.12
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.13 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Lista de Tabelas
2
B.14 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela
4.14
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
CAPÍTULO 1
INTRODUÇÃO
Nos últimos anos com o crescente avanço nas tecnologias de armazenamento de dados, na velocidade e capacidade dos sistemas, e uma melhoria considerável nos sistemas de gerenciamento
de banco de dados, tem possibilitado a geração de bases de dados a partir desta grande quantidade de dados. Estima-se que a cada 20 meses as empresas no mundo dobrem o volume de
dados acumulados em seus computadores e dispositivos de armazenamento. As bases de dados
nas empresas da administração pública ou da iniciativa privada são praticamente onipresentes
e aumentam de volume em um ritmo elevado (DIDAY; NOIRHOMME-FRAITURE, 2008).
A mineração desses dados no intuito de extrair conhecimento útil a serem empregados na
tomada de decisões tornou-se um fator ainda mais relevante.
No entanto, em virtude desse
crescente volume de dados, os métodos tradicionais de análise de dados têm se tornado inapropriados, pois não conseguem analisar o conteúdo das informações com a nalidade de
obter conhecimentos importantes. A necessidade de transformação desse volume de dados armazenados em informações signicativas é bastante clara, porém sua análise ainda é lenta e
dispendiosa.
Em aplicações de tomada de decisão é frequentemente necessário levar em consideração
a imprecisão, incerteza ou variabilidade presente nos dados para representar a informação
disponível. Considere, por exemplo, um paciente que tem sua pressão arterial acompanhada
pelo seu médico. Um paciente saudável pode ter o valor de sua pressão oscilando no intervalo
[115, 118].
Um outro paciente, também saudável, poderia ter sua pressão oscilando no intervalo
[114, 116].
Uma análise clássica utilizando o ponto médio dos intervalos perderia a informação
sobre a variação de pressão no estado saudável para cada paciente.
Em outra situação, uma companhia de seguros de saúde possui um banco de dados com
milhares de informações a respeito das consultas de seus segurados, onde cada entrada desse
banco armazena: o tipo de especialista consultado, o local do exame, os exames realizados, os
4
medicamentos solicitados, etc. Entretanto, a seguradora pode não estar interessada em uma
consulta em especial, mas em todas as consultas realizadas por um dado cliente. Neste caso,
todas as consultas realizadas pelo cliente podem ser agregadas, produzindo dados simbólicos.
Assim, seria extremamente atípico que o peso (kg) desse determinado cliente, em todas as suas
consultas, fosse igual a
[68kg, 73kg].
70kg .
No entanto, poderíamos observar que seu peso oscilou no intervalo
Em um outro cenário, poderíamos supor que um banco não estaria interessado no
valor monetário na conta corrente de um certo indivíduo, mas na variação desse valor ao longo
de um ano.
Observe que, nesses casos, a representação clássica de dados não é capaz de representar essas
nuances e, por isso, outros tipos de representação de dados são necessárias. A representação
de conceitos ou fenômenos do mundo real a partir de dados pontuais que representam valores
únicos, pode levar à perda de informação. Tradicionalmente, vetores de valores reais têm sido
usados para modelar características em um domínio especíco.
do mundo real sejam descritas de forma tabular considerando
n
Fazendo com que situações
indivíduos descritos por
m
variáveis. Diante desse contexto, é necessário um novo tipo de análise de dados que nos permita
representar a complexidade presente na realidade, permitindo a representação das variações
internas e incertezas presentes na estrutura dos dados.
Os dados simbólicos são adequados para lidar com dados imprecisos, resultantes de medidas
com imprecisão relativa ou estimadas por intervalos de conança, limites de um conjunto de
possíveis valores de um item ou variação da extensão de uma variável através do tempo ou
através da redução de conjuntos de dados em um número reduzido de pequenos grupos de
informação. Esses tipos de dados são objetos de estudo, principalmente, da Análise de Dados
Simbólicos (ADS) (BOCK; DIDAY, 2000).
Na análise de dados simbólicos (DIDAY; NOIRHOMME-FRAITURE, 2008) o conhecimento extraído a partir dos conjunto de dados, é representado por dados mais complexos,
chamados de dados simbólicos, uma vez que permitem levar em conta variação e/ou incerteza
presente nos dados.
Os dados simbólicos são descritos por variáveis multivaloradas que po-
dem não somente assumir um valor numérico ou categórico, mas um conjunto de categorias,
intervalos ou distribuições de pesos. A ADS fornece não somente os instrumentos adequados
para representar e analisar dados agregados, como também a possibilidade de modelar e extrair
1.1 Motivação
5
conceitos presentes no dados.
A análise de dados simbólicos tem sido uma promissora abordagem para aplicações em
tratamento de imagens, comércio eletrônico, ciências biológicas, perl de consumidores, etc
(DIDAY; NOIRHOMME-FRAITURE, 2008). A intenção da ADS é estender os métodos tradicionais com dados clássicos para métodos com dados simbólicos através da generalização ou
desenvolvimento de métodos exploratórios, estatísticos e representações grácas para esses dados (BOCK; DIDAY, 2000). Esta Tese está inserida neste contexto de adaptação de técnicas
clássicas para a Análise de Dados Simbólicos.
1.1
MOTIVAÇÃO
A sociedade humana desde os primórdios de sua existência fez uso de algum processo de
classicação ao longo da história de seu desenvolvimento (ANDERBERG, 1973).
Com isso,
é bastante comum que em um conjunto de dados de grande escala surja a necessidade de
classicá-los ou agrupá-los dentro de um conjunto de categorias. No intuito de aprender sobre um novo objeto ou compreender um novo fenômeno, as pessoas sempre tentam procurar
características que descrevem estes elementos. Em seguida, comparam com outros objetos ou
fenômenos conhecidos, baseados em alguma similaridade ou proximidade entre eles, seguindo
certos padrões ou regras.
Assim, o agrupamento de dados tornou-se um assunto muito im-
clustering )
portante e a análise de agrupamento (
tem sido utilizada em diversos domínios de
aplicações como mineração de dados, reconhecimento de padrões, bioinformática e assim por
diante (JAIN; MURTY; FLYNN, 1999) (JAIN, 2010).
A análise de agrupamento é uma técnica exploratória multivariada que se propõe a encontrar classes homogêneas a partir de um conjunto de objetos (indivíduos) (JAIN; MURTY;
FLYNN, 1999). Um dos mais populares algoritmos de agrupamento é o K-Médias, no qual grupos homogêneos são identicados, minimizando o erro do agrupamento denido como a soma
das distâncias euclidianas quadradas entre cada conjunto de dados pontuais e os correspondentes centros dos aglomerados.
Diversas extensões do algoritmo K-médias foram propostas
com diferentes enfoques (KAUFMAN; ROUSSEEUW, 2005) (HONG; KWONG, 2009) (JAIN,
2010). A simplicidade desses algoritmos de agrupamento é uma característica importante, assim
1.1 Motivação
6
como a grande variedade de problemas de particionamento não-supervisionado para os quais
são usados (JAIN, 2010).
Um dos grandes desaos em análise de agrupamento está em realizar a separação das
classes quando os dados estão distribuídos de maneira arbitrária. De um modo geral, quando
isto ocorre, costuma-se dizer que os dados são não-linearmente separáveis. O método K-médias
apresenta resultados insatisfatórios neste tipo de cenário, o que motivou a evolução de outros
métodos de agrupamento que apresentam maior eciência na separação destes tipos de grupos.
Girolami (GIROLAMI, 2002) desenvolveu um algoritmo capaz de produzir separações
não lineares entre grupos, transformando o espaço de entradas em um espaço de alta dimensão
e então executar o agrupamento neste novo espaço; este mapeamento para o novo espaço de
alta dimensão é realizado através de funções de
Kernel.
Este agrupamento baseado em
ganhou grande importância e diversos trabalhos com paradigmas rígido (
Kernel
hard ) e difuso (fuzzy )
têm sido introduzidos com esse propósito como os encontrados em (ZANG D. Q. E CHEN,
2003) (TAN; CHEN; ZHANG, 2004) (DHILLON; GUAN; KULIS, 2004) (KIM et al., 2005)
(AWAN; SAP, 2006) (FILIPPONE et al., 2008) (TZORTZIS; LIKAS, 2009).
Kernel
O métodos de
também têm sido aplicados em outras áreas como para estimação de densidade e análise
discriminante (GHOSH, 2008).
Com relação aos métodos de agrupamento para dados simbólicos, a ADS tem fornecido
técnicas para o agrupamento de dados simbólicos do tipo intervalo, principalmente no caso dos
algoritmos de agrupamento dinâmicos com distâncias adaptativas, que são capazes de reconhecer grupos de formas e tamanhos diferentes. Estes métodos de agrupamento utilizam distâncias
que mudam a cada iteração, e podem ser a mesma para todos os grupos ou não (distância
adaptativa única ou por classe). De Carvalho e Lechevalier (CARVALHO; LECHEVALLIER,
2009b) apresentaram métodos de agrupamento para os dados simbólicos do tipo intervalo para
distância adaptativa única com as medidas
City-Block e Hausdor.
Além disso, De Carvalho e
Lechevalier (CARVALHO; LECHEVALLIER, 2009a) propuseram métodos de particionamento
dinâmico para os intervalos com base em distâncias adaptativas quadráticas.
Mais recen-
temente, em (CARVALHO; SOUZA, 2010), foram propostos métodos de reconhecimento de
padrões não supervisionados para dados simbólicos mistos com base na metodologia de agrupamento dinâmico com distância adaptativa única e por classe.
1.1 Motivação
7
Figura 1.1.
Figura 1.2.
Conjunto de Dados não linear descrito por duas variáveis intervalares
Conjunto de Dados não linear descrito por três variáveis intervalares
Embora estes recentes trabalhos da literatura da análise de dados simbólicos indique avanços
nos métodos de agrupamento para intervalo, os métodos de agrupamento para dados simbólicos
existentes não são capazes de separar da maneira desejada grupos não lineares no espaço de
entrada.
Por exemplo, a Figura 1.1 exibe um conjunto de dados descrito por duas variáveis
intervalares. A Figura 1.2 exibe um conjunto de dados com espécies de uma família de cogumelos
chamadas
agaricus
e cada espécie é descrita por três atributos do tipo intervalo: largura do
píleo, espessura da estipe e largura dos esporos. Nota-se que em ambas as guras estão presentes
grupos de natureza não linear no espaço de entrada.
Para agrupar os conjuntos de dados representados pelas guras 1.1 e 1.2, são necessários
métodos com habilidade de encontrar hiperplanos capazes de separar esses dados. O uso de
Kernel
permite realizar tal separação através do mapeamento implícito do espaço de dados
originais em um espaço de alta dimensionalidade denominado espaço de características. Como
1.2 Organização da Tese
8
mencionado no parágrafo anterior, mesmo com os recentes avanços nos métodos de agrupamento
para dados simbólicos, estes ainda apresentam limitações quando se trata de separação de
grupos não lineares no espaço de entrada. Por esta razão, o principal objetivo deste trabalho é
contribuir com a literatura de ADS através da extensão de métodos de agrupamento para dados
simbólicos intervalares através do uso de funções
Kernel.
Especicamente esta tese apresentará
duas versões do método K-médias e do método difuso c-médias aplicadas a dados simbólicos
intervalares e fazendo uso de funções de
1.2
Kernel
para identicação de grupos não lineares.
ORGANIZAÇÃO DA TESE
Além deste capítulo, nesta tese é apresentada em mais quatro capítulos listados a seguir.
Capítulo 2
Este capítulo se divide em duas grandes seções sobre análise de agrupamento para dados
clássicos e para dados simbólicos.
Na primeira seção são apresentadas algumas denições e
algoritmos de agrupamento com uma maior ênfase nas extensões do método K-médias.
A
seção seguinte de análise de agrupamento para dados simbólicos apresenta a tabela de dados
simbólicos, alguns tipos de dados simbólicos existentes e uma breve descrição dos métodos de
agrupamento (particionais e hierárquico) da análise de dados simbólicos.
Capítulo 3
Neste capítulo são introduzidos os métodos de agrupamento para o particionamento de
conjunto de dados simbólicos do tipo intervalo como extensões do método K-médias utilizando
funções de
Kernel.
Capítulo 4
Este capítulo apresenta os resultados dos experimento do processo de agrupamento fornecidos pelos métodos propostos utilizando conjuntos de dados sintéticos e reais para intervalos.
1.2 Organização da Tese
9
Capítulo 5
Neste capítulo, são apresentadas as considerações nais desta tese, bem como os futuros
trabalhos que poderão ser realizados a partir das ideias aqui apresentadas.
CAPÍTULO 2
FUNDAMENTAÇÃO TEÓRICA
Neste capítulo é realizada uma revisão de análise de agrupamento para dados clássicos onde
são apresentados conceitos relacionados ao contexto deste trabalho e métodos de agrupamento,
e em seguida é apresentada brevemente a análise de agrupamento para dados simbólicos.
2.1
ANÁLISE DE AGRUPAMENTO
Uma das mais básicas habilidades dos seres vivos envolve o agrupamento de objetos similares
para produzir uma classicação. Desde os primórdios do seu surgimento, o homem, por exemplo,
obteve habilidades para identicar que muitos objetos possuíam certas propriedades, tais como
a usabilidade de ferramentas, a ferocidade de animais, entre outros. Desta forma, surge a ideia
de agrupamento (
clustering ), no qual os objetos são reunidos de modo que a semelhança entre
eles é maior do que qualquer outra classe existente.
A análise de agrupamento visa agrupar elementos de dados baseando-se na similaridade
entre eles.
Os grupos são determinados de forma a obter-se homogeneidade dentro de cada
grupo e heterogeneidade entre eles. A necessidade de classicar elementos em grupos por suas
características está presente em várias áreas do conhecimento, como nas ciências biológicas,
ciências sociais e comportamentais, ciências da terra, medicina, informática, entre outras. O
resultado nal do estudo de classicação é normalmente uma partição de um conjunto de
objetos em classes disjuntas tal que existe uma similaridade entre objetos de uma mesma classe.
Dependendo do tipo de tratamento a ser realizado nos objetos pode resultar em diferentes visões
do processo de classicação (GORDON, 1999).
Denomina-se agrupamento, a classicação não supervisionada de padrões (observações, objetos, itens, pontos num espaço multidimensional ou vetores de atributos ou de medidas) em
grupos (
clusters ou classes).
É uma das técnicas utilizadas em análise exploratória de dados, na
2.1 Análise de Agrupamento
11
qual o analista tenta familiarizar-se com os dados e descobrir estruturas de padrões intrínsecos
aos dados.
É importante entender a diferença entre análise de agrupamento (classicação não supervisionada) e análise discriminante (classicação supervisionada). Na classicação supervisionada,
há o fornecimento dos padrões e seus rótulos; o problema é então rotular um novo padrão para
o qual o rótulo não foi informado. Tipicamente, os padrões rotulados são utilizados para aprender a descrição das classes (fase de treinamento) e esta informação aprendida, por sua vez, é
usada para rotular um novo padrão. No caso da classicação não supervisionada, como já mencionado, o problema é organizar em grupos um conjunto de padrões não rotulados de modo que
os grupos tenham um signicado relevante. Sob certo ponto de vista, rótulos estão presentes
no processo de agrupamento, cada grupo formado poderia ser entendido como um rótulo, mas
estes rótulos são obtidos a partir dos próprios dados.
O objetivo do uso de métodos de agrupamento é a obtenção de uma abstração de dados,
ou seja, uma representação simples e compacta de um conjunto de dados (JAIN; MURTY;
FLYNN, 1999). Tanto as máquinas quanto as pessoas se beneciam desta representação seja
no processamento eciente, seja na compreensão da estrutura nos dados. O agrupamento é um
processo subjetivo cuja solução possível reete o conhecimento que se tem sobre os dados. O
resultado deve atender a uma aplicação denida previamente (JAIN; MURTY; FLYNN, 1999).
É por esta razão que agrupar não é uma tarefa simples e não possui um algoritmo de uso
geral. As máquinas têm desempenho menor ou igual ao dos humanos quando se trata da análise
de conjuntos de dados com uma ou duas dimensões. Entretanto, os problemas reais frequentemente envolvem muitas dimensões, situação esta em que as máquinas conseguem acessar mais
ecientemente a estrutura embutida nos conjuntos de dados. Para revelar a estrutura característica dos diferentes conjuntos de dados, há grande número de métodos e estratégias como
apresentado em (JAIN; MURTY; FLYNN, 1999).
As metodologias de agrupamento recebem diversas nomenclaturas, terminologias e suposições nas diversas áreas em que encontram aplicação.
Em todas elas, os agrupamentos
possibilitam a exploração das inter-relações dos dados através da representação de sua estrutura conforme o método escolhido.
A observação destas representações quando possível, é
avaliada internamente, externamente ou de forma relativa em relação aos métodos utilizados e
2.1 Análise de Agrupamento
ao conhecimento
a priori.
12
A estrutura verdadeira dos dados se torna cada vez mais a acessível
quanto mais informações o especialista obtiver.
Seguindo a intuição comum aos humanos (CHEN et al., 2009), muitos métodos se baseiam
na similaridade para realizar a partição dos dados em grupos. Busca-se a melhor partição com
a nalidade de que a similaridade seja maior dentro e não entre os grupos. Há muitas medidas
que expressam a similaridade entre dois pontos (ou vetores de entrada) (CHEN et al., 2009),
sendo que a maioria é sensível à distribuição espacial dos dados e à faixa de valores encontrados
nos vetores de entrada. Por esse motivo, frequentemente os dados devem passar por algum tipo
de pré-processamento, genericamente denominado de normalização ou padronização, que, de
modo geral, consiste em alterar a faixa de valores em cada atributo. Além da padronização, há
a possibilidade de avaliar a semelhança entre as amostras utilizando medidas apropriadas para
o cálculo da distância de modo coerente com a diferença de magnitude e distribuições entre os
valores dos atributos, ou ainda, o tipo desses últimos.
2.1.1
Medidas de Similaridade
Os algoritmos de agrupamento de dados identicam a semelhança entre os objetos de um
conjunto e sob algum critério determinam em que grupo cada um destes deve ser alocado. Tal
semelhança é calculada através da medição de similaridade entre os objetos.
A similaridade representa que quanto mais próximo dois indivíduos, mais elevado é o valor
da medida de similaridade entre eles. Enquanto que na dissimilaridade, quanto mais próximos
dois indivíduos, menor é o valor da medida de dissimilaridade entre eles.
A cada objeto que se quer agrupar, geralmente é associado um vetor de
tencente ao espaço
este objeto.
<n
n
dimensões per-
onde cada dimensão representa uma das características que descrevem
Deste modo, as medidas de similaridade dos objetos são calculadas em função
destes vetores de características.
Em geral, os algoritmos de agrupamento operam com os dados organizados numa matriz
de dados
n
x
p,
conforme ilustrado a seguir:
2.1 Análise de Agrupamento
13

x11 · · · x1f · · · x1p
.
.
 ..
.
.
.
.
 .

x
·
·
·
x
 i1
if
 .
.
.
.
.
 ..
.
.
.
.
.
.
.
.
· · · xip
.
.
.
.
.
.







xn1 · · · xnf · · · nip
Esta matriz é a tabela dos dados de treinamento. Cada linha desta tabela representa as
coordenadas de um i-ésimo objeto. Cada coluna representa os valores de um atributo assumidos
por cada um dos
n
objetos.
Muitos algoritmos de agrupamento organizam os dados numa matriz de dissimilaridade,
onde o elemento da coluna
entre os objetos
i
e
j
e linha
i
da matriz é o número
d(i, j)
representando a distância
j.







Para que uma função
0
d(2, 1)
0
d(3, 1) d(3, 2)
.
.
.
.
.
.

0
.
.
.
d(n, 1) d(n, 2) · · · · · · 0






d seja uma distância é necessário e suciente que as seguintes condições
sejam satisfeitas, para quaisquer objetos
1.
d(i, j) ≥ 0
2.
d(i, i) = 0
3.
d(i, j) = d(j, i)
4.
d(i, j) ≥ d(i, k) + d(k, j)
i, j , k :
(simetria)
A propriedade (1) implica que todos os elementos da matriz de dissimilaridade são nãonegativos; a propriedade (2) implica que a diagonal da matriz de dissimilaridade é formada por
zeros. A propriedade (3), por sua vez, implica que a matriz de dissimilaridade é simétrica com
relação à diagonal. A propriedade (4) diz respeito a desigualdade triangular. Assim, qualquer
função que satisfaz às quatro propriedades acima é chamada de distância.
Uma das medidas mais utilizadas para o cálculo da similaridade entre os objetos é a Distância Euclidiana (JAIN; DUBES, 1988). A Distância Euclidiana é um caso particular da medida
2.1 Análise de Agrupamento
14
de Minkowski. A distância de Minkowski, para os objetos
xi
e
xj
com
N
dimensões é denida
por:
d(xi , xj ) = (
N
X
1
|xik − xjk |p ) p
(2.1)
k=1
E a Distância Euclidiana, onde
p=2
é denida por:
v
u N
uX
d(xi , xj ) = t (xik − xjk )2
(2.2)
k=1
Uma limitação apresentada pelo uso da distância Euclidiana, é a tendência de que as características que tenham valores elevados se tornem dominantes. Uma solução para este problema
consiste na normalização dos valores das características, fazendo com que a norma Euclidiana
de cada objeto
x
seja igual a 1.
Existem, na literatura, referências ao uso de outras medidas de similaridade ou distância
usadas no agrupamento de dados:
distância de Manhattan ou City-block, que é um outro
caso particular da distância de Minkowski, onde
p = 1
(KAUFMAN; ROUSSEEUW, 1990)
(BOLSHAKOVA; AZUAJE, 2002) (FILIPPONE et al., 2008), distância de Mahalanobis (JING
L.; HUANG, 2006), Medida Correlacional de Pearson ((KAUFMAN; ROUSSEEUW, 1990) e
Divergência de Bregman (BANERJEE et al., 2005), dentre outras medidas.
2.1.2
Métodos para Agrupamento de Dados
Os algoritmos de agrupamento de dados geralmente são classicados de acordo com a abordagem utilizada para a geração de grupos e a forma como são apresentados os resultados (JAIN;
MURTY; FLYNN, 1999) (TAN; STEINBACH; KUMAR, 2005). Existem muitos algoritmos de
agrupamento disponíveis na literatura. A escolha de um algoritmo depende tanto dos tipos de
dados disponíveis quanto da aplicação desejada. Se a análise de agrupamento for usada como
uma ferramenta para exploração de dados, vários algoritmos podem ser executadas sobre o
mesmo conjunto de dados a m de avaliar os diferentes resultados de cada algoritmo e desta
forma, comparando os resultados, descobrir que informações ocultas estão embutidas nos dados.
É importante salientar que não existe uma técnica universal de agrupamento que seja capaz
de identicar grupos em qualquer tipo de dados. Os conjuntos de dados apresentam diferentes
características que determinam o comportamento das diferentes técnicas.
Três aspectos são
2.1 Análise de Agrupamento
15
determinantes: o tamanho do conjunto de dados, o número de características que cada dado
possui e a natureza geométrica da sua separabilidade. As diferentes técnicas de agrupamento
devem considerar estes aspectos.
A classicação de algoritmos de agrupamento não é uma tarefa direta ou canônica. Diversos
trabalhos na literatura categorizam os algoritmos de agrupamento (JAIN; MURTY; FLYNN,
1999) (GORDON, 1999) (XU; WUNSCH D., 2005).
A divisão mais unanimamente aceita é
classicar os algoritmos em métodos em duas categorias principais:
hierárquicos e particionais
(XU; WUNSCH D., 2005).
Os métodos hierárquicos consistem em uma série de sucessivos agrupamentos ou sucessivas
divisões de elementos. A partição gerada por métodos hierárquicos pode ser representada por
um diagrama bidimensional denominado dendrograma.
Dendrogramas são estruturas seme-
lhantes às árvores, onde os grupos estão organizados em níveis. Um grupo localizado em um
nível superior contém grupos que estão no nível inferior imediato. O nível mais baixo de um
dendrograma, as folhas das árvore, corresponde aos objetos da coleção. O nível mais alto, a raiz
da árvore, corresponde à coleção completa. Os níveis intermediários correspondem aos grupos
formados e como estão relacionados. Se um dendrograma for cortado em um determinado nível,
eliminando-se os relacionamentos entre os grupos aninhados até a raiz, obtém-se um conjunto
de grupos particionados (TAN; STEINBACH; KUMAR, 2005).
Os métodos hierárquicos podem ser subdivididos em métodos aglomerativos e divisivos. Nos
métodos aglomerativos, cada objeto inicialmente corresponde a um grupo, nos passos seguintes,
os dois grupos mais próximos são combinados em um novo grupo, desta forma, o número de
agrupamentos será reduzido geralmente em uma unidade em cada passo. As técnicas pertencentes aos processos aglomerativos, têm como objetivo nal a redução dos dados originais a
um único agrupamento, incluindo todos os indivíduos (GORDON, 1999). Nos métodos divisivos, deve-se considerar inicialmente um grande agregado, contendo todas as observações. Nos
passos subsequentes, as observações mais distintas entre si, são separadas, formando agrupamentos menores. Repete-se esse procedimento até que cada observação por si própria constitua
um agrupamento (SOUZA, 2003).
Os métodos particionais organizam grupos disjuntos dos objetos do conjunto de dados,
sem criar relacionamentos entre os grupos, como são criados nos algoritmos hierárquicos. Na
2.1 Análise de Agrupamento
16
alocação dos objetos aos grupos, a vericação de todas as possíveis combinações é computacionalmente inviável e assim esse tipo de algoritmo geralmente busca soluções de forma iterativa
(BERKHIN, 2006).
Entre os métodos de agrupamento particionais, estão os métodos que utilizam o conceito
de protótipos de grupos, que são pontos no espaço dimensional dos dados que representam
o centro de cada um dos grupos.
(i)
Os protótipos podem ser representados de duas maneiras:
centroides, os protótipos podem assumir qualquer posição no espaço e,
(ii)
medoides, os
protótipos são, necessariamente, exemplos do conjunto de dados.
A principal ideia da maioria dos métodos particionais é escolher uma partição inicial dos
elementos e, em seguida, alterar os componentes dos grupos para se obter a melhor partição
(SOUZA, 2003). Comparado com os métodos hierárquicos, os métodos particionais são mais
rápidos porque é desnecessário o cálculo e o armazenamento das amostras, durante o processamento, da matriz de similaridade. Em geral, os métodos particionais diferem entre si pela
maneira que estabelecem a melhor partição.
Os métodos mais conhecidos são o método K-
médias (que emprega o conceito de centroides) e o método K-medoides.
Alguns autores estendem a classicação proposta por (JAIN; MURTY; FLYNN, 1999)
e (XU; WUNSCH D., 2005) incluindo, ao lado dos métodos hierárquicos e particionais, os
métodos baseados na densidade de objetos (HE et al., 2002) (BERKHIN, 2006), baseados em
teoria dos grafos (HARTUV; SHAMIR, 2000); Baseados em grades (WANG; YANG; MUNTZ,
1997); Baseados em redes neurais (KOHONEN, 1989); Baseados em
Kernel
(SCHOLKOPF;
SMOLA; MULLER, 1998) (BEN-HUR et al., 2001); Baseados em computação evolucionária
(KRISHNA; MURTY, 1999) e Agrupamentos Difusos (
fuzzy ) (BEZDEK, 1981).
Como este trabalho tem como foco variantes rígida e difusa do método K-médias, para um
melhor entendimento do leitor, a seguir são apresentados o método de agrupamento K-médias
e algumas de suas extensões.
2.1 Análise de Agrupamento
2.1.3
2.1.3.1
17
K-médias e suas extensões
K-médias
O método de particionamento mais conhecido e largamente utilizado é o algoritmo Kmédias (MACQUEEN, 1967), por dois motivos principais:
o primeiro é a sua facilidade de
implementação e o segundo é o seu baixo custo computacional, uma vez que a sua complexidade
é de ordem
O(nKl),
onde
n
é o número de objetos,
K
é o número de grupos e
l
é o número de
iterações (CHOUDHARI et al., 2005).
O algoritmo K-médias promove o particionamento de um conjunto de objetos, descritos por
X = {x1 , . . . , xn },
em
por um ponto central
K
yk ,
grupos disjuntos,
P = {C1 , . . . , CK }.
Cada grupo
k
é caracterizado
denominado protótipo ou centroide. Considerando que a medida de
similaridade utilizada é a distância Euclidiana, o algoritmo K-médias procura formar os grupos
de modo que a função objetivo
J
seja minimizada:
J(P ) =
K X
X
kxi − yk k2
(2.3)
k=1 i∈Ck
Pode ser demonstrado que o protótipo
yk que otimiza o valor da função J
de pontos é a média aritmética dos vetores que pertencem ao grupo
k.
para um conjunto
Assim o protótipo é
expresso por:
yk =
1 X
xi
nk i∈C
(2.4)
k
nk
é o número de pontos (ou objetos) do grupo
k.
O algoritmo K-médias apresenta algumas limitações, dentre elas, duas podem ser destacadas. A primeira decorre que as soluções encontradas, normalmente convergem para ótimos
locais, e mesmo após múltiplas execuções não se consegue obter resultados que sejam melhores,
o que o torna extremamente sensível à escolha inicial dos centroides. A segunda limitação é
que ele só apresenta boas soluções para conjunto de dados que sejam linearmente separáveis
(JAIN, 2010).
Para contornar a primeira limitação citada, várias estratégias foram propostas para a escolha dos objetos que serão os centroides iniciais. Em (CUI; POTOK, 2005) é proposto um
algoritmo híbrido que une as funcionalidades do K-médias e do algoritmo
Particle Swarm Opti-
2.1 Análise de Agrupamento
mization
18
(PSO) (KENNEDY; EBERHART, 1995). O algoritmo PSO realiza uma busca global
no espaço de soluções e esta abordagem híbrida é utilizada para encontrar os protótipos iniciais
para o algoritmo K-médias. Uma estratégia semelhante foi proposta por (ABRAHAM; DAS;
KONAR, 2006), onde o algoritmo híbrido reúne o algoritmo K-médias e o algoritmo
Evolution
Dierential
(DE) com o mesmo propósito de encontrar protótipos iniciais.
Com relação à segunda limitação, existem estratégias como o
Kernel
K-médias, algoritmos
de agrupamento espectral e algoritmos de particionamento de grafos (FILIPPONE et al., 2008).
O
Kernel
K-médias mapeia os dados originais em um espaço
<d
com um número maior de
dimensões, de forma que esta representação se torne linearmente separável (DHILLON; GUAN;
KULIS, 2004).
Alguns algoritmos espectrais usam o espectro da matriz de anidades para
realizar o agrupamento com o K-médias. O método
2.1.3.2
Kernel
K-médias é descrito mais adiante.
c-médias Difuso
fuzzy ) foram introduzidos em 1965 por Zadeh como uma nova maneira
Os conjuntos difusos (
de representar imprecisões do cotidiano (MITRA; PAL, 2005). Esta teoria fornece um conceito
ecaz para aproximar e descrever as características de um sistema que é muito complexo ou mal
denido para admitir análise matemática precisa. Admite-se que a forma com que o pensamento
humano trabalha com conceitos-chave não são apenas números, mas também uma aproximação
de conjuntos difusos.
Abordagens tradicionais de agrupamento geram partições, onde em uma partição, cada
indivíduo pertence a um e somente um grupo.
hard ).
agrupamento rígido (
Este tipo de agrupamento é conhecido como
Em muitas aplicações é desejável que a similaridade de um indiví-
duo seja compartilhada entre os grupos. Isso permitiria uma melhor descrição de situações em
que alguns indivíduos podem pertencer a grupos sobrepostos, ou no caso de alguns indivíduos
outliers ).
não pertencerem a nenhum grupo, uma vez que são valores discrepantes (
Agrupa-
mentos difusos permitem associar um indivíduo com todos os grupos através de um parâmetro
que representa o grau de pertinência do indivíduo ao grupo, em outras palavras, a noção difusa
possibilita expressar o tipo de situação em que o indivíduo compartilha similaridade com vários
grupos.
2.1 Análise de Agrupamento
19
Os algoritmos do tipo difuso estendem o conceito de associação de cada elemento em uma
classe, isto é, um indivíduo pode pertencer a diversas classes de acordo com uma função de
pertinência capaz de associar cada padrão a cada um dos grupos assumindo valores no intervalo
[0, 1].
Neste caso, cada classe é um conjunto nebuloso de todos os objetos. Cada elemento
possui um grau de pertinência para uma classe
relativos a essa elemento
x
tem que valer
k,
x
de forma que a soma de todos os graus
1.
O algoritmo de agrupamento difuso mais popular é o c-médias difuso (
Fuzzy c-means
-
FCM), onde os elementos mais afastados do centroide possuem um menor grau de pertinência, enquanto aqueles mais próximos ao centroide têm uma pertinência maior e o centroide é
obtido fazendo-se uma média ponderada do grau de todos os indivíduos para aquele grupo. O
desenvolvimento de funções de pertinência é o problema mais importante no contexto de agrupamento difuso; diferentes escolhas incluem aquelas baseadas em decomposição de similaridade
e centroides de grupos. Uma generalização do FCM foi proposta em (BEZDEK, 1981) através
de uma família de funções objetivo (critério). FCM pode ser tomado como uma generalização
do algoritmo ISODATA (XU; WUNSCH D., 2005).
Supondo que se tem um conjunto de objetos
em
c
grupos disjuntos,
P = {C1 , . . . , Cc }.
X = {x1 , x2 , . . . , xn }
e se deseja organizá-los
O algoritmo c-médias difuso (FCM) é um algoritmo
de agrupamento não hierárquico cujo principal objetivo é fornecer uma partição difusa de um
conjunto de indivíduos em
c
grupos. A função objetivo é denida como:
J(P ) =
c X
X
(uki )m kxi − yk k2
(2.5)
k=1 i∈Ck
onde
uki
é uma matriz de pertinência, ou simplesmente, a pertinência do objeto
Ck , m ∈ (1, +∞)
ao grupo
é um parâmetro que indica uma ponderação referente a pertinência dos
objetos. Pode ser demonstrado que
J
i
yk
é um vetor de protótipos que otimiza o valor da função
(FILIPPONE et al., 2008). Assim o protótipo é expresso por:
(uki )m xi
i∈C
yk = Pk
(uki )m
P
(2.6)
i∈Ck
A matriz de pertinência é denida pela seguinte expressão (FILIPPONE et al., 2008):
1
u−1
ki
X kxi − y k2 m−1
k
=
.
2
k
x
i − yj k
j∈C
k
(2.7)
2.1 Análise de Agrupamento
20
Semelhante ao K-médias, o FCM tem problemas para lidar com ruídos e anomalias nos
dados, além de apresentar a mesma dependência do conjunto de partição inicial. Outro problema relevante é a sua complexidade que apresenta um custo computacional alto, não sendo
recomendado para grandes conjunto de dados.
2.1.3.3
Seja
Kernel K-médias
φ : X → =,
e assim o conjunto
X = {x1 , x2 , . . . , xn }
um espaço de dimensão maior. A escolha apropriada de
mapeado no espaço de características
=
φ
é mapeado em um conjunto em
faz com que o conjunto de dados
possa ser separado de maneira linear. A Figura 2.1 é
um exemplo de mapeamento do espaço de entradas não linear para um agrupamento linear no
espaço de características.
Figura 2.1.
Mapeamento do espaço de entradas para o espaço de características
O uso desse procedimento é motivado pelo teorema de Cover (HAYKIN, 1999).
um conjunto de dados não linear no espaço de entradas
ser transformado em um espaço de características
=
X,
esse teorema arma que
X
Dado
pode
com alta probabilidade dos dados serem
linearmente separáveis. Para isso duas condições devem ser satisfeitas. A primeira é que a transformação seja não linear (φ), enquanto a segunda é que a dimensão do espaço de características
seja sucientemente alta.
Como
= pode ter dimensão muito alta (até mesmo innita), a computação pode ser custosa
ou até mesmo inviável.
Porém, é possível realizar esse mapeamento através do cálculo de
produtos escalares entre os dados no espaço de características.
funções denominadas
Kernels.
Isso é obtido com o uso de
2.1 Análise de Agrupamento
Um
kernel
de dimensão
q
21
é denido como sendo uma função
K
que mapeia os pontos no espaço de entrada
para pontos correspondentes em um novo espaço de dimensão
espaço oculto ou espaço de características, onde
q ≤ m.
m
denominado
Essa função recebe dois vetores de
pontos do espaço de entradas, que podem ser representados por
xi
e
xj ,
e computa o produto
escalar desses dados no espaço de características através da expressão 2.8:
K(xi , xj ) = φ(xi )φ(xj )
Kernel
Para garantir que o
(2.8)
represente mapeamentos nos quais seja possível o cálculo de
produtos escalares conforme a Equação 2.8, utiliza-se funções
Kernel
que seguem as condições
estabelecidas pelo teorema de Mercer (FILIPPONE et al., 2008). De forma simplicada, um
Kernel
que satisfaz as condições de Mercer é caracterizado por dar origem a matrizes positivas
denidas
nxn,
K,
Kij
em que cada elemento
chamada matriz de
é denido por uma matriz
Kij = K(xi , xj )
de ordem
Kernel, cujas entradas representam produtos internos escalares entre
as observações. Em outras palavras, se
K
é positivo denido, existe um mapeamento
φ
onde
K(xi , xj ) = φ(xi )φ(xj ).
Dentre as funções disponíveis mais utilizadas para a implementação do
kernel
existem as
polinomiais, as sigmoidais e a gaussiana, apresentadas na Tabela 2.1. As matrizes geradas por
essa última (gaussiana) também são chamadas de
Kernel Radial Basis Function
(RBF). Cada
um deles apresenta parâmetros que devem ser determinados previamente, indicados também
na Tabela 2.1. O
Kernel
alguns valores de
γ
e
κ.
Sigmoidal, em particular, satisfaz as condições de Mercer apenas para
Os
Kernels
Polinomiais com d = 1 também são denominados lineares.
Tabela 2.1.
Exemplos de Funções de
Tipo de Kernel
Polinomial
Expressão
Parâmetros
K(xi , xj ) = (xi xj + κ)d
κ, d
−kxi − xj k2
)
2σ 2
Gaussiano
K(xi , xj ) = exp(
Sigmoidal
K(xh , xl ) = tanh(γ(xi xj ) + κ)
É comum empregar a função de
tamente).
Kernel.
A utilidade do
Kernel
Kernel
σ
γ, κ
sem conhecer o mapeamento
φ
(realizado implici-
está, portanto, na simplicidade de seu cálculo e em sua
capacidade de representar espaços abstratos.
2.1 Análise de Agrupamento
22
Uma extensão do algoritmo K-médias, chamada
φ
KULIS, 2004) usa uma função
Kernel
K-médias (DHILLON; GUAN;
para o mapeamento do conjunto de dados em um espaço
de alta dimensão (espaço de características). Da mesma forma que o algoritmo K-médias, este
algoritmo procura por grupos de modo que a função objetivo
J φ seja minimizada, caso a medida
de similaridade seja a distância Euclidiana.
J φ (P ) =
K X
X
kφ(xi ) − yφk k2
(2.9)
k=1 i∈Ck
yφk
O valor do centroide
é expresso por:
yφk =
1 X
φ(xi )
nk x ∈C
i
A distância de
kφ(xi )−y
φ 2
kk
φ(xi )
ao centro
yφk
é expressa por:
1 X
= kφ(xi )−
φ(xi )k2 = φ(xi )φ(xi )−
nk x ∈C
i
j∈Ck
= K(xi , xi ) −
P
2×
nk
P P
+
φ(xi )φ(xj )
j∈Ck
K(xj , xl )
j∈Ck l∈Ck
(nk )2
2×
= Kii −
P P
+
nk
k
K(xi , xj )
P
2×
(2.10)
k
P
φ(xj )φ(xl )
j∈Ck l∈Ck
(nk )2
P P
Kij
j∈Ck
+
nk
Kjl
j∈Ck l∈Ck
(nk )2
Neste caso, a função objetivo pode ser reescrita conforme a equação 2.11:
J φ (P ) =
K X
X
kφ(xi ) − yφk k2 =
k=1 xi ∈Ck
onde
K X
X

2×
Kii −
k=1 xi ∈Ck
P
P P
Kij
j∈Ck
nk
+
Kjl

j∈Ck l∈Ck
(nk )2

(2.11)
Kij = K(xi , xj ) = φ(xi )φ(xj ).
Diversos métodos de agrupamento utilizando funções de
Kernel
têm sido propostos na
literatura através da modicação de abordagens já existentes, tais como K-médias, difuso cmédias, SOM, e
neural gas, que passaram a incorporar o Kernel
em suas soluções (FILIPPONE
et al., 2008).
A escolha do
Kernel
e da medida de similaridade é crucial para estes métodos, muitas
técnicas têm sido propostas no intuito de aprender automaticamente a forma do
dos dados (CRISTIANINI et al., 2002)(BACH; JORDAN, 2006).
muitos algoritmos têm sido aplicados para
Mama e Iris (UCI, 2010).
Kernel
benchmarks
Kernel
a partir
A respeito das aplicações,
padrões como Ionosfera, Câncer de
difuso c-médias foram propostos em (ZANG D. Q. E CHEN,
2.2 Análise de Agrupamento para Dados Simbólicos
23
2003) e tem sido aplicado em problemas de segmentação de imagens e reconhecimento de
dígitos manuscritos (ZHANG et al., 2003). Há aplicações de
face utilizando
Kernel
para reconhecimento de
kernel SOM (TAN; CHEN; ZHANG, 2004), em reconhecimento de voz (SATISH;
SEKHAR, 2004) e em predição de safras a partir de dados climáticos e de plantação (AWAN;
SAP, 2006).
2.1.3.4
Kernel Difuso c-médias
Seja uma função
φ : <m → <q ,
onde
q ≥ m
e assim o conjunto
X = {x1 , x2 , . . . , xn }
é
mapeado em um conjunto em um espaço de dimensão maior. Da mesma forma que o algoritmo
Kernel K-médias, este algoritmo procura por c grupos, P = {C1 , . . . , Cc }, de modo que a função
objetivo
Jφ
seja minimizada:
φ
J (P ) =
c
X
X
(uki )m kφ(xi ) − yφk k2
(2.12)
k=1 xi ∈Ck
O protótipo
yk
no espaço de características pode ser expresso por (FILIPPONE et al.,
2008):
(uki )m φ(xi )
x ∈Ck
yφk = i P
(uki )m
P
(2.13)
xi ∈Ck
A matriz de pertinência é denida pela seguinte expressão (FILIPPONE et al., 2008):
u−1
ki =
2.2
X
kφ(xi ) − yφk k2
j∈Ck
kφ(xi ) − yφj k2
1
! m−1
(2.14)
ANÁLISE DE AGRUPAMENTO PARA DADOS SIMBÓLICOS
A Análise de Dados Simbólica (ADS) surgiu, simultaneamente, da inuência de três áreas:
Análise Exploratória de Dados (DIDAY et al., 1982)(WARWICK; MORINEAU, 1984), Inteligência Articial (MICHALSKI, 1973) e Taxonomia Numérica (HAYES-ROTH; MCDERMOTT, 1978).
A ADS constitui numa extensão de alguns métodos utilizados para análise
de dados clássicos. Os primeiros trabalhos com os princípios básicos da abordagem simbólica
apareceram no nal dos anos 80 (DIDAY, 1986) e desde então vários outros trabalhos foram
realizados em diversas direções.
Um dos objetivos da ADS é prover técnicas para redução
2.2 Análise de Agrupamento para Dados Simbólicos
24
de extensas bases de dados em bases de dados simbólicos e posterior análise exploratória dos
dados através do emprego de técnicas de mineração de dados simbólicos já desenvolvidos. A
representação de conhecimento através dos dados simbólicos permite a atribuição de múltiplos
valores e regras para cada variável. Essas novas variáveis (conjuntos, intervalos e histogramas)
tornam possível reter informações sobre a variabilidade intrínseca ou incerteza do conjunto de
dados original. Bock e Diday (BOCK; DIDAY, 2000) apresentam de maneira sólida os principais conceitos da análise de dados simbólica e os principais métodos estatísticos desenvolvidos
para manipular dados desta natureza.
2.2.1
Tabela de Dados Simbólicos
A premissa é que o processo de obtenção de dados simbólicos deve preservar o máximo de
informações possíveis sobre os dados e ao mesmo tempo diminuir consideravelmente o tamanho
da tabela de dados inicial. Como resultado dessa transformação são geradas novas tabelas de
dados, denominadas de tabelas de dados simbólicos, que possuem estrutura mais complexa,
devido a cada uma das células dessas tabelas não necessariamente conterem um valor simples
quantitativo ou qualitativo, mas podem conter informações mais complexas tais como intervalos, funções probabilísticas ou de outros tipos, ligadas eventualmente por dependências e
taxonomias. As colunas dessas tabelas são chamadas de variáveis simbólicas, que servem para
descrever os objetos, e as linhas são as descrições simbólicas desses objetos, que diferentemente
do usual, não representam vetores de valores quantitativos ou categóricos simples. Os objetos
da tabela de dados simbólicos podem descrever indivíduos ou itens mais complexos, tais como
grupos de indivíduos.
Os dados simbólicos podem ser obtidos pelo menos da seguinte maneira: através da aplicação de um algoritmo de classicação não supervisionada para simplicar grandes conjuntos
de dados e descrever, de uma maneira auto-explicativa as classes associadas aos grupos obtidos;
Como resultado da descrição de conceitos por especialistas; Ou a partir de bases de dados relacionais para estudar conjuntos de unidades cuja descrição necessita a fusão eventual de várias
relações.
Uma vez obtidas as tabelas de dados simbólicos, a fase seguinte consiste na mineração de
2.2 Análise de Agrupamento para Dados Simbólicos
25
dados visando à mineração de conhecimentos. Neste caso, para o manuseio de dados simbólicos
é necessário a extensão das ferramentas usuais de extração de conhecimentos (classicação
supervisionada e não supervisionada, métodos fatoriais, árvores de decisão, etc.), bem como a
criação de novas ferramentas.
Tabela 2.2.
Tabela com dados clássicos (BILLARD; DIDAY, 2006)
X3 X4 X5 X6
X7
X8 X9 X10
i
X1
X2
1
Boston
M
2
Boston
M
3 Chicago D
4 El Paso M
5
Byron
D
6 Concord M
7 Atlanta M
8
Boston
O
9 Lindeld D
10 Lindeld D
11 Boston
D
12 Chicago M
13 Macon
M
14 Boston
D
15 Peoria
O
16 Concord D
17 Boston
D
18 Chicago D
19
Stowe
D
20
Tara
M
21 Quincy
O
22 Atlanta O
..
.
24
56
48
47
79
12
67
73
29
44
54
12
73
48
79
20
20
17
31
83
57
86
M
M
M
F
F
M
F
F
M
M
M
F
F
M
F
M
F
M
M
M
M
M
S
C
C
C
C
S
C
C
C
C
S
S
C
C
C
S
S
S
C
C
S
C
2
1
1
0
0
2
1
0
2
1
1
2
0
0
0
2
2
2
1
0
1
0
74,9
84,4
79,5
64,0
69,0
33,1
75,4
75,0
103,1
98,1
96,7
34,1
69,0
93,5
69,5
121,7
71,3
73,1
83,1
58,1
72,1
83,4
68
84
73
78
84
69
81
77
62
71
57
69
58
73
72
79
75
69
81
80
72
72
120
130
126
121
150
126
134
121
124
125
118
115
123
113
106
123
116
114
118
108
114
114
79
90
82
86
88
85
89
81
81
79
88
81
82
72
78
80
87
78
84
80
75
72
A Tabela 2.2 (BILLARD; DIDAY, 2006), contendo dados clássicos, será utilizada auxiliar
no entendimento de dado simbólico do tipo intervalo e da tabela de dados simbólicos.
tabela é composta por
n
Essa
registros médicos de indivíduos de uma típica companhia de seguros.
A descrição dos campos da tabela (variáveis
Xj )
é apresentada na Tabela 2.3. Para cada iésimo
indivíduo há um registro composto por informações familiares (estado civil, número de lhos,
número de irmãos, etc.), informações médicas(pressão, peso, colesterol, etc.). Cada linha da
Tabela 2.2 é composta por um conjunto de dados clássicos e representa uma realização para
as variáveis aleatórias
(x = (x1 , x2 , . . . , xn ))
para um determinado indivíduo.
Para tabelas
pequenas como essa, as técnicas estatísticas clássicas podem ser empregadas satisfatoriamente.
2.2 Análise de Agrupamento para Dados Simbólicos
Contudo, quando
p
e
n
26
são muito grandes, a análise pode tornar-se impraticável.
Tabela 2.3.
Descrição dos dados da Tabela 2.2
Descrição
Xi
Domicílio
X6
Tipo: Dental(D), Médico(M), Ótico(O) X7
Idade (em Anos): ≥ 0
X8
Gênero: Masc. (M), Fem. (F)
X9
Estado civil: Solteiro (S), Casado (C)
X10
Xi
X1
X2
X3
X4
X5
Descrição
Número de pais vivos: 0, 1, 2
Peso (em Kg): > 0
Pulso: > 0
Pressão sistólica: > 0
Pressão diastólica: > 0
Os dados simbólicos podem ser extraídos a partir de bases de dados clássicas, como a
apresentada na Tabela 2.2.
Como exemplo, considere descrever as realizações para o peso
Tipo × Gênero ).
para a categoria mulheres com seguro médico (
Aplicando essa regra à
Tabela 2.2 resulta na lista {34,1, 64,0, 69,0, 75,4}. Estes valores podem ser interpretados como
realizações
ξ
no intervalo [34,1:75,4]. A categoria mulheres com seguro médico ou (Tipo
Gênero) é um exemplo de conceito simbólico.
Ótico (O)
(w )|wu
e dois gêneros:
Masc (M)
e
Fem.(F)
∈ E = {w1 , w2 , w3 , w4 , w5 , w6 },
Como há 3 tipos:
Dental
(D),
Médico (M)
×
e
na tabela, há portanto, 6 possíveis categorias
em que cada categoria consiste em um conjunto de
indivíduos que satisfazem a descrição da categoria.
realizações simbólicas para as categorias (Tipo
×
A Tabela 2.4 apresenta um grupo de
Gênero).
Esta tabela pode ser entendida
como a Tabela de Dados Simbólicos.
Tabela de Dados Simbólicos (Descrições dos conceitos wu )
X1
X2
X3
X4
X5
T ipo × Gênero nu Idade Estado Civil
Peso
Pulso Pais Vivos
Tabela 2.4.
wu ∈ E
w1
w2
w3
w4
w5
w6
Dental Masc.
Dental Fem.
Médico Masc.
Médico Fem.
Ótico Masc.
Ótico Fem.
8
2
4
4
2
2
[17:54]
[20:79]
[12:83]
[12:73]
[57:86]
[73:79]
{C,S}
{C,S}
{C,S}
{C,S}
{C,S}
{C}
[73,1:121,7]
[69,0:71,3]
[33,1:84,4]
[34,1:69,0]
[72,1:83,4]
[69,5:75,0]
[57:81]
[75:84]
[68:84]
[58:81]
[72:72]
[72:77]
{0,1,2}
{0,2}
{0,1,2}
{0,1,2}
{0,1}
{0}
Os dados simbólicos podem ser estruturados e podem registrar a variação dos valores. A
Tabela 2.4 ilustra alguns exemplos do processo de extração de dados simbólicos a partir de bases
clássicas (DIDAY; NOIRHOMME-FRAITURE, 2008). Merece destaque a variável Pulso do
conceito
w5 .
Este exemplo ilustra o caso em que um intervalo representa um ponto clássico
2.2 Análise de Agrupamento para Dados Simbólicos
x = a,
2.2.2
cuja realização simbólica
27
ξ = [a, a].
Tipos de Variáveis Simbólicas
Na análise de dados clássicos, as variáveis assumem um único valor ou categoria para um
dado indivíduo, entretanto as variáveis simbólicas podem assumir para um dado indivíduo
ou grupo de indivíduos:
conjuntos de categorias, intervalos, histogramas, etc.
As variáveis
simbólicas dividem-se basicamente em: variáveis multi-valoradas (ordenadas ou não-ordenadas),
variáveis modais e variáveis do tipo intervalo.
Variáveis simbólicas multi-valoradas não-ordinais
Y
é denido como uma variável simbólica multi-valorada se seus valores
a subconjuntos nitos do domínio
E = {s1 , . . . , sn }
é um conjunto de
bancos existentes em
Real, . . . ,
D : |Y (k)| < ∞
k
n
já para o indivíduo
k ∈ E,
Por exemplo, seja
onde
Y
os
D = { Banco do Brasil, Bradesco, Banco
Caixa Econômica}. Logo, para o indivíduo
do Brasil, Banco Real },
para todos os indivíduos
objetos a serem agrupados.
cidades brasileiras, onde
Y (k) correspondem
k = P aulista, Y (P aulista) = { Banco
k = Barreiros, Y (Barreiros) = { Banco do
Brasil,Caixa Econômica }.
Variáveis simbólicas multi-valoradas ordinais
Uma variável simbólica
de ordem
≺,
Y
é denida como multi-valorada ordinal se
tal que, para quaisquer pares de elementos,
a, b ∈ D,
D
existe a relação
caso comum é representado por uma variável qualitativa com domínio nito
onde:
b.
a ≺ b ≺ c ≺ . . . ≺ h.
Na prática,a
Assim, para dois indivíduos
k, t ∈ E ,
suporta uma relação
a ≺ b.
D = {a, b, c, . . . , h},
≺ b é interpretado como a antecede b ou a é menor que
onde observamos
a = Y (k)
e
b = Y (t)
para a variável
Y , é possível indicar qual dos indivíduos é estritamente melhor que o outro: a ≺ b ou b ≺ a.
exemplo,
Um
Por
Y = { Qualidade do produto } e D = {excelente, bom, razoavel, pobre, insuf iciente}.
2.2 Análise de Agrupamento para Dados Simbólicos
28
Variáveis simbólicas modais
A variável simbólica
Y
também pode ser denida como modal, com domínio
conjunto de objetos simbólicos
objeto
a ∈ F,
F = {a, b, . . .},
w(y),
Y (a) ⊆ D,
associado a cada categoria
quão freqüente, típico ou relevante a categoria
distribuição das agências bancárias em
k
sob o
é uma variável multi-valorada que, para cada
apresenta não apenas um conjunto de categorias
freqüência, probabilidade ou peso
D
y
é para o objeto
a.
mas também uma
y ∈ Y (a),
que indica o
Por exemplo, seja
cidades. Então, para uma cidade
Y
a
t, Y (t) = {Banco
do Brasil (0, 5), Bradesco (0, 4),Banco Real (0, 1)}.
Variáveis simbólicas do tipo intervalo
Uma variável
a≤b
e {a, b}
Y
∈ <.
wu
com
No exemplo da Tabela 2.4, os intervalos são gerados como resultado da
agregação de dados clássicos. Os valores
na categoria
ξ = [a : b] ⊂ <,
é do tipo intervalo se ela representa uma realização
auj
e
buj
do intervalo [auj :
buj ]
referentes à variável
j
são dados por:
auj = min xij
i∈Ωu
buj = max xij
i∈Ωu
onde
Ωu
é o conjunto dos
iésimos
valores
(i ∈ Ω)
que compõe a categoria
wu .
Exemplos dessa
denição podem ser obtidos do conjunto de dados simbólicos da Tabela 2.4. Considere a variável
Idade para
u = 3.
X1 (w3 ) = Idade(w3 ) = Idade(M édico × M asculino) = ξ31 = [12 : 83]
o resultado é um intervalo que cobre as idades dos homens com plano médico.
As variáveis
simbólicas do tipo intervalo também podem ocorrer quando não é possível obter uma medida
precisa das observações, como no caso dos instrumentos de medição.
2.2.3
Métodos para Agrupamento de Dados Simbólicos
Esta seção apresenta alguns métodos de agrupamento para dados simbólicos. Os métodos
de agrupamento podem ser hierárquicos e particionais (ou de particionamento) para dados
2.2 Análise de Agrupamento para Dados Simbólicos
29
expressos por intervalos, conjuntos de categorias e distribuições de pesos. Como este trabalho
tem como foco o desenvolvimento de métodos de partição, a seção sobre métodos hierárquicos
é mais breve e a de métodos de partição um pouco mais extensa.
2.2.3.1
Métodos Hierárquicos
Ichino e Yaguchi (ICHINO; YAGUCHI, 1994) propuseram medidas de Minkowski para
misturas de variáveis e apresentaram métodos de ligação simples para conjuntos de dados
representados por valores numéricos e simbólicos. Em (GOWDA; RAVI, 1995a) e (GOWDA;
RAVI, 1995b) foram introduzidos, respectivamente, algoritmos aglomerativos e divisivos para
dados simbólicos baseados em uma combinação entre medidas de similaridade e dissimilaridade.
Estas medidas são denidas levando em conta o conteúdo, posição e espalhamento de objetos
simbólicos.
Chavent (CHAVENT, 1998) apresentou um método divisivo para dados simbólicos que
fornece ao mesmo tempo uma hierarquia de um conjunto de dados simbólicos e uma caracterização monotética de cada
cluster
na hierarquia. El-Sonbaty e Ismael (EL-SONBATY; ISMAIL,
1998) introduziu uma técnica hierárquica aglomerativa baseada no conceito de métodos de ligação simples para agrupar dados numéricos e simbólicos simultaneamente.
Gowda e Ravi
(RAVI; GOWDA, 1999a) desenvolveram um algoritmo para dados simbólicos baseando-se na
abordagem gravitacional que é inspirada no movimento de partículas do espaço de acordo com
a atração gravitacional mútua das mesmas.
Em (RAVI; GOWDA, 1999b) foi apresentado uma abordagem de grupos ISODATA para
dados simbólicos usando algoritmos genéticos.
Brito (BRITO, 1994) apresentou um método
de agrupamento usando uma estrutura de classicação piramidal para dados simbólicos onde
as classes são construídas baseando-se em um conceito de objeto simbólico completo. Maiores
informações sobre métodos hierárquicos para dados simbólicos podem ser encontradas em (DIDAY; NOIRHOMME-FRAITURE, 2008).
2.2 Análise de Agrupamento para Dados Simbólicos
2.2.3.2
30
Métodos Particionais
Esta seção cita alguns métodos de particionamento para dados simbólicos existentes na
literatura e em seguida apresenta os métodos de partição do tipo nuvem dinâmica que foram
utilizados o estudo comparativo entre os métodos propostos neste trabalho.
Em (GORDON, 2000) foi apresentado um algoritmo de agrupamento de dados simbólicos
que minimiza a soma do potencial de descrição dos grupos. No trabalho (VERDE V., 2001) foi
introduzido um método agrupamento que permite obter uma tipologia dos objetos descritos por
dados simbólicos através de funções de proximidade dependentes do contexto. Em (CHAVENT
M. E LECHEVALLIER, 2002) propuseram um algoritmo de agrupamento dinâmico para dados
de tipo intervalo utilizando a distância de Hausdor. Nos trabalhos (SOUZA; CARVALHO,
2004b)(SOUZA; CARVALHO, 2004a) foram propostos algoritmos de agrupamento dinâmico
para dados simbólicos de tipo intervalo baseado em distâncias adaptativas e não adaptativas
de tipo
L1 , L2
e
LIN F .
Em (CONAN-GUEZ; ROSSI; GOLLI, 2006) foi introduzido uma
modicação do algoritmo de mapas auto-organizáveis (SOM) que estende esse método aos
dados simbólicos através da utilização de uma matriz de dissimilaridade apropriada.
O trabalho (CARVALHO et al., 2006) propôs um algoritmo de agrupamento dinâmico que
usa um critério de adequação baseado em distâncias de Hausdor adaptativas para comparar
dados simbólicos de tipo intervalo. Em (CARVALHO; BRITO; BOCK, 2006) foi introduzido
um algoritmo de agrupamento dinâmico que usa um critério de adequação baseado em uma
adaptação conveniente da distância euclidiana para comparar dados simbólicos de tipo intervalo
e considera o problema da normalização desse tipo de dados e a interpretação dos grupos e da
partição fornecida pelo algoritmo. Em (CARVALHO, 2007) foi estendido o algoritmo padrão de
agrupamento difuso usando uma versão apropriada da distância
L2
adaptativa para comparar
dados simbólicos de tipo intervalo. Mais recentemente, em (CARVALHO; SOUZA, 2010), foram
propostos métodos de reconhecimento de padrões não supervisionados para dados simbólicos
mistos com base na metodologia de agrupamento dinâmico com distância adaptativa única e por
classe. Finalmente, em (CARVALHO; TENóRIO, 2010) propõe versões difusas para distâncias
adaptativa quadráticas.
Na seção seguinte são apresentados os métodos de agrupamento dinâmico (SOUZA, 2003)
(CARVALHO; LECHEVALLIER, 2009b) (CARVALHO, 2007) que foram utilizados para estudo
2.2 Análise de Agrupamento para Dados Simbólicos
31
comparativo com os métodos propostos neste trabalho.
Métodos de Agrupamento Dinâmico para dados simbólicos intervalares
Os algoritmos de agrupamento dinâmicos compreendem diversos métodos de agrupamento
não hierárquicos. O objetivo principal é obter um particionamento em um número de classes
pré-denido a partir de um conjunto de dados de modo que o conjunto de protótipos escolhidos
minimizem um critério que mede a adequação entre esses representantes e os respectivos elementos de cada classe. O ajustamento dos elementos de acordo com o critério permite encontrar
uma solução ótima local para o problema. Outra propriedade importante desses algoritmos é
a capacidade de reconhecer classes de formas e tamanhos diferentes quando usam distâncias
adaptativas, as quais consideram a dispersão dos elementos em cada classe ou em todo o conjunto de dados. Por outro lado, existe o problema de convergência nesses algoritmos, uma vez
que a partição nal tem relação direta tanto dos protótipos escolhidos para denir o conjunto
de classes inicial quanto da distância usada para denir o representante mais próximo e o ajuste
dos grupos.
A ideia dessa abordagem de agrupamento é começar com um conjunto de protótipos escolhidos aleatoriamente, os quais denirão a conguração inicial das classes afetando cada elemento
de acordo com a distância
L2
xa encontrada entre o protótipo e o padrão. A classe perten-
cente ao elemento será a classe do protótipo que possui a menor distância caracterizando a
etapa de alocação. Em seguida, uma etapa de representação é realizada, onde os protótipos
são atualizados de acordo com os elementos pertencentes em cada classe. Essas duas etapas
prosseguem iterativamente até a convergência do algoritmo denida
a priori,
mas com uma
diferença na etapa de alocação: a distância usada não precisa ser a
L2
Uma forma de
xa.
avaliar a convergência é vericar se o valor do critério do algoritmo estabilizou, caracterizando
pouca variação entre os elementos das classes. Outra forma é vericar se todas as classes permaneceram invariantes, sem que nenhum elemento seja realocado.
seja alcançada, o ciclo de alocação e representação se repete.
Caso a convergência não
Tradicionalmente, o método é
executado diversas vezes com diferentes combinações de protótipos com o objetivo de obter a
melhor partição para a resposta nal.
2.2 Análise de Agrupamento para Dados Simbólicos
32
A seguir são apresentados três métodos de agrupamento dinâmico com distâncias adaptativas que serão utilizados neste trabalho para efeito de comparação com os métodos propostos.
Os dois primeiros usam agrupamentos rígidos e o seguinte agrupamento difuso.
O objetivo
principal desse método é associar uma distância diferente para cada classe ou elemento, a qual
muda a cada iteração do algoritmo. A partir dessas variações o algoritmo é capaz de reconhecer diferentes dispersões entre os padrões e as classes, de modo que os grupos de tamanhos
diferentes e/ou não isomorfos sejam identicados. A ideia é associar diferentes distâncias para
cada grupo de forma que, no nal de cada etapa de alocação, a distância entre os elementos e
os seus respectivos representantes seja a menor possível.
Seja uma variável
simbólica do tipo intervalo X
2008) é uma correspondência denida de
um conjunto de intervalos denidos em
Ω = {1, . . . , n}.
Cada objeto ou padrão
Ω
<.
i,
<
tal que
i ∈ Ω, X(i) = [a, b] ∈ I ,
Considere um conjunto de
descrito por
é representado como um vetor de intervalos
Seja
em
(DIDAY; NOIRHOMME-FRAITURE,
p
n
onde
I
é
objetos ou padrões
variáveis simbólicas do tipo intervalo,
xi = ([a1i , b1i ], . . . , [api , bpi ])T .
PK um conjunto de partições, onde P = (C1 , . . . , CK ) de Ω em K classes e um conjunto
LK = L×L . . .×L de K -uplas L = (L1 , . . . , LK ) com Lk ∈ L e dK = d×d . . .×d um conjunto de
K
distâncias
d = (d1 , . . . , dK )
uma partição
P∗ ∈ PK
em
um conjunto de distâncias
K
com
dk ∈ d.
O problema de agrupamento consiste em encontrar
classes, um conjunto de protótipos
d∗ ∈ dK
L∗ ∈ LK
relativo as classes e
tal que:
J(P ∗ , L∗ , d∗ ) = M in{J(P, L, d)|P ∗ ∈ PK , L∗ ∈ LK , d∗ ∈ dK }.
O critério
J
é calculado fazendo-se:
J=
K X
X
d2k (xi , yk )
(2.15)
k=1 i∈Ck
onde
d2k (xi , yk )
objeto
é uma distância quadrática adaptativa que mede a dissimilaridade entre um
xi (i = 1, . . . , n) e um protótipo do grupo yk (k = 1, . . . , K).
Os métodos de agrupamento dinâmico adaptativos consideraram um fator em cada cálculo
da distância o qual pode variar considerando a organização do particionamento.
considera as informações locais, sejam elas associadas à classe
partição
P.
Ck
Esse fator
ou a cada elemento
i
da
Dependendo da forma como esse fator é calculado, a distância adaptativa pode ser
2.2 Análise de Agrupamento para Dados Simbólicos
por
classe,
quando o fator varia por grupos, ou
33
única,
quando considera somente o elemento
em questão.
A distância Euclidiana Adaptativa Única (CARVALHO; LECHEVALLIER, 2009b) muda
a cada iteração do método, de modo que a forma e o tamanho das classes sejam identicados,
mas a distância adaptativa é a mesma para todos os grupos:
d (xi , yk ) =
2
p
X
λj (aji − αkj )2 + (bji − βkj )2 .
(2.16)
j=1
onde a distância é parametrizada pelo vetor de pesos
λk =λ= (λ1 , . . . , λp ).
A distância Euclidiana Adaptativa por classe (SOUZA, 2003) tem como ideia principal
associar a distância
dk
a cada grupo
Ck
tal que a soma das distâncias entre os elementos e os
seus respectivos protótipos seja a menor possível. Uma característica importante deste método
é que a distância não é única para todas a classes, mas sim diferente da obtida em cada iteração
do método. Em cada iteração é medida a adequação do critério do grupo
qualidade através da soma das distâncias
dk (xi , yk )
entre os objetos
Ck
que mede a sua
xi ∈ C k .
A distância é
denida pela seguinte expressão:
d2k (xi , yk ) =
p
X
λjk (aji − αkj )2 + (bji − βkj )2 .
(2.17)
j=1
onde a distância é parametrizada pelo vetor de pesos
λk = (λ1k , . . . , λpk )
O algoritmo inicia escolhendo aleatoriamente uma partição
apresentados a seguir, até a convergência quando o critério
J
P
para cada classe
Ck .
e alterna entre três passos,
alcança um estado estacionário
representando um mínimo local.
• Denição dos melhores protótipos :
. . . , [αkp , βkp ])
onde
αkj
valores do conjunto
k = 1, . . . , K
calcule os protótipos
é a média dos valores do conjunto
{aji : i ∈ Ck }
e
βkj
yk = ([αk1 , βk1 ],
é a média dos
{bji : i ∈ Ck } (j = 1, . . . , p).
• Denição das melhores distâncias :
Para
Para
k = 1, . . . , K
calcule:
Se a distância adaptativa única for usada, o vetor de pesos
λ= (λ1 , . . . , λp )
com
2.2 Análise de Agrupamento para Dados Simbólicos
λj > 0 (j = 1, . . . , p)
e
Qp
j=1
λj = 1
"
Qp
h=1 (
λj =
34
onde
λj
é expresso por:
# p1
K P
P
(aji
−
αkj )2
+
(bji
−
βkj )2 )
k=1 i∈Ck
K P
P
(aji
.
−
αkj )2
+
(bji
−
βkj )2
k=1 i∈Ck
Se a distância adaptativa por classe for utilizada, o vetor de pesos
com
λjk > 0 (j = 1, . . . , p)
Qp
e
j=1
λjk = 1
onde
λjk
λk = (λ1k , . . . , λpk )
é expresso por:
# p1
"
Qp
h=1 (
λjk =
(aji − αkj )2 + (bji − βkj )2 )
P
i∈Ck
P
.
(aji − αkj )2 + (bji − βkj )2
i∈Ck
• Denição das melhores partições :
Os
Os protótipos e os vetores de pesos
λk
ou
λ
são xados.
clusters Ck (k = 1, . . . , K) que minimizam o critério de agrupamento J, são alterados
de acordo com a seguinte regra de alocação:
Ck = {i ∈ Ω : d(xi , yk ) ≤ d(xi , yh )∀h 6=
k(h = 1, . . . , K)}.
Agora é apresentada a versão difusa do método adaptativo por classe (CARVALHO, 2007).
A formulação do problema de agrupamento é semelhante aos métodos anteriores, e consiste em
encontrar uma partição difusa
P∗ ∈ PK
em
K
relativo as classes e um conjunto de distâncias
classes, um conjunto de protótipos
d∗ ∈ dK
L∗ ∈ LK
tal que:
J2 (P ∗ , L∗ , d∗ ) = M in{J(P, L, d)|P ∗ ∈ PK , L∗ ∈ LK , d∗ ∈ dK }.
O critério
J2
é calculado agora da seguinte maneira:
J2 =
K X
X
(uki )m d2k (xi , yk )
(2.18)
k=1 i∈Ck
onde
d2k (xi , yk )
é uma distância quadrática adaptativa que mede a dissimilaridade entre um
objeto
xi (i = 1, . . . , n)
objeto
i
ao grupo
e um protótipo do grupo
yk (k = 1, . . . , K),
e
uki
é a pertinência, do
Ck , m ∈ (1, +∞).
O algoritmo inicia escolhendo aleatoriamente uma partição
apresentados a seguir, até a convergência quando o critério
representando um mínimo local.
J
P
e alterna entre três passos,
alcança um estado estacionário
2.2 Análise de Agrupamento para Dados Simbólicos
35
• Denição dos melhores protótipos : Para k = 1, . . . , K calcule os protótipos yk = ([αk1 , βk1 ],
P
P
P
P
(uki )m .
(uki )m e βkj =
(uki )m bik /
. . . , [αkp , βkp ]) onde αkj =
(uki )m aik /
i∈Ck
i∈Ck
• Denição das melhores distâncias :
Para
classe for utilizada, o vetor de pesos
Qp
j=1
λjk = 1
onde
λjk
i∈Ck
i∈Ck
k = 1, . . . , K
calcule a distância adaptativa por
λk = (λ1k , . . . , λpk )
com
λjk > 0 (j = 1, . . . , p)
e
é expresso por:
# p1
"
Qp
h=1 (
λjk =
P
(uki )m ((aji − αkj )2 + (bji − βkj )2 ))
i∈Ck
P
.
(uki )m [(aji − αkj )2 + (bji − βkj )2 ]
i∈Ck
• Denição das melhores partições :
dos. Os
Os protótipos e os vetores de pesos
λk
ou
λ
são xa-
clusters Ck (k = 1, . . . , K) que minimizam o critério de agrupamento J2
restrições
k
P
uki = 1
e
uki ≥ 0,
são alterados de acordo com a seguinte expressão:
i=1

P
p
λjk [(aji
αkj )2
(bji
βkj )2 ]
 p1
−
+
−
X
 K  j=1




uki = 
p
P

 k=1
λj [(aj − αj )2 + (bj − β j )2 ]
j=1
h
i
k
i
k
−1





sob as
CAPÍTULO 3
MÉTODOS DE AGRUPAMENTO BASEADOS EM
FUNÇÕES KERNEL PARA DADOS SIMBÓLICOS
INTERVALARES
Como abordado no capítulo anterior, os algoritmos de partição k-médias apesar de amplamente
utilizados na literatura de classicação de dados em diversos domínios de aplicação, tais como
reconhecimento de padrões, aprendizagem de máquina, mineração de dados, visão computacional, biologia computacional, classicação de resultados estatísticos em estudos sociais, dentre
outros, apresentam limitações em relação à separabilidade linear (diculdade de identicar a
não-lineariedade dos dados no espaço de entrada).
O uso de
Kernel
tem sido usado como uma poderosa ferramenta para resolver os problemas
relacionados à lineariedade. Nos últimos anos, o interesse na utilização de métodos de
em aplicações não-superviosionadas tem crescido.
Kernel
Nos métodos de particionamento usando
Kernel, o produto interno entre as variáveis não-lineares é substituído por um Kernel apropriado
denominado
Mercer Kernel.
Segundo (FILIPPONE et al., 2008), esses podem ser categorizados
em três grandes famílias: agrupamento no espaço de características (
clustering in feature space ),
agrupamento no espaço de entradas e agrupamento via máquina de vetores de suporte.
Na categoria de espaço de características, uma versão do método K-médias usando
Kernel
(DHILLON; GUAN; KULIS, 2004) procura solucionar o problema de partição encontrando
hiperespaços de
n
(tamanho do conjunto a ser particionado) dimensões que melhor separam
os objetos em grupos distintos.
Esse método é uma extensão do algoritmo de agrupamento
clássico k-médias que mapeia os dados originais em um espaço de maior dimensão, denominado
espaço de características, através de uma transformação não linear, de modo que esta nova
representação se torne linearmente separável.
O mapeamento entre os espaços não pode ser
denido explicitamente, e o ajustamento entre os grupos e seus respectivos centros é denido
em termos de uma função de
Kernel.
Na categoria agrupamento no espaço de entrada, a ideia
3.1 Funções de
Kernel
para Intervalos
é fazer uso de funções de
Kernel
37
para auxiliar a identicação dos protótipos no espaço de
entrada. Na categoria via máquina de vetores de suporte, a principal tarefa é a construção de
um hiperplano ótimo, ou seja, hiperplanos que maximizam a margem de separação das classes,
possibilitando a separação dos padrões de treinamento de diferentes classes.
Os padrões de
treinamento são mapeados em um espaço de alta dimensão e o classicador SVM encontra um
hiperplano que consegue separar o espaço linearmente com a máxima margem nesse espaço de
alta dimensão. Esse mapeamento é feito utilizando uma função
Kernel.
Este capítulo propõe um conjunto de métodos de agrupamento como extensões do método
K-médias usando
Kernel
nos espaços de características e de entrada para dados simbólicos do
tipo intervalo. Neste contexto, cada objeto é descrito por um vetor de intervalos e diferentes
funções de
Kernel
são adaptadas para tratar intervalos.
O estudo desses tipos de dados é
realizado pela Análise de Dados Simbólicos (ADS) que objetiva estender os métodos estatísticos
para dados simbólicos de tipo intervalo.
a seção 3.1 descreve funções de
Kernel
introduzidos os métodos K-médias com
O capítulo é organizado como segue.
adaptadas para tratar intervalos.
Kernel
Inicialmente,
Na seção 3.2, são
no espaço de características para os paradigmas
rígido e difuso, respectivamente. Na seção 3.3, são apresentados os correspondentes no espaço
de entrada também para os paradigmas rígido e difuso, respectivamente.
3.1
FUNÇÕES DE KERNEL PARA INTERVALOS
Uma variável
simbólica do tipo intervalo X
uma correspondência denida de
de intervalos denidos em
Cada objeto ou padrão
i,
<.
Considere
Ω em < tal que i ∈ Ω, X(i) = [a, b] ∈ I , onde I
Considere um conjunto de
descrito por
como um vetor de intervalos
ξ : xi → ξ(xi )
entrada para intervalos nito
(DIDAY; NOIRHOMME-FRAITURE, 2008) é
p
n
objetos ou padrões
é um conjunto
Ω = {1, . . . , n}.
variáveis simbólicas do tipo intervalo, é representado
xi = ([a1i , b1i ], . . . , [api , bpi ])T .
uma função não linear que realiza um mapeamento do espaço de
X
para um espaço de características de alta dimensão
A escolha adequada da função de
kernel
z.
é um fator importante para que o problema não
linear no espaço dos dados originais possa ser linearmente separável no espaço de características.
kernel
Uma escolha comum é a utilização de uma função RBF (
Gaussiano). Neste trabalho
3.1 Funções de
Kernel
para Intervalos
38
foram denidas duas funções RBF para intervalo:
1) Função RBF com
Kernel
denida por uma componente
K(xi , xl ) = exp(
onde
kxi − xl k2 =
Pp
j=1
xl = (a1l , b1l , . . . , apl , bpl )T
(aji − ajl )2 + (bji − bjl )2
Kernel
bém
kxiI − xlI k2 =
.
Considere
xi = (a1i , b1i , . . . , api , bpi )T
e
Ω.
denida por duas componentes
K(xi , xl ) = exp(
onde
(3.1)
como vetores de 2p-dimensões que descrevem, respectivamente,
o i-ésimo e l-ésimo objetos de
2) Função RBF com
−kxi − xl k2
)
2σ 2
Pp
j
j=1 (ai
xiI = (a1i , , . . . , api )T
e
−kxiI − xlI k2
−kxiS − xlS k2
)
+
exp(
)
2σ 2
2σ 2
− ajl )2
e
kxiS − xlS k2 =
xiS = (b1i , , . . . , bpi )T
Pp
j
j=1 (bi
− bjl )2 .
(3.2)
Considere tam-
como vetores de p-dimensões associados,
respectivamente, aos limites inferior e superior dos intervalos que descrevem o i-ésimo
objeto de
Ω,
e
xlS = (a1l , , . . . , apl )T
que descrevem o l-ésimo objeto de
e
xlS = (b1l , , . . . , bpl )T
como vetores de p-dimensões
Ω.
Proposição 3.1.1 A função para dados intervalares denida por duas componentes de kernel
segundo a equação 3.3, expressa por
K(xi , xl ) = ξ(xiI )ξ(xlI ) + ξ(xiS )ξ(xlS )
(3.3)
é um kernel para todo xi , xl ∈ X .
Prova.
kernel
Seguindo a denição de
kernel
para dados clássicos (CRISTIANINI; J., 2000), um
para dados intervalares pode ser denido por:
K(xi , xl ) = ξ(xi )ξ(xl )
para todo
Seja
(3.4)
xi , xl ∈ X .
K1
e
K2
duas funções de
kernel
denidas no espaço de entradas para intervalos
Respeitando a propriedade em que a soma de duas funções de
entrada representa uma função
kernel
kernel
X.
sob um mesmo espaço de
válida (CRISTIANINI; J., 2000), podemos armar que:
K(xi , xl ) = K1 (xi , xl ) + K2 (xi , xl )
(3.5)
kernel
3.2 Métodos baseados em
para todo
para particionamento no espaço de características
39
xi , xl ∈ X .
K (xiI , xlI ) é um kernel
0
Considere agora, que a função
e pode ser escrito da seguinte forma:
K (xiI , xlI ) = ξ(xiI )ξ(xlI )
0
Analogamente temos:
Temos ainda que
intervalos
X
tal que:
δ1
e
K (xiS , xlS ) = ξ(xiS )ξ(xlS )
0
δ2
são duas funções contínuas denidas sob o espaço de entrada para
xiI = δ1 (xi ) e xiS = δ2 (xi ).
Deste modo, a função
K (xi , xl ) = K (xiI , xlI ) + K (xiS , xlS )
0
0
0
pode ser reescrita como:
K (xiI , xlI ) + K (xiS , xlS ) =
0
0
(3.6)
= K (δ1 (xi ), δ1 (xl )) + K (δ2 (xi ), δ2 (xl ))
0
0
= ξ(δ1 (xi ))ξ(δ1 (xl )) + ξ(δ2 (xi ))ξ(δ2 (xl ))
= ξ1 (xi )ξ1 (xl ) + ξ2 (xi )ξ2 (xl )
= K1 (xi , xl ) + K2 (xi , xl )
Assim, comparando o resultado de 3.6 com 3.5, podemos concluir que a função
3.4 é um
3.2
kernel
K
da equação
para dados intervalares.
MÉTODOS BASEADOS EM KERNEL PARA PARTICIONAMENTO NO ESPAÇO DE CARACTERÍSTICAS
Nesta seção são apresentados dois métodos usando
para dados simbólicos do tipo intervalo.
Kernel
no espaço de características
Neste contexto, para cada elemento, os dados de
entrada (designados por atributos no espaço de dados original)são mapeados por uma função
não-linear em um espaço de características. Nesta abordagem os protótipos são implicitamente
denidos neste novo espaço, sendo necessário uma aproximação desses protótipos através de
um mapeamento inverso do espaço de características para o espaço de entrada.
Considere
ξ : xi → ξ(xi )
uma função não linear que realiza um mapeamento do espaço de
entrada para um espaço de características de alta dimensão
z.
Considere também
em um espaço de características do tipo intervalo de alta dimensão
K
Gξ = {gξ1 , . . . , gξK }.
centros
3.2 Métodos baseados em
3.2.1
kernel
para particionamento no espaço de características
Método K-médias (MKM-EC)
Ω
O problema de agrupamento consiste em encontrar uma partição de
juntos
40
P ∗ = {C1 , . . . , CK }
de modo que a função objetivo
J1ξ (P, Gξ )
=
K X
X
J1ξ
em
K
grupos dis-
seja minimizada.
kξ(xi ) − gξk k2
(3.7)
k=1 i∈CK
onde o valor do protótipo (k
th ) é expresso por:
P
g =
ξ
k
A função
ξ
ξ(xi )
|Ck |
i∈Ck
(3.8)
não está denida e, portanto, não é possível determinar explicitamente os
protótipos dos grupos através da Equação (3.8). Neste caso, a distância Euclidiana quadrática
de um objeto de
ξ(x)
gξk ,
e o centro do grupo
no espaço de características pode ser obtida da
seguinte maneira:
kξ(xi ) − gξk k2 = (ξ(xi ) − gξk )(ξ(xi ) − gξk ) = ξ(xi )ξ(xi ) − 2ξ(xi )gξk + gξk gξk
(3.9)
Substituindo a expressão do protótipo 3.8 na expressão da distância 3.9 obtém-se:
kξ(xi ) − g
ξ 2
kk
= ξ(xi )ξ(xi ) −
2×
ξ(xi )ξ(xl )
+
|Ck |
P
l∈Ck
P
kξ(xi ) − gξk k2 = K(xi , xi ) −
2×
K(xi , xl )
+
|Ck |
l∈Ck
P
l∈Ck
ξ(xi )ξ(xl )
|Ck |2
Reformulando o produto interno em termos da função de
P
i∈Ck
(3.10)
Kernel, obtém-se:
P
i∈Ck
P
x xl )
l∈Ck K( i ,
|Ck |2
(3.11)
O algoritmo K-médias no espaço de características para dados do tipo intervalo não possui
propriamente uma etapa de atualização dos protótipos, pois o protótipo não pode ser explicitamente denido. No entanto, mesmo sem a denição explícita do protótipo é possível realizar
uma etapa de alocação através do mapeamento implícito via função de
em Eq.(3.11).
O algoritmo dene uma matriz de
kernel,
kernel K = {K(xi , xl )}n×n
apresentada
e um conjunto
de partições iniciais, e executa interativamente reorganizando os indivíduos mais próximos em
grupos até que a função objetivo
J1ξ
alcance um valor estacionário, representando um mínimo
local.
O esquema do algoritmo do MKM-EC é ilustrado a seguir:
kernel
3.2 Métodos baseados em
1.
para particionamento no espaço de características
41
Etapa de Pre-processamento: denição do novo espaço de características
Calcule a matriz
K
utilizando uma função de
kernel
apropriada para
i = 1, . . . , n
e
j = 1, . . . , n.
2.
Etapa de Inicialização: obtenção da partição inicial
Selecione (aleatoriamente) uma partição inicial
selecione
K
objetos distintos
yk∗ (k∗ = arg mink=1,...,K
y1 , . . . , yK
0
}
{C10 , . . . , CK
e associe cada objeto
Pp
j
j 2
j
j 2
j=1 (ai − αk ) + (bi − βk )
i
em
Ω
de
K clusters
a uma classe
Ck∗
ou
tal que
para construir a partição inicial
0
}.
{C10 , . . . , CK
3.
Etapa de Alocação: denição da melhor partição
test ← 0
Para
i=1
até
dena o
faça
cluster
k ∗ = arg
Se
n
i ∈ Ck
vencedor
mink=1,...,K
e
Ck∗
tal que
kξ(xi ) − gξk k2
k 6= j
test ← 1
Ck ← Ck ∪ {i}
Cj ← Cj \ {i}
4.
Critério de Parada
Se
3.2.2
test = 0
então PARE, caso contrário vá para a etapa 3.
Método c-médias difuso (McM-EC)
Considere
uki ∈ [0, 1]
como o grau de pertinência de um indivíduo
i
a um grupo
k,
onde a
pertinência ou associação de um indivíduo para todos os grupos obedecem a seguinte restrição:
k
P
i=1
uki = 1 ∀k = 1, . . . , n
(3.12)
3.2 Métodos baseados em
kernel
para particionamento no espaço de características
O problema de agrupamento consiste em encontrar uma partição de
P ∗ = {C1 , . . . , CK }
de modo que a função objetivo
J2ξ (P, Gξ )
=
K X
X
J2ξ
42
Ω em K
grupos difusos
seja minimizada.
(uki )m kξ(xi ) − gξk k2
(3.13)
k=1 i∈CK
onde
m
é um coeciente que vai ponderar o quanto o grau de pertinência inuencia na medida
de distância denida. O valor do protótipo é expresso por:
g =
P
ξ
k
x
m
i∈Ck (uki ) ξ( i )
P
m
i∈Ck (uki )
(3.14)
É possível denir a matriz de pertinência que obedece a restrição 3.12 da seguinte maneira
(GRAVES; PEDRYCZ, 2010):
u−1
ki =
X
kξ(xi ) − gξk k2
j∈Ck
kξ(xi ) − gξj k2
1
! m−1
.
(3.15)
Neste caso, assim como na seção anterior, a distância Euclidiana quadrática de um objeto
de
ξ(x) e o centro do grupo gξk ,no espaço de características pode ser obtida da seguinte maneira:
kξ(xi ) − gξk k2 = (ξ(xi ) − gξk )(ξ(xi ) − gξk ) = ξ(xi )ξ(xi ) − 2ξ(xi )gξk + gξk gξk
(3.16)
Substituindo a expressão do protótipo 3.14 na expressão da distância 3.16 obtém-se:
2×
kξ(xi ) − gξk k2 = ξ(xi )ξ(xi ) −
(ukl )m ξ(xi )ξ(xl )
l∈Ck
P
+
(ukl )m
P
(uki )m (ukl )m ξ(xi )ξ(xl )
i∈Ck l∈Ck
P
(3.17)
(ukl )m )2
(
P P
l∈Ck
l∈Ck
Reformulando o produto interno em termos da função de
2×
kξ(xi ) − gξk k2 = K(xi , xi ) −
(ukl )m K(xi , xl )
l∈Ck
P
+
(ukl )m
P
Kernel, obtém-se:
(uki )m (ukl )m K(xi , xl )
i∈Ck l∈Ck
P
(
((ukl )m )2
P P
l∈Ck
(3.18)
l∈Ck
O esquema do algoritmo do McM-EC para intervalo é ilustrado a seguir:
1.
Etapa de Pre-processamento: denição do novo espaço de características
Calcule a matriz
j = 1, . . . , n.
K
utilizando uma função de
Kernel
apropriada para
i = 1, . . . , n
e
3.3 Métodos baseados em
2.
Kernel
para particionamento no espaço de entrada
Etapa de Inicialização: obtenção da partição inicial
Selecione (aleatoriamente) uma partição inicial
K
selecione
objetos distintos
yk∗ (k∗ = arg mink=1,...,K
y1 , . . . , yK
0
}
{C10 , . . . , CK
e associe cada objeto
Pp
j
j 2
j
j 2
j=1 (ai − αk ) + (bi − βk )
1, . . . , K)
em
i
Ω
de
K clusters
a uma classe
Ck∗
ou
tal que
para construir a partição inicial
0
{C10 , . . . , CK
}.
3.
43
Gere uma matriz de pertinência tal que a pertinência
k
P
do indivíduo i ao cluster Ck seja uki > 0 e
uki = 1.
i=1
uki (i = 1, . . . , n)(k =
Etapa de Alocação: denição da melhor partição e cálculo da pertinência
test ← 0
Para
i=1
até
n
faça
Calcule a pertinência através da Equação 3.15
dena o
cluster
k = arg
minj=1,...,K
Se
i ∈ Ck
e
vencedor
Ck∗
tal que
(uki )m kξ(xi ) − gξk k2
k 6= j
test ← 1
Ck ← Ck ∪ {i}
Cj ← Cj \ {i}
4.
Critério de Parada
Se
3.3
test = 0
então PARE, caso contrário vá para a etapa 3.
MÉTODOS BASEADOS EM KERNEL PARA PARTICIONAMENTO NO ESPAÇO DE ENTRADA
Nas subseções a seguir serão apresentados dois métodos K-médias usando funções de
kernel
no espaço de entradas para dados simbólicos do tipo intervalo. Neste contexto, são encontrados
os protótipos dos grupos no espaço de dados originais (espaço de entrada), e determinada a
distância entre os indivíduos e os protótipos por meio de funções de
Considere
ξ : xi → ξ(xi )
kernel.
uma função não linear que realiza um mapeamento do espaço de
entrada para um espaço de características de alta dimensão
z.
Considere também
K
centros
3.3 Métodos baseados em
Kernel
para particionamento no espaço de entrada
G = { g1 , . . . , gK }
no espaço de entradas do tipo intervalo
44
como protótipos dos grupos, onde
gk = ([αk1 , βk1 ], . . . , [αkp , βkp ]), ∀k = 1, . . . , K .
3.3.1
Método K-médias (MKM-EE)
O problema de agrupamento consiste em encontrar uma partição de
juntos
P ∗ = {C1 , . . . , CK }
de modo que a função objetivo
J3ξ (P, G) =
K X
X
J3ξ
Ω
em
K
grupos dis-
seja minimizada.
kξ(xi ) − ξ(gk )k2
(3.19)
k=1 i∈CK
A distância Euclidiana quadrática no espaço de características pode ser obtida da seguinte
maneira:
kξ(xi )−ξ(gk )k2 = (ξ(xi )−ξ(gk ))(ξ(xi )−ξ(gk )) = ξ(xi )ξ(xi )−2ξ(xi )ξ(gk )+ξ(gk )ξ(gk )
Reformulando o produto interno em termos da função de
(3.20)
Kernel, obtém-se:
kξ(yi ) − ξ(gk )k2 = K(xi , xi ) − 2K(xi , gk ) + K(gk , gk )
(3.21)
Para este caso o valor do protótipo é expresso por
P
K(xi , gk )xi
gk = Pi∈Ck
i∈Ck K(xi , gk )
(3.22)
Proposição 3.3.1 Os protótipos {g1 , . . . , gK } dos grupos CK , onde gk = (g1k , . . . g1p )(k =
1, . . . , K) com gjk = [αkj , βkj ](j = 1, . . . , p) que minimizam o critério J3ξ são atualizados de
acordo com a expressão 3.22.
Prova.
O problema é encontrar o
gk
que minimize a função
solução deste problema é encontrada derivando a função
a
gk .
J=
J3ξ .
P
Como o critério é aditivo, a
kξ(xi ) − ξ(gk )k2
em relação
i∈CK
A derivação dos protótipos depende da seleção da função de
kernel.
O Cálculo dos protóti-
3.3 Métodos baseados em
pos
gk
para
k = 1, . . . , K
Kernel
para o
para particionamento no espaço de entrada
kernel
Gaussiano procede-se da seguinte maneira:
∂J
=0
∂ gk
X ∂ kξ(xi ) − ξ(gk )k2 = 0
∂ gk
i∈Ck
X ∂
[2(1 − K(xi , gk ))] = 0
∂
g
k
i∈Ck
X ∂ −kxi − gk k2
−2 exp
=0
∂ gk
2σ 2
i∈Ck
X
−kxi − gk k2
2(xi − gk )
exp
=0
2
2
2σ
σ
i∈Ck
X
X
gk
K(xi , gk ) =
K(xi , gk )xi
i∈Ck
(3.23)
i∈Ck
P
K(xi , gk )xi
gk = Pi∈Ck
i∈Ck K(xi , gk )
O resultado demonstra que atualizando
nimo local) minimizando função
45
gk
(3.24)
pela equação 3.24 obtém um ponto crítico (mí-
J3ξ .
Proposição 3.3.2 A partição P , que minimiza o critério J3ξ , possui grupos C1 , . . . , Ck alterados
de acordo com a seguinte regra de alocação:
Ck = {i ∈ Ω : kξ(xi ) − ξ(gk )k2 ≤ kξ(xi ) − ξ(gm )k2
∀m 6= k} (m = 1, . . . , K)
Prova 1.
(3.25)
A prova da Proposição 3.3.2 é direta.
De acordo com (DIDAY; SIMON, 1976) as propriedades de convergência deste tipo de
algoritmo podem ser estudadas a partir de duas séries:
vt = (P t , Gt ) e ut = J3ξ (vt ) = J3ξ (P t , Gt ),
t = 0, 1, ...
A partir de um termo inicial
vt
v0 = (P 0 , G0 ), o algoritmo calcula os diferentes termos da série
até a convergência, quando o critério
J3ξ
alcança um valor estacionário.
Proposição 3.3.3 A série ut = J3ξ (v t ) decresce a cada iteração e converge.
Prova.
Primeiro vamos mostrar que as desigualdades (I) e (II) permanecem (ou seja, a
3.3 Métodos baseados em
Kernel
para particionamento no espaço de entrada
46
série decresce a cada iteração).
(I)
(II)
z}|{ ξ t t+1 z}|{ ξ t+1 t+1
≥ J3 (P , G ) ≥ J3 (P , G )
}
|
{z
}
J3ξ (P t , Gt )
{z
|
ut
ut+1
A desigualdade (I) permanece porque
J3ξ (P t , Gt )
=
K X
X
kξ(xi ) − ξ(gtk )k2
k=1 i∈C (t)
K
J3ξ (P t , Gt+1 )
=
K X
X
2
kξ(xi ) − ξ(gt+1
k )k
k=1 i∈C (t)
K
e de acordo com a Proposição 3.3.1,
gkt+1 = arg min
| {z }
g∈G
X
kξ(xi ) − ξ(gk )k2 (k = 1, . . . , K)
i∈Ckt
A desigualdade (II) permanece porque
J3ξ (P t+1 , Gt+1 )
=
K
X
X
2
kξ(xi ) − ξ(gt+1
k )k
k=1 i∈C (t+1)
K
e de acordo com a Proposição 3.3.2,
Ckt+1 = arg min
| {z }
X
2
kξ(xi ) − ξ(gt+1
k )k (k = 1, . . . , K)
C∈P (Ω) i∈C
Finalmente, porque a série
ut
decresce e é limitada
(J3ξ (vt ) ≥ 0),
então converge.
Proposição 3.3.4 A série vt = (P t , Gt ) converge.
Prova.
t = T.
Assumindo que a série
Então, temos que
A partir de
ut
uT = uT +1
J3ξ (vT ) = J3ξ (vT +1 ),
alcança o mínimo local (estado estacionário) na iteração
e então
J3ξ (vT ) = J3ξ (vT +1 )
temos que
J3ξ (P T , GT ) = J3ξ (P T +1 , GT +1 )
e esta igualdade,
de acordo com a proposição 3.3.3, pode ser reescrita como as igualdades (I) e (II):
(I)
(II)
ξ
T
T z}|{ ξ
T
T +1 z}|{ ξ
J3 (P , G ) = J3 (P , G ) = J3 (P T +1 , GT +1 )
A partir da igualdade (I), temos que
(e quando a partição
P
PT
é único minimizando
GT = GT +1
porque
G é único quando J3ξ
é xada). A partir da igualdade (II), temos que
J3ξ
quando o vetor de protótipos
GT +1
é xado.
é minimizado
P T = P T +1
porque
3.3 Métodos baseados em
Kernel
para particionamento no espaço de entrada
Finalmente, concluímos que
vt = vT , ∀t ≥ T
vT = vT +1 .
vt
e, portanto, a série
47
Esta conclusão permanece para todo
t ≥ T
e
converge.
O esquema do algoritmo do método MKM-EE para intervalo é ilustrado a seguir::
1.
Etapa de Pre-processamento
Calcule a matriz de
1, . . . , n
2.
K
Kernel
utilizando uma função de
kernel
apropriada para
i =
l = 1, . . . , n.
e
Etapa de Inicialização: obtenção da partição inicial
Selecione (aleatoriamente) uma partição inicial
selecione
K
objetos distintos
yk∗ (k∗ = arg mink=1,...,K
y1 , . . . , yK
0
{C10 , . . . , CK
}
e associe cada objeto
Pp
j
j 2
j
j 2
j=1 (ai − αk ) + (bi − βk )
i
em
Ω
de
K clusters
a uma classe
Ck∗
ou
tal que
para construir a partição inicial
0
{C10 , . . . , CK
}.
3.
Etapa de Representação: cálculo dos protótipos
Para
4.
k
de
1
até
K
obtenha
gk
Etapa de Alocação: denição da melhor partição
Atribua a cada elemento
xi
à classe
minimizando a função objetivo
5.
utilizando Eq. (3.22).
k
tal que a distância
kξ(xi ) − ξ(gk )k2
seja a menor
J3ξ
Critério de Parada
Caso nenhum elemento mude de classe então PARE; caso contrário vá para a etapa 3.
3.3.2
Método c-médias difuso (McM-EE)
Considere também
k,
uki ∈ [0, 1]
como o grau de pertinência de um indivíduo
i
a um grupo
onde a pertinência ou associação de um indivíduo para todos os grupos obedecem a seguinte
restrição:
k
P
uki = 1 ∀k = 1, . . . , n
(3.26)
i=1
O problema de agrupamento consiste em encontrar uma partição de
Ω em K
grupos difusos
3.3 Métodos baseados em
P ∗ = {C1 , . . . , CK }
Kernel
para particionamento no espaço de entrada
de modo que a função objetivo
J4ξ (P, G)
=
K X
X
J4ξ
48
seja minimizada.
(uki )m kξ(xi ) − ξ(gk )k2
(3.27)
k=1 i∈Ck
Para este caso o valor do protótipo é expresso por
P
(uki )m K(xi , gk )xi
gk = Pi∈Ck
m
i∈Ck (uki ) K(xi , gk )
(3.28)
A matriz de pertinência que obedece a restrição 3.26 é denida pela seguinte expressão
(GRAVES; PEDRYCZ, 2010):
u−1
ki
1
X 1 − K(xi , g ) m−1
k
=
.
1
−
K(
x
i , gj )
j∈C
(3.29)
k
Proposição 3.3.5 Os protótipos {g1 , . . . , gK } dos grupos CK , onde gk = (g1k , . . . g1p )(k =
1, . . . , K) com gjk = [αkj , βkj ](j = 1, . . . , p) que minimizam o critério J4ξ são atualizados de
acordo com a expressão 3.28.
Prova.
O problema é encontrar o
gk
solução deste problema é encontrada derivando a função
relação a
J4ξ . Como o critério é aditivo, a
P
J =
(uki )m kξ(xi ) − ξ(gk )k2 em
que minimize a função
i∈CK
gk .
A derivação dos protótipos depende da seleção da função de
pos
gk
para
k = 1, . . . , K
para o
kernel
kernel.
O Cálculo dos protóti-
Gaussiano procede-se da seguinte maneira:
∂J
=0
∂ gk
X ∂ k(uki )m ξ(xi ) − ξ(gk )k2 = 0
∂ gk
i∈Ck
X
∂
[2(1 − K(xi , gk ))] = 0
(uki )m
∂ gk
i∈Ck
X
−kxi − gk k2
m ∂
=0
(uki )
−2 exp
2
∂
g
2σ
k
i∈Ck
X
2(xi − gk )
−kxi − gk k2
m
=0
(uki ) exp
2
2
2σ
σ
i∈Ck
X
X
gk
(uki )m K(xi , gk ) =
(uki )m K(xi , gk )xi
i∈Ck
(3.30)
i∈Ck
P
m
i∈Ck (uki ) K(xi , gk )xi
gk = P
m
i∈Ck (uki ) K(xi , gk )
(3.31)
3.3 Métodos baseados em
Kernel
para particionamento no espaço de entrada
O resultado demonstra que atualizando
nimo local) minimizando função
gk
49
pela equação 3.31 obtém um ponto crítico (mí-
J4ξ .
Proposição 3.3.6 A pertinência uki de cada indivíduo i em cada grupo Ck minimiza o critério
k
P
J4ξ sob as seguintes restrições uki ≥ 0 e
uki = 1 é alterada de acordo com a expressão 3.29.
i=1
Prova.
J4ξ
A minimização de
em relação a
multiplicadores de Lagrange a cada termo
uki
pode ser obtida aplicando o método dos
uk .
Seja o lagrangiano:
L(P, G) =
K X
X
(uki ) kξ(xi ) − ξ(gk )k −
m
2
k=1 i∈Ck
Derivando
L
em relação a
uki
X
λi (1 −
K
X
i∈Ck
uki )
(3.32)
k=1
e igualando a zero, tem-se:
∂L
2
= mum−1
ki kξ(xi ) − ξ(gk )k − λi = 0
∂uki
então:
uki =
λi
mkξ(xi ) − ξ(gk )k2
A equação 3.33 pode ser reescrita utilizando um
uki =
k
P
(3.33)
kernel
λi
2m(1 − K(xi , gk ))
Substituindo a expressão 3.34 na restrição
1
m−1
Gaussiano:
1
m−1
uki = 1,
(3.34)
obtém-se:
i=1
k X
i=1
λi
2m(1 − K(xi , gk ))
1
m−1
=1
(3.35)
Com isso, obtemos os multiplicadores de Langrange:
"
λi =
k X
i=1
1
2m(1 − K(xi , gk ))
#1−m
1
m−1
(3.36)
Substituindo a equação 3.36 em 3.33, obtém-se a pertinência denida pela equação 3.29.
Assim como no método MKM-EE as propriedades de convergência deste tipo de algoritmo
podem ser estudadas a partir de duas séries:
A partir de um termo inicial
vt
vt = (P t , Gt ) e ut = J4ξ (vt ) = J4ξ (P t , Gt ), t = 0, 1, ...
v0 = (P 0 , G0 ), o algoritmo calcula os diferentes termos da série
até a convergência, quando o critério
J4ξ
alcança um valor estacionário.
3.3 Métodos baseados em
Kernel
para particionamento no espaço de entrada
50
Proposição 3.3.7 A série ut = J4ξ (v t ) decresce a cada iteração e converge.
Prova.
Primeiro vamos mostrar que as desigualdades (I) e (II) permanecem (ou seja, a
série decresce a cada iteração).
(I)
(II)
z}|{
z}|{
J4ξ (P t , Gt ) ≥ J4ξ (P t , Gt+1 ) ≥ J4ξ (P t+1 , Gt+1 )
|
| {z }
{z
}
ut
ut+1
A desigualdade (I) permanece porque
J4ξ (P t , Gt )
K X
X
=
(uki )m kξ(xi ) − ξ(gtk )k2
(t)
k=1 i∈C (t)
K
J4ξ (P t , Gt+1 )
=
K X
X
2
(uki )m kξ(xi ) − ξ(gt+1
k )k
(t)
k=1 i∈C (t)
K
e de acordo com a Proposição 3.3.5,
gkt+1 = arg min
| {z }
g∈G
(uki )m kξ(xi ) − ξ(gk )k2 (k = 1, . . . , K)
X
(t)
i∈Ckt
A desigualdade (II) permanece porque
J4ξ (P t+1 , Gt+1 )
K
X
X
=
2
) kξ(xi ) − ξ(gt+1
k )k
(t+1) m
(uki
k=1 i∈C (t+1)
K
e de acordo com a Proposição 3.3.6,
Ckt+1 = arg min
| {z }
X
2
(uki )m kξ(xi ) − ξ(gt+1
k )k (k = 1, . . . , K)
C∈P (Ω) i∈C
Finalmente, porque a série
ut
decresce e é limitada
(J4ξ (vt ) ≥ 0),
então converge.
Proposição 3.3.8 A série vt = (P t , Gt ) converge.
Prova.
t = T.
Assumindo que a série
Então, temos que
A partir de
ut
uT = uT +1
J4ξ (vT ) = J4ξ (vT +1 ),
alcança o mínimo local (estado estacionário) na iteração
e então
J4ξ (vT ) = J4ξ (vT +1 )
temos que
J4ξ (P T , GT ) = J4ξ (P T +1 , GT +1 )
e esta igualdade,
de acordo com a proposição 3.3.7, pode ser reescrita como as igualdades (I) e (II):
(I)
(II)
ξ
T
T z}|{ ξ
T
T +1 z}|{ ξ
J4 (P , G ) = J4 (P , G ) = J4 (P T +1 , GT +1 )
Kernel
3.3 Métodos baseados em
para particionamento no espaço de entrada
A partir da igualdade (I), temos que
(e quando a partição
P
PT
é único minimizando
porque
G é único quando J4ξ
é xada). A partir da igualdade (II), temos que
J4ξ
quando o vetor de protótipos
Finalmente, concluímos que
vt = vT , ∀t ≥ T
GT = GT +1
51
vT = vT +1 .
vt
e, portanto, a série
GT +1
é minimizado
P T = P T +1
porque
é xado.
Esta conclusão permanece para todo
t ≥ T
e
converge.
O esquema do algoritmo do método McM-EE é ilustrado a seguir:
1.
Etapa de Pre-processamento
Calcule a matriz de
1, . . . , n
2.
Kernel
K
utilizando uma função de
i =
Etapa de Inicialização: obtenção da partição inicial
selecione
K
objetos distintos
yk∗ (k∗ = arg mink=1,...,K
0
}.
{C10 , . . . , CK
y1 , . . . , yK
0
}
{C10 , . . . , CK
e associe cada objeto
Pp
j
j 2
j
j 2
j=1 (ai − αk ) + (bi − βk )
Os parâmetros
m (1 < m < ∞)
pertinência tal que a pertinência
k
P
Ck seja uki > 0 e
uki = 1.
i=1
e
ε>0
i
em
Ω
de
K clusters
a uma classe
Ck∗
ou
tal que
para construir a partição inicial
são xados. Gere uma matriz de
uki (i = 1, . . . , n)(k = 1, . . . , K) do indivíduo i ao cluster
Etapa de Representação: cálculo dos protótipos
Para
4.
apropriada para
l = 1, . . . , n.
e
Selecione (aleatoriamente) uma partição inicial
3.
kernel
k
de
1
até
K
obtenha
gk
utilizando Eq. (3.28).
Cálculo da matriz de pertinência
Atualize a matriz de pertinência
uik
para
(k = 1, . . . , K)
e
(i = 1, . . . , n)
com a Equação
(3.29)
5.
Critério de Parada
Caso
ξ
ξ
|J4(t+1)
− J4(t)
|≤ε
caso contrário faça
então PARE, calcule o critério
t=t+1
e vá para a etapa 3.
J4ξ
utilizando a Equação (3.27),
CAPÍTULO 4
APRESENTAÇÃO E ANÁLISE DOS RESULTADOS
Com o objetivo de validar os métodos propostos para dados do tipo intervalo, foram realizados
experimentos com conjuntos de dados simbólicos intervalares sintéticos e conjunto de dados
reais do tipo intervalo. Os conjuntos de dados articiais ou sintéticos foram gerados com diferentes graus de diculdade de classicação com grupos de formas e tamanhos diferentes e com
conjuntos que apresentam elementos dispostos de maneira não-linear, para que os experimentos
possam fornecer resultados referentes à eciência dos métodos em encontrar partições de dados
não-linearmente separáveis no espaço de entrada.
A avaliação dos resultados de classicação fornecidos pelos métodos foi baseada em índice
de validação externo e interno (GORDON, 1999): índice corrigido de Rand (CR) (HUBERT;
ARABIE, 1985) e índice de Davies e Bouldin (DB) (NASSER; HAMAD, 2007).
Para cada
conjunto de dados articiais o índice de validação é estimado no quadro de uma experiência
Monte Carlos com 100 replicações. A nalidade da aplicação do método Monte Carlo é propiciar
uma melhor avaliação quantitativa do desempenho dos métodos considerando situações com
diferentes graus de diculdades de classicação.
A primeira seção descreve as métricas utilizada para avaliação dos métodos de agrupamento,
a segunda seção descreve uma heurística para ajuste do parâmetro
σ
do Kernel Gaussiano
realizados durante a fase de experimentação, a terceira seção descreve os conjuntos de dados
utilizados na avaliação e as seções seguintes apresentam os resultados e a discussões sobre os
experimentos realizados.
4.1
CÁLCULO DO ÍNDICE DE VALIDAÇÃO
Para determinar se os grupos formados são signicativos o resultado do processo de agru-
pamento é validado para aferir a qualidade da solução encontrada. A validação dos grupos é
4.1 Cálculo do Índice de Validação
53
uma etapa muito importante no processo de análise de agrupamento, pois diferentes abordagens
de agrupamentos podem levar a formação de diferentes grupos. Além disso, para um mesmo
algoritmo a identicação dos parâmetros ou a ordem de apresentação dos padrões de entrada
podem afetar o resultado nal. Portanto, a denição de critérios e padrões de avaliação é importante para fornecer aos usuários certo grau de conança nos resultados dos agrupamentos
obtidos a partir de seus algoritmos. As avaliações devem ser objetivas e não devem privilegiar
nenhum algoritmo.
Esta avaliação pode ser baseada, de um modo geral, em índices de vali-
dação externo e interno. Um índice externo é usado para comparar a estrutura de classes obtida
por um agrupamento com uma estrutura previamente denida e um índice interno determina
se a estrutura do agrupamento está apropriada aos dados. Maiores detalhes sobre os índices
de validação podem ser encontrados em (GORDON, 1999). As seções seguintes descrevem os
dois índices (um externo e outro interno) utilizados neste trabalho para realizar o processo de
validação dos métodos de agrupamentos.
4.1.1
Índice Corrigido de Rand (CR)
A avaliação dos resultados de classicação fornecidos pelos métodos foi baseada em um
índice de validação externo conhecido como índice de Rand corrigido (CR) (HUBERT; ARABIE, 1985). A ideia deste índice é simplesmente de medir o grau de similaridade entre uma
partição a priori e uma partição fornecida pelo algoritmo de agrupamento.
Este índice foi
escolhido por não ser sensível ao número de classes e nem as distribuições dos elementos nas
classes.
Considere
U = {u1 , . . . , ui , . . . , uR }
agrupamento e
uma partição dada como resultado de um método de
V = {v1 , . . . , vj , . . . , vC }
a partição a priori, sendo as duas partições de um
mesmo conjunto de dados tendo, respectivamente,
R
e
C
grupos. O índice de Rand é denido
como:
nij
n −1 PR
ni. PC
n.j
i=1 2
j=1 2
i=1
j=1 2 − 2
PR ni. PC n.j n −1 PR
ni. PC
n.j
1
]
−
[
+
i=1 2
j=1 2
i=1 2
j=1 2
2
2
PR PC
CR =
onde
n
2
=
n(n−1)
e
2
nij
representa o número de objetos que estão nas classes
o número de objetos no grupo
ui ; n.j
indica o número de objetos no grupo
total de objetos do conjunto de dados.
(4.1)
ui
vj ;
e
e
vi ; ni.
n
indica
é o número
4.2 Considerações sobre o Kernel Gaussiano
54
O índice CR pode assumir valores no intervalo de
[−1, 1].
O valor 1 indica uma perfeita
combinação entre as partições comparadas. Em outras palavras, quanto mais próximo de 1,
melhor o processo de classicação e, consequentemente maior a similaridade entre os grupos
avaliados; quanto mais próximo de 0 (ou em caso de valores negativos) menor a similaridade
entre os grupos.
4.1.2
Índice de Davies e Bouldin (DB)
O índice de Davies e Bouldin (DB) é uma medida que indica a similaridade entre agrupamentos. Esta medida pode ser usada para a avaliação da partição dos dados e, consequentemente,
para a comparação entre diferentes grupos formados em um conjunto de dados. Este índice é
independente do número de agrupamentos e do método de particionamento dos dados, o que o
torna indicado para a avaliação de algoritmos de particionamento de dados.
O índice DB é uma função que calcula a razão entre a soma da dispersão dentro dos grupos
pela dispersão entre os grupos.
O cálculo do índice DB pode ser determinado pela equação
(4.2). O valor resultante do índice decresce conforme a qualidade da partição aumenta.
K
1 X
δi + δj
DB =
max
K k=1
d(ci , cj )
onde
K ≥ 1, δi
entre os grupos
ci
e
(4.2)
( e
δj )
cj .
Aqui, a dispersão intra-grupo é minimizada e a separação inter-grupo
representa a dispersão no grupo e
d(ci , cj )
representa a distância
é maximizada.
Como a dispersão intra-grupo e inter-grupo representam funções de distância é possível
associá-las a um
kernel
4.2
kelnel,
portanto este trabalho considera o cálculo do índice DB baseado em
conforme apresentado em (NASSER; HAMAD, 2007).
CONSIDERAÇÕES SOBRE O KERNEL GAUSSIANO
Como ilustrado no capítulo anterior, o
Kernel
Gaussiano ou função RBF, é representada
neste trabalho pela equação 4.3 de duas componentes a seguir:
K(xi , xl ) = exp(
−kxiI − xlI k2
−kxiS − xlS k2
)
+
exp(
)
2σ 2
2σ 2
(4.3)
4.2 Considerações sobre o Kernel Gaussiano
55
Esta função representa a similaridade Gaussiana entre os vetores de intervalo e tem sido utilizada amplamente em diversos trabalhos (DHILLON; GUAN; KULIS, 2004). Um parâmetro
importante nesta função é o
σ
(sigma).
A partir de outros trabalhos (FILIPPONE et al.,
2008)(GRAVES; PEDRYCZ, 2010) é possível identicar que a escolha desse parâmetro é importante e pode inuenciar no comportamento da função, e consequentemente dos métodos que
a utilizam.
Por questão de simplicidade, tipicamente, assume-se o valor do parâmetro
σ
como uma
constante. No entanto, existem na literatura algumas abordagens para ajustar o valor desse
parâmetro no
Kernel
Gaussiano na busca de similaridades e baseado nas características do
conjunto de dados (BRAND; HUANG, 2003) (ZELNIK-MANOR; PERONA, 2004).
Neste trabalho uma abordagem foi considerada para computar o valor do parâmetro
Nesta abordagem o
σ.
σ foi calculado considerando os indivíduos que compõe o conjunto de dados,
especicamente os indivíduos pertencentes a um grupo. Através da equação 4.4, observa-se que
a computação do parâmetro
σk
baseia-se em duas componentes (limites inferior e superior dos
intervalos):
vP
vP
u
u
d
dS
u
u
I
t i∈Ck
t i∈Ck
σk =
+
nk
nk
onde
nk
o número de indivíduos pertencente ao grupo
k.
(4.4)
As funções
dI
e
dS
representam a
distância Euclidiana quadrática no espaço de características entre um indivíduo e o centro do
grupo para a componente do limite inferior e superior, respectivamente. Desta forma, podemos
reescrever a equação 4.3 da seguinte maneira:
K(xi , xl ) = exp(
−kxiI − xlI k2
−kxiS − xlS k2
)
+
exp(
)
2σk2
2σk2
(4.5)
É importante destacar que essa abordagem foi adotada de maneira empírica e intuitiva,
levando em consideração, no conjunto de dados utilizado, a distância entre os elementos dos
grupos e seus protótipos. Essa computação não leva em conta um critério de otimização, em
outras palavras, ela não calcula um valor ótimo do parâmetro
σ (se trata de uma heurística).
No
entanto, o seu cálculo não é aleatório, pois a equação 4.4 considera três aspectos importante: os
indivíduos pertencentes aos grupos, a distância entre esses indivíduos e os centros dos grupos e
a variação entre esses elementos (caracterizada pela raiz quadrada). A intuição dessa heurística
é que esses aspectos combinados podem inuenciar positivamente na denição deste parâmetro,
4.3 Experimentos e Resultados
56
e consequentemente o desempenho das técnicas que a utilizam.
4.3
EXPERIMENTOS E RESULTADOS
Esta seção apresenta os experimentos realizados juntamente com os resultados e discussões.
Como mencionado no início deste capítulo, foram realizados experimentos utilizando conjunto
de dados sintéticos e conjunto de dados reais. Os resultados dos experimentos para os métodos
propostos no capítulo anterior serão comparados métodos de agrupamento para dados simbólicos intervalares amplamente aceitos na literatura de Análise de Dados Simbólicos: Método
Adaptive Dynamic Cluster )
de Agrupamento Dinâmico com distância adaptativa por classe (
- DAC, Método de Agrupamento Dinâmico com distância adaptativa única (
Single Adaptive
Dynamic Cluster ) - DAU e Método de Agrupamento Dinâmico Difuso c-médias com distância
adaptativa - FCMA.
Os resultados serão apresentados nas seções seguintes para os conjuntos de dados sintéticos
e conjunto de dados reais.
4.3.1
Conjunto de Dados Sintéticos
Para realizar os experimentos com dados sintéticos, foi implementado um sistema de
cluster
na linguagem C++ que apresenta duas grandes etapas: a simulação de dados do tipo intervalo e
o cálculo do índice de validação. Como já mencionado, as etapas deste sistema são organizadas
no quadro de uma experiência Monte Carlo. 100 replicações são consideradas para cada conjunto de dados de intervalo. A média do índice dos índices CR (HUBERT; ARABIE, 1985) e
DB são calculadas entre estas 100 replicações. Em cada replicação um método de agrupamento
é executado 150 vezes e o melhor resultado, de acordo com o critério do método em questão, é
selecionado. O experimento de Monte Carlo foi executado na maneira especicada no algoritmo
a seguir.
1.
Etapa inicial
Determine o número de replicações
Determine o número de grupos
K
R
do conjunto de dados;
desejadas no conjunto de dados;
4.3 Experimentos e Resultados
57
Determine parâmetros especícos para cada grupo do conjunto de dados para
k = 1, . . . , K ,
por exemplo, médias e variâncias;
Determine o número de indivíduos em cada grupo
Escolha o algoritmo de agrupamento
Determine os parâmetros
P
A
nk
para
k = 1, . . . , K ;
a ser aplicado no conjunto de dados;
necessários ao algoritmo de agrupamento escolhido;
Determine os índices de validação
I
a serem medidos após a execução do algoritmo de
agrupamento;
2.
Para r = 1 até R faça
Crie uma replicação aleatória
r
do conjunto de dados contendo
Execute o algoritmo de agrupamento
A
passando a replicação
K
r
grupos;
e os demais parâmetros
P;
Colete os índices de validação
I
e armazene-os;
m para
3.
Calcule a média e o desvio padrão dos índices de validação I
4.
retorne Média e desvio padrão calculada no passo anterior.
e armazene-os;
Os conjuntos de dados sintéticos do tipo intervalo foram gerados considerando cada ponto
(y1 , y2 ) como uma semente de um vetor de intervalos (retângulos) denidos por: ([y1 −γ1 /2, y1 +
γ1 /2], [y2 − γ2 /2, y2 + γ2 /2]).
Estes parâmetros
tir de um mesmo intervalo predenido.
[1, 5], [1, 10], [1, 15]
e
γ1
e
γ2
são selecionados aleatoriamente a par-
Os intervalos considerados nestes experimentos são:
[1, 20].
Neste trabalho foram utilizados três conjuntos de dados sintéticos que serão apresentados
nas subseções seguintes. Os resultados serão apresentados primeiramente para os algoritmos
de agrupamento rígidos e em seguida para os métodos difusos.
Conjunto de Dados 1
A Figura 4.1 ilustra um conjunto com 225 indivíduos distribuídos em entre quatro classes
de tamanhos e formas diferentes. O conjunto de dados intervalares foi gerado de acordo com
os seguintes parâmetros:
4.3 Experimentos e Resultados
58
a) Classe 1:
µ1 = 28, µ2 = 23, σ12 = 144, σ22 = 16
b) Classe 2:
µ1 = 62, µ2 = 30, σ12 = 81, σ22 = 49
e
ρ12 = 0;
c) Classe 3:
µ1 = 50, µ2 = 15, σ12 = 49, σ22 = 81
e
ρ12 = 0;
c) Classe 4:
µ1 = 57, µ2 = 48, σ12 = 16, σ22 = 144
Figura 4.1.
e
e
ρ12 = 0;
ρ12 = 0;
Conjunto de Dados 1 do tipo Intervalo com classes de tamanho e forma diferentes
Este conjunto é uma conguração típica utilizado na validação de métodos de agrupamento
de dados intervalares e pode ser encontrada em (CARVALHO; LECHEVALLIER, 2009a). Os
parâmetros
µ1
e
µ2
representam médias e os parâmetros
σ12
e
σ22
as variâncias. A manipulação
das médias alteram a separação dos grupos (separadas ou sobrepostas), enquanto que a manipulação das variâncias inuenciam nas formas dos grupos (elípticas ou circulares). Neste caso,
o conjunto de dados apresenta grupos com tamanhos e formas diferentes e classes separadas.
Conjunto de Dados 2
A Figura 4.2 ilustra um conjunto de dados, onde os dados seguem a formação semelhante
a espirais arquimedianas, onde cada braço da espiral é denida em coordenadas polares
(r, θ)
pela equação:
r = a + bθ
números reais e
θ
em medidas angulares. O parâmetro
enquanto que o parâmetro
b
está relacionado a distância entre os sucessivos giros. Seguindo
sendo
a
e
b
(4.6)
a
controla o giro da espiral,
4.3 Experimentos e Resultados
59
esse padrão, foi criado um conjunto de dados simbólicos com quatro classes.
Este conjunto
possui 90 indivíduos distribuídos entre as classes contendo 15, 20, 25 e 30, com ângulo total
θ = 120
graus, sendo tendo
Figura 4.2.
a = 10
e
b = 5.
Conjunto de Dados 2 do tipo Intervalo com quatro classes
Conjunto de Dados 3
A Figura 4.3 ilustra um conjunto de dados com três classes que contém 30, 40 e 20 indivíduos
em cada classe. É fácil perceber que trata-se de um conjunto onde a disposição de grupos é
não linear.
Figura 4.3.
Conjunto de Dados 3 do tipo Intervalo com três classes dispostos de maneira não linear
Conjunto de Dados 4
A Figura 4.4 ilustra um conjunto de dados, onde os dados seguem a formação semelhante
a espirais arquimedianas, onde cada braço da espiral é denida em coordenadas polares
(r, θ)
4.3 Experimentos e Resultados
60
pela equação:
r = a + bθ
números reais e
θ
em medidas angulares. O parâmetro
enquanto que o parâmetro
b
está relacionado a distância entre os sucessivos giros. Seguindo
sendo
a
e
b
(4.7)
a
controla o giro da espiral,
esse padrão, foi criado um conjunto de dados simbólicos com duas classes. Este conjunto possui
80 indivíduos distribuídos entre as classes contendo 30 e 50, com ângulo total
sendo tendo
a = 10
e
θ = 260
graus,
b = 5.
Figura 4.4.
Conjunto de Dados 4 do tipo Intervalo com quatro classes
Conjunto de Dados 5
A Figura 4.5 ilustra um conjunto de dados, onde os dados seguem a formato senoidal.
Seguindo esse padrão, foi criado um conjunto de dados simbólicos com duas classes.
conjunto possui 100 indivíduos distribuídos entre as classes cada uma 50 indivíduos.
Figura 4.5.
Conjunto de Dados 5 do tipo Intervalo com quatro classes
Este
4.3 Experimentos e Resultados
4.3.1.1
61
Análise dos resultados para as funções de
kernel
de uma e duas compo-
nentes
Nesta seção serão apresentados os resultados de experimentos realizados, com os conjuntos
de dados 1 a 5 ilustrados na seção anterior, para os métodos de agrupamento com abordagem
rígida considerando os dois tipos de funções de
kernel apresentados no capítulo 3.
Como exposto
no capítulo anterior estes métodos utilizam a metodologia K-médias e são baseadas na aplicação
de funções de
kernel
para intervalos.
Conforme apresentado no capítulo 3, neste trabalho, foram considerados, inicialmente, duas
funções de
de
kernel
kernel,
uma que considera o intervalo como informação única, chamada de função
de uma componente e outra que considera o intervalo (seu limite inferior e superior)
como duas informações separadas, denominada de função de
kernel
de duas componentes.
A primeira parte deste trabalho realiza uma comparação do desempenho dos métodos rotulados como MKM-EC considerando os dois tipos de
kernels
citados. Esta avaliação tem como
base uma adaptação do índice de validação interno de Davies e Bouldin proposto em (NASSER;
HAMAD, 2007).
As guras 4.6 a 4.10 apresentam os resultados para os conjunto de dados de 1 a 5, respectivamente. A avaliação considerou as funções de
Os grácos ilustram o índice DB
intervalo pre-denido
[1, 5],
agrupamento baseado em
Figura 4.6.
Kernel
kernel
RBF denidas pelas equações 3.1 e 3.2.
em função do parâmetro
σ
da função RBF para um
e apresentam o desempenho do método MKM-EC que considera o
kernel
no espaço de características.
DB Kernel x sigma (σ ) para conjunto de dados 1 utilizando método MKM-EC
4.3 Experimentos e Resultados
Figura 4.7.
DB Kernel x sigma (σ ) para conjunto de dados 2 utilizando método MKM-EC
Figura 4.8.
DB Kernel x sigma (σ ) para conjunto de dados 3 utilizando método MKM-EC
Figura 4.9.
DB Kernel x sigma (σ ) para conjunto de dados 4 utilizando método MKM-EC
62
4.3 Experimentos e Resultados
Figura 4.10.
DB
63
Kernel x sigma (σ) para conjunto de dados 5 utilizando método MKM-EC
É possível observar que, nos cinco grácos apresentados, com a variação do parâmetro sigma,
o índice DB
Kernel
é menor quando o método MKM-EC utiliza uma função de
kernel
componentes. Pela interpretação deste índice, um menor valor do DB indica que o
de duas
kernel
de
duas componentes fornece uma melhor qualidade no processo de agrupamento. Os valores absolutos do índice DB para os resultados apresentados podem ser encontrados no apêndice A.
O método com agrupamento rígido no espaço de entradas, rotulado como MKM-EE, obteve
na maioria dos casos valores de índice DB menores para o
kernel
de duas componentes com-
parados com a função de uma componente. Portanto, para avaliação e validação dos métodos
apresentados nesta Tese os resultados irão considerar o uso de funções de
kernel
com duas
componentes.
4.3.1.2
Resultados dos métodos de agrupamento com abordagem rígida (hard )
considerando o parâmetro
sigma xo
A tabela 4.1 apresenta os resultados da execução dos métodos de agrupamento para o
conjunto de dados 1 com base no índice CR para diferentes valores de intervalo.
Para cada
valor do índice CR, é apresentado, entre parêntesis, o valor do desvio padrão. Este conjunto
foi escolhido por ser um tipo de conguração comumente utilizada na validação de métodos de
agrupamento para intervalos, como encontradas em (SOUZA, 2003)(CARVALHO, 2007)(CARVALHO; LECHEVALLIER, 2009b) e também no intuito de mostrar que os métodos da literatura utilizados neste trabalho são ecazes neste tipo de cenário e úteis para realização do
4.3 Experimentos e Resultados
64
estudo comparativo com os métodos propostos neste trabalho.
Tabela 4.1. Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido) e métodos
adaptativos (a direita): Conjunto de Dados 1 com 4 classes.
Intervalo
MKM-EC
(σ = 7)
MKM-EE
(σ = 7)
Intervalo
DAU
DAC
[1, 5]
0.485
(0.064)
0.508
(0.059)
[1, 5]
0.620
(0.040)
0.612
(0.048)
[1, 10]
0.491
(0.063)
0.524
(0.062)
[1, 10]
0.623
(0.042)
0.615
(0.038)
[1, 15]
0.510
(0.063)
0.513
(0.065)
[1, 15]
0.611
(0.039)
0.605
(0.045)
[1, 20]
0.508
(0.070)
0.527
(0.058)
[1, 20]
0.612
(0.045)
0.599
(0.055)
Observa-se pela Figura 4.6 que o nível de diculdade para classicação neste cenário é
intermediário, visto que é possível perceber a separação entre os grupos e uma leve sobreposição
entre eles. Como esperado, neste cenário os métodos adaptativos apresentam, em relação ao
índice CR, valores superiores aos métodos com o uso de funções de
kernel.
Este resultado
é aceitável, pois os métodos adaptativos são mais apropriados em situações onde os grupos
apresentem formas e tamanhos diferentes e onde a separabilidade linear é possível.
Tabela 4.2. Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido) e métodos
adaptativos (a direita): Conjunto de Dados 2 com 4 classes.
Intervalo
MKM-EC
(σ = 6)
MKM-EE
(σ = 6)
Intervalo
DAU
DAC
[1, 5]
0.305
(0.010)
0.359
(0.027)
[1, 5]
0.103
(0.032)
0.138
(0.016)
[1, 10]
0.288
(0.017)
0.356
(0.029)
[1, 10]
0.098
(0.053)
0.136
(0.014)
[1, 15]
0.275
(0.032)
0.359
(0.029)
[1, 15]
0.092
(0.057)
0.141
(0.016)
[1, 20]
0.273
(0.025)
0.363
(0.026)
[1, 20]
0.095
(0.060)
0.139
(0.022)
A tabela 4.2 apresenta os resultados da execução dos métodos de agrupamento para o
conjunto de dados 2 com base no índice CR para diferentes valores de intervalo. Este conjunto
de dados apresenta uma disposição não linear dos dados, onde cada grupo é caracterizado
pelos braços das espirais.
Observando esta tabela, nota-se que, em relação ao índice CR, o
desempenho dos métodos baseados em funções de
kernel
MKM-EC e MKM-EE foi superior
quando comparados com os métodos adaptativos (DAU e DAC). Este resultado é esperado,
4.3 Experimentos e Resultados
Figura 4.11.
65
(a)
(b)
(c)
(d)
Conjunto de Dados 2 com as variações de intervalo: (a) [1,5], (b) [1,10], (c) [1,15], e (d) [1,20].
devido a característica não linear do conjunto de dados, mas também é um resultado importante
porque auxilia na validação do comportamento dos métodos baseados em funções de
kernel
neste tipo de cenário.
Comparando os métodos que utilizam funções de
kernel
entre si, o desempenho do método
MKM-EE foi superior ao método MKM-EC. Este resultado reforça a importância da identicação dos representantes (protótipos) dos grupos para se obter um melhor grau de exatidão
no processo de classicação. Outra observação é que o método MKM-EE foi menos sensível
a variação do intervalo comparado ao método MKM-EC. Esse comportamento é interessante,
pois o aumento do tamanho dos intervalos, por exemplo,
[1, 5]
para
[1, 20],
pode inuenciar na
4.3 Experimentos e Resultados
66
própria estrutura dos dados e consequentemente dos seus respectivos grupos, o que pode dicultar o processo de agrupamento. Observando as guras 4.11(a)-(d), é possível perceber como
a variação dos intervalos interferem na estrutura dos braços das espirais e do conjunto de dados
como um todo. No caso especíco do intervalo
[1, 20] percebe-se uma grande sobreposição entre
os grupos. Mesmo assim, o método MKM-EE conseguiu obter um desempenho semelhante ou
até mesmo superior (para o intervalo
[1, 20])
mesmo com a variação dos intervalos.
Tabela 4.3. Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido) e métodos
adaptativos (a direita): Conjunto de Dados 3 com 3 classes.
Intervalo
MKM-EC
(σ = 7)
MKM-EE
(σ = 7)
Intervalo
DAU
DAC
[1, 5]
0.368
(0.040)
0.178
(0.018)
[1, 5]
0.008
(0.023)
0.015
(0.011)
[1, 10]
0.359
(0.039)
0.179
(0.018)
[1, 10]
0.011
(0.027)
0.013
(0.013)
[1, 15]
0.350
(0.043)
0.179
(0.018)
[1, 15]
0.012
(0.035)
0.018
(0.015)
[1, 20]
0.338
(0.045)
0.175
(0.017)
[1, 20]
0.011
(0.013)
0.010
(0.016)
A tabela 4.3 apresenta os resultados da execução dos métodos de agrupamento para o
conjunto de dados 3 com base no índice CR para diferentes valores de intervalo. Este conjunto
de dados, assim como o anterior, apresenta uma disposição não linear dos dados formado por
três grupos, onde dois deles tem um formato semelhante e um aspecto semelhante a um semicírculo e um terceiro grupo deslocado a esquerda e com um formato que o difere dos demais.
É possível perceber que é um conjunto de difícil reconhecimento dos grupos. Observando esta
tabela, nota-se que, em relação ao índice CR, o desempenho dos métodos baseados em funções
de
kernel
MKM-EC e MKM-EE novamente foi superior quando comparados com os métodos
adaptativos (DAU e DAC), que obtiveram valores próximos a zero. Este resultado reforça a
utilidade e a melhor adequação dos métodos propostos neste tipo de cenário.
Desta vez, para o conjunto de dados 3, o desempenho dos métodos MKM-EC foi superior
ao MKM-EE, diferentemente dos resultados apresentados para os conjuntos de dados 1 e 2.
Isso demonstra que a mudança de espaço de características para realização do agrupamento é
um mecanismo útil na identicação de grupos não lineares.
A natureza dos dados pode ter
inuenciado neste resultado inferior do método MKM-EE. A tendência é que em conjunto de
dados onde o nível de separação entre os grupos seja mais complexo, o agrupamento no espaço
4.3 Experimentos e Resultados
67
de características seja mais viável.
Tabela 4.4. Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido) e métodos
adaptativos (a direita): Conjunto de Dados 4 com 2 classes.
Intervalo
MKM-EC
(σ = 7)
MKM-EE
(σ = 7)
Intervalo
DAU
DAC
[1, 5]
0.402
(0.122)
0.181
(0.028)
[1, 5]
−0.045
(0.018)
−0.063
(0.014)
[1, 10]
0.398
(0.118)
0.177
(0.027)
[1, 10]
−0.041
(0.020)
−0.064
(0.015)
[1, 15]
0.393
(0.126)
0.179
(0.028)
[1, 15]
−0.041
(0.018)
−0.065
(0.014)
[1, 20]
0.401
(0.142)
0.183
(0.028)
[1, 20]
−0.042
(0.021)
−0.071
(0.016)
A tabela 4.4 apresenta os resultados da execução dos métodos de agrupamento para o
conjunto de dados 4 com base no índice CR para diferentes valores de intervalo. Este conjunto
de dados se assemelha ao conjunto de dados 2, apresenta uma disposição não linear dos dados
formado por dois grupos, no entanto, é possível perceber que é um conjunto de dados com
um nível de classicação mais difícil.
Observando esta tabela, nota-se que, em relação ao
índice CR, o desempenho dos métodos baseados em funções de
kernel
MKM-EC e MKM-
EE foram superiores quando comparados com os métodos adaptativos (DAU e DAC), que
apresentaram inclusive valores negativos. Este é mais um resultado que reforça a utilidade e a
melhor adequação dos métodos propostos neste tipo de cenário.
Tabela 4.5. Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido) e métodos
adaptativos (a direita): Conjunto de Dados 5 com 2 classes.
Intervalo
MKM-EC
(σ = 5)
MKM-EE
(σ = 5)
Intervalo
DAU
DAC
[1, 5]
0.882
(0.142)
0.434
(0.325)
[1, 5]
−0.229
(0.214)
0.089
(0.052)
[1, 10]
0.838
(0.135)
0.456
(0.304)
[1, 10]
−0.172
(0.274)
−0.289
(0.174)
[1, 15]
0.833
(0.113)
0.501
(0.282)
[1, 15]
−0.179
(0.271)
−0.318
(0.188)
[1, 20]
0.743
(0.129)
0.461
(0.309)
[1, 20]
−0.226
(0.221)
−0.342
(0.118)
Assim como no conjunto de dados 3, o comportamento dos métodos MKM-EC e MKM-EE
foi semelhante quando comparados entre si. O método MKM-EC foi superior ao MKM-EE em
relação ao índice CR. Novamente, a natureza do conjunto de dados inuenciou no resultado,
4.3 Experimentos e Resultados
68
favorecendo o método MKM-EC para o cenário onde o nível de diculdade de separação dos
grupos é maior.
A tabela 4.5 apresenta os resultados da execução dos métodos de agrupamento para o
conjunto de dados 5 com base no índice CR. Este conjunto de dados apresenta classes em
um formato semelhante a uma função senoidal. Apesar desse conjunto apresentar grupos bem
separados, a distribuição dos indivíduos diculta a separação linear dos elementos, o que torna
o conjunto interessante para avaliação dos métodos estudados nesse trabalho. Observando esta
tabela, nota-se que, em relação ao índice CR, o desempenho dos métodos MKM-EC e MKMEE foram superiores quando comparados com os métodos adaptativos (DAU e DAC). Nota-se
também que os métodos MKM-EC e MKM-EE, principalmente o primeiro, foi menos sensível
a variação dos intervalos, o que é um comportamento interessante, pois a variação no intervalo
afeta a distribuição dos indivíduos no conjunto e em alguns casos pode afetar a qualidade dos
agrupamentos formados.
Este resultado também reforça a validação dos métodos propostos
neste trabalho. Mais uma vez, o método MKM-EC foi superior ao método MKM-EE, o que
reforça a intuição de que os métodos no espaço de características são mais apropriados para
classicar conjuntos de dados mais complexos.
4.3.1.3
Resultados dos métodos de agrupamento considerando o parâmetro sigma
xo e calculado
No estudo comparativo dos métodos baseados em função de
kernel
para intervalos e os
métodos adaptativos da literatura de ADS realizados na seção anterior, a função
foi utilizada considerando o parâmetro
σ
como um valor xo.
Gaussiana
Em geral, este parâmetro é
atribuído de maneira arbitrária. No entanto, a variação desse parâmetro pode afetar o processo
de agrupamento, como observado na seção 4.3.1.1 com os valores do índice DB e em outros
trabalhos da literatura.
Nos experimentos aqui realizados, a determinação do valor parâmetro
σ
adotou duas abor-
dagens. A primeira (aqui chamada de DBSig) considerou a escolha do parâmetro
σ
xo, mas
não arbitrário, e sim, com base na análise dos valores do índice DB. A segunda (aqui chamada
de CLSig) considera a computação do valor do
σ
com base no conjunto de dados utilizado e
4.3 Experimentos e Resultados
69
variando durante a execução do algoritmo de agrupamento.
Como mencionado, as tabelas 4.1 a 4.5 da seção anterior, apresentaram os resultados dos
métodos MKM-EC e MKM-EE para os conjuntos de dados 1 a 5 considerando o
sigma com um
valor constante. No entanto, a escolha do valor deste parâmetro não foi arbitrária, a escolha
foi baseada no valores ou na variação do índice DB calculado para cada
sigma
atribuído. Para
auxiliar o entendimento na determinação deste parâmetro, a gura 4.12 ilustra os valores do
índice DB
Kernel
em função do parâmetro
sigma
da função RBF para as quatro variações de
intervalo no conjunto de dados 1. Com base nestes valores o parâmetro
neste caso foi escolher o valor de
sigma
DB
foi escolhido. A ideia
onde a variação do índice DB é considerada pequena
para todos os intervalos, levando em conta o valor do índice DB para o
Figura 4.12.
σ
sigma atual e o anterior.
Kernel x sigma (σ) para conjunto de dados 1 utilizando método MKM-EC
Observando o gráco ilustrado na gura 4.12, as maiores variações no índice DB ocorrem
nos
sigmas
de 1 a 4, e depois disso os valores do índice DB tendem a apresentar uma variação
pequena ou até mesmo estabilizar. Neste trabalho consideramos uma variação pequena aquela
que é menor que 1 (∆DB
< 1).
Por esta razão o valor de
σ=7
foi escolhido para o método
MKM-EC no conjunto de dados 1 (Tabela 4.1). A mesma análise foi realizada para os demais
conjuntos de dados considerando o método de agrupamento no espaço de características. Para
o método MKM-EE (espaço de entradas) optou-se pela escolha do mesmo valor do
σ
do MKM-
EC para ns de comparação e também devido ao fato dos métodos terem sido menos sensíveis
a variação do
sigma
considerando a medida do índice DB. Assim mesmo, para estes casos
4.3 Experimentos e Resultados
70
as variações do índice DB consideradas foram menor que 1. É importante salientar que esta
variação pequena, pode ser adotada de maneira diferente dependendo da natureza do conjunto
de dados ou do método de agrupamento. Por exemplo, esta variação pode ser considerada em
termos percentuais ou até mesmo em valores absolutos de acordo com a observação do índice.
Resultado do Índice CR para os métodos de agrupamento baseado em
DBSig: Conjunto de Dados 3 com 3 classes.
Tabela 4.6.
Kernel
Intervalo
MKM-EC
(σ = 1)
MKM-EC
(DBSig)
Intervalo
MKM-EE
(σ = 1)
MKM-EE
(DBSig)
[1, 5]
0.191
(0.017)
0.368
(0.040)
[1, 5]
−0.103
(0.011)
0.178
(0.018)
[1, 10]
0.192
(0.017)
0.359
(0.059)
[1, 10]
−0.104
(0.013)
0.179
(0.018)
[1, 15]
0.196
(0.016)
0.350
(0.043)
[1, 15]
−0.101
(0.012)
0.179
(0.018)
[1, 20]
0.193
(0.018)
0.338
(0.045)
[1, 20]
−0.102
(0.012)
0.175
(0.017)
Resultado do Índice CR para os métodos de agrupamento baseado em
DBSig: Conjunto de Dados 4 com 2 classes.
Tabela 4.7.
Kernel
Intervalo
MKM-EC
(σ = 1)
MKM-EC
(DBSig)
Intervalo
MKM-EE
(σ = 1)
MKM-EE
(DBSig)
[1, 5]
0.182
(0.027)
0.402
(0.122)
[1, 5]
−0.135
(0.108)
0.181
(0.028)
[1, 10]
0.182
(0.042)
0.398
(0.118)
[1, 10]
−0.139
(0.107)
0.177
(0.027)
[1, 15]
0.180
(0.027)
0.393
(0.126)
[1, 15]
−0.141
(0.099)
0.179
(0.028)
[1, 20]
0.184
(0.028)
0.401
(0.142)
[1, 20]
−0.155
(0.109)
0.183
(0.028)
para abordagem
para abordagem
Para compreender melhor a utilidade desta abordagem DBSig, observe as Tabelas 4.6 e 4.7.
Estas tabelas consideram os resultados dos métodos MKM-EC e MKM-EE para os conjuntos
de dados 3 e 4.
Para cada método, na primeira coluna é apresentado o valor do índice CR
considerando uma escolha arbitrária e na segunda coluna com a abordagem DBSig. Em uma
escolha arbitrária seria comum, por questão de simplicidade, adotar, por exemplo, o valor de
1.
σ=
Observe que, nestes casos, uma escolha não criteriosa, que apenas simplica uma expressão
nem sempre pode representar uma boa escolha.
A escolha baseada em um critério, neste
caso uma medida de agrupamento interno, obteve um melhor êxito. Esta escolha utilizando a
abordagem DBSig não signica que seria o melhor resultado a ser encontrado, mas é bastante
4.3 Experimentos e Resultados
71
provável que seja uma escolha adequada e que apresenta um resultado representativo.
Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido): Conjunto
de Dados 2 com 4 classes.
Tabela 4.8.
Intervalo
MKM-EC
(DBSig)
MKM-EC
(CLSig)
Intervalo
MKM-EE
(DBSig)
MKM-EE
(CLSig)
[1, 5]
0.305
(0.010)
0.328
(0.034)
[1, 5]
0.359
(0.026)
0.377
(0.030)
[1, 10]
0.288
(0.017)
0.331
(0.037)
[1, 10]
0.356
(0.029)
0.371
(0.030)
[1, 15]
0.275
(0.032)
0.330
(0.034)
[1, 15]
0.359
(0.029)
0.377
(0.029)
[1, 20]
0.273
(0.025)
0.332
(0.038)
[1, 20]
0.363
(0.026)
0.381
(0.030)
Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido): Conjunto
de Dados 3 com 3 classes.
Tabela 4.9.
Intervalo
MKM-EC
(DBSig)
MKM-EC
(CLSig)
Intervalo
MKM-EE
(DBSig)
MKM-EE
(CLSig)
[1, 5]
0.368
(0.040)
0.378
(0.037)
[1, 5]
0.178
(0.018)
0.195
(0.015)
[1, 10]
0.359
(0.039)
0.376
(0.037)
[1, 10]
0.179
(0.018)
0.200
(0.016)
[1, 15]
0.350
(0.032)
0.379
(0.035)
[1, 15]
0.179
(0.018)
0.197
(0.018)
[1, 20]
0.338
(0.041)
0.380
(0.033)
[1, 20]
0.175
(0.017)
0.197
(0.016)
Tabela 4.10. Resultado do Índice CR para os métodos de agrupamento baseado em Kernel (rígido): Conjunto
de Dados 5 com 2 classes.
Intervalo
MKM-EC
(DBSig)
MKM-EC
(CLSig)
Intervalo
MKM-EE
(DBSig)
MKM-EE
(CLSig)
[1, 5]
0.882
(0.142)
0.882
(0.149)
[1, 5]
0.434
(0.325)
0.705
(0.133)
[1, 10]
0.838
(0.135)
0.906
(0.115)
[1, 10]
0.456
(0.304)
0.691
(0.115)
[1, 15]
0.833
(0.113)
0.879
(0.117)
[1, 15]
0.501
(0.282)
0.715
(0.118)
[1, 20]
0.743
(0.129)
0.902
(0.123)
[1, 20]
0.461
(0.309)
0.701
(0.117)
As tabelas 4.8, 4.9 e 4.10 apresentam os resultados dos métodos MKM-EC e MKM-EE
utilizando os duas abordagens (DBSig e CLSig) para determinação do parâmetro
σ
do
kernel
RBF para os conjuntos de dados 2, 3 e 5, respectivamente. Os resultados foram apresentados
4.3 Experimentos e Resultados
72
para estes conjuntos por serem sucientemente representativos para a discussão desta seção.
Observando estas tabelas, percebe-se que na abordagem CLSig os valores dos índices CR encontrados foram superiores, em sua maioria, aos correspondentes para abordagem DBSig para os
conjuntos apresentados, consequentemente se comparados aos valores de índice CR dos método
adaptativos para estes cenários, o desempenho dos métodos baseados em
kernel
permanecem
sendo superiores.
De um modo geral, é aceitável concluir que a abordagem CLSig obteve um desempenho
superior em comparação a abordagem DBSig. Este é um resultado interessante, pois reforça
a hipótese de que a escolha do parâmetro
σ
é importante e afeta o desempenho dos métodos
que utilizam a função RBF. Apesar do custo relacionado a computação do parâmetro, é uma
abordagem viável porque evita a escolha arbitrária de um parâmetro por parte do usuário do
método. Isto não signica armar que em todos os casos, em qualquer cenário ou comparado
a todo valor xo atribuído a
σ,
atribuição de vários valores de
método seja superior a um
a abordagem CLSig seja melhor. É provável que ao testar a
sigma
sigma
seja possível encontrar um valor onde o desempenho do
calculado. No entanto, a computação do parâmetro pode ser
útil para evitar essa fase de testes ou até mesmo a escolha inadequada do parâmetro em caso
de uma escolha aleatória ou simplista (que não se baseia em nenhum critério).
O mais importante nesta seção não é propriamente a comparação entre as abordagens para
determinação do parâmetro
σ,
mas sim que há abordagens alternativas e que é importante a
determinação de maneira criteriosa deste parâmetro. As duas abordagens são empíricas e não
se baseiam em um critério otimizado no ajuste do valor do
sigma.
No entanto, de acordo com os
resultados apresentados, as abordagens se mostraram úteis, viáveis e se basearam em critérios
ou aspectos relevantes para o problema.
4.3.1.4
Resultados para os métodos de agrupamento com abordagem difusa (fuzzy )
Nesta seção serão apresentados os resultados de experimentos realizados para os métodos
de agrupamento difusos rotulados neste trabalho como McM-EC e McM-EE. Esta seção vai
considerar os resultados para os conjuntos de dados 2 a 5 apresentados no inicio do capítulo.
Como exposto no capítulo anterior estes métodos utilizam a metodologia c-médias difuso e
4.3 Experimentos e Resultados
73
são baseadas na aplicação de funções de
kernel
para intervalos. O desempenho destes méto-
dos serão comparados com o método difuso c-médias adaptativo para intervalos proposto em
(CARVALHO, 2007). Consideramos o valor do parâmetro da função de pertinência
m = 2 para
todos os casos.
Tabela 4.11. Resultado do Índice CR para os métodos de agrupamento difuso baseado em Kernel e o método
c-médias difuso adaptativo (a direita): Conjunto de Dados 2 com 4 classes.
Intervalo
McM-EC
(CLSig)
McM-EE
(CLSig)
Intervalo
FCMA
[1, 5]
0.347
(0.027)
0.392
(0.030)
[1, 5]
0.297
(0.009)
[1, 10]
0.342
(0.021)
0.384
(0.038)
[1, 10]
0.310
(0.007)
[1, 15]
0.338
(0.024)
0.391
(0.031)
[1, 15]
0.318
(0.007)
[1, 20]
0.327
(0.021)
0.389
(0.038)
[1, 20]
0.346
(0.011)
Tabela 4.12. Resultado do Índice CR para os métodos de agrupamento difuso baseado em Kernel e o método
c-médias difuso adaptativo (a direita): Conjunto de Dados 3 com 3 classes.
Intervalo
McM-EC
(CLSig)
McM-EE
(CLSig)
Intervalo
FCMA
[1, 5]
0.287
(0.027)
0.250
(0.034)
[1, 5]
0.227
(0.010)
[1, 10]
0.282
(0.021)
0.253
(0.031)
[1, 10]
0.235
(0.011)
[1, 15]
0.278
(0.024)
0.249
(0.036)
[1, 15]
0.249
(0.013)
[1, 20]
0.267
(0.021)
0.256
(0.031)
[1, 20]
0.265
(0.013)
Tabela 4.13. Resultado do Índice CR para os métodos de agrupamento difuso baseado em Kernel e o método
c-médias difuso adaptativo (a direita): Conjunto de Dados 4 com 2 classes.
Intervalo
McM-EC
(CLSig)
McM-EE
(CLSig)
Intervalo
FCMA
[1, 5]
0.211
(0.046)
0.362
(0.026)
[1, 5]
−0.169
(0.015)
[1, 10]
0.215
(0.052)
0.355
(0.027)
[1, 10]
−0.171
(0.010)
[1, 15]
0.215
(0.050)
0.364
(0.026)
[1, 15]
−0.172
(0.007)
[1, 20]
0.214
(0.046)
0.355
(0.027)
[1, 20]
−0.172
(0.011)
4.3 Experimentos e Resultados
74
Tabela 4.14. Resultado do Índice CR para os métodos de agrupamento difuso baseado em Kernel e o método
c-médias difuso adaptativo (a direita): Conjunto de Dados 5 com 2 classes.
Intervalo
McM-EC
(CLSig)
McM-EE
(CLSig)
Intervalo
FCMA
[1, 5]
0.968
(0.051)
0.738
(0.098)
[1, 5]
−0.300
(0.009)
[1, 10]
0.958
(0.052)
0.742
(0.104)
[1, 10]
−0.301
(0.007)
[1, 15]
0.911
(0.087)
0.745
(0.106)
[1, 15]
−0.300
(0.008)
[1, 20]
0.843
(0.100)
0.750
(0.102)
[1, 20]
−0.294
(0.010)
A tabela 4.11 apresenta os resultados da execução dos métodos de agrupamento difusos para
o conjunto de dados 2. Com relação ao índice CR, o método McM-EE apresentou um melhor
desempenho do que o método FCMA para todos os intervalos. O método McM-EE apresentou pouca sensibilidade com as mudanças de intervalos, apresentando pequenas variações do
índice CR. O método McM-EC apresentou os valores do índice CR superiores ao FCMA para
todos os intervalos menos para o intervalo
[1, 20].
Neste sentido o método FCMA apresentou
um comportamento interessante, pois seu desempenho melhorou mesmo com o aumento dos
intervalos.
A tabela 4.12 apresenta os resultados da execução dos métodos de agrupamento difusos
para o conjunto de dados 3. Assim como abordado nas seções anteriores o conjunto apresenta
um nível de diculdade relativamente alto para identicação dos grupos. O desempenho dos
métodos McM-EC e McM-EE com relação ao índice CR, foi ligeiramente superior ao método cmédias adaptativo (FCMA), com exceção do intervalo mais alto. Mesmo com os desempenhos
aproximados entre os métodos neste cenário, a avaliação é válida e sugerem a aplicação dos
métodos neste tipo de cenário com existência de grupos não linearmente separáveis.
As tabelas 4.13 e 4.14 apresentam os resultados da execução dos métodos de agrupamento
difusos para o conjunto de dados 4 e 5. Os dois conjuntos de dados apresenta um alto nível
de diculdade para identicação dos grupos. O desempenho dos métodos McM-EC e McM-EE
com relação ao índice CR, foi bastante superior ao método c-médias adaptativo (FCMA) nos
dois cenários. Este resultado reforça a validação do métodos apresentados nesta Tese.
4.3 Experimentos e Resultados
4.3.2
75
Conjunto de Dados Reais do Tipo Intervalo
Tipicamente nos estudos de métodos de agrupamento são realizados experimentos para
tratar dados conhecidos como dados de aplicação ou dados reais (CARVALHO; BRITO; BOCK,
2006) (CARVALHO; LECHEVALLIER, 2009b).
Neste caso também foi implementado um
sistema na linguagem C++ que classica um conjunto de dados do tipo intervalo e avalia os
resultados da classicação usando o índice de Rand corrigido (CR). Cada método é executado
(até que nenhum elemento da partição mude de classe) 500 vezes variando aleatoriamente as
sementes usadas na etapa de inicialização.
O melhor critério dentre as repetições realizadas
é escolhido e o índice CR é calculado para a partição correspondente.
As seções seguintes
descreverão os dados reais utilizados e apresentarão os respectivos resultados da execução dos
métodos.
4.3.2.1
Conjunto de Dados: Agaricus
Este conjunto de dados reais do tipo intervalo avaliado denomina-se
http : //www.mykoweb.com/CAF/species/index.html,
Agaricus
extraído de
cujas informações foram extraídas a
partir de espécies de fungos presentes no estado da Califórnia, Estados Unidos.
um gênero de cogumelos, de modo que dois membros bastante conhecidos são o
conhecido como o cogumelo botão muito comum em supermercados e o
Agaricus é
A. bisporus,
A. campestris, também
chamado de cogumelo de campo, é uma espécie popular comestível comum em pastagens e
prados em áreas temperadas no mundo.
Esse conjunto possui 24 espécies do gênero
Agaricus,
onde cada uma é descrita por três
variáveis do tipo intervalo: largura do píleo, espessura do estipe e largura dos esporos.
Os
dados são distribuídos entre duas classes: comestível (classe 1) e não-comestível (classe 2). A
tabela 4.15 a seguir descreve as espécies de acordo com suas variáveis:
De forma que a distribuição dos elementos entre as duas classes é descrita como:
a) Classe 1: Albolutescens: 1, Arvensis: 2, Benesii: 3, Bernardii: 4, Bisporus: 5, Bitorquis:
6, Campestris: 8, Comtulus: 9, Cupreo-brunneus: 10, Fusco-brillosus: 11, Fuscovelatus:
12, Lilaceps: 14, Micromegathus: 15, Pattersonae: 16, Perobscurus: 17, Semotus: 19,
4.3 Experimentos e Resultados
Espécies
76
Cogumelos da família
Tabela 4.15.
1. Albolutescens
2. Arvensis
3. Benesii
4. Brnardii
5. Bisporus
6. Bitorquis
7. Californicus
8. Campestris
9. Comtulus
10. Cupreo-brunneus
11. Fusco-brillosus
12. Fuscovelatus
13. Hondensis
14. Lilaceps
15. Micromegathus
16. Pattersonae
17. Perobscurus
18. Praeclaresquamosus
19. Semotus
20. Silvicola
21. Smithii
22. Subrutilescens
23. Subrufescens
24. Xanthodermus
Figura 4.13.
largura
do píleo
espessura
do estipe
[6.00, 12.00]
[6.00, 21.00]
[4.00, 8.00]
[7.00, 16.00]
[5.00, 12.00]
[5.00, 15.00]
[4.00, 11.00]
[5.00, 10.00]
[2.50, 4.00]
[2.50, 6.00]
[4.00, 15.00]
[3.50, 8.00]
[7.00, 14.00]
[8.00, 20.00]
[2.50, 4.00]
[5.00, 15.00]
[8.00, 12.00]
[7.00, 19.00]
[2.00, 6.00]
[6.00, 12.00]
[7.00, 12.00]
[6.00, 14.00]
[6.00, 13.00]
[5.00, 17.00]
[1.50, 3.00]
[1.00, 3.50]
[1.00, 2.00]
[3.00, 4.50]
[1.50, 2.50]
[2.00, 4.00]
[0.40, 1.00]
[1.00, 2.00]
[4.00, 7.00]
[1.00, 1.50]
[1.50, 2.50]
[1.00, 2.00]
[1.50, 2.50]
[3.00, 5.00]
[4.00, 7.00]
[2.50, 3.50]
[1.50, 2.00]
[2.00, 3.50]
[0.40, 0.80]
[1.50, 2.00]
[2.00, 3.00]
[1.00, 2.00]
[1.50, 2.50]
[1.00, 3.50]
Agaricus
largura
dos esporos
[4.00, 5.00]
[4.50, 6.00]
[3.00, 4.00]
[5.50, 6.50]
[4.50, 6.00]
[4.00, 5.50]
[4.00, 5.50]
[3.50, 5.00]
[3.00, 3.50]
[5.00, 6.00]
[3.50, 4.00]
[1.00, 2.00]
[3.00, 4.50]
[4.00, 5.00]
[3.00, 3.50]
[6.00, 6.50]
[4.50, 5.00]
[3.50, 4.50]
[3.00, 3.50]
[3.50, 4.00]
[5.00, 5.50]
[3.50, 4.50]
[4.00, 4.50]
[4.00, 5.50]
Grupo
E
E
E
E
E
E
I
E
E
E
E
E
I
E
E
E
E
I
E
E
E
E
E
I
Família dos Cogumelos Agaricus
Silvicola: 20, Smithii: 21, Subrutilescens: 22 e Subrufescens: 23
b) Classe 2: Californicus: 7, Hondensis: 13, Praeclaresquamosus: 18, Xanthodermus: 24
Tabela 4.16.
Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Agaricus.
MKM-EC
MKM-EE
DAC
DAU
0.261
0.261
−0.239
−0.084
4.3 Experimentos e Resultados
Tabela 4.17.
77
Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Agaricus.
McM-EC
McM-EE
FCMA
0.314
0.314
−0.037
Os resultados do índice CR após a aplicação dos algoritmos dos métodos adaptativos e das
variações dos métodos baseados em
kernel
propostos para dados intervalares pode ser visua-
lizado nas tabelas 4.16 e 4.17. Observa-se também pela gura 4.13 que o conjunto apresenta
um alto grau de diculdade de classicação. Mesmo assim, avaliando o índice CR, o desempenho dos métodos de agrupamentos rígidos e difusos baseados em
dos métodos de adaptativos para o conjunto
4.3.2.2
kernel
são superiores aos
Agaricus.
Conjunto de Dados: Fluxos de Água
Este conjunto de dados consiste de registros de uxos de água de 30 min coletados durante um ano (de 1 de junho de 2003 a 31 de maio de 2004) na rede de distribuição de água
da cidade de Barcelona na Espanha.
Ele contém dados referente a 316 dias do ano, con-
siderando que, em alguns dias, valores de medição foram descartados em função de problemas
de funcionamento nos sensores que coletam as informações referente aos uxos.
Este con-
junto de dados foi originalmente extraído de (QUEVEDO V. PUIG; MOLINA, 2010) e citado
na literatura de análise de dados simbólicos pela primeira vez em (HEDJAZI; AGUILARMARTIN; LANN, 2011). Uma versão para
download
deste conjunto pode ser encontrado em
http : //lhedjazi.jimdo.com/usef ul − links/.
Normalmente, os hábitos das pessoas estão associados a comportamentos periódicos semanais, o que possibilita predição de demandas dos consumidores com base nas alterações
observadas entre dias úteis e os nais de semana (QUEVEDO V. PUIG; MOLINA, 2010).
Neste conjunto de dados, cada dia é caracterizado por 48 variáveis intervalares, onde cada variável descreve a variação máxima e mínima observada com base em três medições consecutivas
de 10 min do uxo de água. Cada dia é rotulado por uma das duas classes de acordo com o
tipo do dia: nal de semana (sábados, domingos, feriados) ou dia útil.
A caracterização de
intervalos de tempo correspondentes a variação do consumo útil dos usuários durante a semana,
possibilita a empresa fornecedora de água prever o uxo a ser fornecido de acordo com cada
4.3 Experimentos e Resultados
78
tipo de dia da semana. Isso, portanto, possibilita ao tomador de decisões um certa exibilidade
para regular o uxo de água de acordo com o período associado determinado tipo de dia.
Como mencionado, o conjunto de dados originalmente possui 48 variáveis intervalares que
descrevem as característica da rede de distribuição de água de Barcelona. No entanto, neste
trabalho o conjunto foi reduzido, de modo que passou a ser descrito por 9 variáveis intervalares.
Essa redução foi necessária devido a resultados inconclusivos a partir do índice CR. De fato,
em (HEDJAZI; AGUILAR-MARTIN; LANN, 2011) é apresentado um estudo que sugere a
redução do número de variáveis neste conjunto, pois, com o número de variáveis do conjunto
original a taxa de erro é bastante elevada. No entanto, o trabalho citado não sugere a forma
de selecionar as variáveis. A tabela 4.18 apresenta um subconjunto destes dados caracterizado
pelas 9 variáveis intervalares que descreve variação dos uxos diários de água.
Tabela 4.18.
Dia
1. Domingo 06-01-2003
2. Segunda 07-01-2003
...
...
...
...
...
...
314. Sábado 05-29-2004
315. Domingo 05-30-2004
316. Segunda 05-31-2004
Fluxo de Água da cidade de Barcelona
Fluxo 1
Fluxo 2
[1.67, 1.83]
[4.17, 6.33]
[1.83, 2.17]
[4.83, 8.33]
[3.67, 6.33]
[1.33, 1.83]
[1.17, 1.50]
[5.33, 7.00]
[1.83, 3.00]
[1.17 : 1.50]
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
Fluxo 9
[1.33, 1.83]
[6.67, 1.33]
...
...
...
...
...
...
[4.1, 8.00]
[0.50, 0.67]
[1.33, 1.67]
Tipo de dia
Final de Semana
Dia Útil
...
...
...
...
...
...
Final de Semana
Final de Semana
Dia Útil
Este trabalho considerou o cálculo das variâncias para as 48 variáveis para reduzir o número
de descrições. Para cada variável intervalar foram calculadas as médias das 316 ocorrências e
para cada média suas variâncias. Foram escolhidas as variáveis que apresentaram uma maior
variabilidade, de modo que essas variáveis são sucientemente representativas para realizar
a análise sobre este conjunto de dados.
As expressões 4.8 e 4.9 denem a formulação para
o cálculo das médias e variâncias para dados do tipo intervalo, respectivamente, que foram
utilizadas neste trabalho e podem ser encontradas em (DIDAY; NOIRHOMME-FRAITURE,
2008).
Z̄ =
1 X
(bi + ai )
2n i∈E
(4.8)
4.3 Experimentos e Resultados
79
"
#2
X
X
1
1
(b2 + bi ai + a2i ) − 2
(ai + bi )
S2 =
3n i∈E i
4n i∈E
Tabela 4.19.
Tabela 4.20.
de Água.
(4.9)
Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Fluxos de Água.
MKM-EC
MKM-EE
DAC
DAU
−0.097
0.052
−0.124
−0.124
Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Fluxos
McM-EC
McM-EE
FCMA
0.011
0.052
−0.106
Os resultados do índice CR após a aplicação dos algoritmos dos métodos adaptativos e das
variações dos métodos baseados em
kernel
propostos para dados intervalares pode ser visuali-
zado nas tabelas 4.19 e 4.20. Observando os resultados percebe-se que os métodos adaptativos
obtiveram resultados negativos e os métodos baseados em
kernel
apresentaram resultados su-
periores em relação ao índice CR, com exceção do método MKM-EC que obteve um resultado
negativo. Este resultado, apesar de apresentar valores baixos do índice CR é interessante, pois,
conforme (HEDJAZI; AGUILAR-MARTIN; LANN, 2011) este conjunto tem uma tendência
a apresentar uma taxa de erro de classicação relativamente alta. Mesmo assim, os métodos
baseados em
kernel
apresentaram resultados positivos em sua maioria, e segundo (HUBERT;
ARABIE, 1985) um índice CR positivo já é considerado um bom resultado e pode representar
algum nível de reconhecimento/classicação nos padrões avaliados. Nesta avaliação em particular, o fato do índice CR ser positivo é relevante principalmente em detrimento aos métodos
da literatura de ADS que obtiveram resultados inferiores. No caso de conjuntos dessa natureza,
pode ser necessário investir em técnicas de pre-processamento para auxiliar na decisão sobre
que tipo de abordagem de agrupamento ser aplicada.
4.3.2.3
Conjunto de Dados: Temperatura das Cidades
Este conjunto de dados do tipo intervalo foi inicialmente apresentado em (GURU; KIRANAGI; NAGABHUSHAN, 2004), consiste de 37 cidades descritas por doze variáveis do tipo
4.3 Experimentos e Resultados
80
intervalo que indicam as temperaturas mínima e máxima dos doze meses do ano. A tabela 4.21
ilustra os dados contidos neste conjunto.
Neste trabalho foi realizado uma adaptação neste
conjunto, de modo que cada cidade passou a ser descrita por três variáveis que representam as
temperaturas máximas e mínimas das cidades durante um ano, com cada variável representando
um quadrimestre do ano: Janeiro a Abril, Março a Agosto e Setembro a Dezembro. Esta seção
faz uma breve descrição deste conjunto de dados reais e apresenta os resultados da aplicação
dos métodos de agrupamento sobre ele.
Este conjunto de dados estão agrupados em quatro classes a priori de tamanhos diferentes.
Abaixo segue a composição de cada classe, onde cada indivíduo é seguido de um rótulo para
identicação de cada cidade:
a) Classe 1: Bahraim: 3, Bombay: 4, Cairo: 5, Calcutta: 6, Colombo: 7, Dubal: 9, Hong
Kong: 12, Kula Lampur: 13, Madras: 16, Manila: 18, Mexico: 20, Nairobi: 23, New
Delhi: 24, Sydney: 30 and Singapore: 32
b) Classe 2: Amsterdam: 1, Athens: 2, Copenhagen: 8, Frankfurt: 10, Geneva: 11, Lisbon:
14, London: 15, Madrid: 17, Moscow: 21, Munich: 22, New York: 25, Paris: 26, Rome:
27, San Francisco: 28, Seoul: 29, Stockholm: 31, Tokyo: 34, Toronto: 35, Vienna: 36 and
Zurich: 37
c) Classe 3: Mauritius: 19
d) Classe 4: Tehran: 33
O intuito desta adaptação e redução do conjunto a três variáveis foi que o leitor possa ter
uma noção de como os dados estão espacialmente distribuídos neste conjunto através de uma
representação gráca dos dados, conforme ilustra a gura 4.14. Os elementos deste conjunto
são representados pelo cubos e as diferente tonalidades indicam o grupo a que pertencem.
Observando a gura, é possível perceber uma certa não linearidade na distribuição dos dados.
As tabelas 4.22 e 4.23 ilustram os valores do cálculo do índice CR obtidos na comparação do
conjunto de partições a priori e as partições obtidas como resultado da aplicação dos métodos
de agrupamento rígidos e difusos, respectivamente. É possível observar que o desempenho em
relação ao índice CR dos métodos baseados em
Kernel
é superior aos métodos adaptativos.
4.3 Experimentos e Resultados
Tabela 4.21.
81
Valores mínimo e máximo de temperatura de 37 cidades (em graus centígrado)
Janeiro a Abril Março A Agosto Setembro a Dezembro Grupo
Cidade
1. Amssterdam
2. Athens
3. Bahrain
4. Bombay
5. Cairo
6. Calcutta
7. Colombo
8. Copenhagen
9. Dubal
10. Frankfurt
11. Geneva
12. HongKong
13. KulaLumpur
14. Lisbon
15. London
16. Madras
17. Madrid
18. Manila
19. Mauritius
20. MexicoCity
21. Moscow
22. Munich
23. Nairobi
24. NewDelhi
25. NewYork
26. Paris
27. Rome
28. SanFrancisco
29. Seoul
30. Singapore
31. Stockholm
32. Sydney
33.Tehran
34. Tokyo
35. Toronto
36. Vienna
37.Zurich
Figura 4.14.
[13, 27]
[19, 32]
[8, 29]
[13, 36]
[22, 31]
[−3, 10]
[13, 31]
[12, 23]
[22, 33]
[20, 35]
[21, 31]
[6, 27]
[12, 26]
[6, 36]
[23, 31]
[16, 30]
[−5, 15]
[6, 19]
[−10, 24]
[−6, 13]
[8, 18]
[2, 13]
[1, 19]
[−13, 8]
[−6, 14]
[−3, 15]
[1, 16]
[4, 19]
[6, 18]
[0, 16]
[−9, 8]
[0, 18]
[−8, 11]
[−2, 14]
[−11, 21]
[21, 29]
[0, 18]
[25, 36]
[25, 33]
[17, 36]
[26, 36]
[25, 31]
[8, 22]
[22, 39]
[22, 30]
[23, 32]
[26, 39]
[23, 31]
[18, 27]
[11, 22]
[26, 40]
[24, 30]
[5, 20]
[7, 23]
[16, 32]
[3, 32]
[10, 24]
[13, 27]
[8, 22]
[9, 34]
[7, 24]
[7, 23]
[12, 29]
[8, 24]
[13, 31]
[10, 22]
[12, 31]
[6, 22]
[14, 31]
[−8, 27]
[10, 24]
[2, 31]
[17, 25]
[20, 40]
[15, 34]
[20, 32]
[10, 33]
[13, 32]
[22, 30]
[1, 18]
[14, 37]
[14, 29]
[23, 32]
[21, 34]
[22, 29]
[8, 26]
[11, 24]
[7, 34]
[23, 30]
[11, 30]
[−1, 20]
[8, 28]
[−8, 27]
[−2, 19]
[8, 24]
[3, 19]
[1, 28]
[−11, 16]
[−4, 20]
[−2, 24]
[1, 21]
[5, 27]
[6, 23]
[1, 28]
[−2, 15]
[2, 27]
[−5, 22]
[1, 19]
[−11, 23]
[17, 28]
[−5, 30]
2
2
1
1
1
1
1
2
1
2
2
1
1
2
2
1
2
1
3
1
2
2
1
1
2
2
2
2
2
1
2
1
4
2
2
2
2
Conjunto de dados: Temperatura das cidades
Os métodos com agrupamento no espaço de características apresentaram uma ligeira vantagem
sobre os métodos com agrupamento no espaço de entradas.
O intuito da avaliação destes
4.3 Experimentos e Resultados
82
métodos neste tipo de cenário é observar seu comportamento diante de cenários reais (que não
sejam gerados de maneira articial, e sim, por exemplo, de dados coletados a partir de um
contexto real), reforçando a validação de tais métodos.
Tabela 4.22.
Cidades.
Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Temperatura das
MKM-EC
MKM-EE
DAC
DAU
0.733
0.660
0.576
0.415
Tabela 4.23. Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Temperatura das Cidades.
4.3.2.4
McM-EC
McM-EE
FCMA
0.705
0.679
0.542
Conjunto de Dados: Carros
O conjunto de dados simbólicos Carros consiste de 33 modelos descritos por oito variáveis
intervalares, duas variáveis categóricas multivaloradas e uma variável nominal. Neste conjunto
de dados de aplicação, as oito variáveis intervalares consideradas são: preço, cilindrada do motor, velocidade máxima, aceleração, passo, comprimento, largura e altura. A variável nominal,
categoria de carro foi utilizada como um rótulo para classicação
a priori.
A tabela 4.24 ilustra
os dados contidos neste conjunto. Esta seção faz uma breve descrição deste conjunto de dados
reais e apresenta os resultados da aplicação dos métodos de agrupamento sobre ele.
Tabela 4.24.
Cidade
1. Alpha 145
2. Alpha 156
...
...
...
31. Porshe 25
32. Rover 25
33. Passat
Conjunto de Dados Carros com 8 variáveis do tipo intervalo
Preço
Cilindrada do motor
[27806, 33596]
[41593, 62291]
[1370, 1910]
[1598, 2492]
[147704, 264412]
[21492, 33042]
[39676, 63455]
[3387, 3600
[1119, 1994]
[1595, 2496]
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
Altura
[143, 143]
[142, 142]
...
...
...
[130, 131]
[142, 142]
[146, 146]
Categoria
Utilitário
Sedan
...
...
...
Sedan
Utilitário
Luxo
Este conjunto de dados estão agrupados em quatro classes a priori de tamanhos diferentes.
Abaixo segue a composição de cada classe, onde cada indivíduo é seguido de um rótulo para
identicação de cada categoria de carro:
4.3 Experimentos e Resultados
83
a) Utilitário (U): 1-Alfa 145/U, 5-Audi A3/U, 12-Punto/U, 13-Fiesta/U, 17-Lancia Y/U,
24-Nissan Micra/U, 25-Corsa/U, 28-Twingo/U, 29-Rover 25/U, 31-Skoda Fabia/U
b) Sedan (S): 2-Alfa 156/S, 6-Audi A6/S, 8-BMW serie 3/S, 14-Focus/S, 21-Mercedes Classe
C/S, 26-Vectra/S, 30-Rover 75/S, 32-Skoda Octavia/S
c) Luxo (L): 3-Alfa 166/L, 7-Audi A8/L, 9-BMW serie 5/L, 10-BMW serie 7/L, 18-Lancia
K/L, 22-Mercedes Classe, E/L 23-Mercedes Classe S/L, 33-Passat/L
d) Esportivo (E): 4-Aston Martin/E, 11-Ferrari/E, 15-Honda NSK/E, 16-Lamborghini/E,
19-Maserati GT/E, 20-Mercedes SL/E, 27-Porsche/E
Tabela 4.25.
Tabela 4.26.
Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Carros.
MKM-EC
MKM-EE
DAC
DAU
0.600
0.600
0.670
0.557
Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Carros.
McM-EC
McM-EE
FCMA
0.521
0.552
0.458
As tabelas 4.25 e 4.26 ilustram os valores do cálculo do índice CR obtidos na comparação do
conjunto de partições a priori e as partições obtidas como resultado da aplicação dos métodos
de agrupamento rígidos e difusos, respectivamente.
Para este conjunto de dados, é possível
observar que o desempenho em relação ao índice CR dos métodos baseados em
Kernel
na
abordagem rígida foi superior apenas ao método adaptativo com distância única, mas foi inferior
ao método com distância adaptativa por classe.
Na abordagem difusa, os métodos com agrupamento baseados em
Kernel apresentaram uma
ligeira vantagem sobre o método adaptativo difuso. Assim, como no cenário anterior, o intuito
da avaliação destes métodos é observar seu comportamento diante de cenários reais, reforçando
a validação de tais métodos. O fato do método adaptativo por distância adaptativa por classe
ter sido superior não invalida os métodos propostos neste trabalho, pois é importante salientar
que nenhum método é infalível e existem cenários onde o uso de
menor que um método adaptativo.
kernel
tenha um impacto
Observe que este conjunto de dados possui classes mais
homogêneas, o que pode ter favorecido o método adaptativo por classe (DAC).
4.3 Experimentos e Resultados
4.3.2.5
84
Conjunto de Dados: Peixes
Diversos estudos realizados na Guyana francesa têm indicado níveis anormais de contaminação de mercúrio em algumas regiões. Esta contaminação de mercúrio é devida ao alto índice
de consumo de peixe de água doce contaminado (SOUZA, 2003). Com o objetivo de obter um
melhor conhecimento deste fenômeno, um conjunto de dados foi coletado por pesquisadores de
um laboratório (LEESA -Laboratoire d'Ecophysiologie et d'Ecotoxicologie des Systemes Aquatiques).
Este conjunto de dados consiste em 12 espécies de peixes, cada espécie sendo descrita por
treze variáveis do tipo intervalo e uma variável categórica.
Estas espécies estão agrupadas
em quatro classes a priori de tamanhos diferentes de acordo com a variável categórica: duas
classes (Carnivorous e Detritivorous) de tamanho 4 e duas classes de tamanho 2 (Omnivorous
e Herbivorous). Esta seção faz uma breve descrição deste conjunto de dados reais e apresenta
os resultados da aplicação dos métodos de agrupamento sobre ele. A tabela 4.27 ilustra parte
deste conjunto de dados.
Tabela 4.27.
Conjunto de dados de Peixes descritos por 13 variáveis intervalares.
Indivíduos/classes
Variáveis Intervalares
Comprimento
Peso
...
1. Ageneiosusbrevili
2. Cynodongibbus
3. Hopliasaimara
4. Potamotrygonhy
5. Leporinusfasciatus
6. Leporinusfrederici
7. Dorasmicropoeus
8. Platydorascostatus
9. Pseudoancistrus
10. Semaprochilodusvari
11. Acnodonoligacanthus
12. Myleusrubripinis
Tabela 4.28.
Tabela 4.29.
[1.8,7.1]
[19,32]
[25.5,63]
[20.5,45]
[18.8,25]
[23,24.5]
[19.2,31]
[13.7,25]
[13,20.5]
[22,28]
[10,16.2]
[2.7,8.4]
[2.1,7.2]
[77,59]
[340,5500]
[400,6250]
[125,273]
[290,350]
[128,505]
[60,413]
[55,210]
[330,700]
[34.9,154.7]
[2.7,8.7]
...
...
...
...
...
...
...
...
...
...
...
...
Intestino/
Músculo
[4.3,11.8]
[0.2,1.24]
[0.09,0.4]
[0,0.5]
[0.12,0.17]
[0.13,0.58]
[0,0.79]
[0,0.61]
[0.49,1.36]
[0,1.25]
[0.23,5.97]
[5.1,13.3]
Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Peixes.
MKM-EC
MKM-EE
DAC
DAU
0.867
0.867
0.488
0.767
Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Peixes.
McM-EC
McM-EE
FCMA
0.488
0.578
0.522
4.3 Experimentos e Resultados
85
As tabelas 4.28 e 4.29 ilustram os valores do cálculo do índice CR obtidos na comparação do conjunto de partições a priori e as partições obtidas como resultado da aplicação
dos métodos de agrupamento rígidos e difusos, respectivamente.
É possível observar que
o desempenho em relação ao índice CR dos métodos baseados em
Kernel
é superior aos
métodos adaptativos para o paradigma rígido. No caso difuso, os desempenhos foram próximos, com uma pequena superioridade do método MKM-EE comparado ao adaptativo. Apesar de ser um conjunto pequeno, foi utilizado em trabalhos relevantes da literatura de ADS
(CARVALHO; LECHEVALLIER, 2009b)(SOUZA; CARVALHO; PIZZATO, 2007)(HEDJAZI;
AGUILAR-MARTIN; LANN, 2011), tornando a avaliação aceita na comunidade cientíca. Com
isso, os resultados apresentados reforçam a validade dos métodos apresentados nesta Tese.
CAPÍTULO 5
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
Neste trabalho foi apresentado um conjunto de métodos de agrupamento para dados simbólicos
intervalares baseado em funções de
Kernel.
Estes métodos são extensões do K-Médias, onde a
principal diferença ocorre na capacidade de interpretar dados do tipo intervalo e utilizar funções
de
Kernel
para auxiliar no processo de identicação de grupos não lineares. A motivação desse
estudo está relacionada justamente à investigação de métodos que possam criar uma separação
não linear de grupos de dados intervalares, uma vez que métodos presentes na literatura de
ADS, tais como os agrupamentos dinâmicos descritos nesse trabalho, não são tão ecientes
para esse propósito.
Foram introduzidos variações do método K-Médias e difuso c-médias com uso de funções
de
Kernel
para dados intervalares. O
Kernel
para intervalos foi tratado inicialmente de duas
formas: a primeira o intervalo foi considerado como uma informação única (uma componente)
e a segunda onde existe um tratamento separado para os limites inferior e superior de cada
intervalo (dois componentes). Em ambos os casos, o objetivo é identicar a não-linearidade dos
dados ao mesmo tempo em que estes são representados por meio de conjuntos de intervalos,
caracterizando a variabilidade e a incerteza das informações. Foram realizados experimentos e
com base no índice DB, para os cenários avaliados conclui-se que o
Kernel
de duas componentes
é mais apropriado por levar em consideração uma quantidade maior de informação ao processar
a distância. Além disso, os métodos foram aplicados sob duas abordagens: o agrupamento no
espaço de entrada, onde os protótipos dos grupos podem ser encontrados explicitamento no
espaço de dados e o agrupamento no espaço de características, onde não há possibilidade de
denição explicita dos protótipos.
Foram realizados experimentos com o uso da técnica de Monte Carlo com conjuntos de
dados simbólicos intervalares. Nos conjuntos sintéticos, o objetivo é que os experimentos possam
fornecer resultados referentes à eciência dos métodos em encontrar partições de dados não-
87
linearmente separáveis para o espaço de entrada.
Os métodos usados para comparação com
propostos foram métodos de agrupamento dinâmico para dados simbólicos aceitos na literatura
de ADS que utilizam distâncias adaptativas.
Também foram realizados experimentos com
dados simbólicos intervalares reais, com os conjuntos Temperaturas de cidades, Fluxo de Água,
Agaricus, Carros e Peixes. Para isto, adotou-se o índice de corrigido de Rand (CR) como forma
de avaliar os métodos.
Como conclusão principal, os métodos propostos se mostraram mais eciente do que os
métodos de agrupamento dinâmico nos cenários estudados, tanto para dados sintéticos quanto
para os cenários de dados reais, quando avaliados através do CR. Desta forma, este trabalho
contribuiu para o desenvolvimento de métodos para o reconhecimento de dados não linearmente
distribuídos, obtendo um avanço teórico no âmbito dos algoritmos de agrupamento para dados
simbólicos, podendo servir de ponto de partida para o desenvolvimento de novas técnicas de
agrupamento de dados.
As principais contribuições deste trabalho podemos citar:
•
A aplicação e extensão de métodos baseados em
Kernel
para literatura de Análise de
Dados Simbólicos;
Kernel
•
A utilização de heurísticas para determinação do parâmetro
•
Introdução dos métodos desta Tese na literatura de ADS através das seguintes publicações
σ
do
Gaussiano;
em anais de eventos:
Anderson F. B. F. da Costa, Bruno A. Pimentel, Renata M. C. R. de Souza:
kernel k-means clustering method for symbolic interval data.
A
IJCNN 2010:
1-6 (COSTA; PIMENTEL; SOUZA, 2010b) (Artigo Completo)
Bruno A. Pimentel, Anderson F. B. F. da Costa, Renata M. C. R. de Souza:
Kernel-based fuzzy clustering of interval data.
FUZZ-IEEE 2011: 497-501
(PIMENTEL; COSTA; SOUZA, 2011a) (Artigo Completo)
Bruno A. Pimentel, Anderson F. B. F. da Costa, Renata M. C. R. de Souza:
A
partitioning method for symbolic interval data based on kernelized metric.
CIKM 2011: 2189-2192 (PIMENTEL; COSTA; SOUZA, 2011b) (Artigo Curto)
5.1 Trabalhos Futuros
88
Anderson F. B. F. da Costa, Bruno A. Pimentel, Renata M. C. R. de Souza:
K-
means Clustering for Symbolic Interval Data Based on Aggregated Kernel
Functions.
ICTAI (2) 2010: 375-376 (COSTA; PIMENTEL; SOUZA, 2010a) (Re-
sumo Expandido)
5.1
TRABALHOS FUTUROS
Assim como no K-médias, um dos principais problemas encontrados no método adaptado
para dados intervalares é a sensibilidade à escolha dos protótipos para a denição da partição
inicial.
Desta forma, existe a necessidade de um número maior de execuções do algoritmo
para obter a partição de menor critério quando comparado com os métodos de agrupamento
dinâmico. Assim, é importante o estudo de novas técnicas para a denição da partição inicial
ou novas maneiras de diminuir a sensibilidade do método proposto. Uma extensão do método
Kernel
K-médias denominada
Global Kernel
K-médias (TZORTZIS; LIKAS, 2009) pode ser
adaptada para dados simbólicos de intervalo para tentar contornar essa sensibilidade na inicialização.
Outro aspecto interessante de ser analisado, é o comportamento dos métodos para diferentes
funções de
Kernel, tais como o Polinomial e o Sigmoide.
Assim, pode ser possível concluir quais
tipos de funções possuem um desempenho melhor e são mais adequadas a problemas onde os
dados são organizados de maneira linear e não linear.
Neste trabalho foram denidas heurísticas para estimar o valor do parâmetro
σ
do
Kernel
Gaussiano, então um possível trabalho futuro pode ser a implementação de técnicas para identicação do valor ótimo para o parâmetro
Maximization
σ , utilizando por exemplo, um algoritmo Expectation
(EM).
Na utilização de
Kernel
de duas componentes pode ser investigado a inuência de cada
limite inferior e superior do intervalo no desempenho do método, e a partir disso propor uma
estratégia de aplicar um fator de ponderação para os limites, tanto nas abordagens rígidas como
difusa.
Um estudo interessante seria avaliar o comportamento dos métodos desta Tese em cenários
para intervalos com a presença de
outliers e propor adaptações ou variantes para lidar com esse
5.1 Trabalhos Futuros
89
tipo de cenário.
Outro possível trabalho seria considerar no
Kernel
Gaussiano a possibilidade de utiliza-
ção de outras medidas de distâncias para intervalos, considerando na própria função RBF a
utilização de métricas como a distância de
city-block e Hausdor.
Ainda outro trabalho a ser proposto para o futuro seria denir métodos de
kernel para inter-
valos utilizando uma abordagem possibilística. Essa abordagem ainda não existe na literatura
de Análise de Dados Simbólicos.
REFERÊNCIAS BIBLIOGRÁFICAS
ABRAHAM, A.; DAS, S.; KONAR, A. Document clustering using dierential evolution.
Pro-
ceedings of the 2006 IEEE Congress on evolutionary computation, 2006.
ANDERBERG, M.
Cluster Analysis for Applications. [S.l.]:
New York: Academic, 1973.
AWAN, A. M.; SAP, M. N. M. An intelligent system based on kernel methods for crop yield
prediction. In:
PAKDD. [S.l.:
s.n.], 2006. p. 841846.
BACH, F.; JORDAN, M. Learning Spectral Clustering, with Application to Speech Separation.
Journal of Machine Learning Research, v. 7, October 2006.
BANERJEE, A. et al. Clustering with bregman divergences.
J. Mach. Learn. Res.,
v. 6, p.
17051749, December 2005. ISSN 1532-4435.
BEN-HUR, A. et al. Support vector clustering.
Journal of Machine Learning Research, v. 2, p.
125137, 2001.
BERKHIN, P. A survey of clustering data mining techniques.
Grouping Multidimensional Data,
p. 2571, 2006.
BEZDEK, J. C.
Pattern Recognition with Fuzzy Objective Function Algorithms. Norwell, MA,
USA: Kluwer Academic Publishers, 1981.
BILLARD, L.; DIDAY, E.
Symbolic Data Analysis: Conceptual Statistics and Data Mining.
England: Wiley, West Sussex, 2006. ISBN 9780470090169, 0470090162.
BOCK, H.; DIDAY, E. Analysis of symbolic data.
Study in Classication,
Data Analysis and
Knowledge Organization. Springer Verlag, 2000.
BOLSHAKOVA, N.; AZUAJE, F. Cluster validation techniques for genome expression data.
Signal Processing, v. 83, p. 825833, 2002.
Referências Bibliográficas
91
BRAND, M.; HUANG, K. A unifying theorem for spectral embedding and clustering. 2003.
BRITO, P. Order structure of symbolic assertion objects.
Eng.,
IEEE Trans. on Knowl. and Data
IEEE Educational Activities Department, Piscataway, NJ, USA, v. 6, p. 830835,
October 1994. ISSN 1041-4347.
CARVALHO, F. D.; BRITO, P.; BOCK, H.-H. Dynamic clustering for interval data based on
l2 distance.
Comput. Stat.,
Kluwer Academic Publishers, Hingham, MA, USA, v. 21, p.
231250, June 2006. ISSN 0943-4062.
CARVALHO, F. d. A. T. D. Fuzzy c-means clustering methods for symbolic interval data.
Pattern Recogn. Lett.,
Elsevier Science Inc., New York, NY, USA, v. 28, p. 423437,
March 2007. ISSN 0167-8655.
CARVALHO, F. D. A. T. D.; LECHEVALLIER, Y. Dynamic clustering of interval-valued
data based on adaptive quadratic distances.
Trans. Sys. Man Cyber. Part A, IEEE Press,
Piscataway, NJ, USA, v. 39, p. 12951306, November 2009. ISSN 1083-4427.
CARVALHO, F. d. A. T. D.; LECHEVALLIER, Y. Partitional clustering algorithms for symbolic interval data based on single adaptive distances.
Pattern Recogn.,
Elsevier Science
Inc., New York, NY, USA, v. 42, p. 12231236, July 2009. ISSN 0031-3203.
CARVALHO, F. d. A. T. D. et al. Adaptive hausdor distances and dynamic clustering of
symbolic interval data.
Pattern Recogn. Lett., Elsevier Science Inc., New York, NY, USA,
v. 27, p. 167179, February 2006. ISSN 0167-8655.
CARVALHO, F. d. A. T. D.; TENóRIO, C. P. Fuzzy k-means clustering algorithms for intervalvalued data based on adaptive quadratic distances.
Fuzzy Sets Syst.,
Elsevier North-
Holland, Inc., Amsterdam, The Netherlands, The Netherlands, v. 161, p. 29782999,
December 2010. ISSN 0165-0114.
CARVALHO, F. d. A. T. de; SOUZA, R. M. C. R. de. Unsupervised pattern recognition models
for mixed feature-type symbolic data.
Pattern Recogn. Lett.,
Elsevier Science Inc., New
York, NY, USA, v. 31, p. 430443, April 2010. ISSN 0167-8655.
CHAVENT, M. A monothetic clustering method.
1998.
Pattern Recognition Letters, v. 19, p. 989996,
Referências Bibliográficas
92
CHAVENT M. E LECHEVALLIER, Y. Dynamical clustering algorithm of interval data: Optimization of an adequacy criterion based on hausdor distance.
Classication, Clustering
and Data Analysis, Springer, p. 53 59, 2002.
CHEN, Y. et al. Similarity-based classication: Concepts and algorithms.
The Journal of Ma-
chine Learning Research, v. 10, p. 747776, June 2009.
CHOUDHARI, A. et al. Mesh based clustering without stopping criterion. In:
Annual IEEE. [S.l.:
INDICON, 2005
s.n.], 2005. p. 530 534.
CONAN-GUEZ, B.; ROSSI, F.; GOLLI, A. E. Fast algorithm and implementation of dissimilarity self-organizing maps.
Neural Netw., Elsevier Science Ltd., Oxford, UK, UK, v. 19,
p. 855863, July 2006. ISSN 0893-6080.
COSTA, A. F. B. F. da; PIMENTEL, B. A.; SOUZA, R. M. C. R. de. K-means clustering for
symbolic interval data based on aggregated kernel functions. In:
22nd IEEE International
Conference on Tools with Articial Intelligence, ICTAI 2010, Arras, France - Volume 2.
[S.l.]: IEEE Computer Society, 2010. p. 375376. ISBN 978-0-7695-4263-8.
COSTA, A. F. B. F. da; PIMENTEL, B. A.; SOUZA, R. M. C. R. de. A kernel k-means
clustering method for symbolic interval data. In:
International Joint Conference on Neural
Networks, IJCNN 2010, Barcelona, Spain. [S.l.:
s.n.], 2010. p. 16. ISBN 978-1-4244-6916-
1.
CRISTIANINI, N.; J., S.-T.
An Introduction to Support Vector Machines ans other kernl-based
learning mehtods. [S.l.]:
Cambridge University Press, 2000.
CRISTIANINI, N. et al. On kernel-target alignment. In:
cessing Systems 14. [S.l.:
Advances in Neural Information Pro-
s.n.], 2002. v. 14, p. 367373.
CUI, X.; POTOK, T. E. Document clustering analysis based on hybrid pso+k-means algorithm.
Journal of Computer Sciences, Special Issue, p. 2733, 2005.
DHILLON, I. S.; GUAN, Y.; KULIS, B. Kernel k-means: spectral clustering and normalized
cuts. In:
Proceedings of the tenth ACM SIGKDD international conference on Knowledge
discovery and data mining. New York, NY, USA: ACM, 2004. (KDD '04), p. 551556.
Referências Bibliográficas
93
DIDAY, E. Orders and overlapping clusters hi pyramids.
Multidimensional Data Analysis,
DSWO Press, Leiden,, p. 201 234, 1986.
DIDAY, E. et al.
Éléments d'analyse de données. [S.l.]:
DIDAY, E.; NOIRHOMME-FRAITURE, M.
Dunod, 1982.
Symbolic Data Analysis and the SODAS Software.
New York, NY, USA: Wiley-Interscience, 2008. ISBN 0470018836, 9780470018835.
DIDAY, E.; SIMON, J. C. Clustering analysis.
Digital Pattern Classication, 1976.
EL-SONBATY, Y.; ISMAIL, M. A. On-line hierarchical clustering.
Pattern Recogn. Lett.,
El-
sevier Science Inc., New York, NY, USA, v. 19, p. 12851291, December 1998. ISSN
0167-8655.
FILIPPONE, M. et al. A survey of kernel and spectral methods for clustering.
Pattern Recog-
nition, v. 41, n. 1, p. 176190, January 2008.
GHOSH, A. K. Kernel discriminant analysis using case-specic smoothing parameters.
IEEE
Transactions on Systems, Man, and Cybernetics, Part B, v. 38, n. 5, p. 14131418, 2008.
GIROLAMI, M. Mercer kernel-based clustering in feature space.
IEEE Transactions on Neural
Networks, v. 13, p. 780784, 2002.
GORDON, A.
Classication. London, UK: Chapman Hall, 1999.
GORDON, A. An iteractive relocation algorithm for classifying symbolic data.
Data Analysis
: Scientic Modeling and Practical Application, Springer-Verlag, Berlin, p. 17 23, 2000.
GOWDA, K. C.; RAVI, T. V. Agglomerative clustering of symbolic objects using the concepts
of both similarity and dissimilarity.
Pattern Recogn. Lett., Elsevier Science Inc., New York,
NY, USA, v. 16, p. 647652, June 1995. ISSN 0167-8655.
GOWDA, K. C.; RAVI, T. V. Divisive clustering of symbolic objects using the concepts of both
similarity and dissimilarity.
Pattern Recognition, v. 28, n. 8, p. 12771282, 1995.
GRAVES, D.; PEDRYCZ, W. Kernel-based fuzzy clustering and fuzzy clustering: A comparative experimental study.
Fuzzy Sets Syst., Elsevier North-Holland, Inc., Amsterdam, The
Netherlands, The Netherlands, v. 161, p. 522543, February 2010. ISSN 0165-0114.
Referências Bibliográficas
94
GURU, D. S.; KIRANAGI, B. B.; NAGABHUSHAN, P. Multivalued type proximity measure
and concept of mutual similarity value useful for clustering symbolic patterns.
Pattern
Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 25, p. 12031213, July 2004.
ISSN 0167-8655.
HARTUV, E.; SHAMIR, R. A clustering algorithm based on graph connectivity.
Inf. Process.
Lett., Elsevier North-Holland, Inc., Amsterdam, The Netherlands, The Netherlands, v. 76,
p. 175181, December 2000. ISSN 0020-0190.
HAYES-ROTH, F.; MCDERMOTT, J. An interference matching technique for inducing abstractions.
Commun. ACM,
ACM, New York, NY, USA, v. 21, p. 401411, May 1978.
ISSN 0001-0782.
HAYKIN, S.
Neural Networks: A Comprehensive Foundation. [S.l.]:
Prentice Hall, 1999. 409
412 p.
HE, J. et al. On quantitative evaluation of clustering systems.
Information Retrievel and Clus-
tering, 2002.
HEDJAZI, L.; AGUILAR-MARTIN, J.; LANN, M.-V. L. Similarity-margin based feature selection for symbolic interval data.
Pattern Recognition Letters,
v. 32, n. 4, p. 578585,
March 2011.
HONG, Y.; KWONG, S. Learning assignment order of instances for the constrained k-means
clustering algorithm.
Trans. Sys. Man Cyber. Part B, Institute of Electrical and Electron-
ics Engineers Inc., The, v. 39, p. 568574, April 2009. ISSN 1083-4419.
HUBERT, L.; ARABIE, P. Comparing partitions.
Journal of Classication, 1985.
ICHINO, M.; YAGUCHI, H. Generalized minkowski metrics for mixed feature-type data analysis.
Systems, Man and Cybernetics, IEEE Transactions on, v. 24, n. 4, p. 698 708, abr.
1994. ISSN 0018-9472.
JAIN, A. K. Data clustering: 50 years beyond K-means.
Pattern Recognition Letters,
n. 8, p. 651666, June 2010. ISSN 01678655.
JAIN, A. K.; DUBES, R. C.
Algorithms for Clustering Data. [S.l.]:
Prentice Hall, 1988.
v. 31,
Referências Bibliográficas
95
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: A review.
ACM Comput. Surv.,
1999.
JING L., Z. L. N. M. K.; HUANG, Z. Ontology-based distance measure for text clustering.
Proc. of SIAM SDM workshop on text mining, April 2006.
KAUFMAN, L.; ROUSSEEUW, P. J.
Analysis. 9th. ed. [S.l.]:
Finding Groups in Data: An Introduction to Cluster
Wiley-Interscience, 1990. Hardcover. ISBN 0471878766.
KAUFMAN, L.; ROUSSEEUW, P. J.
Finding Groups in Data: An Introduction to Cluster
Analysis (Wiley Series in Probability and Statistics). [S.l.]:
Wiley-Interscience, 2005. Pa-
perback. ISBN 0471735787.
KENNEDY, J.; EBERHART, R. Particle swarm optimization. In:
Proceedings., IEEE International Conference on.
Neural Networks, 1995.
[S.l.: s.n.], 1995. v. 4, p. 1942 1948
vol.4.
KIM, D. W. et al. Evaluation of the performance of clustering algorithms in kernel-induced
feature space.
KOHONEN, T.
Pattern Recognition, v. 38, n. 4, p. 607611, abr. 2005.
Self-organization and associative memory.
[S.l.]: Springer-Verlag New York,
Inc. New York, NY, USA, 1989.
KRISHNA, K.; MURTY, M. N. Genetic k-means algorithm.
Part B: Cybernetics, IEEE Transactions on,
Systems, Man, and Cybernetics,
v. 29, n. 3, p. 433 439, jun. 1999. ISSN
1083-4419.
MACQUEEN, J. B. Some methods for classication and analysis of multivariate observations.
In: CAM, L. M. L.; NEYMAN, J. (Ed.).
ematical Statistics and Probability.
Proc. of the fth Berkeley Symposium on Math-
[S.l.]: University of California Press, 1967. v. 1, p.
281297.
MICHALSKI, R. Aqval/1computer implementation of a variable-valued logic system vl/1
and examples of its application to pattern recognition.
Pattern Recognition, Washington, D. C., 1973.
Proc. First Int. Joint Conf. on
Referências Bibliográficas
96
MITRA, S.; PAL, S. K. Fuzzy sets in pattern recognition and machine intelligence.
Fuzzy Sets
and Systems, v. 156, n. 3, p. 381386, 2005.
NASSER, P.-A. H. A.; HAMAD, D. Clustering evaluation in feature space.
Articial Neural
Networks ICANN 2007, Lecture Notes in Computer Science, v. 4669, p. 321354, 2007.
PIMENTEL, B. A.; COSTA, A. F. B. F. da; SOUZA, R. M. C. R. de. Kernel-based fuzzy
clustering of interval data. In:
FUZZ-IEEE 2011, Proceedings of IEEE International
Conference on Fuzzy Systems, Taipei, Taiwan. [S.l.]:
IEEE, 2011. p. 497501.
PIMENTEL, B. A.; COSTA, A. F. B. F. da; SOUZA, R. M. C. R. de. A partitioning method
for symbolic interval data based on kernelized metric. In:
Proceedings of the 20th ACM
Conference on Information and Knowledge Management, CIKM 2011, Glasgow, United
Kingdom. [S.l.]:
ACM, 2011. p. 21892192. ISBN 978-1-4503-0717-8.
QUEVEDO V. PUIG, G. C. J. B. J. A. D. S. G. B. M. H. J.; MOLINA, A. Validation and
reconstruction of ow meter data in the barcelona water distribution network.
Control
Engineering Practice, n. 18, p. 640651, April 2010.
RAVI, T. V.; GOWDA, K. C. Clustering of symbolic objects using gravitational approach.
IEEE Transactions on Systems, Man, and Cybernetics, Part B,
v. 29, n. 6, p. 888894,
1999.
RAVI, T. V.; GOWDA, K. C. An isodata clustering procedure for symbolic objects using a
distributed genetic algorithm.
Pattern Recogn. Lett., Elsevier Science Inc., New York, NY,
USA, v. 20, p. 659666, July 1999. ISSN 0167-8655.
SATISH, D.; SEKHAR, C. Kernel based clustering and vector quantization for speech recognition. In:
Machine Learning for Signal Processing, 2004. Proceedings of the 2004 14th
IEEE Signal Processing Society Workshop. [S.l.:
s.n.], 2004.
SCHOLKOPF, B.; SMOLA, A.; MULLER, K.-R. Nonlinear Component Analysis as a Kernel
Eigenvalue Problem.
SOUZA, R. M. C. R. D.
Dinâmicas.
Neural Comp., v. 10, n. 5, p. 12991319, July 1998.
Métodos de Cluster para Intervalos usando Algoritmos do tipo Nuvens
[S.l.]: Tese de Doutorado. Centro de Informática, Universidade Federal de
Pernambuco, 2003.
Referências Bibliográficas
97
SOUZA, R. M. C. R. D.; CARVALHO, F. d. A. T. D. Dynamic clustering of interval data based
on adaptive chebyshev distances.
Electronics Letters, v. 40, n. 11, p. 658 660, maio 2004.
ISSN 0013-5194.
SOUZA, R. M. C. R. D.; CARVALHO, F. d. A. T. de. Clustering of interval data based on
city-block distances.
Pattern Recogn. Lett.,
Elsevier Science Inc., New York, NY, USA,
v. 25, p. 353365, February 2004. ISSN 0167-8655.
SOUZA, R. M. C. R. de; CARVALHO, F. d. A. T. de; PIZZATO, D. F. A partitioning method
for mixed feature-type symbolic data using a squared euclidean distance. Springer-Verlag,
Berlin, Heidelberg, p. 260273, 2007.
TAN, P.-N.; STEINBACH, M.; KUMAR, V.
Introduction to Data Mining. Us ed. [S.l.]:
Addison
Wesley, 2005. Hardcover. ISBN 0321321367.
TAN, X.; CHEN, S.; ZHANG, Z. hua Z. F. Robust face recognition from a single training image
per person with kernel-based som-face. In:
In ISNN. [S.l.:
s.n.], 2004. p. 858863.
TZORTZIS, G. F.; LIKAS, A. C. The global kernel k-means algorithm for clustering in feature
space.
Trans. Neur. Netw.,
Institute of Electrical and Electronics Engineers Inc., The,
v. 20, p. 11811194, July 2009. ISSN 1045-9227.
UCI.
UCI
Machine
Learning
databases.
In:
.
[s.n.],
2010.
Disponível
em:
<ftp://ftp.ics.uci.edu/pub/machine-learningdatabases>.
VERDE V., C. F. A. T. d. L. Y. A dynamical clustering algorithm for symbolic data.
25th An-
nual Conference of the German Classication Society, Tutorial on Symbolic Data Analysis, Munich, p. 59 71, 2001.
WANG, W.; YANG, J.; MUNTZ, R. R. Sting:
A statistical information grid approach to
spatial data mining. In: JARKE, M. et al. (Ed.).
on Very Large Data Bases. Athens, Greece:
WARWICK, K. M.; MORINEAU, A.
Twenty-Third International Conference
Morgan Kaufmann, 1997. p. 186195.
Multivariate Descriptive Statistical Analysis. New York,
NY, USA: John Wiley & Sons, Inc., 1984. ISBN 0471867438.
Referências Bibliográficas
XU, R.; WUNSCH D., I. Survey of clustering algorithms.
98
Neural Networks, IEEE Transactions
on, v. 16, n. 3, p. 645 678, maio 2005. ISSN 1045-9227.
ZANG D. Q. E CHEN, S. C. Kernel based fuzzy and possibilistic c-means clustering. In:
ceedings of the International Conference Articial Neural Network.
Pro-
Turkey: [s.n.], 2003.
p. 122125.
ZELNIK-MANOR, L.; PERONA, P. Self-tuning spectral clustering. MIT Press, p. 16011608,
2004.
ZHANG, D.-Q. et al. Kernel-based fuzzy clustering incorporating spatial constraints for image
segmentation. In:
Machine Learning and Cybernetics, 2003 International Conference on.
[S.l.: s.n.], 2003. v. 4, p. 2189 2192 Vol.4.
APÊNDICE A
RESULTADOS COMPLEMENTARES
Tabela A.1.
Resultado complementares do Índice DB referente ao gráco da Figura 4.6: Conj. de Dados 1.
Kernel de uma componente
Kernel de duas componentes
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
1
54.4753
58.4978
59.4639
59.9240
1
35.5763
36.5643
37.8064
39.2405
2
31.6759
42.6151
49.2456
53.0851
2
16.4238
17.0580
18.0034
19.3041
3
17.4878
24.1607
31.7093
38.1288
3
8.8864
9.2036
9.8937
10.7022
4
10.7174
13.9467
18.7025
24.0085
4
5.6022
5.7738
6.1858
6.8166
5
7.2656
8.9731
11.5873
15.0144
5
3.8377
3.9993
4.3144
4.6923
6
5.3287
6.1875
7.8041
9.8919
6
2.8875
2.9797
3.1864
3.4959
7
4.0425
4.6548
5.5806
6.9426
7
2.2476
2.3481
2.4820
2.7168
8
3.2357
3.6211
4.2330
5.1371
8
1.8259
1.9059
2.0435
2.2070
9
2.6662
2.9046
3.3460
4.0026
9
1.5345
1.6046
1.7223
1.8739
10
2.2479
2.4455
2.7609
3.2461
10
1.3249
1.3854
1.5069
1.6022
Tabela A.2.
Resultado complementares do Índice DB referente ao gráco da Figura 4.7: Conj. de Dados 2.
Kernel de uma componente
Kernel de duas componentes
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
1
20.4239
22.5530
23.2103
23.3312
1
13.4413
15.6641
17.3722
18.2817
2
11.8087
16.2980
19.2079
20.7095
2
7.0043
8.2563
9.6000
10.7750
3
7.2928
10.2508
13.4312
16.0829
3
4.3628
4.8974
5.5760
6.3912
4
5.0402
6.6643
8.9050
11.5124
4
2.9931
3.2478
3.6203
4.1690
5
3.7138
4.6332
6.1243
8.0421
5
2.1688
2.3342
2.5916
2.9740
6
2.8655
3.4189
4.3347
5.6474
6
1.6934
1.8014
1.9849
2.2449
7
2.2693
2.6345
3.2568
4.1092
7
1.3604
1.4426
1.5785
1.7960
8
1.8472
2.1200
2.5726
3.1443
8
1.1210
1.1872
1.3057
1.4763
9
1.5982
1.7611
2.0709
2.5009
9
0.9519
1.0151
1.1121
1.2622
10
1.3618
1.4954
1.7309
2.0620
10
0.8320
0.8860
0.9731
1.1024
100
Resultado complementares do Índice DB referente ao gráco da Figura 4.8: Conj. de Dados 3.
Tabela A.3.
Kernel de uma componente
Kernel de duas componentes
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
1
27.4191
29.2518
29.6976
29.9139
1
20.9350
22.0070
22.7733
23.6719
2
19.4094
23.5534
26.0380
27.4276
2
12.8379
13.6544
14.5450
15.6834
3
13.3028
16.8104
20.1276
22.4557
3
8.3246
9.2321
9.8638
10.6120
4
9.5927
11.8589
14.5710
17.0426
4
6.6225
6.9531
7.4344
7.9586
5
7.7061
8.8982
10.5197
12.7325
5
5.0770
5.2896
5.6602
6.0897
6
6.3962
7.2923
8.5196
9.8054
6
4.0750
4.1981
4.4350
4.7945
7
5.2756
5.8580
6.8664
7.9860
7
3.2109
3.2758
3.5369
3.7430
8
4.4673
4.8728
5.5982
6.4656
8
2.6561
2.6928
2.8931
3.0770
9
3.7688
4.0894
4.6989
5.4198
9
2.2140
2.2749
2.4535
2.6968
10
3.2269
3.4754
3.9551
4.5103
10
1.9352
1.9414
2.0691
2.2525
Resultado complementares do Índice DB referente ao gráco da Figura 4.9: Conj. de Dados 4.
Tabela A.4.
Kernel de uma componente
Kernel de duas componentes
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
1
22.1843
22.7497
22.5958
22.9081
1
19.4775
19.9944
20.2579
19.6886
2
17.0747
17.5378
17.7956
17.2816
2
13.6347
13.7792
13.9074
13.8074
3
13.2458
13.3999
13.5456
13.3929
3
9.8853
9.9945
10.1105
9.9485
4
10.4769
10.5964
10.8007
10.5874
4
7.8321
7.9341
7.9174
7.9675
5
8.6483
8.7304
8.8969
8.7545
5
6.6543
6.6576
6.5790
6.5889
6
7.5320
7.5938
7.5597
7.6529
6
5.5586
5.5771
5.5826
5.5780
7
6.7619
6.7386
6.6397
6.6719
7
4.6992
4.7748
4.7020
4.7170
8
5.9628
5.9556
5.8889
5.9330
8
3.9051
3.8650
3.9145
3.9133
9
5.2455
5.2809
5.2973
5.2753
9
3.6946
3.6908
3.6935
3.6771
10
4.6420
4.7041
4.6574
4.6668
10
3.4995
3.5300
3.4978
3.5160
Tabela A.5.
Resultado complementares do Índice DB referente ao gráco da Figura 4.10: Conj. de Dados 5.
Kernel de uma componente
Kernel de duas componentes
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
Sigma
(σ )
[1, 5]
[1, 10]
[1, 15]
[1, 20]
1
24.9819
24.9953
25.0524
25.1993
1
15.7072
15.7371
15.7341
15.7064
2
11.3155
11.3528
11.3621
11.3004
2
7.3774
7.3770
7.4208
7.3353
3
7.0447
7.0527
7.0650
7.0278
3
4.7265
4.7241
4.7115
4.7404
4
5.0579
5.0724
5.0634
5.0767
4
3.7473
3.7479
3.7394
3.7391
5
4.1093
4.1114
4.0993
4.0990
5
3.3678
3.3626
3.3515
3.3498
6
3.6275
3.6303
3.6225
3.6184
6
3.2107
3.2044
3.2059
3.1949
7
3.3858
3.3826
3.3696
3.3685
7
2.9870
3.0453
3.0280
3.0748
8
3.2420
3.2432
3.2485
3.2402
8
2.6345
2.7703
2.6223
2.8316
9
3.1370
3.1688
3.1529
3.1631
9
2.2173
2.2472
2.3670
2.4431
10
2.9828
3.0399
2.9427
3.0333
10
1.9767
2.0500
1.9887
2.1449
101
Tabela A.6.
Partições geradas para o conjunto de dados Temperatura das cidades.
Método
DAU
Classe 1
3 4 6 7 13
16 18 19 30
DAC
2356
9 12 20 24
33
MKM-EC
34567
9 12 13 16
18 19 20 23
24 30 32
MKM-EE
3 4 7 12
13 16 18 30
FCMA
3456
7 9 12 13
16 18 24 30
McM-EC
3456
7 9 12 13
16 18 24 30
33
McM-EE
3456
7 9 13 17
18 24 30
Tabela A.7.
Método
DAU.
DAC
MKM-EC
MKM-EE
FCMA
McM-EC
McM-EE
Classe 2
1 8 10 11 15
17 21 22 24
26 29 31 34
35 36 37
1 8 10 11
14 15 17 21
22 25 26 27
28 29 31 34
35 36 37
1 2 8 10
11 14 15 17
22 25 26 27
28 29 33 34
36 37
1 2 8 10
11 14 15 17
21 22 25 26 27
28 29 31 33 34
35 36 37
2 9 11 12
15 16 22 23
26 27 29 32
36 37 38
Classe 3
15 23
20 23 27 28
Classe 4
25
9 12 24 33
19 23 32
4 7 13 16
18 30
21 31
34
5 6 9 20 24
19 23 32
19 20 23 32
2 17 27 29
33 34
1 2 8 10
11 14 15 17
22 25 26 27
28 29 34 35
36 37
1 8 10 11
14 15 21 22
25 26 27 28
29 31 34 35
36 37
21 31
19 20 23 32
17 33
2 12 19 20
23 32
Partições geradas para o conjunto de dados Agaricus
Classe E
1 2 3 4 5 6 7 8 10 11 12 13
14 16 17 18 19 20 21 22 23 24
1 3 5 7 8 9 10 11 12 13 15 17
19 20 21 22 23
1 3 4 5 6 7 8 9 10 11 12 13 15 16 17
19 20 21 22 23
1 3 4 5 6 7 8 9 10 11 12 13 15 16 17
19 20 21 22 23
2 4 6 11 13 14 16 17 18 20
21 22 23 24
1 2 3 5 6 7 8 9 10 11 12 13 15 16 17
19 20 21 22 23
1 2 3 5 6 7 8 9 10 11 12 13 15 16 17
19 20 21 22 23
Classe I
9 15
2 4 6 14 16 18 24
2 14 18 24
2 14 18 24
13578
9 10 12 15 19
4 7 14 18 24
4 7 14 18 24
102
Tabela A.8.
Método
DAU
DAC
MKM-EC
MKM-EE
FCMA
Partições geradas para o conjunto de dados Carros.
Utilitário
1 12 13 14
17 24 25 28
29 31
12 13 17 24
25 28 29 31
1235
8 14 18 21
26 30 32 33
1 12 13 14
17 24 25 28
29 31
12 13 17 24
25 28 29 31
McM-EC
12 13 17 24
25 28 29 31
McM-EE
12 13 17 24
25 28 29 31
Tabela A.9.
Sedan
2385
18 21 26 30
32 33
1235
8 14 21 26
30 32
12 13 17 24
25 28 29 31
2356
8 18 21 26
30 32 33
1235
8 14 18 21
26 30 32 33
1235
8 14 18 21
26 30 32 33
1 2 5 14
26 30 32 33
Luxo
6 7 9 10
22 23
Esportivo
4 11 15 16
19 20 27
6 7 9 10
18 22 23 33
4 11 15 16
19 20 27
6 7 9 10
22 23
4 11 15 16
19 20 27
7 9 10 22
23
4 11 15 16
19 20 27
6 7 9 10
20 22 23
4 11 15 16
19 27
6 7 9 10
22 23
4 11 15 16
19 20 27
3678
9 10 18 21
22 23
4 11 15 16
19 20 27
Partições geradas para o conjunto de dados Peixes.
Método
DAU
Classe 1
1234
Classe 2
789
Classe 3
569
Classe 4
11 12
DAC
234
1 7 8 10
56
9 11 12
MKM-EC
1234
7 8 9 10
5 6 12
11
MKM-EE
1234
7 8 9 10
5 6 12
11
FCMA
123
789
456
9 11 12
McM-EC
123
789
456
9 11 12
McM-EE
1234
5678
12
11
APÊNDICE B
TESTES DE HIPÓTESES
As tabelas presente neste anexo, apresentam as hipóteses nulas e alternativa e os valores observados das estatísticas de testes seguindo distribuição t-Student com
99 graus de liberdade.
valores das estatísticas de teste apresentam um nível de conança de
95%.
Estes
Foram realizados
quatorze testes independentes para cada conguração de dados articiais ou sintéticos.
Nas tabelas B.1 a B.5 considere
µ1 , µ2 , µ3
e
µ4
como as médias dos índices CR para os
métodos MKM-EC, MKM-EE, DAU e DAC, respectivamente.
Nas tabelas B.6 e B.7 considere
µ5 , µ6 , µ7
métodos MKM-EC (DBSig), MKM-EC (σ
e
µ8
= 1),
como as médias dos índices CR para os
MKM-EE (DBSig) e MKM-EE (σ
= 1),
respectivamente.
Nas tabelas B.8 a B.10 considere
µ9 , µ10 , µ11
e
µ12
como as médias dos índices CR para
os métodos MKM-EC (CLSig), MKM-EC (DBSig), MKM-EE (CLSig) e MKM-EE (DBSig),
respectivamente.
Nas tabelas B.11 a B.14 considere
µ13 , µ14
e
µ15
como as médias dos índices CR para os
métodos McM-EC, McM-EE e FCMA, respectivamente.
Tabela B.1.
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.1
Intervalo
H0 : µ1 = µ2
H1 : µ1 > µ2
H0 : µ1 = µ3
H1 : µ1 > µ3
H0 : µ1 = µ4
H1 : µ1 > µ4
t
t
t
[1, 5]
−2.6290
−17.7978
−15.7954
[1, 10]
−3.7147
−17.3460
−16.7695
[1, 15]
−0.3298
−13.5629
−12.20912
[1, 20]
−2.0796
−12.4349
−10.1709
104
Tabela B.2.
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.2
Intervalo
Tabela B.3.
H0 : µ1 = µ2
H1 : µ1 > µ2
H0 : µ1 = µ3
H1 : µ1 > µ3
H0 : µ1 = µ4
H1 : µ1 > µ4
t
t
t
[1, 5]
−18.6610
59.9495
88.0662
[1, 10]
−20.1274
33.9649
68.6737
[1, 15]
−19.3534
27.8549
37.2664
[1, 20]
−24.8268
27.2473
40.0365
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.3
Intervalo
Tabela B.4.
H0 : µ1 = µ2
H1 : µ1 > µ2
H0 : µ1 = µ3
H1 : µ1 > µ3
H0 : µ1 = µ4
H1 : µ1 > µ4
t
t
t
[1, 5]
43.0992
77.6305
84.6646
[1, 10]
41.6958
72.9971
83.7434
[1, 15]
36.4992
60.6572
72.5356
[1, 20]
33.7150
69.4620
68.3327
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.4
Intervalo
Tabela B.5.
H0 : µ1 = µ2
H1 : µ1 > µ2
H0 : µ1 = µ3
H1 : µ1 > µ3
H0 : µ1 = µ4
H1 : µ1 > µ4
t
t
t
[1, 5]
36.0653
77.6305
37.6764
[1, 10]
36.4964
72.9971
38.6453
[1, 15]
33.9273
60.6572
35.9458
[1, 20]
30.7068
69.4620
32.8649
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.5
Intervalo
H0 : µ1 = µ2
H1 : µ1 > µ2
H0 : µ1 = µ3
H1 : µ1 > µ3
H0 : µ1 = µ4
H1 : µ1 > µ4
t
t
t
[1, 5]
12.5682
43.0419
52.1767
[1, 10]
11.4268
32.9000
50.9174
[1, 15]
10.8408
34.2941
52.2110
[1, 20]
8.3796
37.6774
61.7497
105
Tabela B.6.
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.6
Intervalo
Tabela B.7.
H0 : µ5 = µ6
H1 : µ5 > µ6
H0 : µ7 = µ8
H1 : µ7 > µ8
t
t
[1, 5]
40.5205
132.5391
[1, 10]
39.0566
126.8179
[1, 15]
33.3974
128.7813
[1, 20]
29.7676
132.4504
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.7
Intervalo
Tabela B.8.
H0 : µ5 = µ6
H1 : µ5 > µ6
H0 : µ7 = µ8
H1 : µ7 > µ8
t
t
[1, 5]
7.3881
28.1809
[1, 10]
4.9263
28.4916
[1, 15]
7.1129
30.9473
[1, 20]
6.8773
29.8835
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.8
Intervalo
Tabela B.9.
H0 : µ9 = µ10
H1 : µ9 > µ10
H0 : µ11 = µ12
H1 : µ11 > µ12
t
t
[1.5]
6.4573
4.4374
[1.10]
10.5074
3.5769
[1.15]
11.7207
4.3669
[1.20]
12.9059
4.5114
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.9
Intervalo
H0 : µ9 = µ10
H1 : µ9 > µ10
H0 : µ11 = µ12
H1 : µ11 > µ12
t
t
[1.5]
1.8260
7.2191
[1.10]
3.1464
8.6761
[1.15]
5.2043
7.0356
[1.20]
7.4887
9.3765
106
Tabela B.10.
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.10
Intervalo
Tabela B.11.
H0 : µ9 = µ10
H1 : µ9 > µ10
H0 : µ11 = µ12
H1 : µ11 > µ12
t
t
[1.5]
0.0000
7.6786
[1.10]
3.8152
7.1940
[1.15]
2.8138
6.9329
[1.20]
8.8758
7.2273
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.11
Intervalo
Tabela B.12.
H0 : µ13 = µ14
H1 : µ13 > µ14
H0 : µ13 = µ15
H1 : µ13 > µ15
t
t
[1, 5]
−7.8887
17.4801
[1, 10]
−9.6252
14.3837
[1, 15]
−13.4511
7.9599
[1, 20]
−14.2087
−7.9745
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.12
Intervalo
Tabela B.13.
H0 : µ13 = µ14
H1 : µ13 > µ14
H0 : µ13 = µ15
H1 : µ13 > µ15
t
t
[1.5]
8.4794
20.7344
[1.10]
7.7062
19.7264
[1.15]
6.6690
10.5715
[1.20]
2.9231
0.8057
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.13
Intervalo
H0 : µ13 = µ14
H1 : µ13 > µ14
H0 : µ13 = µ15
H1 : µ13 > µ15
t
t
[1, 5]
−28.4339
78.1449
[1, 10]
−23.7744
72.5297
[1, 15]
−26.3065
76.2682
[1, 20]
−22.5664
67.2970
107
Tabela B.14.
Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.14
Intervalo
H0 : µ13 = µ14
H1 : µ13 > µ14
H0 : µ13 = µ15
H1 : µ13 > µ15
t
t
[1.5]
20.8008
248.3378
[1.10]
18.4834
238.7483
[1.15]
12.0445
137.9158
[1.20]
6.4780
112.5686