CLUSTERIZAÇÃO DE GRUPOS CONTEMPORÂNEOS
COM TAMANHO REDUZIDO PARA AS AVALIAÇÕES
GENÉTICAS DE REBANHOS LEITEIROS
Márcio Aarestrup Arbex
Dissertação de Mestrado apresentada ao Programa de
Pós-Graduação em Engenharia Civil, COPPE, da
Universidade Federal do Rio de Janeiro, como parte dos
requisitos necessários à obtenção do título de Mestre em
Engenharia Civil.
Orientadores: Nelson Francisco Favilla Ebecken
Cláudio Napolis Costa
Rio de Janeiro
Fevereiro de 2010
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
CLUSTERIZAÇÃO DE GRUPOS CONTEMPORÂNEOS
COM TAMANHO REDUZIDO PARA AS AVALIAÇÕES
GENÉTICAS DE REBANHOS LEITEIROS
Márcio Aarestrup Arbex
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO
LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA
(COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE
DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE
EM CIÊNCIAS EM ENGENHARIA CIVIL.
Examinada por:
________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
________________________________________
Prof. Cláudio Napolis Costa, D.Sc.
________________________________________
Prof. Beatriz de Souza Leite Pires de Lima, D.Sc.
________________________________________
Prof. Valeria Menezes Bastos, D.Sc.
RIO DE JANEIRO, RJ – BRASIL
FEVEREIRO DE 2010
Arbex, Márcio Aarestrup
Clusterização
de
Grupos
Contemporâneos
com
Tamanho Reduzido para as Avaliações Genéticas de
Rebanhos Leiteiros/ Márcio Aarestrup Arbex – Rio de
Janeiro: UFRJ/ COPPE, 2010.
XV, 153 p.: il.; 29,7cm.
Orientador(es): Nelson Francisco Favilla Ebecken
Cláudio Napolis Costa
Dissertação (mestrado) - UFRJ/ COPPE/ Programa de
Engenharia Civil, 2010.
Referências Bibliográficas: p.125-134.
1. Análise de cluster. 2. Clusterização hierárquica. 3.
Bovinos leiteiros. 4. Grupos cotemporâneos. 5. Avaliação
genética. I. Ebecken, Nelson Francisco Favilla et al. II.
Universidade Federal do Rio de Janeiro, COPPE,
Programa de Engenharia Civil. III. Título.
iii
AGRADECIMENTOS
A realização deste trabalho não seria possível sem a colaboração e apoio de
todos aqueles a quem desde já agradeço. Um especial obrigado aos meus orientadores
Professor Nelson Francisco Favilla Ebecken e Professor Cláudio Napolis Costa, por
todo apoio e incentivo ao longo desta tese. Durante os últimos anos pacientemente
transmitiram e ensinaram-me a correta metodologia de trabalho, desde a simples
organização de tarefas, à solução de problemas.
A Mariana, não somente minha futura esposa, mas sempre minha amada. Ela
que foi a mais sacrificada pelas minhas freqüentes ausências e indisponibilidades. Pelo
apoio incondicional que me deu desde sempre, e nesta fase, inúmeras e incalculáveis
ajudas que constituiram para concretização desta tese.
Uma palavra de grande apreço ao Jaime, ao Ary e à Joana, pelo apoio na solução
dos problemas durante este período e pela boa disposição que em muito contribuiu para
a realização deste trabalho.
Ao Instituto Alberto Luiz Coimbra de Pós-graduação e Pesquisa de Engenharia,
particularmente ao Programa de Engenharia Civil, por ter criado as condições
necessárias à realização deste estudo.
Agradeço também à Associação Brasileira de Criadoras de Bovinos de Raça
Holandesa, pelo intermédio da Embrapa Gado de Leite, por ter cedido a base de dados
com os registros de controle leitero da raça holandesa.
Quero, por fim, agradecer à minha família, por todo o apoio e compreensão
demonstrados ao longo destes anos.
A todos, os meus mais sinceros agradecimentos.
iv
Resumo da Dissertação apresentada à COPPE/ UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)
CLUSTERIZAÇÃO DE GRUPOS CONTEMPORÂNEOS COM TAMANHO
REDUZIDO PARA AS AVALIAÇÕES GENÉTICAS DE REBANHOS LEITEIROS
Márcio Aarestrup Arbex
Fevereiro / 2010
Orientadores: Nelson Francisco Favilla Ebecken
Cláudio Napolis Costa
Programa: Engenharia Civil
As avaliações genéticas de bovinos leiteiros utilizam, na maioria, estruturas
definidas como grupos contemporâneos para comparação dos desempenhos entre
grupos através dos efeitos ‘rebanho-estação-controle’. Adaptando este efeito como fixo
pode-se minimizar a tendência ao erro nas avaliações genéticas, mas requer um número
mínimo de observações por grupo contemporâneo para, simultaneamente, maximizar o
efeito do número de observações e minimizar o erro residual e a variância do erro de
predição. Mais de dois milhões de registros foram disponibilizados pela Associação
Brasileira dos Criadores de Bovinos da Raça Holandesa distribuídos em 1816 rebanhos,
com base na produção de 104138 vacas ao parto entre 1985 a 2008, filhas de 4267
touros, para avaliar os efeitos da clusterização em grupos contemporâneos com
pequenos rebanhos baseados na similaridade de seus ambientes de produção. As
análises dos principais componentes foram utilizadas para sumarizar onze variáveis
descritivas em seis autovetores que explicaram 93,28% da variação total dos dados.
Quatro diferentes abordagens foram aplicadas para grupos de rebanhos tendo pelo
menos 3, 5, 10 ou 15 observações por grupo contemporâneo. Baseados no processo de
clusterização hierárquica, somente rebanhos sem o número requerido de observações
por grupo contemporâneo foram usadas no processo de clusterização. Os resultados
foram comparados com a quantidade de grupos contemporâneos antes da clusterização e
entre os outros conjuntos abordados.
v
Abstract of Dissertation presented to COPPE/ UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)
CLUSTERING SMALL-SIZED CONTEMPORARY GROUPS
TO DAIRY CATTLE GENETIC EVALUATIONS
Márcio Aarestrup Arbex
February / 2010
Advisors: Nelson Francisco Favilla Ebecken
Cláudio Napolis Costa
Department: Civil Engineer
Genetic evaluations of dairy cattle use structures defined as contemporary
groups for comparison of performance between groups through the 'herd-station-test
day’ effects. Fitting this effect as fixed may minimize prediction bias, but requires a
minimum number of observations per contemporary groups to simultaneously maximize
the effective number of observations and minimize the residual error and prediction
error variance. Most 2 million test-day records from the Associação Brasileira dos
Criadores de Bovinos da Raça Holandesa distributed in 1816 herds based on the
production of 104,138 cows calving from 1985 through 2008, daughters of 4267
sires, were used to evaluate the effect of clustering contemporary groups from small
herds based on the similarity of their production environments. Principal component
analysis was used to summarize eleven descriptive variables in six eigenvectors that
explained 93,28% of the total variation. Four different approaches were built having at
least 3, 5, 10, or 15 observations per contemporary group. Based on the process of
hierarchical clustering, only herds without the required number of observations
per contemporary groups were used in the clustering process. The results were
compared with the amount of contemporary groups before clustering and among the
other data sets.
vi
SUMÁRIO
Agradecimentos.................................................................................................... iv
Resumo.................................................................................................................
v
Abstract................................................................................................................
vi
Índice....................................................................................................................
vii
Índice de Figura...................................................................................................
x
Índice de Tabela................................................................................................... xiv
1 Introdução........................................................................................................
1
1.1 Motivação...................................................................................................
1
1.2 Metodologia...............................................................................................
2
1.3 Objetivos....................................................................................................
2
1.4 Organização da dissertação........................................................................
3
2 Principais Conceitos sobre Pecuária Leiteira...............................................
4
2.1 Panorama da Produção Leiteira no Brasil..................................................
4
2.2 Gestão Zootécnica......................................................................................
6
2.3 Programas Nacionais de Melhoramento Genético.....................................
8
2.3.1 Programa Nacional de Melhoramento do Gir Leiteiro........................
8
2.3.2 Programa Nacional de Melhoramento do Guzerá para Leite...............
9
2.3.3 Programa Nacional de Melhoramento do Girolando...........................
9
2.3.4 Programa Nacional de Melhoramento da Raça Holandesa..................
10
2.4 Avaliação Genética de Bovinos de Leite...................................................
11
2.4.1 Modelos de Avaliação Genética...........................................................
11
2.5 Grupos Contemporâneos............................................................................
12
2.5.1 Tamanho e Abrangência dos Grupos Contemporâneos.......................
14
2.5.2 Conexidade dos Dados.........................................................................
15
2.5.3 Formação de Clusters de Grupos Contemporâneos.............................
16
3 Armazenamento e Mineração de Dados........................................................
18
3.1 Data Warehouse.......................................................................................
18
3.2 Processo de Descoberta de Conhecimento em Bases de Dados................
19
3.3 Data Mining...............................................................................................
21
3.4 Aprendizado de Máquina...........................................................................
22
4 Clusterização....................................................................................................
24
4.1 Seleção de Atributos e Transformação dos Dados.....................................
27
4.1.1 Quantitativos em Escala Linear...........................................................
27
vii
4.1.2 Quantitativos em Escala Não – Linear.................................................
28
4.1.3 Binários................................................................................................
29
4.1.4 Nominais..............................................................................................
29
4.1.5 Ordinais................................................................................................
29
4.2 Medidas de Similaridade............................................................................
30
4.3 Métodos de Clusterização..........................................................................
34
4.3.1 Métodos Hierárquicos..........................................................................
36
4.3.1.1 Métodos Aglomerativos.................................................................
37
4.3.1.1.1 Métodos de Ward....................................................................
38
4.3.1.1.2 Métodos de Ligação Simples..................................................
39
4.3.1.1.3 Métodos de Ligação Completa................................................
40
4.3.1.1.4 Métodos de Ligação Média.....................................................
41
4.3.1.1.5 Métodos do Centróide dos Grupos Pares sem Ponderação.....
42
4.3.1.1.6 Métodos do Centróide dos Grupos Pares com Ponderação....
42
4.3.2 Métodos Particionais............................................................................
43
4.3.2.1 K- Means........................................................................................
44
5 Sistemas Utilizados..........................................................................................
49
5.1. SAS® ........................................................................................................
49
5.1.1. SAS® Enterprise GuideTM …………………………………………..
50
5.1.2. SAS® Enterprise MinerTM………….....………..................................
51
5.2 Base de Dados Íris......................................................................................
53
5.2.1 Importações e Estatísticas....................................................................
54
5.2.2 Clusterização........................................................................................
57
6 Bases de Dados da ABCBRH.......................................................................... 61
6.1 Descrição....................................................................................................
61
6.2 Importação dos Dados................................................................................
65
6.3 Seleção e Pré-Processamento dos Dados...................................................
65
6.3.1 Edição dos Atributos............................................................................
65
6.3.2 Edição dos Registros............................................................................
69
6.4 Análise Exploratória dos Dados.................................................................
72
6.4.1 Histogramas e Blox Pots......................................................................
78
6.4.2 Curvas de Produção Diária de Leite.....................................................
82
6.4.3 Médias por Rebanho............................................................................
86
6.4.4 Outras Estatísticas................................................................................
90
6.5 Redução dos Dados....................................................................................
91
viii
6.5.1 Análise das Correlações entre os atributos...........................................
93
6.5.2 Análise dos Componentes Principais...................................................
95
7 Clusters de Grupos Contemporâneos ...........................................................
99
7.1 Formação de Grupos Contemporâneos......................................................
99
7.2 Clusterização dos Grupos Contemporâneos...............................................
103
7.2.1 Desenvolvimento.................................................................................
103
7.2.2 GC com no Mínimo 3 Observações.....................................................
106
7.2.2.1 Clusterização..................................................................................
107
7.2.3 GC com no Mínimo 5 Observações.....................................................
110
7.2.3.1 Clusterização..................................................................................
112
7.2.4 GC com no Mínimo 10 Observações....................................................
114
7.2.4.1 Clusterização..................................................................................
116
7.2.5 GC com no Mínimo 15 Observações....................................................
118
7.2.5.1 Clusterização..................................................................................
120
8 Conclusões.......................................................................................................
123
Referências Bibliográficas................................................................................... 125
Anexo A ..............................................................................................................
135
Anexo B...............................................................................................................
139
Anexo C...............................................................................................................
153
ix
ÍNDICE DE FIGURA
Figura 2.1: Evolução anual da produção de leite e de vacas ordenhas no Brasil...
6
Figura 2.2: Comparativo entre a acurácia e erro-padrão ao tamanho do GC........
15
Figura 3.1: Implementação de um data warehouse................................................
19
Figura 3.2: Etapas do KDD....................................................................................
20
Figura 4.1: Clusterização de dados………………………………………………. 24
Figura 4.2: Etapas da clusterização………………………………………………
26
Figura 4.3: Matriz de dados……………………………………………………… 30
Figura 4.4: Matriz indivíduo por indivíduo............................................................ 31
Figura 4.5: Taxonomia para algoritmos de clusterização....................................... 35
Figura 4.6: Dendrograma obtido por clusterização hierárquica.............................
36
Figura 4.7: Ilustração do método de ligação simples.............................................
39
Figura 4.8: Ilustração do método de ligação completa........................................... 40
Figura 4.9: Ilustração da média dos grupos-pares sem ponderação.......................
41
Figura 4.10: Método do centróide dos grupos-pares sem ponderação...................
42
Figura 4.11: Escolha randômica dos primeiros centróides no K-Means................
44
Figura 4.12: Agrupamento com os centróides iniciais...........................................
45
Figura 4.13: Cálculo dos novos centróides............................................................. 45
Figura 4.14: Agrupamento com os novos centróides............................................
46
Figura 4.15: Objetos agrupados sem ocorrência de alterações dos centróides....... 46
Figura 4.16: Visão geral do algoritmo K-Means....................................................
47
®
50
TM
Figura 5.1: Exemplo de projeto no SAS Enterprise Guide
..............................
®
Figura 5.2: Fluxograma SEMMA aplicado pelo SAS Enterprise Miner
®
Figura 5.3: Layout de um workflow no SAS Enterprise Miner
®
Figura 5.4: Janela default do SAS Enterprise Miner
TM
TM
TM
..........
52
.…….….........
52
........................................ 53
Figura 5.5: Nós para importação da base de dados Íris.......................................... 54
Figura 5.6: Configuração do nó Summary Statistics..............................................
55
Figura 5.7: Estatísticas básicas da base de dados Íris............................................. 55
Figura 5.8: Histograma e box-plot da largura da sépala......................................... 56
Figura 5.9: Scatter plot entre o comprimento da sépala e da pétala....................... 56
Figura 5.10: Fluxograma dos nós Summary Statistics e Scatter plot…………….
56
Figura 5.11: Dendrograma – método Ward……………………………………… 57
Figura 5.12: Autovalores da matriz de covariância – método Ward...................... 58
Figura 5.13: Sumário dos clusters – método K-Means..........................................
x
58
Figura 5.14: Comprimento da sépala, comprimento da pétala e os clusters.........
58
Figura 5.15: Diagrama final do exemplo no SAS®................................................
60
Figura 6.1: Exemplo do fluxo dos dados para formação do warehouse................
61
Figura 6.2: Projeto para análise exploratória dos dados......................................... 73
Figura 6.3: Histograma de freqüência da variável ANASC...................................
79
Figura 6.4: Box-plot da produção de leite por ano de nascimento.........................
79
Figura 6.5: Histograma de freqüência da variável APART...................................
79
Figura 6.6: Box-plot da produção de leite por ano do parto...................................
79
Figura 6.7: Histograma de freqüência da variável ACONT...................................
80
Figura 6.8: Box-plot da produção de leite por ano do controle leiteiro.................
80
Figura 6.9: Histograma de percentagem da variável OP........................................ 80
Figura 6.10: Histograma de percentagem da variável TDAY................................
81
Figura 6.11: Box-plot da produção de leite por test-day........................................
81
Figura 6.12: Histograma da freqüência da variável PL.......................................... 81
Figura 6.13: Média da produção diária do leite por test-day.................................. 82
Figura 6.14: Média da produção diária de leite por dias em lactação....................
82
Figura 6.15: Média da produção de leite pela ordem de parto...............................
83
Figura 6.16: Média da produção de leite, idade ao parto (dias), ano de parto.......
84
Figura 6.17: Histograma da estação mensal do controle leiteiro............................ 84
Figura 6.18: Média da produção diária de leite por estação mensal do controle...
84
Figura 6.19: Histograma da estação mensal do parto............................................. 85
Figura 6.20: Média da produção diária de leite por estação mensal do parto........
85
Figura 6.21: Histograma do percentual de proteína na produção diária de leite.... 86
Figura 6.22: Histograma do percentual de gordura na produção diária de leite..... 86
Figura 6.23: Média da produção diária de leite por percentual de proteína...........
86
Figura 6.24: Média da produção diária de leite por percentual de gordura............ 86
Figura 6.25: Participações de rebanhos por ano de parto....................................... 88
Figura 6.26: Quantidade de rebanhos por ordem de parto.....................................
88
Figura 6.27: Quantidade de rebanhos por test-day................................................. 88
Figura 6.28: Participações de rebanhos por idade ao parto....................................
89
Figura 6.29: Participações de rebanhos por dias em lactação................................
89
Figura 6.30: Participações de rebanhos por estado................................................
90
Figura 6.31: Média da produção diária de leite por estado....................................
91
Figura 6.32: Gráfico em pizza da variável GS1.....................................................
91
Figura 6.33: Média da produção diária de leite por grau de sangue....................... 91
xi
Figura 6.34: Projeto para amostragem e redução dos dados..................................
92
Figura 6.35: Scatter plot do ano de controle com ano de nascimento.................... 95
Figura 6.36: Scatter plot do ano de controle com ano de parto.............................. 95
Figura 6.37: Scatter plot da idade ao parto com a estação de nascimento.............
95
Figura 6.38: Scatter plot dos dias em lactação com ano de nascimento................
95
Figura 6.39: Gráfico de Pareto componentes em relação aos autovalores.............
97
Figura 6.40: Projeção entre a primeira e segunda componente.............................. 97
Figura 7.1: Quantidade de animais nos GC por ano de controle............................ 101
Figura 7.2: Observações por GC…………………………………………………
102
Figura 7.3: Quantidade de GC por ano de controle................................................ 102
Figura 7.4: Registros em A1, A2, A3 e A4, respectivamente, por estação............
102
Figura 7.5: Projeto para clusterização dos GC.......................................................
104
Figura 7.6: Distribuição das observações………………………………………... 107
Figura 7.7: Média da produção diária por ano do controle....................................
107
Figura 7.8: Histograma das classes dos dias em lactação......................................
107
Figura 7.9: Histograma das classes das idades ao parto......................................... 107
Figura 7.10: Médias da produção de leite por controle (ano) após clusterização..
108
Figura 7.11: Histograma das classes dos dias em lactação após clusterização......
109
Figura 7.12: Histograma das classes das idades ao parto após clusterização........
109
Figura 7.13: Pseudo F Statistic em B1................................................................... 110
Figura 7.14: Pseudo T-Squared Statistic em B1……………………………...….
110
Figura 7.15: Cubic Clustering Criterion em B1…………………………………. 110
Figura 7.16: Dendrograma da clusterização em B1...............................................
110
Figura 7.17: Distribuição das observações………………………………………. 111
Figura 7.18: Média da produção diária por ano do controle..................................
111
Figura 7.19: Histograma das classes dos dias em lactação....................................
112
Figura 7.20: Histograma das classes das idades ao parto....................................... 112
Figura 7.21: Médias da produção de leite por controle (ano) após clusterização..
113
Figura 7.22: Histograma das classes dos dias em lactação após clusterização......
113
Figura 7.23: Histograma das classes das idades ao parto após clusterização......... 113
Figura 7.24: Pseudo F Statistic em B2................................................................... 114
Figura 7.25: Pseudo T-Squared Statistic em B2……………………………...….
114
Figura 7.26: Cubic Clustering Criterion em B2…………………………………. 114
Figura 7.27: Dendrograma da clusterização em B2...............................................
114
Figura 7.28: Distribuição das observações………………………………………. 115
xii
Figura 7.29: Média da produção diária por ano do controle..................................
115
Figura 7.30: Histograma das classes dos dias em lactação....................................
116
Figura 7.31: Histograma das classes das idades ao parto....................................... 116
Figura 7.32: Médias da produção de leite por controle (ano) após clusterização..
117
Figura 7.33: Histograma das classes dos dias em lactação após clusterização......
117
Figura 7.34: Histograma das classes das idades ao parto após clusterização........
117
Figura 7.35: Pseudo F Statistic em B3................................................................... 118
Figura 7.36: Pseudo T-Squared Statistic em B3…………………………...…….
118
Figura 7.37: Cubic Clustering Criterion em B3…………………………….…… 118
Figura 7.38: Dendrograma da clusterização em B3...............................................
118
Figura 7.39: Distribuição das observações………………………………………. 119
Figura 7.40: Média da produção diária por ano do controle..................................
119
Figura 7.41: Histograma das classes dos dias em lactação....................................
120
Figura 7.42: Histograma das classes das idades ao parto....................................... 120
Figura 7.43: Médias da produção de leite por controle (ano) após clusterização..
121
Figura 7.44: Histograma das classes dos dias em lactação após clusterização......
121
Figura 7.45: Histograma das classes das idades ao parto após clusterização......... 121
Figura 7.46: Pseudo F Statistic em B4................................................................... 122
Figura 7.47: Pseudo T-Squared Statistic em B4……………………………...….
122
Figura 7.48: Cubic Clustering Criterion em B4…………………………………. 122
Figura 7.49: Dendrograma da clusterização em B4...............................................
xiii
122
ÍNDICE DE TABELA
Tabela 2.1: Produção anual de leite por região no Brasil......................................
5
Tabela 4.1: Medidas de similaridade…………………………………………….
32
Tabela 4.2: Tabela de contingência........................................................................ 33
Tabela 5.1: Relacionamento SEMMA e SAS® Enterprise MinerTM........................ 51
Tabela 6.1: Atributos da base de dados disponibilizada pela ABCBRH...............
63
Tabela 6.2: Definição dos dados importados no Oracle® 10g..............................
64
Tabela 6.3: Domínios do atributo unidade da federação.......................................
67
Tabela 6.4: Domínio do atributo grau de sangue...................................................
68
Tabela 6.5: Freqüência da variável ANASC..........................................................
73
Tabela 6.6: Freqüência da variável OP..................................................................
74
Tabela 6.7: Freqüência da variável APART..........................................................
75
Tabela 6.8: Freqüência da variável ACONT.........................................................
75
Tabela 6.9: Freqüência da variável GS1................................................................
76
Tabela 6.10: Médias, mínimos e máximos de DIM, TDAY, PL, G, P e IP...........
77
Tabela 6.11: Freqüência da variável GS1..............................................................
77
Tabela 6.12: Freqüência de idade ao parto maior que 3420 dias...........................
78
Tabela 6.13: Quantidade de rebanhos com até dez animais..................................
87
Tabela 6.14: Matriz baseada no coeficiente de correlação de Pearson.................
94
Tabela 6.15: Matriz de correlação dos autovalores................................................ 96
Tabela 6.16: Matriz dos autovetores……………………………………………..
98
Tabela 7.1: GC por ano e estação de controle........................................................ 100
Tabela 7.2: Número de registros e médias da PL, DIM, OP e IP por GC.............
106
Tabela 7.3: Médias e desvios após clusterização...................................................
108
Tabela 7.4: Número de registros e médias da PL, DIM, OP e IP por GC.............
111
Tabela 7.5: Médias e desvios após clusterização...................................................
112
Tabela 7.6: Número de registros e médias da PL, DIM, OP e IP por GC.............
115
Tabela 7.7: Médias e desvios após clusterização...................................................
116
Tabela 7.8: Número de registros e médias da PL, DIM, OP e IP por GC.............
119
Tabela 7.9: Médias e desvios após clusterização...................................................
120
xiv
LISTA DE ANEXO
ANEXO A........................................................................................................
Domínimo dos Atributos...................................................................................
ANEXO B........................................................................................................
135
135
139
Instruções PL/SQL............................................................................................. 139
B.1 Atualizações................................................................................................
139
B.2 Exclusões....................................................................................................
145
B.3 Cálculos....................................................................................................... 149
B.4 Alterações.................................................................................................... 149
ANEXO C........................................................................................................
153
Artigo Publicado................................................................................................ 153
xv
Capítulo 1
Introdução
1.1. Motivação
Durante os últimos anos, verificou-se um crescimento substancial na utilização
dos rebanhos de bovinos leiteiros incorporados aos programas de avaliação genética
existentes no Brasil. Contudo, para incrementar a precisão dos processos seletivos, os
critérios de seleção devem ser adequadamente ajustados para diversos efeitos
ambientais aos quais os animais são submetidos. Tendo como base grupos de animais
considerando suas semelhanças, geralmente controlados num mesmo ano e época, os
quais são manejados de forma similar dentro de um determinado rebanho, faz-se a
principal forma para comparar seus desempenhos. Tais grupos são chamados de grupos
de animais contemporâneos (GC) e são de fundamental importância, pois formam as
bases dentro das quais estas comparações são realizadas.
Para avaliar e efetuar os desempenhos dos animais de forma eficiente, os GC
devem constituir um número considerável de indivíduos em um mesmo conjunto, serem
conectados geneticamente, e ao mesmo tempo, terem seus desempenhos influenciados
pelas mesmas condições ambientais (clima, alimentação, sanidade, manejo, etc.).
Existe, no entanto, uma grande controvérsia na definição ideal do número de
indivíduos necessários por GC. Há casos em que a sua definição abrange um longo
período de tempo, ocasionando um número elevado de animais contemporâneos em
cada classe e aumentando o rigor de predição da avaliação genética. No entanto,
considerar animais tratados em diferentes ambientes e diferentes condições de manejo
pode contradizer a avaliação genética dos mesmos.
Portanto, a correta identificação dos GC com mínimo número ideal de
indivíduos constitui uma etapa de suma importância para o processo de avaliação
genética de animais pois, quando mal definidos, podem levar a erros graves na
1
avaliação, na qual parte da variabilidade genética pode ser perdida para os efeitos
ambientais, ou já estar predita pelos mesmos.
1.2. Metodologia
Neste estudo foi utilizada uma metodologia para análise de dados de rebanhos
leiteiros, que é conceitualmente diferente das técnicas usualmente aplicadas. Ao invés
de tentar detectar áreas na qual a ocorrência de determinado evento seja
significantemente mais pronunciada, a técnica abordada neste estudo tem o objetivo
agrupar os dados de desempenho dos animais até que tais grupos atingem o numero
mínimo de observações, cada qual com características similares.
A base de dados dos rebanhos leiteiros analisado foi cedida pela Associação
Brasileira dos Criadores de Bovinos da Raça Holandesa (ABCBRH) correspondente aos
dados: (i) dos controles leiteiros realizados entre 1992 a 2007; (ii) das genealogias de
animais nascidos entre 1990 a 2006.
O método adotado para a definição dos agrupamentos foi da mínima variância
simulados em 4 conjuntos de dados (com no máximo 3, 5, 10 e 15 observações por GC),
onde tais GC foram ordenados de acordo com as distâncias fornecidas, nos quais o
processo somente foi finalizado quando todos os GC atingissem o número mínimo
exigido para cada base de dados.
1.3. Objetivos
O objetivo deste estudo foi propor uma metodologia de clusterização hierárquica
como possível solução para o problema do número insuficiente de observações por
grupo contemporâneo de tamanho reduzido para as avaliações genéticas de bovinos
leiteiros.
Para testar e validar a metodologia e os métodos computacionais projetados e
implementados, foi disponibilizada uma base de dados fornecida pela ABCBRH.
São objetivos específicos:
a) Aplicar um método de clusterização hierárquica que consiga atingir um
número mínimo de registros por grupo.
2
b) Especificar quais métodos de análise exploratória podem ser aplicados aos
dados de bovinos leiteiros e como estas aplicações devem ser conduzidas;
c) Fornecer bases de dados com GC agrupados com o objetivo de analisar as
conseqüências da eliminação de pequenos rebanhos na avaliação genética de
bovinos leiteiros no Brasil.
1.4. Organização da Dissertação
O Capítulo 1 faz uma breve introdução ao problema, apresenta os objetivos e
expõe as contribuições deste estudo.
O Capítulo 2 faz uma revisão bibliográfica sobre os principais conceitos de
bovinos leiteiros. Neste capítulo são abordados um panorama da produção leiteira e a
gestão zootécnica no Brasil. São destacados os programas nacionais de melhoramento
genético para as principais raças de bovinos leiteiros e o modelo de avaliação genética.
Também são explicadas as similaridades dos animais dentro de um determinado
rebanho explicitando a formação de clusters de GC e a abrangência destes grupos.
O Capítulo 3 faz uma breve revisão sobre a descoberta de conhecimento em
bases de dados com ênfase em data mining e data warehouse. Também foram
abordados os conceitos sobre aprendizado de máquina, que formaram a base para este
estudo.
O Capítulo 4 faz uma breve revisão de literatura sobre as etapas no processo de
clusterização e os métodos mais usuais, abordando suas vantagens e desvantagens. O
Capítulo 5 descreve os programas utilizados no desenvolvimento desta tese.
A base de dados aplicada foi abordada nos dois próximos capítulos. No capítulo
6 aplica-se a seleção e pré-processamento dos dados fazendo análises exploratórias para
obter conhecimentos importantes sobre os dados. No Capítulo 7 usam-se as técnicas,
métodos e sistemas apresentados ou propostos nos capítulos anteriores, descrevendo as
contribuições deste estudo para GC com tamanho reduzido. As discussões e conclusões
finais são apresentadas no Capítulo 8.
3
Capítulo 2
Principais Conceitos Sobre Pecuária Leiteira
2.1. Panorama da Produção Leiteira no Brasil
Nos últimos cinco anos a produção mundial de leite dos principais países
produtores, passou de 401 para 435 milhões de toneladas ao ano. Dados do
Departamento de Agricultura dos Estados Unidos (2009) estimam um aumento da
produção mundial de leite em 2009 de 1.15% frente a 2008. Os países que compõem a
União Européia são os maiores produtores de leite do mundo. Não obstante tal fato, sua
produção oscila ao redor de 130 milhões de toneladas desde 2004 (OCDE, 2009). Os
Estados Unidos, segundo maior produtor, expandiram a produção para 86.1 milhões de
toneladas, ou 19.7% da produção mundial em 2008. Porém, destaca-se a elevação da
produção na China e na Índia. Esse último país, quase duplicou a produção entre 2004 a
2008, elevando sua produção para 44.1 milhões de toneladas. Já a China elevou a
produção doméstica de cerca de 22.6 milhões de toneladas em 2004 para quase 37
milhões em 2008 (FAO, 2009). A análise das áreas produtivas da America Latina, que
representava 10.5% do volume de produção em 2004, passou a 11.4% em 2008. Em
termos de volume total, saiu de 42.441 mil toneladas em 2004 para uma produção de
49.804 mil toneladas em 2008 (USDA, 2009).
A produção de leite de bovinos no Brasil, entre 2004 a 2008, cresceu em média,
5% ao ano, sendo em 2008 aproximadamente 27.5 bilhões de litros de leite/ano. O
Brasil é hoje o sexto maior produtor de leite do mundo e desde 2004 reverteu sua
posição na balança comercial do setor, passando de importador a exportador. Além da
melhoria da produtividade e do maior profissionalismo e especialização do setor, as
reduções dos subsídios às exportações praticados pelos países desenvolvidos
contribuem para a inserção do Brasil no mercado internacional. Houve, paralelamente,
uma reestruturação interna do setor, possibilitando não só um processo de substituição
de importações como, também, o aumento das vendas externas. Assim, a perspectiva de
4
exportação de derivados de leite e até de leite fluido é grande e tem sido tema de
discussões constantes no setor (COSTA, 2005). Mesmo com crescimento, o aumento da
produtividade, a melhoria da qualidade e a gestão da atividade se apresentam como
desafios para se alcançar sustentabilidade e competitividade no agronegócio do leite em
geral e no seu segmento produtivo em particular (OCDE, 2007).
No cenário interno, o Brasil apresentou um aumento de 2% na produtividade
média do rebanho em 2008 com relação ao ano anterior, totalizando 1.277
litros/vaca/ano (figura 2.1). Além de representar um número baixo diante de padrões
mundiais, existem diferenças discrepantes entre as produtividades regionais. A região
Sul, por exemplo, com média de 2.265 litros/vaca/ano em 2008, enquanto outras regiões
do país, como a região Norte, têm média de 600 litros/vaca/ano. É importante ressaltar
que tais regiões apresentaram maiores percentuais de crescimento em 2008. Estados
como Santa Catariana, com a maior produtividade nacional (2.362 litros/vaca/ano em
2008) apresentou aumento de 6.5%, enquanto que o Amapá, como 756 litros/vaca/ano
no mesmo ano, 25.2% (IBGE, 2009).
Quanto aos principais estados produtores de leite, Minas Gerais mantêm, desde
os últimos anos, com a maior produção nacional. Em 2008 teve um aumento superior a
5.3% com relação a 2007, totalizando 7.7 bilhões de litros/ano. O Rio Grande do Sul
permanece como o segundo maior produtor com 3.3 bilhões de litros – aumento de
12.6% sobre 2007. Logo em seguida, em 2008, Goiás produziu 2.87 bilhões de litros,
com uma alta expressiva de 8.9% sobre 2007. Destaca-se neste período o estado de São
Paulo que, apesar de ser o sexto maior estado produtor, recuou pelo terceiro ano
consecutivo a produção de leite, totalizando 1.58 bilhões de litros em 2008 – recuo de
2.93% (Tabela 2.1).
Região/Ano
2006
2007
2008
Norte
1.699.468
1.676.568
1.665.097
Nordeste
3.198.039
3.335.287
3.459.205
Centro-Oeste
3.721.881
3.808.478
4.055.144
Sudeste
9.740.310
9.803.336
10.131.577
Sul
7.038.521
7.510.245
8.268.360
Tabela 2.1: Produção anual de leite por região (mil litros)
no Brasil – 2006 a 2009. Fonte: IBGE (2009).
5
Evolução anual da produção de leite e
de vacas ordenhadas - Brasil - 2006 a 2008
30000000
27.579.383
28000000
26000000
26.133.914
25.398.219
24000000
22000000
21.599.910
20.942.812
21.122.273
20000000
2006
2007
2008
Ano
Vacas ordenhadas (cabeça)
Produção (mil litros)
Figura 2.1: Evolução anual da produção de leite e de vacas
ordenhas no Brasil. Fonte: IBGE (2009).
Alterar os índices de produtividade e melhorar a qualidade do leite são fatores
essenciais para o Brasil se manter competitivo no mercado lácteo. Algumas pesquisas
evidenciam o aumento de consumo de lácteos. No relatório “Exportações, Importações
Mundiais e Inserção Brasileira 2008/2009”, o Ministério da Agricultura, Pecuária e
Abastecimento (MAPA) aponta uma correlação direta e positiva entre o aumento de
consumo de lácteos e o crescimento da renda da população. Mas existem muitos
empecilhos para o Brasil se tornar uma grande potência exportadora de produtos
lácteos, visando o aumento da competitividade no cenário internacional. Antevendo esta
tendência e evitando produzir danos a imagem do país, há necessidade de diversas
melhorias no processo de produção e conseqüentemente, na criação de mecanismos e
ferramentas para evidenciar que o processo produtivo atenda aos requisitos exigidos
pelos mercados compradores.
2.2. Gestão Zootécnica
O manejo do rebanho tem um papel fundamental na eficiência técnicoeconômica dos sistemas de produção. A organização dos registros de desempenho dos
animais de um rebanho é uma tarefa imprescindível para a tomada de decisão das ações
6
de manejo, facilitando sobremaneira a análise dos fatores de produção e o alcance de
maior eficiência técnico-econômica, mediante melhores índices de produtividade. Na
pecuária leiteira, a obtenção e organização dos registros de desempenho são viabilizadas
por meio dos serviços de registro genealógico e de controle leiteiro (EMBRAPA, 2008).
O controle leiteiro oficial realizado no Brasil tem predomínio da periodicidade
mensal, com intervalo máximo de 45 dias entre controles, sob supervisão de um
controlador vinculado a uma associação de criadores credenciada pelo Ministério da
Agricultura, Pecuária e Abastecimento (MAPA), conforme procedimentos normativos
estabelecidos pela Portaria Nº 45 de Outubro de 1986.
CARDOSO et al. (2005) ressaltaram que o controle leiteiro oficial não é
totalmente praticado pois, de acordo com os produtores, este fato está atribuído ao alto
valor para sua realização. Outro entrave para é o desconhecimento do processo na
maioria das propriedades. Em alguns casos, esse fato pode ser atribuído a uma
deficiência na criação, ou seja, à falta de anotações rotineiras dos dados relacionados
com os animais da criação. Em outros casos, o problema está no processamento e
análise dos dados anotados, visto que algumas propriedades possuem muitos dados,
porém não conseguem transformá-los em informação ou em índices zootécnicos. As
estimativas é que menos de 5% dos rebanhos especializados realizam o controle leiteiro
oficial.
Se os registros de desempenho são indispensáveis para a orientação precisa na
tomada de decisão do criador no manejo do rebanho, a realização do controle leiteiro é
um dos pilares de um programa de melhoramento genético, em particular, na execução
do teste de progênie de touros das raças de bovinos leiteiros. A estimativa do valor
genético e o real potencial de produção de uma vaca somente pode ser medido através
do controle leiteiro. Neste sentido, todos os registros relacionados ao controle leiteiro
são de suma importância para os programas de melhoramento genético de rebanhos
(COSTA, 2006).
A realização de um programa de melhoramento genético demanda um
acompanhamento nas atividades de controle leiteiro e avaliação genética, especialmente
quanto ao processo de identificação e disseminação de reprodutores, capazes de gerar
populações com maior potencial genético – componente essencial para melhoria da
eficiência do processo produtivo, baseado na melhoria do desempenho animal para as
características incluídas nos programas de seleção.
7
2.3. Programas Nacionais de Melhoramento
Genético
Atualmente, no Brasil, são executados quatro programas de melhoramento
genético para as raças de bovinos leiteiros: Gir leiteiro, Guzerá, Girolando e Holandesa,
por meio da seleção para características de importância econômica (EMBRAPA, 2009).
2.3.1. Programa Nacional de Melhoramento do Gir Leiteiro
Este programa é executado pela Embrapa Gado de Leite em parceria com a
Associação Brasileira dos Criadores de Gir Leiteiro e a Associação Brasileira dos
Criadores de Zebu. Envolve a participação de diversos órgãos públicos e privados, tais
como as centrais de processamento de sêmen, Conselho Nacional de Desenvolvimento
Científico e Tecnológico (CNPq), Fundação de Amparo à Pesquisa do Estado de Minas
Gerais (FAPEMIG), Ministério da Ciência e Tecnologia (MCT), empresas estaduais de
pesquisa, criadores de gado Gir puro e fazendas colaboradoras. Teve início em 1985
com principal objetivo identificar e selecionar touros geneticamente superiores para as
características de produção (leite, gordura, proteína e sólidos totais), conformação
(altura da garupa, perímetro torácico, comprimento corporal, comprimento da garupa,
largura entre ísquios e entre íleos, ângulo da garupa, ângulo dos cascos, posição das
pernas vista lateralmente, posição das pernas vista por trás, ligamento de úbere anterior,
largura de úbere posterior, profundidade do úbere, comprimento e diâmetro de tetas) e
manejo (facilidade de ordenha e temperamento), em promoção ao melhoramento
genético da raça Gir.
O modelo estatístico aplicado na avaliação genética dos animais em 2009,
incluiu os efeitos fixos de rebanho-ano de parto, época de parto, composição genética da
filha do touro e a idade da vaca ao parto. No último trabalho (VERNEQUE, 2009),
foram utilizados:
•
325 touros, distribuídos em 23 grupos;
•
7197 progênies de 186 touros;
•
8851 companheiras de rebanho;
•
16048 primeiras lactações.
8
2.3.2. Programa Nacional de Melhoramento do Guzerá para
Leite
Em 1994 a Embrapa Gado de Leite e o Centro Brasileiro de Melhoramento do
Guzerá, com o apoio da Associação Brasileira dos Criadores de Zebu, assumiram juntos
a coordenação do Programa Nacional de Melhoramento do Guzerá para leite. O objetivo
principal do programa é promover o melhoramento genético da raça Guzerá por meio da
identificação e seleção de touros geneticamente superiores para as características de
produção, de conformação e de manejo. O primeiro resultado foi disponibilizado em
2000 com avaliação de 5 touros da primeira bateria. Desde sua criação, foram testados
300 touros dos quais 32 pelo teste de progênie, 237 pelo Núcleo Múltipla Ovulação e
Transferência de Embriões (MOET) e 34 oriundos do Arquivo Zootécnico Nacional de
Gado de Leite. O último resultado do Teste de Progênie ocorreu em maio de 2009 e
contou com 62 rebanhos participantes (75% puros e 25% mestiços), totalizando 6868
lactações e 4638 vacas múltiplas. O modelo estatístico usado na avaliação genética dos
animais envolvidos na análise incluiu os efeitos fixos de rebanho-ano de parto, época de
parto, grau de sangue da filha do touro e a idade da vaca ao parto. Como fatores
aleatórios, foram considerados, além do erro, o efeito de animal (vaca, pai e mãe) e o
efeito de meio permanente (PEIXOTO, 2008).
2.3.3. Programa Nacional de Melhoramento do Girolando
Este programa, iniciado em 1997 com a colaboração técnica da Embrapa Gado
de Leite, é estruturado com base no controle leiteiro e no uso da inseminação artificial.
Desde sua criação já foram testados 32 reprodutores integrantes dos cinco primeiros
grupos. Outros 41 reprodutores cujas doses de sêmen foram distribuídas no período de
2005 a 2009, são integrantes de cinco grupos que se encontram em fase de teste. O
primeiro resultado dos touros avaliados ocorreu em 2005 e, atualmente, existem doses
ainda em testes, das quais foram distribuídas no período de 2003 a 2007, de 37
reprodutores. O ano de 2009 foram disponibilizados pela primeira vez os resultados dos
touros do quinto grupo. No último Sumário de Touros, disponibilizado em 2009
(FREITAS et al., 2009), foram utilizados 61.906 registros zootécnicos com informações
9
de controle leiteiro e genealogia, disponibilizados pela Associação Brasileira dos
Criadores de Girolando, oriundos dos criadores que têm rebanhos supervisionados pelo
Serviço de Controle Leiteiro da raça. Foi analisado o desempenho produtivo ao primeiro
parto das 6.703 vacas Girolando controladas em 176 rebanhos colaboradores do teste de
progênie, no período de 2000 a 2008. Na avaliação genética para a produção de leite foi
utilizado o modelo que incluiu os efeitos fixos de rebanho-ano, época e idade da vaca ao
parto como co-variável, com o componente linear e quadrático. Recentemente, foram
incorporadas novas tecnologias ao Programa de Melhoramento Genético da Raça
Girolando, com a publicação dos genótipos de marcadores moleculares, aumentando
ainda mais o interesse pela raça e a difusão do Programa (FREITAS et al., 2009).
2.3.4. Programa Nacional de Melhoramento da Raça
Holandesa
No Brasil, a Associação Brasileira de Criadores de Bovinos da Raça Holandesa
(ABCBRH) junto com suas filiadas estaduais, por meio de seus Serviços de Controle
Leiteiro, de Classificação Linear e Registro Genealógico, registram oficialmente o
desempenho produtivo e as características de conformação para a promoção da raça e
auxílio aos criadores nas decisões sobre práticas de manejo, alimentação e seleção nos
rebanhos.
O Programa Nacional de Melhoramento da Raça Holandesa é mais recente, com
início em 2004 e ainda não foram publicados resultados do teste de progênie de touros
analisados no Brasil. Anualmente é publicado os Sumários de Touros com a relação de
touros utilizados em acasalamentos planejados com vacas da mesma raça.
No último Sumário Nacional de Touros da Raça Holandesa (2009) foram
disponibilizados 892 mil registros zootécnicos (controle leiteiro e genealogia) editados
para idade ao parto, ano de nascimento, ano de parto, composição racial, causas de
encerramento da lactação, tamanho do rebanho e grupo contemporâneo de rebanho-ano
de parto. Para as características de tipo, baseadas no sistema de classificação linear
foram disponibilizadas 195.5 mil registros de classificação editados para ordem de
parto, ano de classificação, ano de parto e uma pontuação final. Foram avaliadas 63.205
vacas, filhas de 1684 touros, em 1277 rebanhos supervisionados. O modelo aplicado nas
análises das produções de leite, gordura e proteína, incluíram os efeitos fixos de
10
rebanho-ano, época e idade da vaca ao parto como co-variável, com o componente
linear. Outros efeitos fixos incluídos foram o de tipo de registro ou origem da vaca. O
modelo de avaliação incluiu também os efeitos aleatórios da interação touro x rebanho,
com o objetivo de ajustar as diferenças relacionadas a eventuais tratamentos ou
condições preferenciais existentes em alguns rebanhos, genético de animal e erro
experimental (COSTA et al., 2009).
2.4. Avaliação Genética de Bovinos Leiteiros
A avaliação genética é um processo integrante de um programa de seleção e tem
como finalidade estimar o mérito genético dos animais, identificar os melhores e, assim,
determinar as decisões de acasalamento. A precisão das avaliações genéticas e os
acertos das decisões de acasalamento são, entre outros fatores, determinantes das taxas
de progresso genético que indicam a eficácia e importância dos programas de seleção
(COSTA, 2006).
No Brasil, são desenvolvidas as avaliações genéticas de touros das raças
Holandesa, Girolando, Gir e Guzerá. Tais publicações descrevem a definição da base de
dados utilizada, a metodologia de avaliação empregada, os valores genéticos de cada
característica, expressos pela Capacidade Predita de Transmissão (ou PTA, Predicted
Transmiting Ability), que equivale à metade do valor genético do animal, a
confiabilidade da sua predição, com os respectivos números de filhas e de rebanhos que
participaram com registros de desempenho nas avaliações genéticas (COSTA, 2009).
2.4.1. Modelos de Avaliação Genética
Na avaliação genética das características de importância econômica são usados
modelos matemáticos que pretendem representar as interações entre o genótipo e o
ambiente em que são criados os animais. Os modelos que melhor refletem esta interação
revelam menores componentes residuais ambientais, maximizando as diferenças
genéticas entre os animais. Uma avaliação mais rigorosa do mérito genético dos
candidatos à seleção impulsiona um maior avanço no progresso genético entre gerações.
Os modelos também permitem uma definição mais precisa dos GC, ou seja, de animais
sujeitos a efeitos ambientais semelhantes (CARVALHEIRA et al., 2002). Os modelos
11
mais clássicos utilizam a produção acumulada aos 305 dias de lactação. Porém, foram
demonstradas vantagens na utilização do valor diário da produção no dia do controle
leiteiro, em detrimento da produção acumulado até 305 dias (CARVALHEIRA et al.,
2002).
Os modelos baseados nos controles leiteiros utilizam como base a informação
dos controles cuja estrutura de co-variância varia com os dias-em-lactação (DEL). Os
vários modelos de controle distinguem na forma como modelam a curva de lactação e
nas estruturas de covariância assumidas para os efeitos genéticos e ambientais. Um
modelo de regressão aleatória assume a existência de variâncias e co-variâncias
funcionais relativamente aos DEL. Nestes modelos todas as co-variâncias variam com
DEL e a sua forma é especificada pela função utilizada na regressão aleatória
(MISZTAL et al., 2000).
Enquanto os modelos clássicos são relativamente simples e com poucos
parâmetros, os modelos baseados no controle leiteiro são mais complexos e com maior
número de parâmetros. Além da elevada demanda computacional, a possibilidade dos
modelos de controle particionarem os efeitos ambientais sistemáticos em períodos
temporais de curta duração (por exemplo, um mês), o que se reflete em menores
variâncias residuais, podem representar um problema no caso de existência de rebanhos
pequenos na base de dados.
Em suma, os modelos aplicados nas avaliações genéticas têm como objetivo
extrair a informação expressa como valor genético dos registros de desempenho e de
pedigree. A acurácia na estimativa dos valores genéticos dos animais está relacionada a
quantidade de registros a serem analisados (por exemplo, uma base de dados de controle
leiteiro) e são determinantes nas taxas de progresso genético que indicam a eficácia dos
programas de seleção (COSTA, 2009).
2.5. Grupos Contemporâneos
As comparações de desempenho dos animais são feitas com base em grupos de
animais, geralmente, nascidos numa mesma época ou mesmo ano, os quais são
manejados de forma similar dentro de um determinado rebanho. Sendo assim, são
chamados de grupos de animais contemporâneos e são de suma importância, pois criam
as estruturas de comparação dos desempenhos entre grupos de bovinos, nos modelos de
12
avaliação genética (COBUCI, 2006).
GC devem ser interligados geneticamente e, ao mesmo tempo, caracterizar o real
agrupamento de vacas que tiveram seus desempenhos influenciados por condições
ambientais iguais (clima, alimentação, sanidade, manejo e outros). Estes fatores, na
grande maioria das vezes, sempre presentes nos conjuntos de dados, formam algumas
das grandes dificuldades na predição dos valores genéticos, que se aproximem ao
máximo do verdadeiro mérito genético dos animais. Assim, uma perfeita identificação
dos grupos de animais contemporâneos, constitui um passo essencial para minimizar
efeitos desses fatores na avaliação genética (FERRAZ & ELER, 1998).
Esses autores ressaltam a importância para a criação de GC, destacando como
principal objetivo a eliminação dos efeitos de manejo e/ou ambiente diferencial sobre o
desempenho dos animais. A importância de agrupar os animais em GC é distinguir as
diferenças devido à chance que tiveram de expressar seus fenótipos; oportunidade esta
que envolve alimentação e nutrição, aspectos sanitários, manejo, tipo de pastagem,
variáveis climáticas e topográficas, etc. Ou seja, os animais estarão agrupados quanto à
oportunidade.
VAN VLECK (1987) destacou alguns dos principais fatores determinantes para
criação de GC:
1. Formar subgrupos selecionados por número de lactações ou grupos de
lactações, combinando as diversas lactações, até que todas estejam inseridas
em um grupo rebanho-ano-estação qualquer – a implicação é que o efeito
quantitativo de manejo num mesmo período de tempo é de mesma magnitude
para todas as vacas;
2. Dividir em grupos de animais registrados e sem registros. Caso isso não seja
realizado, rebanhos com ambos os tipos de registros podem resultar em
grupos de animais de forma adversa;
3. Selecionar vacas com filhas de touros não analisados e previamente testados –
a implicação seria considerar criação de touros com diferentes preços como
sendo grupos distintos;
4. Distinguir grupos de manejo ou de vacas que são ordenhadas juntas em um
mesmo rebanho;
5. Subgrupos formados por vacas que são tratadas com hormônios de
crescimento, separadamente de outras vacas que não recebem aplicações dos
mesmos produtos, dentro da mesma classe de rebanho-ano-estação de parto;
13
6. Subgrupos de várias combinações entre os itens 1 e 5.
A correta identificação dos grupos de animais contemporâneos constitui uma
etapa de fundamental importância para o processo de avaliação genética de animais,
porque se mal definidos, podem trazer erros graves na avaliação, no qual parte da
variabilidade genética pode ser perdida para os efeitos ambientais, ou estar inflada pelos
mesmos (SHIMBO et al., 2000).
FERRAZ & ELER (1998) ressaltam que para qualquer análise válida e efetuada
de forma eficiente, torna-se fundamental que os GC sejam constituídos de forma a
permitir um número razoável de indivíduos em um mesmo grupo.
2.5.1. Tamanho e Abrangência dos Grupos Contemporâneos
Um aspecto de importância na formação dos GC é possibilitar a maior inserção
possível de animais (maior tamanho) e considerar as condições de ambientes mais
homogêneas possíveis (em menor abrangência de tempo). Em princípio, quanto maior o
tamanho do grupo, maior será a acurácia das predições dos valores genéticos dos
animais (OLIVEIRA, 1995).
A acurácia mede o quanto da estimativa obtida está relacionado com o
verdadeiro valor do parâmetro. Esta nos informa o quanto do valor estimado é “bom”,
ou seja, o quanto este valor está próximo do “valor real” e dá uma medida de
confiabilidade deste valor. WOOD et al. (1991) ressaltaram, que a acurácia é,
primariamente, uma função da herdabilidade e do número de animais apresentado na
análise. A acurácia do valor genético predito para um reprodutor, no entanto, não
depende somente destes fatores, mas principalmente também do número de filhos e de
parentes com registros fenotípicos que esse reprodutor tem na base de dados utilizada na
análise. Uma relação entre acurácia e tamanho do grupo contemporâneo está ilustrada
na figura 2.2 (COBUCI, 2006). Observa-se que com o aumento da quantidade de
animais por grupo contemporâneo há um aumento da acurácia e redução do erro-padrão
da predição do valor genético.
Na definição de grupo contemporâneo assume importância as situações reais da
quantidade dos dados a serem “eliminados” devido ao fato de alguns animais ficarem
“isolados” em determinados grupos de pequeno tamanho (KENNEDY, 1993).
14
Figura 2.2: Comparativo entre acurácia e erro-padrão
ao tamanho do GC. Fonte: COBUCI (2006).
Diversos estudos comprovam que os resultados das avaliações genéticas podem
ser melhoradas aumentando o tamanho do grupo contemporâneo, e isto não é uma tarefa
difícil quando se abrange maior período de tempo como critério de formação dos
grupos. Por mais que aumente a conexidade dos dados utilizando longos períodos,
ocorre uma menor probabilidade em que os animais estejam submetidos às mesmas
condições de manejo e de ambiente.
2.5.2. Conexidade dos Dados
Um fator importante na estrutura de dados é a conexidade que se dá pelas
ligações genéticas entre as populações de diferentes rebanhos ou regiões, estruturadas
nas relações de parentesco entre os animais criados em diferentes ambientes
(CARNEIRO et al., 2001). O grande problema das análises de dados desconectados, é
que as funções de efeitos fixos (como idade) não são estimáveis e a predição de efeitos
aleatórios (valor genético) é de baixa acurácia (COBUCI, 2006).
A medida de conexidade pode ser feita pelo laço genético direto, ou seja, existe
um laço genético direto entre um GC e outro, quando existe um touro (ou vaca), com
vários filhos em diferentes GC ou com pelo menos uma progênie controlada em cada
um deles. Outro fator determinante para a acurácia da avaliação do animal é a
15
quantidade de filhos que este animal tem (TROVO, 1995). Porém, mais importante que
o número de filhos, é o número efetivo de filhos do animal na análise. O número efetivo
caracteriza o número e a distribuição das progênies de um touro em diferentes rebanhos.
O número efetivo de progênie de um touro em um GC é proporcionalmente
igual ao número de filhos daquele touro no grupo, em relação número de filhos de
outros touros no mesmo grupo e o total do número de filhos do GC. Portanto, o número
efetivo total de filhos de um touro, é a soma do número efeito de filhos do referido touro
em cada um dos GC. Quanto maior o número efetivo de progênie, maior a precisão da
avaliação genética.
2.5.3. Formação de Clusters de Grupos Contemporâneos
A formação de clusters de GC é uma das possíveis soluções para o problema do
número insuficiente de observações para a modelagem deste efeito nas avaliações
genéticas. Há uma grande controvérsia na definição ideal para a formação dos GC. Se a
sua definição abrange um longo período de tempo, o número de animais
contemporâneos em cada classe é elevado, aumentando o rigor de predição da
avaliação. Porém, considerar animais sujeitos a diferentes ambientes e diferentes
condições de manejo como pertencendo ao mesmo GC irá comprometer a avaliação
genética dos mesmos (CARABAÑO et al., 2004).
No início da década de noventa, foi proposto por SCHMITZ et al. (1991), a
formação de grupos de animais com datas de parto próximas, na mesma estação e na
própria lactação com o objetivo de obter no mínimo quinze observações por classe de
efeitos ambientais. Agruparam os animais tendo como base a distância entre controles,
variando o intervalo de tempo entre um mês e o limite máximo de um ano.
STRABEL & SZWACZKOWSKI (1999), sugeriram a formação de grupos
associando classes de rebanho-ano-mês (RAM) consecutivas dentro do mesmo rebanho
ou em rebanhos semelhantes. As classes de RAM, classificadas pela produção média do
rebanho e a data do controle foram agrupadas considerando-se três parâmetros:
distância máxima em dias, diferença máxima da média de produção e, para evitar a
junção de dois grandes GC, pelo menos um dos grupos teria menos de cinco análises.
CARABAÑO et al. (2004), formaram clusters agrupando GC dentro da mesma
lactação, definindo um mínimo de cinco observações por classe de RAM.
16
CARVALHEIRA (2000) defende um sistema de formação de grupos que possibilita
conservar as doze classes mensais de GC por ano em cada rebanho, mantendo as
associações temporais entre os efeitos fixos e as observações. Assumindo que a maior
fonte de heterogeneidade de variância está associada ao desempenho fenotípico das
explorações, o mesmo autor formou clusters de rebanhos com base na semelhança
simultânea entre médias e desvios padrão fenotípicos da produção de leite na primeira
lactação, utilizando o método das variâncias mínimas.
É importante ressaltar que existem diversas formas para agrupamento dos GC. O
principal objetivo é encontrar similaridades entre eles oferecendo oportunidades em
expressar seus fenótipos, envolvendo alimentação, aspectos sanitários, manejo, tipo de
pastagem, variáveis climáticas e topográficas, etc. (FERRAZ & ELER, 1998).
17
Capítulo 3
Armazenamento e Mineração de Dados
3.1. Data Warehouse
Com a globalização e a alta competitividade, a informação tornou-se um dos
bens mais valiosos para uma organização. Ter acesso à informação precisa, de maneira
rápida e eficiente, é um dos grandes diferenciais que podem levar ao sucesso. Neste
aspecto, a tecnologia da informação tem evoluído a fim de proporcionar aos tomadores
de decisão uma infra-estrutura essencial, aliadas às metodologias de organização,
processamento e utilização da informação (HAND, 2001).
Organizações são constituídas de vários processos e mudanças em seu ambiente
em função das demandas do mercado. Ter o controle desses processos é uma tarefa
difícil, pela vasta coleção de dados e a grande necessidade de métodos eficazes para
organizá-los, visando uma análise bem fundamentada e planejada. O uso da tecnologia
da informação iniciou-se nos anos 60 e cada vez mais é essencial para a sobrevivência
de empresas no mercado atual, pois disponibiliza meios para coleta, armazenamento e
tratamento dos dados vindos de todos os seus processos. Para dar o devido auxilio à
tomada de decisão, existem sistemas e ferramentas que, aliados a uma metodologia bem
definida, fornecem todo o apoio ao processo decisório (LAROSE, 2004).
Para JESUS et. al. (2004), a decisão estratégica deve ser um processo bem
definido e contínuo nas empresas. Métodos objetivos e bem estruturados devem fazer
parte do cotidiano nas empresas, que através da tecnologia da informação, podem não
só armazenar como, filtrar, traduzir e consolidar uma grande quantidade de dados para
obtenção de um produto final: a informação – necessária para que a tomada de decisão
deixe de ser subjetiva para tornar-se um processo sólido e fundamentado em
informações precisas.
Neste contexto, segundo INMON (1997), um data warehouse é uma coleção de
informações integradas, orientadas por assunto, variáveis com o tempo e não voláteis,
18
utilizados para dar suporte ao processo gerencial.
De acordo com THOMÉ (2002), o data warehouse é uma coleção de dados
derivados de ambientes operacionais heterogêneos, para dar suporte à tomada de
decisão, apresentando-os de forma analítica. Não é uma base de dados transacional. Os
acessos são somente para carga, através de aplicativos extratores, no processo chamado
de Extration, Transformation and Load , e consultas por parte da equipe que gerenciará
a informação (figura 3.1).
Figura 3.1: Implementação de um data warehouse.
Adaptado de THOMÉ (2002).
Os dados de um data warehouse proporcionam uma base para aplicações On
Line Analytical Processing, Decision Support Systems e ferramentas de mineração de
dados. Por seu alto custo de implementação, algumas organizações não adotam o data
warehouse e optam pelo uso do data mart, que é menos abrangente, armazenando dados
apenas de assuntos distintos. INMON (1997) caracteriza os data marts como
subconjuntos de dados armazenados fisicamente em mais de um local, geralmente
divididos por assunto (data marts “departamentais").
3.2. Processo de Descoberta de Conhecimento em
Bases de Dados
O processo da descoberta de conhecimento em bases de dados, ou Knowledge
Discovery in Databases (KDD), é o processo de busca e extração de conhecimento em
19
grandes volumes de dados. Ainda não há um consenso sobre o assunto e várias
nomenclaturas podem ser encontradas para este processo (HAN, 2001).
THOMÉ (2002) caracteriza a KDD como um processo não trivial, que busca
gerar conhecimento potencialmente útil para aumentar os ganhos, reduzir os custos ou
melhorar o desempenho dos negócios, através da procura e da identificação de padrões
em dados armazenados em bases muitas vezes dispersas e inexploradas.
Para ELMASRI, NAVATHE (2005), a KDD é composta de seis fases: seleção de
dados, limpeza, enriquecimento, transformação ou codificação, data mining e
construção dos relatórios de apresentação (figura 3.2).
Dados
Seleção
Limpeza
Enriquecimento
/ Transformação
Data Mining
Avaliação /
Representação
Conhecimento
Figura 3.2: Etapas do KDD. Adaptado de HAN (2001).
Na primeira fase, seleção de dados, os itens específicos em um banco de dados
são selecionados para o processo de descoberta do conhecimento. De acordo com
NAVEGA (2002), as bases de dados são dinâmicas, incompletas, redundantes, ruidosas
e esparsas, que necessitam de um pré-processamento para “limpá-las”. A fase de préprocessamento corrige as inconsistências encontradas para garantir a confiabilidade nos
dados que serão utilizados pela mineração.
A fase de enriquecimento, codificação ou transformação é o processo onde a
quantidade de dados é reduzida, agrupando valores em outras categorias sumarizadas,
adicionando novos dados agregando-os aos existentes. Na fase data mining, a busca por
conhecimento deve acontecer após todo o pré-processamento, que tratadas e
sumarizadas, estarão livres de ruídos e conterão somente os dados relevantes.
Para ser genérico, é preciso eliminar um pouco dos dados, para apenas conservar
20
a essência da informação. O processo de data mining localiza padrões através da
judiciosa aplicação de processos de generalização, que é conhecido como indução
(NAVEGA, 2002).
Para ELMASRI, NAVATHE (2005) os propósitos da data mining se enquadram,
de forma geral nas seguintes classes:
• Predição: projeções feitas para identificar o comportamento de certos
atributos no futuro;
• Identificação: padrões de dados que podem identificar a presença de um
item, um evento ou uma atividade;
• Classificação: particionamento dos dados, onde as classes ou categorias
podem ser identificadas através de combinações de parâmetros;
• Otimização: tarefas semelhantes às das técnicas de pesquisa operacional
para otimizar recursos limitados, maximizando variáveis de saída.
A mineração de dados deve ser realizada utilizando, dentre as técnicas
disponíveis, a que melhor se aplica ao tipo de informação a ser encontrada. ELMASRI,
NAVATHE (2005), identificam as seguintes tarefas que descrevem o conhecimento
descoberto durante a data mining: regras de associação, hierarquias de classificação,
padrões seqüenciais, padrões com séries temporais e agrupamento.
HARISSON (1998) apud DIAS (2005) afirmam que não existe uma técnica que
solucione todos os problemas de mineração de dados. Diferentes métodos servem para
diferentes propósitos, cada método oferece suas vantagens e suas desvantagens. A
familiaridade com as técnicas faz-se necessária para facilitar a escolha de uma delas de
acordo com os problemas apresentados.
3.3. Data Mining
A data mining, ou mineração de dados, é um processo dedicado a extração de
dados, mais elaborado e minucioso, baseado em padrões não evidentes em uma simples
pesquisa em um banco de dados. A mineração de dados aplica-se a grandes bases de
dados, e é mais eficaz se aliada ao data warehouse (ELMASRI, NAVATHE, 2005). Para
estes mesmos autores anteriormente citados, a mineração de dados pode ser utilizada em
conjunto com o data warehouse a fim de auxiliar certos tipos de decisão. Além disso,
21
pode ser aplicada a bancos de dados operacionais com transações individuais. Para fazer
a mineração de dados mais eficaz, o data warehouse deve ter uma coleção de dados
agregados ou sumarizados.
Com a enorme quantidade de dados presente em grandes instituições e empresas,
através da modernização dos recursos computacionais, recuperá-los de maneira
convencional, como por exemplo, através de consultas Structured Query Language
(SQL) pode não extrair todas as informações que uma base de dados pode proporcionar.
Somente recuperar informação não propicia todas as vantagens possíveis. O processo de
mineração de dados permite que se investigue esses dados em busca de padrões que
tenham valor (NAVEGA, 2002).
Mineração de dados é a concepção de modelos computacionais que possuem a
capacidade de identificar e revelar padrões desconhecidos, mas existentes entre dados
pertencentes a uma ou mais bases de dados distintas (THOMÉ, 2002).
AMO (2003) afirma que a mineração de dados é uma área de pesquisa
multidisciplinar, incluindo tecnologia de bancos de dados, aprendizado de máquina,
inteligência artificial, estatística, redes neurais, reconhecimento de padrões, sistemas
tendo como base o conhecimento, recuperação da informação, computação de alto
desempenho e visualização de dados.
De acordo com ELMARSRI, NAVATHE (2005), data mining refere-se à
mineração ou a descoberta de novas informações de acordo com padrões ou regras em
grandes quantidades de dados. O conhecimento adquirido é classificado em indutivo e
dedutivo. O conhecimento dedutivo deduz novas informações baseadas na aplicação de
regras lógicas pre-definidas de dedução sobre dados existentes. Já o conhecimento
indutivo descobre novas regras e padrões nos dados fornecidos.
3.4. Aprendizado de Máquina
A mineração de dados, através de suas técnicas, realiza o que é chamado de
aprendizado de máquina, descrito por MONARD et. al. (2003) como uma área da
inteligência artificial cuja finalidade é o desenvolvimento de técnicas computacionais
sobre o aprendizado, bem como a construção de sistemas capazes de adquirir
conhecimento de forma automática. Um sistema de aprendizado é um programa de
computador que toma decisões baseado em experiências acumuladas através da solução
22
bem sucedida de problemas anteriores. Os diversos sistemas de aprendizado de máquina
apresentam características particulares e comuns que possibilitam sua classificação
quanto à linguagem de descrição, modo, paradigma e forma de aprendizado utilizado.
Através da análise de um conjunto de dados pode-se projetar, classificar e
agrupar dados de forma a garimpar novos conhecimentos, e o aprendizado de máquina,
contexto ao qual a mineração de dados está inserida, realiza esta tarefa por indução
(MONARD, et. al., 2003).
Os mesmos autores anteriormente citados, definem indução como a forma de
inferência lógica que possibilita obter conclusões genéricas sobre um conjunto
particular de exemplos – além de ser caracterizada como o raciocínio que se origina em
um conceito específico e o generaliza, ou seja, da parte para o todo. Na indução, um
conceito é aprendido efetuando-se inferência indutiva sobre os exemplos apresentados.
Portanto, as hipóteses geradas através da inferência indutiva podem ou não preservar a
verdade. Mesmo assim, a inferência indutiva é um dos principais métodos usados para
derivar conhecimento novo e predizer eventos futuros.
De acordo com BRAGA (2003), o aprendizado de máquina pode ser dividido em
supervisionado e não supervisionado. Neste primeiro aprendizado são rotuladas as
classes a serem verificadas. É fornecido um banco de dados de amostra, no qual os
dados já estão classificados através de um atributo que representa a supervisão e, através
da observação dos outros atributos destes dados, pode-se definir sua relevância para a
classificação. Através disso, ao entrar um novo elemento, é possível classificá-lo de
acordo com estes atributos. Algoritmos para classificação como indução de árvores
decisórias e classificadores bayesianos realizam aprendizado supervisionado.
Diferentemente
do
aprendizado
supervisionado,
o
aprendizado
não
supervisionado aplica-se em situações onde não se conhecem as classes dos dados a
serem analisados, tendo como objetivo agrupá-los com elementos que possuem alguma
característica em comum, para então, dada a relevância desta característica, rotular os
dados com as classes encontradas. Analisando a similaridade entre determinados
atributos, podem-se determinar grupos e a qual deles um indivíduo pertence (BRAGA,
2003).
23
Capítulo 4
Clusterização
Clusterização ou agrupamento é o método de aprendizado não supervisionado no
qual os dados são agrupados em clusters de acordo com a similaridade de um
determinado atributo. ELMASRI, NAVATHE (2005) afirmam que o objetivo da
clusterização é classificar os registros em grupos, de tal forma que os registros de um
grupo sejam similares aos demais do mesmo grupo e distinto daqueles dos demais
grupos.
Figura 4.1: Clusterização de dados. Fonte: JAIN et al. (1999).
JAIN et al. (1999), definem a análise de clusters como um conjunto de
organizações, normalmente representado como um vetor de medições, ou um ponto
multidimensional, baseados na similaridade. Na figura 4.1, os elementos são agrupados
de acordo com as formas geométricas encontradas, representando a similaridade entre
os elementos do grupo.
AMO (2003) define a clusterização como um processo que agrupa um conjunto
de objetos físicos ou abstratos em classes de objetos similares. Um cluster é uma
coleção de objetos que são semelhantes uns aos outros, de acordo com algum critério de
24
similaridade pré-fixado, e dissimilares a objetos pertencentes a outros clusters. A análise
de agrupamento é uma tarefa de aprendizado não supervisionado, pois os clusters
representam classes que não estão definidas no início do processo de aprendizagem,
como é o caso das tarefas de classificação (aprendizado supervisionado), no qual o
banco de dados de treinamento é composto de tuplas classificadas. Clusterização
representa uma tarefa de aprendizado por observação ao contrário da tarefa de
classificação que é um aprendizado por exemplo.
CAVALCANTI JÚNIOR (2006) ressalta que, geralmente nestes tipos de
problema, existe pouca informação prévia sobre os dados. Modelos estatísticos
disponíveis e os tomadores de decisão devem realizar a menor quantidade possível de
conjecturas sobre os dados. Através destas condições, a análise de grupos é
particularmente útil para explorar inter-relações entre os dados proporcionando avaliar
ainda que preliminarmente sua estrutura.
MOSCATO et al. (2004), explicam que o papel da clusterização na análise dos
dados depende da disponibilidade de modelos apropriados para os fenômenos
responsáveis pela produção dos dados. A análise de dados pode ser classificada em
exploratória (formulação de hipóteses e tomada de decisão) ou confirmatória (validação
de modelos). A clusterização está normalmente relacionada a análise exploratória,
porque envolve problemas em que há pouca informação a priori acerca dos dados e
poucas hipóteses podem ser sustentadas. É justamente a clusterização que pode fornecer
novas hipóteses a respeito dos inter-relacionamentos dos dados e de sua estrutura
intrínseca.
As aplicações para a clusterização são várias, XU et al. (2005), YANG (1993) e
ASCENO (2003) exemplificam aplicações para aprendizado de máquina, segmentação
de imagens, reconhecimento de voz e análise exploratória. Para cada uma dessas,
existem diversas técnicas capazes de auxiliar na formação dos agrupamentos.
Segundo ZAIANE et al. (2003), deve-se analisar cuidadosamente o método de
clusterização adequado, conforme as seguintes características:
•
determinar
os
atributos
de
entrada
sem
necessitar
grandes
conhecimentos;
•
suportar dados com alta dimensionalidade;
•
definir soluções pertinentes quando ocorrer valores significantemente
fora do esperado;
25
•
inferir na quantidade de agrupamentos e no número de dimensões;
•
suportar diferentes tipos de dados;
•
dimensionar grupos em diferentes tamanhos e formas;
•
demonstrar resultados pertinentes sem necessitar ordenação dos dados de
entrada.
Conforme HALDIKI et al. (2001), os algoritmos de agrupamento, na maioria
das vezes, não acatam todos estes quesitos. Contudo, é de suma importância, conhecer
as características de cada um deles para melhor empregá-lo na solução de um
determinado problema.
As etapas no processo de clusterização podem ser representadas por: seleção de
atributos, medida de similaridade, agrupamento, validação dos clusters e interpretação
dos resultados (BERKHIN, 2002):
Figura 4.2: Etapas da clusterização. Adaptado de BERKHIN (2002).
Nota-se, na figura 4.2, que as etapas são retroalimentadas, pois é um processo
que pode demandar várias tentativas até a validação e extração do conhecimento.
É essencial que os dados a serem utilizados para o agrupamento tenham passado
pelo processo de pré-processamento, estando livres de inconsistências, sendo este
processo de clusterização parte da KDD (DONI, 2004).
26
4.1 Seleção de Atributos e Transformação dos
Dados
Na etapa de seleção dos atributos ocorre a escolha das variáveis mais
significativas que serão utilizadas no agrupamento para a distinção dos clusters. JAIN et
al. (1999) definem a seleção de atributos como um processo da identificação do mais
eficaz subconjunto de características para a utilização da clusterização, ou seja, a
escolha do atributo mais relevante para o uso no processo de clusterização. Já a extração
de atributos, o mesmo autor define como o uso de uma ou mais transformações em
atributos presentes na produção de novos atributos. Desta forma, os atributos para a
clusterização serão novos atributos obtidos através dos atributos existentes. Esta etapa é
equivalente às etapas de transformação e enriquecimento do processo de descoberta do
conhecimento. É importante que nesta etapa os dados ideais sejam escolhidos,
assegurando a qualidade visando à eficiência do processo. Como exemplo, erros
existentes em ferramentas utilizadas na coleta de dados, como falhas durante a entrada
causadas por ação humana ou erros computacionais, podem acarretar valores incorretos
e comprometer a precisão dos resultados. DONI (2004) define os fatores mais
relevantes para a correção dos dados, a destacar: tratamento dos atributos, dados
incorretos ou ausentes, normalização dos dados, dados duplicados ou corrompidos e
valores com ruídos.
Na análise de clusters, o tipo de dado a ser submetido ao agrupamento deve ser
analisado para auxiliar na definição do método a ser utilizado. Os tipos geralmente
encontrados, segundo KAUFFMAN et al. (1989) apud CAVALCANTI JÚNIOR (2006)
são: quantitativos (em escala linear e não linear) e categóricos (binários nominais e
ordinais).
4.1.1 Quantitativos em Escala Linear
Atributos quantitativos em escala linear são medições contínuas de uma escala e
podem influenciar na análise dos clusters (CAVALCANTI JÚNIOR, 2006). Para evitar
tais problemas, os dados podem ser normalizados, para que todos ganhem o mesmo
peso. Esta normalização pode ser feita ou não, dependendo do problema abordado.
Uma das maneiras para normalizar os dados é calcular o desvio absoluto médio
27
que, segundo CAVALCANTI JÚNIOR (2006), é mais robusto a anomalias que o desvio
padrão. Este desvio é calculado da seguinte forma:
Onde xp representa as n medições de um atributo p e mp é o valor médio de p,
isto é, mp é calculado como segue:
Logo após, é calculada a medida normalizada, ou score z para cada elemento:
Cabe ressaltar que a decisão por normalizar os dados deve ser feita dependendo
do problema abordado, pois em determinados casos, a mesma pode não ser necessária
(NOVAES, 2002).
4.1.2 Quantitativos em Escala Não Linear
Atributos em escala não linear são definidos por CAVALCANTI JÚNIOR
(2006) como medições expressas em escala não linear, como uma escala exponencial.
Estes atributos podem ser tratados de três formas:
•
como atributos em escala linear, o que não é considerado uma boa
escolha já que a escala pode estar distorcida;
•
aplicando transformações logarítmicas para que eles possam ser tratados
como atributos em escala linear através da fórmula Yif = log (xif) sendo o
valor xif para o indivíduo i, e yif o valor resultante em escala linear;
•
assumindo xif como ordinal e sua posição no ranking como atributo de
escala linear.
28
4.1.3 Binários
Um atributo binário assume apenas dois estados, 0 (falso) ou 1 (verdadeiro),
significando a ausência ou presença de uma determinada característica. Segundo
CAVALCANTI JÚNIOR (2006), tratar tais atributos como quantitativos pode levar a
resultados errôneos no processo de agrupamento.
4.1.4 Nominais
Um atributo nominal, segundo CAVALCANTI JÚNIOR (2006), é considerado
como uma generalização de um atributo binário, podendo assumir mais que dois
estados. Um exemplo é o atributo “cor” que pode assumir diversos valores como “azul”,
“amarelo”, “verde”, “laranja”, etc. Uma forma alternativa de tratá-los seria transformálos em atributos binários, criando um atributo binário para cada estado nominal que o
atributo possui, por exemplo, o atributo “cor” poderia ser dividido em vários atributos
binários correspondentes a cada cor que pode ser assumida.
4.1.5 Ordinais
Atributos ordinais são semelhantes aos atributos nominais, porém estão
ordenados em alguma escala. Enquanto a interpretação dos atributos nominais
independe de uma escala, os ordinais possuem esta ordem. Estes atributos são divididos
em discretos e contínuos. Nos discretos, têm-se uma ordem e uma escala, porém nos
contínuos, a ordem é conhecida, mas não têm uma escala.
CAVALCANTI JÚNIOR (2006) ressaltou que um atributo ordinal contínuo
parece um conjunto de valores contínuos numa escala desconhecida, isto é, a ordem
relativa é essencial, mas a magnitude não é. Atributos ordinais podem ser obtidos
através de atributos quantitativos, realizando uma discretização de seus valores em
faixas pré-determinadas.
29
4.2 Medidas de Similaridade
Esta etapa contempla a escolha do método de clusterização adequado para a
análise dos dados. CAVALCANTI JÚNIOR (2006) afirma que este passo é usualmente
combinado com a seleção de uma medida de proximidade e a definição de uma função
de critério. Padrões são agrupados de acordo com a semelhança mútua. Um algoritmo
de clusterização é definido, e este utiliza uma medida de distância entre os elementos
que afetará a distribuição dos clusters.
JAIN et al. (1999) ressaltam que devido à variedade de tipos de atributos e
escalas, a medida de distância precisa ser escolhida cuidadosamente.
O conceito de similaridade é fundamental na análise de grupos. A similaridade
entre objetos é uma medida da correspondência ou afinidade entre os objetos a serem
agrupados. Comumente assume valores entre o intervalo de 0 a 1, onde 0 identifica
nenhuma similaridade e 1 a máxima similaridade entre os objetos (KOERICH, 2005).
Dado uma métrica em um conjunto de dados Z através de uma função d: ZxZ →
ℜ, onde a, b e c ∈ Z, tem-se:
•
a distância entre a e b é maior que 0 para todo a diferente de b;
•
a distância entre a e b é igual a 0 tal que a é igual a b;
•
a distância entre a e b é igual a distância entre b e a;
•
a distância entre a e b é menor ou igual a distância entre a e c mais a
distância entre c e b;
•
a similaridade entre a e b deve estar entre 0 e 1;
•
a similaridade entre a e a será sempre 1;
•
a similaridade entre a e b é igual a similaridade entre b e a.
Segundo VIANNA (2004), os algoritmos de clusterização operam em algumas
das estruturas de dados a seguir:
•
Matriz de dados: matriz n x p, onde n é o total de indivíduos e p, o total
de atributos.
Figura 4.3: Matriz de dados.
30
•
Matriz estrutura de indivíduo por indivíduo: matriz que representa as
proximidades para todos os pares de n indivíduos. Uma medida de
similaridade s(i,j) é obtida por 1 – d(i,j).
Figura 4.4: Matriz indivíduo por indivíduo.
Nesta matriz, d(i, j) é a diferença, ou dissimilaridade entre dois indivíduos. Por
exemplo, se o elemento da linha 2 e coluna 1, ou d(2,1) recebe o valor 5, significa que
este valor é a distância calculada entre o elemento 2 e o elemento 1 dos dados
submetidos à clusterização. Em geral, quanto maior este número, maior a distância entre
os dois indivíduos. Os valores d(i,j) serão sempre iguais aos valores d(j,i), por
caracterizarem a distância entre os mesmos elementos, e nas células onde a linha for
igual à coluna, o valor sempre assume zero, por se tratar do mesmo elemento.
JAIN et al. (1999) afirmam que é mais comum calcular a dissimilaridade entre
dois elementos usando a medida de distância em sua área de atributos.
A avaliação das proximidades entre os objetos pode ser medida através das
similaridades ou dissimilaridades entre eles (KOERICH, 2005).
Para a primeira
medida, quanto maior o valor analisado, mais semelhante são os objetos; para a
segunda, quanto maior o valor analisado, menos semelhante são os objetos. Para cada
tipo de atributo (itens 4.1.1 a 4.1.5), são definidos diferentes coeficientes de
similaridade (SNEATH & SOKAL, 1973; BUSSAB et al., 1990; JOHNSON &
WICHERN, 1998).
Existem na literatura diversas medidas apropriadas para cada problema
específico. CORMACK (1971) cita várias possíveis: distância corda, distância de Nei,
distância absoluta ou City – Block Metric, distâncias euclidiana, euclidiana quadrada e
euclidiana padronizada, distância de Minkowski, distância de Chebychev e distância
Mahalanobis. As mais utilizadas, segundo NOVAES (2002) e WINIDAMS (2005), são
a distância Euclidiana, distância de Mahalanobi, distância de Manhattan e distância de
Minkowski, demonstradas na tabela 4.1 considerando os seguintes atributos:
31
•
X ic representa a característica do indivíduo i;
•
X jc representa a característica do individuo j;
•
p é o número de parcelas na amostra;
•
c é o número indivíduo na amostra.
MEDIDA
METODOLOGIA
Euclidiana
Euclidiana
Quadrática
Mahalanobis
Manhattan
Minkowski
Tabela 4.1: Medidas de similaridade
Para atributos quantitativos contínuos, a medida de similaridade mais utilizada é
a Distância Euclidiana (ALMEIDA, 2004). Considerada uma medida de distância entre
dois objetos através de posições relacionadas às suas coordenadas, identificadas a um
cluster de eixos cartesianos que possuem ângulos retos entre si (CLIFFORD &
STEPHENSON, 1975).
Nota-se, na tabela 4.1, que a Distância Euclidiana e a Distância Manhattan são
casos especiais da distância Minkowski. A Euclidiana fixa o valor de n igual a 2 e a
Manhattan fixa n igual a 1. Outras medidas de similaridade para atributos quantitativos
podem ser encontradas em JAIN et al. (1999). Particularmente a distância de Manhattan
32
também é chamada de ‘ciy-block’ pelo formato da superfície observada; é mais eficaz
quando utilizado em aplicações em real-time pela simplicidade de utilização (KUGLER,
2003).
Para atributos binários, o cálculo da medida de similaridade é feito a partir de
uma tabela de contingência (DUNN & EVERITT, 1980):
Indivíduo j
Indivíduo i
1
0
1
a
c
0
b
d
soma
a+c
b+d
soma
a+b
c+d
Tabela 4.2: Tabela de contingência
Onde a é o número de atributos que são iguais a 1 para os indivíduos i e j, b é o
número de atributos que são iguais a 1 para o indivíduo i, mas são iguais a 0 para o
indivíduo j, c é o número de atributos que são iguais a 0 para o indivíduo i e iguais a 1
para o indivíduo j, e d é o número de atributos que são iguais a 0 para os dois indivíduos
(CLIFFORD & STEPHENSON, 1975).
Segundo CAVALCANTI JÚNIOR (2006), atributos binários podem ser
simétricos ou assimétricos. Um atributo binário é simétrico quando os dois estados do
atributo possuem o mesmo peso, por exemplo, o atributo “sexo”. Neste caso, a medida
mais conhecida para calcular a dissimilaridade é o coeficiente de casamento simples
(simple matching coefficient):
Um atributo binário é assimétrico quando o peso para os dois estados são
diferentes. Nestes casos, deve-se codificar o resultado mais importante por 1 e o outro
por 0. Nestes casos, a ocorrência de dois atributos 1 é muito mais importante que a
ocorrência de dois atributos 0, que pode ser ignorado. A medida mais conhecida para
calcular a dissimilaridade neste caso, é o coeficiente de Jaccard (JACCARD, 1901):
33
Para atributos nominais, a dissimilaridade entre dois indivíduos pode ser
calculada utilizando a fórmula:
Onde m é o número de casamentos, ou seja, o número de atributos onde ambos
estão no mesmo estado, e p é o total de atributos.
Para atributos ordinais, podem-se aplicar as mesmas medidas de dissimilaridade
aplicadas a atributos quantitativos, desde que sejam tratados anteriormente da seguinte
forma (SNEATH & SOKAL, 1973):
•
Considerando f, um atributo ordinal com uma escala definida, mapeia-se
esta escala em uma escala numérica {1, ..., Mf };
•
Considera-se rif a posição do atributo no ranking;
•
Calcula-se o valor quantitativo correspondente (zif) por:
Na maioria dos casos, as bases de dados são compostas de elementos com
diferentes tipos de dados, cabendo a decisão de normalizá-los ou não e definir a melhor
medida similaridade a ser empregada.
4.3 Métodos de Clusterização
A classificação dos algoritmos de clusterização não é trivial, porém nas diversas
literaturas, a classificação mais utilizada é a separação dos métodos mais conhecidos em
particionais e hierárquicos (SNEATH & SOKAL, 1973).
MANLY (1994) destaca dois conceitos particulares:
1º - Através das medidas similaridades (ou dissimilaridades) entre os pares de
objetos, deve-se formar clusters por métodos aglomerativos ou divisivos,
34
produzindo dendrogramas;
2º - Maximizar e minimizar a participação de objetos dentro dos grupos,
calculando a participação destes em diferentes momentos da análise,
envolvendo métodos particionais.
Figura 4.5: Taxonomia para algoritmos de clusterização.
Na figura 4.5 encontra-se a divisão entre os métodos hierárquicos e os
particionais. Segundo JAIN et al. (1999), há outras taxonomias propostas para a
classificação dos métodos de clusterização, sendo esta apresentada a mais comum.
Métodos
adicionais
para
agrupamento
incluem
os
métodos
probabilísticos
(BRAILOVSKI, 1991) e baseados em grafos (ZAHN, 1971).
Uma questão importante quanto à escolha do método de clusterização é a opção
por um método hard (também chamado de crisp) ou fuzzy. Métodos hard associam um
elemento do conjunto de dados a um determinado cluster, indicando sua presença neste
grupo e dissimilaridade dos demais. Métodos fuzzy aplicam a lógica conhecida como
Lógica de Fuzzy, que segundo BEZDEK (1992), tem como objetivo trabalhar com a
incerteza inerente à natureza humana. Métodos fuzzy não associam um elemento a um
determinado cluster, mas determina seu grau de associação com todos os clusters
encontrados. CAVALCANTI JÚNIOR (2006) aborda com detalhes a clusterização com
algoritmos fuzzy.
35
Segundo KLEINBERG (2002), tem sido difícil desenvolver um framework
unificado para pensar a respeito de agrupamento em um nível técnico que abranja todas
as diversas abordagens de agrupamentos.
4.3.1 Métodos Hierárquicos
Algoritmos de clusterização hierárquica produzem séries de partições baseadas
em um critério de fusão ou cisão de clusters baseado em similaridade. Nestes métodos,
os dados são agrupados e rotulados de uma forma hierárquica, mostrando vários níveis
de similaridade (JAIN et al., 1999).
Dessa maneira, um agrupamento hierárquico agrupa os dados de modo que se
dois exemplos são agrupados em algum nível, nos níveis mais acima, eles continuam
fazendo parte do mesmo grupo construindo uma hierarquia de grupos. Essa técnica
permite analisar os grupos em diferentes níveis de granularidade (MONARD et al.,
2003).
Na figura 4.6, estes grupos são representados de forma hierárquica em uma
estrutura conhecida como dendrograma. Para tal deve-se determinar uma distância de
corte para definir quais serão os grupos formados. Essa decisão é subjetiva, e deve ser
feita de acordo com o objetivo da análise e o número de grupos desejados, não
requerendo uma definição a priori do número de grupos.
Figura 4.6: Dendrograma obtido por clusterização hierárquica.
36
Nota-se, por exemplo, que os elementos B e C pertencem a um mesmo grupo, e
juntos formam um grupo em nível superior com e elemento A. Analisando as duas
figuras, pode-se notar o nível de detalhes produzido pela representação hierárquica,
detalhando os diferentes níveis de proximidade dos elementos.
Esta forma de representação fornece descrições informativas e uma visualização
para as estruturas de grupos em potencial, especialmente quando há realmente relações
hierárquicas nos dados (CAVALCANTI JÚNIOR, 2006).
Os métodos hierárquicos são subdivididos em métodos aglomerativos e métodos
divisivos.
4.3.1.1 Métodos Aglomerativos
Nos métodos aglomerativos, consideram-se, cada objeto representando seu
próprio grupo, com alto grau de similaridade. A cada interação tenta-se encontrar
maiores similaridades entre os atributos dos objetos até o momento em que se forma
apenas um único grupo, com menor grau de similaridade (SILVA, 2005).
A primeira interação dos métodos aglomerativos é a criação da matriz de
similaridades conforme descrito no item 4.2. Segundo VIANA (2004), este momento é
crítico quanto maior o número de objetos. JAIN (1999) considera um conjunto de x
objetos uma complexidade de tempo na ordem de O(x2 log x) e a complexidade de
espaço da ordem de O(x2). Segundo YURAS (2004), este método também apresenta
outra desvantagem, pois o modelo de um grupo será mantido até o término do processo.
Calculada a matriz de similaridade, os processos abaixo são repetidos e
finalizados apenas quando todos os elementos estiverem em um único grupo
(MATTEUCCI, 2005):
1º - Calcular a matriz de similaridades, encontrando o menor valor na matriz
de similaridades;
2º - Formar um novo grupo a partir dos agrupamentos com maior grau de
similaridade.
Os critérios utilizados para definir as distâncias entre os grupos resultam em uma
abundância de métodos aglomerativos. A maioria deles são customizações e ajustes dos
métodos Ward, Linkage e Centróide (ANDERBERG, 1973).
37
4.3.1.1.1 Métodos de Ward
O método de Ward, também conhecido como Métodos de Soma de Erros
Quadráticos ou Variância, utiliza uma análise de variância para avaliar as distâncias
entre grupos (WARD, 1963). HAIR et al. (2005) descrevem como principal objetivo
agrupar hierarquicamente os objetos baseado na medida de similaridade entre eles,
calculada pela minimização da soma dos quadrados entre pares de agrupamentos
tendendo a resultar em grupos de tamanhos aproximadamente iguais, pois combinam-se
os dois agrupamentos que apresentarem menor aumento na soma global de quadrados
dentro dos agrupamentos. Considerando:
•
k o agrupamento em questão;
•
n o número total de objetos de k;
•
Xi é o i-ésimo objeto do agrupamento k.
A função de distância deste método é dada por:
Nota-se que este método busca partições que reduzem a perda, quantificada pela
diferença entre a soma dos erros quadráticos, atrelada a cada agrupamento.
VIANA (2004) caracteriza este método como:
•
Resultados satisfatórios para medidas euclidianas;
•
Dificuldade em associar grupos com muitos objetos;
•
Sensibilidade a ruídos;
•
Grupos com quantidade de elementos iguais podem afetar no resultado
satisfatório.
BAO (2004) e SIMON (2004) destacam os principais métodos de ligação que
medem a distância entre grupos em: ligação simples, ligação completa, ligação média,
centróide dos grupos pares sem ponderação e centróide dos grupos pares com
ponderação.
38
4.3.1.1.2 Métodos de Ligação Simples
Conhecido também como “single linkage” ou “ligação por vizinhos mais
próximos”. O objetivo deste método é utilizar a distância de valor mínimo dada por:
A saber, que i e j são respectivamente os padrões dos agrupamentos C1 e C2, e
d(i, j) é a distância entre os objetos i e j, para agrupar dois clusters em que dois objetos
estão mais próximos em relação à distância de ligamento, ou seja, a função objetivo é
unir grupos que estão mais próximos.
Este método apresenta vantagens e desvantagens destacadas por ANDERBERG
(1973):
•
consegue identificar grupos de forma elípticas e não-elípticas, facilitando
o bom uso de diversas métricas de distância;
•
grupos muitos próximos são dificilmente encontrados;
•
tendem a assumir dados com ruídos em clusters existentes;
•
dificuldade em definir o corte (classificação dos cluster) no dendrograma
devido ao encadeamento de grupos.
Agrupamentos formados pelos métodos de ligação simples podem ser obtidos
por meios aglomerativos quanto divisivos (SNEATH & SOKAL, 1973).
Figura 4.7: Ilustração do método de ligação simples.
39
4.3.1.1.3 Métodos de Ligação Completa
Neste método, também denominado “Complete Linkage” ou “ligação por
vizinhos mais longe”, as conexões entre objetos e grupos ou entre grupos são
determinadas pela maior ausência de similaridade entre objetos de grupos distintos.
Neste sentido, as distâncias entre os grupos são dadas pela maior distância entre dois
objetos quaisquer nos diferentes grupos.
Dado i e j como padrões dos agrupamentos C1 e C2, respectivamente, e d(i, j) a
distância entre os objetos i e j, tem-se que:
Geralmente este método tende a formar grupos compactos, discretos e
resistentes a incorporação de ruídos. Neste sentido, facilita a análise dos clusters, pois se
comparado com o “Método de Ligação Simples”, e apresentarem resultados parecidos,
os grupos estarão bem definidos, caso contrário deve-se aplicar outro método para
garantir a formação dos grupos (VIANNA, 2004).
Figura 4.8: Ilustração do método de ligação completa.
Os algoritmos para clusterização hierárquica mais conhecidos e utilizados são o
Single Linkage (SNEATH, SOKAL, 1973) e Complete Linkage (KING, 1967).
40
4.3.1.1.4 Métodos de Ligação Média
Segundo BUSSAB et al. (1990), neste método também denominado “Average
Linkage”, a similaridade entre os grupos é calculada pela distância média a partir de
cada objeto em um grupo e todos os outros elementos em outro grupo. A união entre
dois grupos, para a formação de um novo grupo, ocorrerá quando a distância média
mais baixa for encontrada, através de:
Onde N1 e N2 são respectivamente os números de objetos dos agrupamentos C1
e C2. i e j são respectivamente os padrões das classes C1 e C2.
Figura 4.9: Ilustração da média dos grupos-pares
sem ponderação (unweighted pairgroup average).
Dentre os métodos por “Single Linkage” e “Complete Linkage”, o método por
“Average Linkage” apresenta maior sensibilidade a ruídos e, como os demais,
apresentam bons resultados para diversas medidas de distâncias (KAUFMANN, 1990).
A aplicação básica deste método não pondera as distâncias calculadas, mas fazse necessário dependendo do tipo de média aplicada. A intenção dos métodos
ponderados é dar pesos iguais a todos os ramos do dendrograma, sendo que o número de
indivíduos que compõe cada ramo não é considerado (BUSSAB et al., 1990). SNEATH
& SOKAL (1973) comparam a utilização da ponderação baseado no método do
centróide.
41
4.3.1.1.5 Método do Centróide dos Grupos-pares sem
Ponderação
A partir deste método, também conhecido como “Unweighted Pair-Group
Centroid Method”, são calculados os centróides, ou seja, os pontos médios entre todos
os objetos de um determinado grupo dispersos em um espaço multi-dimensional. A
diferença entre dois grupos é calculada a partir da distância entre os centróides dada por
(SNEATH & SOKAL, 1973):
Onde NU e NV são respectivamente os números de elementos no grupo U e V e
dUW e dVW são as distâncias entre os elementos UW e VW, respectivamente.
KAUFFMAN (1990) recomenda a utilização da medida de Distância Euclidiana
e atenta para possíveis problemas quando a distância dos centróides for menor que a
distância entre os grupos já formados, confundido a interpretação do dendrograma –
fenômeno chamado reversão.
Figura 4.10: Método do centróide dos grupos-pares sem ponderação.
4.3.1.1.6 Método do Centróide dos Grupos-pares com
Ponderação
Este método, chamado de “Weighted Pair-Group Centroid Method” diferencia
42
do “Unweighted Pair-Group Centroid Method”, pois aplica uma ponderação sobre os
objetos pertencentes aos grupos. Pesos diferentes são atribuídos aos objetos dos grupos
devido à diferença do tamanho entre eles, ou seja, a quantidade de objetos por grupo
(SNEATH & SOKAL, 1973).
4.3.2 Métodos Particionais
Segundo JAIN et al. (1999), algoritmos de clusterização particional identificam
partições que otimizam um critério de agrupamento. Diferente dos métodos
hierárquicos, os métodos particionais focam no agrupamento dos elementos sem colocálos em uma estrutura hierárquica. A idéia central, na maioria dos métodos por
particionamento, é escolher uma partição inicial dos elementos e, em seguida, alterar os
membros dos grupos para obter a melhor partição (ANDERBERG, 1973). Segundo
JAIN et al. (1999), é vantajoso utilizar métodos particionais quando o conjunto de
dados a ser agrupado é muito grande, tornando a construção de dendrogramas
computacionalmente custosa.
Segundo JAIN et al. (1999), uma pesquisa combinatória para o conjunto de
possíveis opções para um valor ótimo de um critério é computacionalmente proibitiva.
Na prática, portanto, o algoritmo é normalmente executado várias vezes com diferentes
estados de partida e obtém a melhor configuração a partir de todas as execuções
utilizado-a como a saída da clusterização.
Os métodos particionais geralmente produzem grupos pela otimização de uma
função de critério, também chamada de função objetivo (JAIN et al., 1999). A função
mais utilizada neste método de clusterização é o critério do erro quadrado, que segundo
ELMASRI, NAVATHE (2005) geralmente é a condição de fim do algoritmo, dada por:
Onde:
c é um agrupamento;
k o número de clusters do agrupamento c;
X um conjunto de padrões;
43
o i-nésimo padrão pertencente ao j-ésimo cluster;
é o centróide do j-ésimo cluster.
4.3.2.1 K-Means
O K-Means é o mais conhecido, simples e freqüentemente utilizado algoritmo
baseado na função de erro quadrático. Este algoritmo necessita receber, como a maioria
dos algoritmos para aprendizado não supervisionado, o número de grupos que devem
ser encontrados, para então, através da minimização do critério de erro quadrático em
várias iterações, resultar no agrupamento dos elementos (JAIN et al., 1999). Segundo
AMO (2003), o método procura construir uma partição C contendo k grupos, para a qual
o erro quadrático é mínimo. Os elementos representativos de cada grupo são os seus
respectivos centros de gravidade.
Considerando k o número de clusters definidos para o agrupamento, o algoritmo
é realizado nos seguintes passos:
1º - Escolher randomicamente K objetos como centróides para o
agrupamento. A figuras 4.11 a 4.15 ilustram o processo que representa
um agrupamento com K igual a 3;
Figura 4.11: Escolha randômica dos primeiros centróides no K-Means.
2º - Para cada objeto, calcular a distância entre o mesmo e os centróides,
agrupando-o com o centróide mais próximo;
44
Figura 4.12: Agrupamento com os centróides iniciais.
3º - Após o primeiro agrupamento, para cada cluster, calcular a média
aritmética de seus objetos, sendo estes valores médios, os novos
centróides;
Figura 4.13: Cálculo dos novos centróides. Adaptado de ASCENO (2003).
4º - Calcular novamente a distância de cada elemento aos centróides,
agrupando-o com o centróide mais próximo;
45
Figura 4.14: Agrupamento com os novos centróides. Adaptado de ASCENO (2003).
5º - Após a realocação dos objetos, novos centróides devem ser recalculados
com base na média dos objetos de cada grupo;
6º - O processo deve repetir até que não haja mais mudanças, ou seja, quando
nenhum objeto for realocado, finalizando o processo e definindo cada
objeto a seu grupo.
Figura 4.15: Objetos agrupados sem ocorrência de alterações dos centróides.
A figura 4.16 ilustra o fluxograma do algoritmo:
46
Figura 4.16: Visão geral do algoritmo K-Means.
Algumas observações são feitas a respeito deste algoritmo, ilustrando suas
vantagens e desvantagens. Segundo AMO (2003), uma vantagem deste algoritmo é a
sua eficiência ao tratar grandes quantidades de dados. As principais características são o
fato de não localizar clusters não convexos e sua sensibilidade a ruídos, pois valores
fora do padrão podem causar grande alteração na distribuição dos grupos. Uma das
desvantagens deste algoritmo é a necessidade de fornecer o valor de K antes da
execução do algoritmo. Muita das vezes, este valor é arbitrário, ou seja, sem o
conhecimento prévio da quantidade ótima de grupos.
Versões alternativas do K-Means são propostas para eliminar tais desvantagens.
CAVALCANTI JÚNIOR (2006) e JAIN et al. (1999) apresentam o algoritmo ISODATA
como uma versão do K-Means capaz de estimar o número K insensível a ruídos,
considerando o efeito das anomalias e eliminando grupos formados por indivíduos fora
do padrão. A aplicação de índices relativos ao K-Means, para a validação do número de
grupos, é uma alternativa para a escolha correta deste parâmetro. Nestes índices, o
47
parâmetro de entrada pode ser definido como o número máximo de grupos, resultando
após a execução dos mesmos, no número ideal de grupos indicado por um valor mínimo
ou máximo, dependendo do índice utilizado que pode ser classificado em índice de
minimização ou de maximização. Dois ou mais índices podem ser aplicados para
comparação dos resultados e uma posterior aplicação com mais fundamento.
A forma mais comum de utilização dos critérios relativos é na determinação do
número mais adequado de grupos. Neste caso, o algoritmo de agrupamento é executado
para todos os possíveis números de grupos K, entre um número mínimo e máximo de
grupos fornecidos. Em seguida, os valores do índice obtidos a partir dessas execuções
são apresentados como função de K. O melhor número de grupos é dado pelo mínimo,
máximo ou inflexão na curva observada (FACELI et al., 2005).
CAVALCANTI JÚNIOR (2006) afirma que dado um conjunto de dados, todo
algoritmo de clusterização pode gerar uma partição, não importando se existe uma
estrutura ou não que justifique isso. Não basta apenas aplicar um método de
clusterização em um conjunto de dados, pois os grupos devem ser validados para que o
agrupamento obtido represente uma informação de valor. Diferentes algoritmos de
clusterização apresentam resultados semelhantes, portanto, a escolha do método mais
apropriado está diretamente ligada a uma validação mais rápida.
A interpretação dos resultados de um algoritmo de clusterização ainda é uma
tarefa subjetiva que pode ser complexa, devendo ser realizada por quem conhece o
contexto no qual os dados pertencem. MONARD et al. (2003) apresentam uma
alternativa proposta por MARTINS (2003) que sugere, após a clusterização, criar um
novo atributo no conjunto de dados representando o grupo a que cada registro pertence.
Após submeter tais dados a um método de aprendizagem supervisionada com o novo
atributo sendo o atributo classe, criando uma descrição simbólica para os grupos
gerados, facilita a interpretação dos resultados.
48
Capítulo 5
Sistemas Utilizados
5.1. SAS®
O SAS® (Statistical Analysis System) é um sistema comercial voltado para o
cálculo matemático, integrando diversas análises e permitindo a resolução de muitos
problemas numéricos rapidamente se comparado ao desenvolvimento de programas em
diversas linguagens de programação. Possui diversas bibliotecas de comandos de alto
nível para integrar aplicações e analisar dados. Suporta praticamente qualquer formato
de dado, em qualquer base através de um módulo específico chamado SAS/ACCESS to.
Suas aplicações também se estendem a processamento de grandes massas de dados e
construção de gráficos. Possui uma linguagem de programação própria, chamada de
SAS, dinâmica e de fácil compreensão para quem já possui familiaridade com
algoritmos (SAS Institute, 2008).
A base do SAS®, chamada SAS System, contém diversos componentes que
fornecem suporte estatístico, a destacar:
•
Enterprise MinerTM: fornece soluções para os problemas de análise e
comportamento dos dados, baseado nas técnicas de mineração de dados e
visualizações de dados aprimorados.
•
Enterprise GuideTM: ferramenta para processamento analítico on-line
orientado por projetos que possibilita acesso rápido a uma grande parte da
potencialidade analítica do SAS® para estatísticos, analistas de negócios e
programadores.
•
Analyst ApplicationTM: fornece acesso simples para manusear e customizar
os dados e as estatísticas básicas do sistema - Base SASTM.
•
SAS/QCTM: oferece ferramentas para o aprimoramento da qualidade
estatística, incluindo ferramentas para o controle da qualidade estatística e
49
uma interface para a realização de experimentos.
•
SAS/ETSTM: inclui ferramentas para econometria e análise de séries
temporais.
•
SAS/ORTM: fornece uma grande variedade de métodos de otimização com
diversos aplicativos estatísticos.
5.1.1. SAS® Enterprise GuideTM
O produto SAS® para acesso, manipulação, análise dos dados e geração de
relatórios é chamado SAS® Enterprise GuideTM (EG). Este sistema permite acessar
diversos tipos de base de dados em diferentes plataformas, manipular dados através de
linguagens SQL e SAS 4G/LTM, gerar relatórios em diversos formatos como HTML, RTF
ou PDF, e publicá-los em um portal. Possibilita ao usuário a realização de diversas
análises estatísticas, gráficos e construção de cubos de dados (figura 5.1).
Figura 5.1: Exemplo de projeto no SAS® Enterprise GuideTM .
Fonte: SAS Institute (2008).
50
5.1.2. SAS® Enterprise MinerTM
O SAS® Enterprise MinerTM (EM) é um produto SAS® que contém uma série de
ferramentas úteis para suportar todo o processo de mineração dos dados. Tais
ferramentas estão organizadas seguindo os padrões SEMMA (sampling, exploration,
modification, modeling and assessment), ou seja, de acordo com cinco estágios:
amostragem, exploração, modificação, modelagem e avaliação, mostrados na tabela 5.1
e figura 5.2. A partir deste processo é possível uma visualização, exploração e
manipulação dos dados através de nós que formam diagramas de fluxos, bem como a
criação de vários modelos, como exemplo a figura 5.2 (SAS Enterprise Miner, 2006).
SEMMA
Características do nó
Amostragem
Seleção, particionamento e amostras das fontes de dados
Exploração
Exploração, multi-plotagem, associações, seleção e análise
de variáveis
Modificação
Conjunto de dados selecionados, transformação de
variáveis,
filtros,
tratamentos,
séries
temporais,
substituições, agrupamentos, SOM/Kohonen
Modelagem
Regressão, árvores, redes neurais, Princomp/Dmneural,
User Defined, Ensemble, Memory-Based Reasoning, Two
Stage Model
Avaliação
Relatórios, pontuação e avaliação
Tabela 5.1: Relacionamento SEMMA e SAS® Enterprise MinerTM. Fonte: SAS
Enterprise Miner (2006).
As principais características do EM são:
•
Processamento escalável;
•
Preparação, compactação e exploração de dados;
•
Modelagem preditiva e descritiva dos dados;
•
Negócios baseados em comparações de modelos, comunicação e gestão;
•
Processamento automatizado;
•
Poderoso para processos em batch e grandes bases de dados;
•
Fácil uso e design amigável.
51
Figura 5.2: Fluxograma SEMMA aplicado pelo SAS® Enterprise MinerTM .
Fonte: SAS Enterprise Miner (2006).
A última versão do EM disponível é a 4.3 em versões cliente/servidor para
sistemas operacionais Windows®, Linux® e Solaris®. Requer os módulos Base SASTM e
SAS/STATTM para seu funcionamento.
Figura 5.3: Layout de um workflow no SAS® Enterprise MinerTM .
52
Barra de ferramentas
Espaço para
workflow
Navegação do projeto
Figura 5.4: Janela default do SAS® Enterprise MinerTM .
5.2. Base de Dados Íris
Com o objetivo de demonstrar algumas facilidades de uso e o poder do sistema
SAS®, optou-se por utilizar a popular base de dados Íris, em formato texto, para definir
o melhor agrupamento entre os dados. Esta base foi introduzida por FISHER (1936) e
contém 150 amostras e quatro características de três espécies de flores íris, da família
das iridáceas.
A estrutura dos dados estão definidas em:
•
Largura da sépala (cm);
•
Comprimento da sépala (cm);
•
Largura da pétala (cm);
•
Comprimento da pétala (cm).
As espécies são divididas em: Íris-Virgínica, Íris-Versicolor e Íris-Setosa.
Previamente, são conhecidos o número de agrupamentos e a classificação de
cada amostra, portanto essas informações serão usadas somente na avaliação dos
objetivos traçados:
53
•
50 amostras da espécie Íris-Setosa (valor 1);
•
50 amostras da espécie Íris-Versicolor (valor 2);
•
50 amostras da espécie Íris-Virgínica (valor 3).
5.2.1. Importação e Estatísticas
A primeira tarefa realiza foi a importação da base de dados em formato texto
(figura 5.5). Neste processo é possível especificar a localização do arquivo, o número de
linhas importadas, o formato do texto e o delimitador dos valores. Também é possível
editar o nome, tipo e tamanho dos atributos, visto que a importação irá gerar uma nova
base no padrão do SAS®.
Figura 5.5: Nós para importação da base de dados Íris.
Através de um nó denominado Summary Statistics (figura 5.6) é possível fazer
uma análise exploratória do conjunto de dados e entender como os dados estão
disponibilizados, permitindo melhor entendimento das informações no futuro processo
de mineração dos dados. Nesta etapa o SAS® oferece diversas configurações, a destacar:
•
escolha das variáveis analisadas e classificadas;
•
definição das estatísticas básicas (média, desvio padrão, variância, etc.);
•
amostragem de percentis;
•
coeficiente de variação;
•
soma dos quadrados corrigida;
•
limites de confiança;
•
tipos de plotagem (histogramas e box plots).
54
Figura 5.6: Configuração do nó Summary Statistics.
Na figura 5.7 podem ser observados algumas informações para cada variável.
Percebe-se que o comprimento da pétala apresenta maior desvio padrão, a escala de
valores estão bem representadas e o comprimento da sépala tem maiores valores.
Também é importante observar que não há valores perdidos visto que para todas as
variáveis foram analisadas 150 amostras.
Figura 5.7: Estatísticas básicas da base de dados Íris.
Através do histograma e do box plot da largura da sépala, demonstrado na
figura 5.8, percebe-se graficamente a distribuição desta variável. Os valores estão bem
definidos e próximos de uma distribuição normal, concentrados entre o intervalo de 2.85
a 3.45cm. Estão presentes alguns outliers acima de 4 cm e abaixo de 2.1cm.
55
Figura 5.8: Histograma e box-plot da largura da sépala.
O nó Scatter Plot representa a variação de uma variável contínua em função da
outra. Pela figura 5.9 este nó foi configurado para as variáveis comprimento da sépala e
comprimento da pétala. Percebe-se, neste caso, que há dois grupos formados por
pequenos e grandes comprimentos entre as variáveis.
Figura 5.9: Scatter plot entre o comprimento da sépala e da pétala.
Figura 5.10: Fluxograma dos nós Summary Statistics e Scatter plot.
É importante destacar que os resultados obtidos pelas configurações dos nós
Summary Statistics e Scatter Plot são visualizados em outro nó denominado, por padrão,
56
HTML Summary Statistics e HTML Scatter Plot, respectivamente, em formato HTML.
Estes últimos nós são gerados e regerados todas as vezes que seus nós antecessores
forem executados.
5.2.2. Clusterização
Para a análise de agrupamentos, com objetivo de descrever a base de dados Íris
em função das semelhanças entre as variáveis às espécies as quais pertencem, foi
utilizado o nó Cluster Analysis. A partir deste nó é possível escolher as variáveis a
serem analisadas, o método de clusterização, os tipos de plotagens e os resultados a
serem apresentados.
Para este exemplo, optou-se pela visão de duas abordagens para a análise de
agrupamentos. Para ambas foram selecionadas as quatro variáveis a serem analisadas.
A primeira abordagem, o método Ward, baseia-se na definição de diferentes
níveis hierárquicos relacionando os registros em forma de árvore. Através da figura 5.11
pode-se observar que há uma divisão clara entre três agrupamentos. Não foi necessária a
normalização antes de gerar os dendrogramas, pois os dados estão na mesma escala.
Figura 5.11: Dendrograma – método Ward.
Além do dendrograma, os autovalores da matriz de co-variância podem ser
vistos como uns dos resultados gerados pelo nó HTML Cluster Analysis (figura 5.12).
Também é demonstrado o histórico das junções dos clusters, distância média entre as
observações e plots das análises dos agrupamentos para diversos critérios.
57
Figura 5.12: Autovalores da matriz de covariância – método Ward.
Buscando definir regiões capazes de particionar os grupos de registros no
domínio dos dados, o método K-Means foi utilizado na segunda abordagem. Através
dos resultados do método Ward, configurou-se as opções de um novo nó Cluster
Analysis para o método K-Means com número máximo de três clusters e 10 iterações.
A partir deste método foi capaz de convergir o resultado em apenas três
iterações, percebendo-se no sumário dos resultados e pela disposição dos dados (figuras
5.13 e 5.14).
Figura 5.13: Sumário dos clusters – método K-Means.
Figura 5.14: Comprimento da sépala, comprimento da pétala e os clusters.
58
Alisando os resultados obtidos no método K-Means pelos valores reais
disponíveis na base de dados, pode-se constatar que o método apresentou bons
resultados, errando apenas 10,7 % das amostras, a destacar:
•
Espécie Íris-setosa
o Base de dados original: 50 amostras;
o Acerto do método K-Means: 50 amostras;
o Erro do método K-Means: 0 amostras;
o Total de registros no cluster: 50 amostras.
•
Espécie Íris-versicolor
o Base de dados original: 50 amostras;
o Acerto do método K-Means: 48 amostras;
o Erro do método K-Means: 2 amostras;
o Total de registros no cluster: 62 amostras.
•
Espécie Íris-Virgínica
o Base de dados original: 50 amostras;
o Acerto do método K-Means: 36 amostras;
o Erro do método K-Means: 14 amostras;
o Total de registros no cluster: 38 amostras.
Pode-se verificar uma facilidade de uso tanto na determinação dos grupos
como na utilização do aplicativo – através dos dendrogramas, na configuração e
utilização do método hierárquico Ward e nos plots do método particional K-Means.
É importante reforçar que o objetivo deste exemplo foi demonstrar a facilidade
e o poder da ferramenta SAS® para exploração dos dados, aplicada ao processo de
descoberta de conhecimento em bases de dados.
O projeto final deste exemplo pode ser visto na figura 5.15.
59
Figura 5.15: Diagrama final do exemplo no SAS®.
60
Capítulo 6
Bases de Dados da ABCBRH
6.1. Descrição
Os dados que formam o data warehouse consolidado dos bovinos leiteiros da
raça holandesa são coletados pelos sistemas transacionais implantados nas associações
de criadores e núcleos regionais, principalmente da Associação Brasileira dos Criadores
de Bovinos da Raça Holandesa e suas filiadas estaduais: Associação Paranaense de
Criadores de Bovinos da Raça Holandesa e Associação Mineira dos Criadores de
Holandês (figura 6.1). Este grande repositório tem como o objetivo armazenar
informações relativas às atividades zootécnicas para favorecer a análise de grandes
volumes de dados e a obtenção de informações estratégicas que podem facilitar a
tomada de decisão dos criadores e pesquisadores.
Figura 6.1: Exemplo do fluxo dos dados para formação do warehouse.
A base de dados destas associações contém registros dos serviços genealógicos e
do controle leiteiro (produção de leite, gordura e proteína) dos rebanhos de criadores de
gado holandês e disponibilizada, em 2008, pela Embrapa Gado Leite. Compreende
61
todos os controles leiteiros oficiais entre 1993 a 2008, de animais nascidos entre 1989 a
2006, em um total de 5560538 observações e 43 atributos, conforme descritos na tabela
6.1 Os atributos variedade do animal, situação do animal, grau de sangue do animal,
causa de encerramento da lactação e unidade da federação da base de dados original
possuíam domínios próprios e estão apresentados no Anexo A.
Atributo
Coluna
Rebanho
02-07
Número do animal
11-16
Registro do animal
18-28
Dia de nascimento
30-31
Mês de nascimento
33-34
Ano de nascimento
36-39
Dia do controle leiteiro
41-42
Mês do controle leiteiro
44-45
Ano do controle leiteiro
47-50
Dia do parto
52-53
Mês do parto
55-56
Ano do parto
58-61
Produção de leite
66-69
Gordura
71-73
Proteína
75-77
Contagem de células somáticas
79-82
Variedade do animal
84-85
Unidade da Federação
87-89
Dia de secagem
92-93
Mês de secagem
95-96
Ano de secagem
98-101
Associação que coletou os dados
103
Registro do pai
105-114
Registro da mãe
116-125
Grau de sangue do animal
142-146
Dia de encerramento da lactação
148-149
62
Atributo
Coluna
Mês de encerramento da lactação
151-152
Ano de encerramento da lactação
154-157
Ordem de parto
159-160
Associação que forneceu os dados
162-165
Sólidos totais
167-169
Lactação final
171-176
Data da cobertura
178-187
Causa de encerramento da lactação
189-190
Número de controle leiteiro
192-194
Número de controle leiteiro totalizado
196-198
Situação da vaca
200-201
Número de ordenhas diária
203-204
Produção em 305 dias
206-231
Gordura em 305 dias
215-220
Proteína em 305 dias
222-227
Lactose em 305 dias
229-234
Sólidos totais em 305 dias
236-241
Tabela 6.1: Atributos da base de dados disponibilizada pela ABCBRH.
6.2. Importação dos Dados
Fornecida originalmente em formato texto, a base de dados foi importada para o
Sistema Gerenciador de Banco de Dados (SGBD) Oracle® 10g para as edições nos
dados. Este SGBD foi escolhido para desenvolvimento deste trabalho por ser robusto,
estável, atender aos padrões American National Standards Institute (ANSI) e suportar a
linguagem de programação Procedural Language/Structured Query Language
(PL/SQL).
As características dos campos importados no Oracle® foram definidas conforme
tabela 6.2 No processo de importação não houve perda de registros e de informação,
mantendo o total de atributos e observações originais (43 campos e 5560538 registros).
63
Campo
Atributo
Tipo
REB
Rebanho
Numérico
VACA
Número do animal
Numérico
RGANIMAL
Registro do animal
Texto
DNASC
Dia de nascimento
Numérico
MNASC
Mês de nascimento
Numérico
ANASC
Ano de nascimento
Numérico
DCONT
Dia do controle leiteiro
Numérico
MCONT
Mês do controle leiteiro
Numérico
ACONT
Ano do controle leiteiro
Numérico
DPART
Dia do parto
Numérico
MPART
Mês do parto
Numérico
APART
Ano do parto
Numérico
PL
Produção de leite
Numérico
G
Gordura
Numérico
P
Proteína
Numérico
CCS
Contagem de células somáticas
Numérico
VAR3
Variedade do animal
Numérico
UF5
Unidade da Federação
Texto
DSEC
Dia de secagem
Numérico
MSEC
Mês de secagem
Numérico
ASEC
Ano de secagem
Numérico
BASE
Associação que coletou os dados
Texto
REGPAI
Registro do pai
Texto
REGMAE
Registro da mãe
Texto
GS1
Grau de sangue do animal
Numérico
DENC
Dia de encerramento da lactação
Numérico
MENC
Mês de encerramento da lactação
Numérico
AENC
Ano de encerramento da lactação
Numérico
ORD4
Ordem de parto
Numérico
BASE1
Associação que forneceu os dados
Texto
SO
Sólidos totais
Numérico
LACT
Lactação final
Numérico
64
Campo
Atributo
Tipo
COBERTURA Data da cobertura
Numérico
CAUSA
Causa de encerramento
Numérico
NC
Número de controle
Numérico
NCS
Número de controle total
Numérico
SIT
Situação da vaca
Numérico
NO
Número de ordenha diária
Numérico
LEITE305
Produção em 305 dias
Numérico
G305
Gordura em 305 dias
Numérico
P305
Proteína em 305 dias
Numérico
LACT305
Lactose em 305 dias
Numérico
SOL305
Sólidos totais em 305 dias
Numérico
Tabela 6.2: Definição dos dados importados no Oracle® 10g.
6.3. Seleção e Pré-Processamento dos Dados
A maioria das aplicações reais onde se deseja empregar os processos de KDD
devem inicialmente realizar uma preparação dos dados. Nesta atividade busca-se
analisar a base de dados para obter conhecimentos importantes sobre a sua natureza.
Desta forma é possível avaliar de forma preliminar características como o grau de
complexidade da base, tipo dos dados, intervalos de ocorrência de valores para os
atributos, interpretação e tratamento de “impurezas”, que podem comprometer as etapas
posteriores, entre outras características. Neste sentido, são utilizados recursos
desenvolvidos por diversas áreas do conhecimento tais como computação, estatística,
geometria etc. (FAYYAD et al.,1996).
6.3.1. Edição dos atributos
O primeiro passo para edição dos atributos foi a criação de um novo campo,
denominado COD do tipo numérico, com o objetivo de definir unicamente cada registro
da tabela e alcançar melhor desempenho na manipulação dos dados.
65
A diferença entre a data do controle e a data do parto foi armazenada em um
novo campo, chamado DIM do tipo numérico, que define os dias em lactação da vaca ao
controle leiteiro. Para a idade ao parto do animal, em dias, subtraindo a data do parto
pela data de nascimento, acrescentou-se um campo do tipo numérico chamado IP. Um
novo campo, denominado DEL, também foi inserido para armazenar o intervalo em dias
entre a data de encerramento e a data do parto.
Foram excluídos os campos BASE, BASE1, SO, LACT por não serem necessários
neste trabalho. A data de cobertura, representada pelo campo COBERTURA do tipo
data, também foi retirada. Esta informação, além de não ser útil para o estudo, era
ausente em 64% dos registros. As variáveis NC e NCS foram excluídas por não
apresentarem confiabilidade dos dados (Anexo B). Neste sentido, para expressar este
valor (número de controles leiteiros em cada lactação) ordenou-se a base de dados por
RGANIMAL, APART e DIM e criou-se uma nova variável, TDAY, para esta informação,
a partir da seguinte regra:
Enquanto houver registro no banco de dados faça:
Ler ano de parto;
Se ano de parto for diferente do registro anterior então
TDAY é igual a 1
Senão
TDAY é igual a TDAY mais 1;
Ler próximo registro do banco de dados;
Os valores para a ordem de parto, identificado pela variável ORD4, não estavam
consistentes. Sendo assim, optou-se por criar uma nova variável denominada OP para
armazenar o valor correto a partir do seguinte algoritmo:
Ordenar a base de dados por RGANIMAL, APART e DIM;
Enquanto houver registro no banco de dados faça:
Ler RGANIMAL
Se RGANIMAL for diferente do RGANIMAL anterior então
OP é igual a 1
Senão se APART for diferente da APART anterior então
OP é igual a 1;
Ler próximo registro do banco de dados;
66
Após o cálculo, a variável ORD4 foi excluída da base de dados (Anexo B).
A data de encerramento de lactação, formada pelas variáveis DENC, MENC e
AENC, e a data de secagem, formada pelas variáveis DSEC, MSEC e ASEC eram
redundantes no âmbito da informação, mas haviam diversas situações em que:
1 – a data de secagem e a data de encerramento eram nulas ou zeros;
2 – a data de secagem era nula ou zero e a data de encerramento era
diferente de nulo ou zero;
3 – a data de encerramento era nula ou zero e a data de secagem era
diferente de nulo ou zero;
4 – a data de secagem e a data de encerramento eram diferentes de nulos ou
zeros;
Neste sentido uma nova variável foi adicionada na base de dados para conter a
informação de encerramento da lactação, DENC1, MENC1 e AENC1. Os dados foram
carregados nas variáveis citadas quando haviam dados na data de encerramento e não
haviam na data de secagem e vice-versa. Para os casos em que haviam dados em ambas,
optou-se por aqueles em que a variável que expressava o ano (AENC ou ASEC) era
maior. Mantiveram-se valores nulos ou zero quando ambas também apresentaram estes
valores. Ao final deste processo, foram excluídas as variáveis DENC, MENC, AENC,
DSEC, MSEC e ASEC (Anexo B).
O atributo unidade da federação (UF5) estava discreto com faixas definidas.
Para cada valor de UF5 estava relacionada sua respectiva sigla. As siglas que
terminavam com o número 8 correspondiam a bases diferentes e não alteravam o
significado do dado. O valor BR correspondia aos outros estados que não estavam
representados no banco de dados. Para o processo de clusterização, tal atributo foi
substituído por valores numéricos conforme tabela 6.3.
VALOR
DOMÍNIO UF5
VALOR
DOMÍNIO UF5
AL
1
PR8
8
CE
2
RJ
9
DF
3
RS
10
ES
4
RS8
10
GO
5
SC
11
67
VALOR
DOMÍNIO UF5
VALOR
DOMÍNIO UF5
MG
6
SP
12
MG8
6
SP8
12
MS
7
BR
98
PR
8
<nulo>
99
Tabela 6.3: Domínios do atributo unidade da federação
Os domínios do campo GS1 com prefixo GC-, seguidos por uma numeração,
correspondiam a uma geração conhecida do animal após seus ascendentes terem pai e
mãe certificados como holandeses pela ABCBRH, PCOD eram animais puro por cruza
de origem desconhecida e PO eram animais holandeses puro de origem (Anexo A). Para
este trabalho vinculou-se todos os GC-, seguidos por uma numeração, por simplesmente
GC. Manteve-se PCOD, 31/35 e PO. Após os valores discretos definidos, substituiu-se
por valores numéricos, conforme tabela 6.4.
VALOR
DOMÍNIO GS1
31/32
1
GC
2
PCOD
3
PO
4
<nulo>
99
Tabela 6.4: Domínio do atributo grau de sangue
Para as datas de nascimento, parto, controle leiteiro e secagem, criaram-se as
variáveis ENASC, EPAR, ECONT e EENC, respectivamente, para armazenar as estações
do ano dividas a seguir:
•
Estação 1: entre os meses de janeiro a março;
•
Estação 2: entre os meses de abril a junho;
•
Estação 3: entre os meses de julho a setembro;
•
Estação 4: entre os meses de outubro a dezembro.
Após as edições citadas, contou-se na base de dados, com 40 campos e a mesma
quantidade de registros (Anexo A).
68
6.3.2. Edição dos Registros
A edição dos registros da base de dados fez-se necessária pois, o arquivo texto
fornecido e, posteriormente importado no Oracle® 10g, foi extraído de um data
warehouse que contemplava diversas fontes de dados. Existiam vários registros com
valores incompletos (faltavam valores nos atributos ou valores exatos em atributos de
interesse), falhos (contiam erros ou outliers, ou seja, valores acima ou abaixo do
normal) e inconsistentes (por exemplo, existia uma diferença entre registros
duplicados), que poderiam inferir na análise dos resultados. Conforme HAN &
KAMBER (2001), registros que apresentam estas características devem ser criticados
ou eliminados do banco de dados para melhor acurácia dos resultados no processo de
mineração dos dados.
A melhoria da qualidade dos dados, retirando registros incompletos e
inconsistentes, com o objetivo em assegurar que o futuro processo de mineração dos
dados possa ser realizado com precisão e eficiência, foram excluídos da base de dados
quando não atendidos. Os procedimentos e os resultados, executados no PL/SQL foram:
1 – Pedigree:
•
Exclusão dos registros onde não houve informação do registro do animal.
o 740 registros foram excluídos.
•
Exclusão dos registros onde o registro do animal foi igual ao registro do
pai no mesmo registro.
o 86 registros foram excluídos.
•
Eliminação dos registros onde o registro do animal foi igual ao registro
da mãe no mesmo registro.
o 69 registros foram excluídos.
•
Eliminação das ocorrências onde o registro do pai foi igual ao registro do
animal em toda a base.
o 3605 registros foram excluídos.
•
Eliminação das ocorrências onde o registro do animal foi igual ao
registro do pai em toda a base.
69
o Nenhum registro foi encontrado.
•
Eliminação das ocorrências com ausência do registro do pai e da mãe.
o 775515 registros foram excluídos.
•
Exclusão dos registros onde houve ausência ou erro na data de
nascimento do animal.
o 1049 registros foram excluídos.
•
Exclusão dos animais PCOD.
o 106063 registros foram excluídos.
2 – Controles Leiteiros:
•
Exclusão dos registros onde houve ausência ou erro na data do controle
leiteiro.
o Nenhum registro foi encontrado.
•
Exclusão dos registros onde houve ausência ou erro na data de parto.
o 3750 registros foram excluídos.
•
Eliminação das ocorrências onde a data de parto do animal foi maior que
a data do controle leiteiro.
o 61809 registros foram excluídos.
•
Eliminação das ocorrências onde a data de nascimento do animal foi
maior que a data do parto.
o 76465 registros foram excluídos.
•
Eliminação das ocorrências onde a data de nascimento do animal foi
maior que a data do controle leiteiro.
o Nenhum registro foi encontrado.
•
Exclusão dos registros com produção de leite igual a zero ou nula.
o 72738 registros foram excluídos.
•
Eliminação dos registros onde a data de nascimento do animal ao
primeiro parto esteve fora do intervalo entre 18 a 42 meses.
o 325536 registros foram excluídos.
•
Eliminação dos registros onde a data de nascimento do animal ao
segundo parto esteve fora do intervalo entre 32 a 60 meses.
o 272038 registros foram excluídos.
70
•
Eliminação dos registros onde a data de nascimento do animal ao terceiro
parto esteve fora do intervalo entre 45 a 78 meses.
o 83589 registros foram excluídos.
•
Eliminação dos registros onde a data de nascimento do animal ao quarto
parto esteve fora do intervalo entre 60 a 96 meses.
o 35410 registros foram excluídos.
•
Eliminação dos registros onde a data de nascimento do animal ao quinto
parto esteve fora do intervalo entre 74 a 114 meses.
o 15554 registros foram excluídos.
•
Eliminação dos registros onde a data do controle leiteiro esteve fora do
intervalo entre 5 a 365 dias da data do parto. Controles com menos de 5
dias ou mais de 365 dias foram eliminados.
o 274341 registros foram excluídos.
•
Eliminação dos registros onde a data do primeiro controle leiteiro esteve
fora do intervalo entre 5 a 45 dias após a data do parto – assumiram-se
controles leiteiros de caráter mensal.
o 30105 registros foram excluídos.
•
Eliminação dos registros onde a data dos controles leiteiros subseqüentes
ao primeiro não foi informada até 45 dias, inclusive.
o 107820 registros foram excluídos.
A data de encerramento da lactação, representada pelas variáveis DENC1,
MENC1 e AENC1, que apresentaram valores zeros ou nulos, foram atualizadas para 15
dias posteriores a data do último controle leiteiro.
Haviam na base de dados 12309 animais que estavam presentes em mais de um
rebanho. Para este estudo foram conservados aqueles que apresentaram maior
quantidade de controles leiteiros por rebanho. Neste sentido, foram excluídos da base de
dados 134388 registros.
Os 7069 registros dos quais as lactações que apresentaram mais de 12 controles
leiteiros, representada pela variável TDAY, foram excluídas do banco de dados.
Estavam presentes 86982 lactações com menos de 7 controles leiteiros. Tais
lactações foram excluídas, representando 235107 registros de controle leiteiro, pois não
eram significativas para este estudo.
71
As informações duplicadas, comparando os valores do registro do animal, data
de nascimento e data do controle leiteiro, totalizaram 99.530 registros das quais foram
excluídas.
Todos os procedimentos realizados na seleção e no pré-processamento dos
atributos e dos registros tornaram a base de dados mais precisa para ser submetida aos
algoritmos de mineração dos dados e, posteriormente, aumentado as chances por
melhores resultados. Por outro lado, reduziu-se em 64% o total dos dados com relação à
base de dados original, resultando em 40 atributos (Anexo A) e 2023219 registros,
distribuídos em 1816 rebanhos e por 202179 partos entre 1985 a 2008, com base na
produção de 104138 vacas, filhas de 4267 touros.
Apesar de ser uma tarefa árdua, todas estas transformações foram de suma
importância para o processo de descoberta do conhecimento, uma vez que a qualidade
dos resultados está baseada na qualidade dos dados.
6.4. Análise Exploratória dos Dados
A análise exploratória de dados (AED) consiste de uma abordagem para análise
dos dados. A AED busca oferecer maior percepção dos dados, descobrir estruturas
embutidas nos dados, revelar as variáveis mais importantes, detectar anomalias e
valores aberrantes (dados com alta discrepância dos demais), testar presunções, dentre
outras contribuições. O uso de recursos gráficos é muito freqüente nas atividades
envolvidas fornecendo indícios de como se extrair informações, do que se busca, de
como observar e interpretar os dados (JOHNSON & WICHERN, 1998).
Para a AED foi utilizado o SAS® Enterprise GuideTM 4.1. Com este programa
criou-se um projeto (figura 6.2) para geração dos gráficos e relatórios, utilizando a
contagem da freqüência de cada variável, estatísticas, agrupamentos e correlações entre
elas.
72
Figura 6.2: Projeto para análise exploratória dos dados
A primeira variável a ser analisada foi ANASC, conforme demonstrado na tabela
6.5.
ANASC
Freqüência
ANASC
Freqüência
1982
69
1995
108470
1984
64
1996
146405
1985
59
1997
189075
1986
71
1998
203349
1987
196
1999
221059
1988
4013
2000
218924
1989
16586
2001
194117
1990
33919
2002
167179
1991
50577
2003
133161
1992
53027
2004
97056
1993
60304
2005
42568
1994
82641
2006
330
Tabela 6.5: Freqüência da variável ANASC
73
Percebeu-se que 1% dos animais nasceram nos anos de 1982, 1984, 1985, 1986,
1987, 1988, 1989 e 2006. Neste sentido, pela baixa freqüência, optou-se pela eliminação
destes animais da base de dados – 21388 registros.
O passo seguinte foi analisar a distribuição de freqüência dos valores da ordem
de parto (tabela 6.6).
OP
Freqüência
1
906632
2
589193
3
299058
4
134554
5
51537
6
16053
7
3908
8
802
9
94
Tabela 6.6: Freqüência da variável OP
Menos de 1% dos dados estavam presentes nas ordens de parto 6 a 9. Neste
sentido, 20857 registros foram excluídos.
O ano de parto com menor freqüência foi em 1991, com apenas 11 registros.
Como optou-se por trabalhar com animais nascidos a partir de 1990 e considerando que
a data de nascimento do animal ao primeiro parto deve estar entre 18 a 42 meses,
nenhum registro de parto em 1991 foi eliminado. Neste mesmo sentido, considerando-se
animais com no máximo 5 partos e respeitando o limite destes entre a data de
nascimento e a data de parto com no máximo 114 meses, mas com baixa freqüência de
partos ocorridos em 2008, foram excluídos 105 registros.
74
APART
Freqüência
APART
Freqüência
1991
11
2000
176934
1992
2487
2001
195083
1993
19376
2002
216704
1994
34485
2003
216550
1995
46237
2004
210236
1996
54080
2005
192126
1997
77087
2006
188961
1998
83295
2007
148446
1999
94970
2008
77
Tabela 6.7: Freqüência da variável APART
Uma das variáveis que apresenta a informação relacionada a cada registro e bem
significativa neste estudo, ano de controle, apresentou a freqüência de acordo com a
tabela 6.8.
ACONT
Freqüência
ACONT
Freqüência
1991
4
2000
145940
1992
1445
2001
187040
1993
11745
2002
207357
1994
29546
2003
217592
1995
43215
2004
214323
1996
52406
2005
201100
1997
67795
2006
192254
1998
83613
2007
184657
1999
88279
2008
52663
Tabela 6.8: Freqüência da variável ACONT
Respeitando o intervalo entre 5 a 365 dias em que a data do controle leiteiro
deve ser informada a partir da data de parto e, considerando-se os anos de parto para
este estudo entre 1991 a 2008, nenhum registro deveria ser excluído. Contudo, pela
baixa freqüência, optou-se por excluir os registros de controle leiteiro ocorridos em
1991 e 1992, com apenas 0.1% dos dados (1449 registros).
75
Percebeu-se, pela distribuição de freqüência do grau de sangue do animal
controlado, códigos desconhecidos dos quais não completam o domínio dos graus de
sangue interessados para este estudo (tabela 6.9). Além disso, tais códigos apresentaram
freqüências muito baixas – média de 0.01% do total dos dados. Neste sentido estes
registros foram eliminados da base de dados. Outros dois códigos que apresentaram
baixa freqüência, 1 e 99 representando 31/32 e informações ausentes, respectivamente,
foram também eliminados. Totalizou-se 18613 registros excluídos e restando apenas
animais GC e PO (códigos 2 e 4, respectivamente).
GS1
Freqüência
GS1
Freqüência
1
15909
54
93
2
1020192
62
18
4
940720
64
139
14
127
74
106
22
9
84
113
24
74
92
8
34
110
94
130
44
94
99
1671
52
12
Tabela 6.9: Freqüência da variável GS1
Para as variáveis contínuas DIM, TDAY, PL, G, P e IP foram analisados os
valores médios, mínimos e máximos, descritos na tabela 6.10.
Os dias em lactação, representado pela variável DIM, respeitou os parâmetros
mínimos e máximos, onde o período de lactação de uma vaca deveria estar presente
entre 5 a 365 dias da data do parto.
A variável TDAY que respondia pelo número do controle leiteiro esteve entre os
valores aceitáveis, considerando-se no mínimo 1 e no máximo 12 controles leiteiros de
caráter mensal.
A produção de leite (PL) esteve com valores discrepantes entre os mínimos e
máximos. Os mínimos pôde-se subentender que tais controles leiteiros foram realizados
por motivos de secagem ou saúde do animal, mas mesmo assim, houve registro de
produção. Já para os máximos, tais valores podem ocorrem quando os animais estão em
76
exposição ou participando de torneios leiteiros. Além destes esclarecimentos, muitas
vezes ocorrem erros de digitação. Os valores aceitáveis para estes atributos estão entre 5
a 60 litros. Neste sentido, foram eliminados ocorrências fora desta faixa, num total de
3601 registros – muito pouco expressivo na base de dados (0.17%).
Variável
Mínimo
Máximo
Média
DIM
5
365
168,2
TDAY
1
12
5,6
0,3
99,6
27,4
G
0
99,9
2,94
P
0
9,8
2,25
549
3465
1264,7
PL
IP
Tabela 6.10: Médias, mínimos e máximos de DIM, TDAY, PL, G, P e IP
Os valores para gordura e proteína, variáveis G e P respectivamente, estiveram
fora do intervalo aceitável. Os mínimos para ambas variáveis muitas das vezes são
registrados como zero pela ausência da informação ou pela necessidade de
preenchimento do campo pelo programa utilizado para entrada dos dados. Já os valores
máximos podem ocorrem por erros na leitura do aparelho que processa tal informação,
erros de digitação, dentre outros. Os valores mínimos e máximos aceitáveis para estas
duas variáveis estiveram entre 1.5% a 7.0% (presentes no leite). Percebeu-se que em
torno de 35% dos dados apresentavam G e P menores que 1.5 e houve a necessidade de
uma análise mais apurada conforme demonstrado na tabela 6.11.
Variável
0
< 1.5
>7
G
245098
252410
1686
P
494022
494143
35
Tabela 6.11: Freqüência da variável GS1
Concluiu-se que haviam muitos valores com zeros. Neste sentido, substituiu-se
tais valores fora da faixa aceitável por valores ausentes.
A idade mínima ao parto, em dias, satisfez a condição em que as vacas em
primeiro parto deveriam ter no mínimo 18 meses de vida. Já a idade máxima ao parto,
77
considerando no máximo a quinta ordem de parto, deveria estar em 114 meses. Para esta
variável, houve a presença de valores superiores onde fez-se necessário analisar a
freqüência destes.
IP (dias)
Freqüência
IP (dias)
Freqüência
3421
9
3450
18
3423
8
3455
8
3425
8
3462
9
3431
23
3466
21
3432
8
3467
11
3435
11
3472
10
3439
11
3475
10
3444
12
Tabela 6.12: Freqüência de idade ao parto maior que 3420 dias
Percebe-se, através da tabela 6.12, que a freqüência destes dados foi muito baixa
em relação ao total de registross; menor que 0.01%, ou seja, 177 registros. Sendo assim,
os mesmo foram retirados.
6.4.1. Histogramas e Box-plots
A utilização de histogramas auxiliou a AED resumindo graficamente a
distribuição de uma determinada variável. A análise dos histogramas pode fornecer
indícios sobre o centro dos dados, a dispersão dos dados, assimetria, outiliers, e a
ocorrência de várias modas no conjunto de dados (DUDA et al., 2001).
Os chamados box-plots ou gráficos de caixa também foram utilizados na AED.
Estes gráficos forneceram uma excelente visão da variação na escala das variáveis, a
posição relativa da mediana dentro da faixa de valores em que os dados situaram e
também foi um poderoso elemento na detecção de outliers. Este recurso foi muito útil
nas situações onde as variações e localizações de interesse nos dados deveriam ser
observadas para diferentes grupos de variáveis.
78
A variável ANASC apresentou uma distribuição aparentemente modal e com
certo nível de simetria. Concluiu-se que a maioria dos animais nasceram entre 1997 a
2002, conforme o histograma apresentando na figura 6.3.
Figura 6.3: Histograma de freqüência da
Figura 6.4: Box-plot da produção de leite
variável ANASC
por ano de nascimento
A distribuição do ano de parto esteve aceitável com relação ao ano de
nascimento dos animais. Percebeu-se, pelo histograma demonstrado na figura 6.5, que
os animais começaram a parir em 1992, condizendo com o período aceitável para
animais nascidos em 1990. Houve um aumento expressivo de partos em 1999 para
2000, onde a maioria deles esteve presente a partir de 2007.
Figura 6.5: Histograma de freqüência da
Figura 6.6: Box-plot da produção de leite
variável APART
por ano do parto
O histograma da variável ACONT (figura 6.7) esteve muito relacionado e bem
distribuído com relação a APART. Isto comprova a existência em que o primeiro
79
controle leiteiro deveria ser realizado entre 5 a 45 dias da data do parto e os controles
subseqüentes com intervalos máximos de 45 dias.
Figura 6.7: Histograma de freqüência da
Figura 6.8: Box-plot da produção de leite
variável ACONT
por ano do controle leiteiro
A variável OP apresentou assimetria e calda curta na parte direita do histograma
conforme figura 6.9. Quase metade dos controles leiteiros foram oriundos de animais
em primeira ordem de parto, regredindo nos partos subsequentes.
Figura 6.9: Histograma de percentagem da variável OP
A figura 6.10, representando o histograma da variável TDAY, demonstra uma
calda curta a direita, em que os controles leiteiros tendiam a reduzir após o sétimo
controle. 70% dos dados tiveram até 7 controles leiteiros por parto e apenas 2% tiveram
80
12 controles. É importante ressaltar que para este estudo foram considerados controles
leiteiros mensais.
Figura 6.10: Histograma de percentagem
Figura 6.11: Box-plot da produção de leite
da variável TDAY
por test-day
O histograma da produção diária de leite, apesar de uma vasta quantidade de
valores, apresentou uma distribuição simétrica. As maiores freqüências estão entre 22 a
30 kg (figura 6.12).
Figura 6.12: Histograma da freqüência da variável PL
81
6.4.2. Curvas da Produção Diária de Leite
As curvas de lactação geradas a partir das médias de produção dos animais em
cada controle, no decorrer de suas lactações, oferecem a possibilidade concreta para
avaliar a variação da produção de leite de acordo com o período da lactação.
Reconhecer o formato da curva de lactação auxilia a comparação da realidade de um
animal ou grupo de animais com a expectativa para este animal ou grupo de animais. A
avaliação do desempenho de um animal ou rebanho somente é possível quando se tem
em mente um valor de produção esperado (MOLENTO, 1995).
Na raça holandesa, de modo geral, a curva de lactação é decomposta em três
segmentos: produção inicial, pico e taxa de declínio, os quais são influenciados por
fatores genéticos e não-genéticos. O pico de produção de leite ocorre entre 7 a 10
semanas pós-parto e depois começa a declinar lentamente (GADINI et al., 1998). A
figura 6.13, relacionando a média da produção diária de leite com a ordem de parto
expressa em meses, comprova que os picos de lactação ocorreram em torno do segundo
mês do controle leiteiro. Para efeitos comparativos, ilustrou-se na figura 6.14, a média
da produção diária de leite com os dias em lactação.
Figura 6.13: Média da produção diária
Figura 6.14: Média da produção diária
de leite por test-day
de leite por dias em lactação
De acordo com a literatura, a ordem de lactação, que é um indicativo da idade da
vaca, é uma importante causa de variação na produção de leite. A produção de leite
aumenta até a idade adulta, atingindo um pico de produção aproximadamente na terceira
e quarta lactação. A partir de então a produção passa a declinar (FREITAS et al., 2001;
TEIXEIRA et al., 2003; MAGALHÃES et al., 2006; NORO et al., 2006; ANDRADE et
82
al., 2007). Com os dados trabalhados neste estudo, os resultados foram semelhantes. A
curva de produção diária relacionada à ordem de parto foi crescente a partir da primeira
ordem de parto. Chegou-se ao pico da lactação entre a terceira e a quarta ordem e uma
redução nas ordens posteriores (figura 6.15).
Figura 6.15: Média da produção de leite pela ordem de parto
Com relação à idade adulta, conforme os autores anteriormente citados,
justificou-se a necessidade em demonstrar as médias das produções diárias comparadas
com as médias das idades ao parto dos animais (figura 6.16). Notou-se que as maiores
médias das produções ocorreram em animais com aproximadamente 43 meses de vida.
A análise dos meses em que são realizados os controles leiteiros tem sido fator
importante para diversos autores e têm apresentando efeitos nas variações das
produções. RIBAS et al. (2004), FREITAS et al. (2001) e NORO et al. (2006) nos
estados do Paraná, Minas Gerais, Rio Grande do Sul, respectivamente, estudaram estes
impactos. TEIXEIRA et al. (2003) observaram que as produções de leite nos meses de
setembro e outubro foram maiores em aproximadamente 3,0 kg em relação ao mês de
abril (menor produção). Estes autores citam que tais resultados refletem variações de
manejo, clima e regime alimentar, nos quais os animais estão submetidos.
83
Figura 6.16: Média da produção de leite, idade ao parto (dias), ano de parto
As figuras 6.17 e 6.18 comprovam que as estações mensais do ano de controle
estiveram balanceadas e que as melhores médias de produção ocorreram entre as
estações 3 e 4, ou seja, entre os meses de setembro e outubro. Neste período observouse, em média, aumento de 3,0kg em relação às estações 1 e 2 – baixa produtividade.
Figura 6.17: Histograma da estação
Figura 6.18: Média da produção diária
mensal do controle leiteiro
de leite por estação mensal do controle
Segundo SANTOS et al. (2001), animais que parem em diferentes estações do
ano estão sujeitos a condições diferentes de ambiente nos períodos de lactação,
exercendo influência na produção de leite total desta lactação. As mudanças periódicas
de local durante o ano têm correlação direta na produção de leite pela diminuição da
ingestão de matéria seca e correlação indireta pela flutuação na quantidade e qualidade
do alimento. Assim, optou-se por interpretar estes resultados com os dados estudados.
84
Os partos realizados entre os meses de abril a junho tiveram maior freqüência,
não muito distante do período com menor freqüência (entre outubro a dezembro –
diferença de 10%). As maiores médias de produção diária de leite ocorreram entre os
meses de abril a junho (figuras 6.19 e 6.20).
Figura 6.19: Histograma da estação
Figura 6.20: Média da produção diária
mensal do parto
de leite por estação mensal do parto
O componente gordura e proteína são essenciais no rendimento do
processamento do leite para diversos produtos lácteos. Além de altas produções, a
composição do leite tem significativo valor econômico para produtores e criadores. A
disponibilidade e análise de registros de gordura e proteína oferecem aos criadores
informações que permitam a seleção para a melhoria de sua produtividade (COSTA et
al., 2003). Neste sentido, fez-se necessário o estudo destes dois principais componentes
do leite com relação à produção diária de leite. Nas figuras 6.21 e 6.22 percebe-se, para
ambas variáveis, uma simetria entre os valores. Para gordura, valores médios entre 3 a
3.6% e para proteína entre 2.8 a 3.3%. É importante destacar que os valores ausentes
estiveram presentes em 14% e 32% dos dados para gordura e proteína, respectivamente.
85
Figura 6.21: Histograma do percentual de
Figura 6.22: Histograma do percentual de
proteína na produção diária de leite
gordura na produção diária de leite
A média das maiores produções diárias de leite, entre 30 a 34 kg, apresentaram
percentuais de proteína em torno de 2 a 3%. Para gordura, percentuais em torno de 2 e
para picos de produções diárias entre 31 kg. Ambos componentes, com percentuais
entre 3 e 4, apresentaram declínio com relação à média das produções (figuras 6.23 e
6.24).
Figura 6.23: Média da produção diária
Figura 6.24: Média da produção diária
de leite por percentual de proteína
de leite por percentual de gordura
6.4.3. Médias por Rebanho
Uma das principais características para este estudo é destacar a quantidade de
animais presentes por rebanho. Na tabela 6.13, está listado a quantidade de rebanhos
que apresentam até 10 animais. Percebeu-se que, entre os partos realizados entre 1992 a
86
2007 em média, estiveram presentes 511 rebanhos dos quais, em média, 13.6% estavam
presentes menos de 10 animais.
Rebanhos
Ano de
Parto
Quantidade
Média de animais
<= 10 animais
1992
176
14
110
1993
385
50
93
1994
504
68
137
1995
565
81
125
1996
545
99
125
1997
666
116
88
1998
610
136
74
1999
628
151
80
2000
687
257
54
2001
680
287
57
2002
618
350
40
2003
563
385
46
2004
478
440
36
2005
390
492
20
2006
358
528
23
2007
335
443
19
Tabela 6.13: Quantidade de rebanhos com até dez animais
A participação de rebanhos por ano de parto apresentou um aumento
significativo de 118% entre 1992 a 1993, num total de 385 rebanhos neste último ano.
Em 2000, com um aumento de 9.3% em relação ao ano anterior, houve a maior
participação de rebanhos com um total de 687. Outros anos com grandes participações
ocorreram em 2001, 1999, 1998 e 1997 com média de 646 rebanhos, conforme ilustrado
na figura 6.25
87
Figura 6.25: Participações de rebanhos por ano de parto
A média de rebanhos com registros até o sétimo controle leiteiro foi de 1733. A
partir do oitavo controle leiteiro percebeu-se uma diminuição de registros, apresentando
uma queda até o décimo segundo controle leiteiro com 1074 rebanhos presentes (figura
6.26). Dos 1816 rebanhos, 91% apresentaram animais com primeira ordem de parto.
Aquela com menor participação por rebanho foi a quinta ordem de parto com 457
rebanhos (figura 6.27).
Figura 6.26: Quantidade de rebanhos
Figura 6.27: Quantidade de rebanhos
por ordem de parto
por test-day
A distribuição da idade ao parto dos animais por rebanho não apresentou uma
distribuição simétrica. As maiores participações, com mais de 200 rebanhos, ocorreram
quanto os animais pariram com 105 a 117 semanas de vida. Este motivo esteve
relacionado aos animais que tiveram a primeira ordem de parto. Animais com idade
entre 154 a 183 semanas ao parto apresentaram a segunda maior freqüência de rebanhos
88
participantes, no qual muitos destes animais presentes nos rebanhos estavam
relacionados à segunda ordem de parto. A partir de 228 semanas ao parto, uma calda
longa à direita da figura 6.28, ilustrou a redução de rebanhos participantes.
Figura 6.28: Participações de rebanhos por idade ao parto
Figura 6.29: Participações de rebanhos por dias em lactação
A freqüência de rebanhos apresentou uma média constante entre o 8º ao 251º dia
em lactação, com 800 rebanhos. A redução após este último dia esteve relacionada ao
próprio período em que uma vaca esteve propícia ao início do encerramento da lactação,
impactando assim, na redução de rebanhos participantes.
89
6.4.4. Outras Estatísticas
O Paraná foi o estado com maior presença de rebanhos, num total de 916,
seguidos de São Paulo e Minas Gerais com 245 e 440, respectivamente. O estado de
Alagoas e o Distrito Federal apresentaram menor quantidade de rebanhos, com 3,
distante do estado do Rio de Janeiro, com 5 rebanhos – terceiro menor estado com
rebanhos. Estiveram ausentes 0.5% dos dados para esta informação. É importante
destacar que os registros onde a unidade da federação (atributo UF5) constava “BR”,
fazem parte de um grande grupo formado pelos estados não delimitados no mapa,
apresentando na figura 6.30.
Figura 6.30: Participações de rebanhos por estado
Comparando a concentração de animais e a produção diária de leite, o estado
que apresentou maior média foi Paraná (código 8) com 29.33 kg, seguindo dos estados
de São Paulo (código 12) com 26.42 kg e Minas Gerais (código 6) com 24.94 kg. Com
12 kg a menos que a maior média, o estado com menor produção foi o Ceará (código 2)
com 16.77 kg (figura 6.31).
90
Figura 6.31: Média da produção diária de leite por estado
A composição racial dos animais a serem estudados esteve bem balanceada. O
gráfico de pizza, ilustrado na figura 6.32, comprova que animais puros por cruzamento
(código 2) tiveram aproximadamente a mesma quantidade de registros de animais “puro
de origem” (código 4). A média das produções diárias de leite também foi bem próxima
entre os dois graus de sangue, com uma ligeira diferença de 3 kg entre elas.
Figura 6.32: Gráfico em pizza da
Figura 6.33: Média da produção diária de
variável GS1
leite por grau de sangue
6.5. Redução dos Dados
Os processos de análise em grandes massas de dados são muito complexos e
podem requisitar muito tempo de execução, tornando esses processos impraticáveis ou
91
inviáveis. Por isso, a técnica de redução pode ser aplicada para obter uma representação
reduzida de um conjunto de dados, que é muito menor em volume e ainda é possível
manter a integridade dos dados originais, ou seja, a mineração em um conjunto de dados
reduzidos poderá ser mais eficiente e ainda produzir o mesmo (ou quase o mesmo)
resultado analítico. HAN & KAMBER (2001) destacam que, em uma análise, um
conjunto de dados pode conter centenas de atributos. Muitos deles podem ser
irrelevantes ou redundantes para a tarefa de mineração. Embora escolher alguns
atributos úteis seja possível para um especialista, isso pode ser uma tarefa difícil e
demorada, especialmente quando o comportamento dos dados não é bem conhecido.
Para a base de dados utilizada, aplicou-se o método de amostragem randômica
sem repetição, utilizando 10% dos dados, onde estiveram presentes os principais
atributos (Anexo A). Para este processo, e para os itens 6.5.1 e 6.5.2, aplicou-se o
projeto ilustrado na figura 6.34.
Figura 6.34: Projeto para amostragem e redução dos dados
92
6.5.1. Análise das Correlações entre os Atributos
A correlação é um fator que indica o grau de redundância entre duas
informações. No caso de bases de dados pode-se calcular a correlação entre os atributos
(ou variáveis) com a intenção de verificar se existem variáveis que carregam informação
redundante (SOFT, 2008).
Quanto maior o valor absoluto da correlação calculada para duas variáveis, mais
correlacionadas estas são, ou seja, a informação que elas trazem é muito parecida
(redundância). Existem dois tipos de correlação: positiva e negativa. Para correlação
com sinal positivo diz-se que as variáveis são positivamente correlacionadas. Neste caso
observa-se que os valores das variáveis aumentam ou diminuem simultaneamente numa
determinada proporção. Para valor de correlação com sinal negativo, diz-se que as
variáveis são negativamente correlacionadas. O efeito é que quando os valores de uma
das variáveis aumentam os da outra diminuem e vice-versa. Quando o valor da
correlação é próximo ou igual a zero as variáveis são pouco ou não correlacionadas,
respectivamente. Dentre os recursos utilizados para a detecção da correlação entre
variáveis em um conjunto de dados podem ser citados os gráficos de projeção (scatter
plot) e a matriz de correlação (PROC CORR; SAS, 1989).
A matriz quadrada, apresentada na tabela 6.13, foi formada a partir do cálculo da
correlação de todos os pares de variáveis possíveis, aplicando-se o coeficiente de
correlação de Pearson entre as 13 variáveis escolhidas. Sendo assim, a matriz de
correlação criada possuí ordem 13 por 13. O cruzamento de linhas com colunas na
matriz de correlação representa o valor calculado para a correlação entre as variáveis
indicadas pelo índice ou rótulo da linha e coluna.
Para facilitar a localização de variáveis mais correlacionadas na tabela 6.14,
foram destacadas em azul claro as células com o valor absoluto maior ou igual a 0.9. As
células destacadas em tom rosa claro possuem as maiores correlações próximas de zero,
ou seja, são variáveis muito pouco correlacionadas. A diagonal principal pode ser
desconsiderada nesta análise, pois é o valor de correlação de uma variável com ela
mesma.
93
MNASC
ANASC
MCONT
ACONT
MPART
APART
ENASC
EPART
ECONT
DIM
IP
TDAYC
OPC
-0.00259 -0.01078
MNASC
1.00000
-0.07022 -0.01618
0.00729
0.05861
0.00177
0.96687
0.05979
-0.01628 -0.00460
0.00079
ANASC
-0.07022
1.00000
-0.00586
0.91238
0.03131
0.91536
-0.06787
0.03102
-0.00785
0.00040
-0.26216 -0.00375 -0.15867
MCONT
-0.01618 -0.00586
1.00000
-0.09631 -0.07550 -0.00232 -0.01649 -0.07683
0.97176
-0.05627 -0.00223 -0.05532 -0.00111
ACONT
0.00729
0.91238
-0.09631
1.00000
0.03374
0.98964
0.00713
0.03364
-0.09632
0.07900
0.13170
0.07510
0.20926
MPART
0.05861
0.03131
-0.07550
0.03374
1.00000
-0.05014
0.06038
0.96663
-0.07726
0.00214
-0.02346
0.00243
-0.02632
APART
0.00177
0.91536
-0.00232
0.98964
-0.05014
1.00000
0.00140
-0.04781 -0.00436 -0.00226
0.13462
-0.00481
0.21308
ENASC
0.96687
-0.06787 -0.01649
0.00713
0.06038
0.00140
1.00000
0.06166
-0.01641 -0.00412
0.00053
-0.00175 -0.01147
EPART
0.05979
0.03102
-0.07683
0.03364
0.96663
-0.04781
0.06166
1.00000
-0.07958
0.00220
-0.02353
0.00300
ECONT
-0.01628 -0.00785
0.97176
-0.09632 -0.07726 -0.00436 -0.01641 -0.07958
1.00000
-0.05843 -0.00253 -0.05806 -0.00176
DIM
-0.00460
0.00040
-0.05627
0.07900
0.00214
-0.00226 -0.00412
0.00220
-0.05843
1.00000
-0.00533
0.98143
-0.00607
IP
0.00079
-0.26216 -0.00223
0.13170
-0.02346
0.13462
-0.02353 -0.00253 -0.00533
1.00000
-0.00142
0.93203
TDAY
-0.00259 -0.00375 -0.05532
0.07510
0.00243
-0.00481 -0.00175
0.00300
0.98143
-0.00142
1.00000
-0.00183
OP
-0.01078 -0.15867 -0.00111
0.20926
-0.02632
0.21308
-0.01147 -0.02548 -0.00176 -0.00607
0.93203
-0.00183
1.00000
0.00053
-0.05806
Tabela 6.14: Matriz baseada no coeficiente de correlação de Pearson
94
-0.02548
Figura 6.35: Scatter plot do ano de
Figura 6.36: Scatter plot do ano de
controle com ano de nascimento
controle com ano de parto
As maiores correlações estiveram presentes entres os grupos das variáveis ano
de nascimento, ano de parto e ano de controle (figuras 6.35 e 6.36). Outra grande
correlação ocorreu entre as estações e meses de nascimento, parto e controle. Isto faz
sentido, pois as variáveis das estações foram criadas baseadas nos seus respectivos
meses. Os atributos que menos se correlacionaram foram idade ao parto com mêsestação de nascimento e dias em lactação com ano de nascimento, com valores bem
próximos de zero (figuras 6.37 e 6.38).
Figura 6.37: Scatter plot da idade ao parto
Figura 6.38: Scatter plot dos dias em
com a estação de nascimento
lactação com ano de nascimento
6.5.2. Análise dos Componentes Principais
A análise de componentes principais representa um dos métodos de compressão
de dados. A técnica aplica uma transformação linear nas variáveis com tentativa de
95
gerar um novo conjunto de variáveis não correlacionadas, sem perder a informação
sobre a variabilidade das mesmas (DUDA et al., 2001).
Os componentes principais servem essencialmente como um novo conjunto de
dados fornecendo informações importantes sobre variância, ou seja, a primeira
componente mostra a maior variação entre os dados, o próximo mostra a segunda maior
variação e assim por diante. Esta informação ajuda a identificar grupos ou padrões entre
os dados uma vez que os componentes são colocados segundo a ordem decrescente de
“significância”. Sendo assim a quantidade de atributos pode ser reduzida, eliminando os
componentes mais fracos, isto é, aqueles com baixa variância (PROC PRINCOMP;
SAS, 1989).
A seguir são apresentados os resultados da análise de componentes principais
com base nas variáveis ACONT, ANASC, APART, PL, DIM, IP, ECONT, ENASC,
EPART, TDAY e OP. Na tabela 6.15 são listados os autovalores e na tabela 6.16 os
autovetores, em ordem decrescente de seus respectivos autovalores.
Autovalor
Diferença
Proporção
Acumulado
1
2.98381158
0.73476653
0.2713
0.2713
2
2.24904505
0.23805528
0.2045
0.4757
3
2.01098977
0.89626485
0.1828
0.6585
4
1.11472492
0.12915604
0.1013
0.7599
5
0.98556888
0.06851153
0.0896
0.8495
6
0.91705735
0.26438409
0.0834
0.9328
7
0.65267326
0.58590223
0.0593
0.9922
8
0.06677104
0.04823034
0.0061
0.9982
9
0.01854070
0.01810129
0.0017
0.9999
10
0.00043941
0.00006136
0.0000
1.0000
11
0.00037805
-
0.0000
1.0000
Tabela 6.15: Matriz de correlação dos autovalores
As duas primeiras principais componentes representaram aproximadamente
47.57% de toda a informação original. Foi possível descrever aproximadamente 93.28%
da informação representativa das variáveis originais reduzindo a dimensão para 6
variáveis ou 84.95% ao se reduzir para 5 variáveis.
96
A componente 7 (PRIN7) possuiu maior influência positiva da variável PL com
valor de 0.876638. Já a componente 9 (PRIN9) foi mais influenciada, negativamente,
pela variável TDAY. Para melhor verificação da contribuição de cada variável para cada
componente (tabela 6.16) optou-se por destacar aquelas que exerceram maior influência
com fundo azul claro e aquelas que exerceram menor influência com rosa claro.
Em relação à redução de dimensão, a figura 6.39 descreve o conteúdo da
informação agregada a cada componente com base em seus autovalores destacando a
importância de cada autovalor e conseqüentemente de cada autovetor envolvido na
transformação. Esta importância está relacionada à quantidade de informação dos dados
originais que cada autovetor agrega. O autovetor associado ao maior autovalor é a
componente principal do novo conjunto de dados. Isto significa que os autovetores
associados a autovalores muito pequenos descrevem poucas características dos dados
originais e podem ser assim eliminados, tornando a nova base de dados mais compacta
(PROC PRINCOMP; SAS, 1989).
Figura 6.39: Gráfico de Pareto
Figura 6.40: Projeção entre a primeira
componentes em relação aos autovalores
e segunda componente
Decidiu-se, com a análise dos componentes principais, diminuir a
dimensionalidade de 11 variáveis para 6 e, a informação perdida nesta transformação,
foi menor que 7% da informação contida nos dados originais. Sendo assim, trabalhou-se
com 9785670 dados a menos (redução de 5 variáveis em uma base com 1957134
registros).
É importante destacar que para problemas de aproximação de funções, a
redução da dimensionalidade baseada na análise de componentes principais deve ser
conduzida com bastante atenção.
97
PRIN1
PRIN2
PRIN3
PRIN4
ACONT 0.566953 0.115638 0.018480 0.060363
PRIN5
PRIN6
PRIN7
PRIN8
PRIN9
PRIN10
PRIN11
-.004577
-.029810
-.080309
-.105201
0.032579
-.681029
-.421805
0.779636
ANASC
0.519363 0.167024 -.250145
-.027243
-.012237 0.032267
-.066427
0.151509
-.016008
-.049020
APART
0.572218 0.061900 -.005371
-.029609
0.039504 -.051378
-.113290
-.104608
-.021590
0.724347 -.338685
PL
0.214864
-.376171
-.025906
-.076386
0.100400 0.163812 0.876638 -.018999
0.007327
-.000278
DIM
-.037291
0.577363 0.302911
-.076804
0.072899 0.082037 0.229496 -.004347
0.706510 0.052164 0.031589
IP
0.097501
-.267870
0.618537 0.030914
-.021975 0.002153
-.129716
-.651163
-.009925
-.018639
0.305652
ECONT
-.016422
-.098846
-.038045
0.592153 0.495991
-.249917
-.008154
0.002322
-.055563
-.034402
ENASC
-.017498
-.001801
0.007701 0.466523 0.790643 -.390352
0.027252 0.021205 0.000682
-.003532
0.057374
EPART
0.000284 0.025532 -.031273
0.658142
-.015039 0.745927
-.070452
-.005361
-.000982
0.054310 -.025369
TDAY
-.038357
0.574475 0.305792
-.075909
0.075638 0.083497 0.240096 0.005704
-.706303
-.000272
0.000501
OP
0.149275
-.260470
0.728055 0.006001
-.000613
-.000547
-.570139
0.605021 0.020802
-.026136 0.010048
-.111821
Tabela 6.16: Matriz dos autovetores
98
-.000213
Capítulo 7
Clusters de Grupos Contemporâneos
7.1. Formação dos Grupos Contemporâneos
GC baseados nos registros dos controles leiteiros permitem uma definição mais
exata para sua formação, ou seja, onde animais estão sujeitos a efeitos ambientais
semelhantes (PTAK & ZARNECKI, 2000), pois a sua associação pode ser feita em
função do ano e da estação de controle em cada exploração, em vez do clássico
rebanho-ano-estação em que foi realizado o parto do animal.
Considerando efeito como fixo, todos os animais são comparados com a média
do grupo, assumindo que não existem diferenças genéticas entre GC e que as existentes
são devidas a fatores ambientais (VASCONSELOS, 2007). Diversos autores como,
HENDERSON (1975), MEYER (1987), SCHAEFFER (1987), VAN VLECK (1987),
VISSCHER & GODDARD (1993) sugerem a utilização dos GC como efeito fixo, pois
tomam em consideração os efeitos não aleatórios, gerados por tendências sistemáticas
de origem ambiental e genética. Outro quesito, importante à aplicação dos GC como
efeito fixo, é a possibilidade de diminuir o número de componentes de variância
(WADE, 1990).
Assumir o efeito dos GC como fixo implica encontrar uma solução técnica que
permita utilizar o maior número possível de controles leiteiros e de animais,
minimizando os erros genéticos que possam predizer uma melhor avaliação.
Para este estudo criou-se uma nova base de dados com os atributos necessários
para formação dos GC, baseado em rebanho, ano e estação do controle leiteiro, com um
total de 32018 registros.
O ano do controle leiteiro está compreendido entre 1993 a 2007 e dividido pelas
estações, no qual:
•
o código 1 representa o intervalo entre os meses de janeiro a março;
•
o código 2 representa o intervalo entre os meses de abril a junho;
99
•
o código 3 representa o intervalo entre os meses de julho a setembro;
•
o código 4 representa o intervalo entre os meses de outubro a dezembro.
A quantidade de GC estava muito bem distribuída entre as estações, tendo em
média 500 GC por estação. O ano de 2001 teve maior participação, com média de 680
GC por estação (tabela 7.1).
ESTAÇÃO
ANO
1
2
3
4
1993
227
292
331
370
1994
412
461
497
502
1995
513
528
543
552
1996
554
530
533
528
1997
576
639
658
656
1998
655
636
621
617
1999
585
576
549
574
2000
617
654
654
684
2001
676
691
687
668
2002
655
639
632
614
2003
601
585
567
559
2004
552
535
505
458
2005
396
394
394
381
2006
378
376
366
355
2007
348
342
337
339
Tabela 7.1: GC por ano e estação de controle
A quantidade de animais presentes nos GC por ano do controle leiteiro por ser
observada na figura 7.1. A partir de 1999 a participação dos GC com mais de 15 animais
tiveram um aumento expressivo. De forma inversa, GC com até três animais tiveram
sua participação bem reduzida neste mesmo ano. As maiores participações ocorreram
entre estes dois grupos, sendo que em 1997 houve 1355 GC com até três animais e em
2002, 1347 GC com mais de 15 animais.
100
Figura 7.1: Quantidade de animais nos GC por ano de controle
Citado anteriormente e no segundo capítulo deste trabalho, aplicar GC como
efeito fixo no modelo de avaliação genética implica na existência de um número
mínimo de observações por nível de efeitos fixos para maximizar o número de
observações e, simultaneamente, minimizar o erro residual e a variância do erro de
predição – baseado na média dos efeitos fixos do GC com o número mínimo de
observações. SCHMITZ et al. (1991) sugeriram um número mínimo de 10 a 15
observações por GC, enquanto que CARABAÑO et al. (2004) e VASCONSELOS et al.
(2006) aconselharam o mínimo de 5 a 3 observações, respectivamente. Neste sentido
optou-se por criar quatro conjuntos de dados (A1, A2, A3 e A4) distribuídos a seguir:
•
A1: GC contendo no máximo 3 observações;
•
A2: GC contendo no máximo 5 observações;
•
A3: GC contendo no máximo 10 observações;
•
A4: GC contendo no máximo 15 observações.
A quantidade de observações por cada base de dados está ilustrada na figura 7.2.
Em um total de 32018 GC, 47.5% destes tiveram no máximo 15 observações. As
proporções de aumento nas participações dos GC entre as bases 1 e 2, 2 e 3, 3 e 4 foram,
respectivamente, 29.8%, 51.7% e 20%. Para todas as bases, as maiores participações
ocorreram em 1997 e as menores em 2005 (figura 7.3).
101
Figura 7.2: Observações por GC
Figura 7.3: Quantidade de GC
por ano de controle
A distribuição dos registros relacionada às estações 1, 2, 3 e 4 estiveram muito
bem divididas em todas as bases de dados, respeitando a quantidade mínima em cada
uma delas (figura 7.4).
Figura 7.4: Registros em A1, A2, A3 e A4,
respectivamente, por estação
A aplicação dos limites impostos nas bases A1, A2, A3 e A4 implicam a perda
de parte da informação, que pode ser significativa quando existe um grande número de
GC de dimensões reduzidas (VASCONCELOS et al., 2008), como é o caso da base de
dados estudada. A não utilização de parte da informação tem conseqüências negativas
para o progresso genético (SWALVE, 1995), principalmente para os programas de
seleção (CARABAÑO et al., 2004).
102
7.2.
Formação
de
Clusters
de
Grupos
Contemporâneos
No início da década de noventa, SCHMITZ et al. (1991), formaram clusters de
animais com datas de parto próximas, na mesma estação e no próprio rebanho. O
objetivo era encontrar, no mínimo, 15 observações por classe de efeitos ambientais,
agrupando animais tendo em vista a distância entre controles, variando o intervalo de
tempo entre um mês e o limite máximo de um ano.
STRABEL & SZWACZKOWSKI (1999), sugeriram a formação de clusters
associando classes de rebanho-ano-mês consecutivos dentro do mesmo rebanho ou entre
rebanhos semelhantes. Estas classes eram classificadas pela produção média do rebanho
e data do controle leiteiro.
Nos últimos anos, CARVALHEIRA (2000) defendeu um sistema de formação
de clusters que permitiu conservar as 12 classes mensais por ano em cada rebanho,
mantendo as associações temporais entre os efeitos fixos e as observações.
CARABAÑO et al. (2004) formaram clusters agrupando GC dentro do mesmo rebanho
com objetivo de obter no mínimo 5 observações por classe de rebanho-ano-mês de
controle. VASCONSELOS et al. (2008) aconselharam a clusterização do agrupamento
de GC, baseados em rebanho-ano-mês, utilizando a média de produção diária dos GC.
7.2.1. Desenvolvimento
A formação de agrupamentos ou clusters de GC apresentada neste trabalho é
uma das possíveis soluções para o problema do número insuficiente de observações por
classe de efeitos fixos no caso de GC com dimensão reduzida.
Para esta fase do trabalho foi utilizado o sistema SAS® Enterprise MinerTM 4.3,
no qual foi desenvolvido o projeto, domonstrado na figura 7.5.
103
Figura 7.5: Fluxograma do projeto para clusterização dos GC
A partir das bases A1, A2, A3 e A4 com número máximo de 3, 5, 10 e 15
observações, respectivamente, foram criadas as bases de dados B1, B2, B3 e B4
contendo as informações já existentes em cada uma delas acrescentando os atributos:
•
média das produções diárias (MPL);
•
média das idades ao parto (MIPC);
104
•
média dos dias em lactação (MDIMC);
•
média das ordens de parto (MOPCC);
•
estado (UFC).
Todas as médias foram discretizadas em faixas de valores com objetivo de
substituir os valores contínuos por valores categóricos. As médias dos dias em lactação
foram dividas em classes de 10 em 10 dias. As médias das idades ao parto foram
transformadas em meses e posteriormente divididas em 15 classes (entre 4 meses) e as
médias das ordens de parto foram aproximadas (Anexo A).
Com o objetivo de formar clusters que permitissem reconhecer similaridades
entre os GC, e, dissimilaridade com os GC dos demais grupos foi aplicado o método da
variância mínima de Ward (PROC CLUSTER; SAS Institute, 2008). Embora este
método mostre tendência em formar grupos de mesmo tamanho, tem, também, bom
desempenho para agrupamentos com pouca distinção entre grupos, o que é adequado
para este estudo. Para tanto, levou-se em consideração as distâncias:
•
entre as quantidades de animais no rebanho;
•
entre os anos do controle leiteiro;
•
entre as estações do controle leiteiro;
•
entre as classes das idades ao parto;
•
da média das ordens de parto;
•
entre as classes dos períodos em lactação;
•
da média de produção diária.
Para as bases de dados B1, B2, B3 e B4, somente GC sem o número mínimo de
observações foram candidatos a formarem clusters. Os GC foram agrupados de acordo
com os seguintes critérios:
1. Os GC foram ordenados de acordo com as distâncias fornecida pelo
PROC CLUSTER (SAS Institute, 2008) de modo que os GC adjacentes
fossem os mais próximos em termos de semelhança;
2. GC formaram clusters seguindo o ramo da árvore de acordo com a
menor distância entre eles;
3. Quando ocorreu mais de um GC com a mesma distância, a prioridade
para formar o cluster foi dada àquele com menor tamanho – isto permitiu
105
a formação de mais clusters com tamanho reduzido.
4. Depois de cada clusterização contou-se todas as observações de cada GC,
onde o processo somente foi finalizado se todos os GC atingissem o
número mínimo exigido (para cada base de dados).
5. Caso contrário, o processo de agrupamento continuava. Primeiro
verificando se havia GC ou clusters disponíveis nos níveis inferiores da
árvore e, em seguida, subindo até o nível superior do ramo da árvore,
passando para os candidatos do ramo descendente.
7.2.2. GC com no máxmo 3 observações
A base de dados B1, formada pelos GC com no máximo 3 observações, teve
6443 registros distribuídos em 20.25% para GC com uma observação, 26.26% com duas
observações e 53.48% com três observações (tabela 7.2 e figura 7.6).
GC
Registros
PL(kg)
DIM(dias)
OP
IP(meses)
1
1305
20,88
140
1
36 a 40
2
1692
22,14
140
2
36 a 40
3
3446
22,7
150
1
36 a 40
Tabela 7.2: Número de registros e médias da PL, DIM, OP e IP por GC
As maiores médias de produção diária ocorrem nos anos de 2000, com 24.32 kg
e em 2005, com 24.26 kg. Os menores ocorreram em 1993 e 2004 com 20.55 kg e 21.36
kg, respectivamente (figura 7.7).
Dentre as classes dos dias em lactação, as maiores freqüências estiveram
presentes entre as classes 2 e 3, com mais de 400 GC em ambas as classes. O restante
das distribuições apresentou uma média constante em torno de 170 GC por classe
(figura 7.8).
106
Figura 7.6: Distribuição
Figura 7.7: Média da produção
das observações
diária por ano do controle
O histograma das classes de idade ao parto, para a base B1, não demonstrou uma
distribuição normal. As classes 2 e 3, ou seja, GC que pariram entre 20 a 28 meses de
idade foram os mais freqüentes. GC com idades menores que 20 meses e maiores que
60 meses apresentaram poucos partos (figura 7.9).
Figura 7.8: Histograma das classes dos
Figura 7.9: Histograma das classes das
dias em lactação
idades ao parto
7.2.2.1. Clusterização
Para a base de dados B1, foram formados 5994 clusters, em um total de 1523
rebanhos, até que o último GC atingissem o mínimo de 3 observações. Para cada
clusters teve-se em média 3 GC.
As médias e os desvios padrões das medidas para seleção dos agrupamentos
estão relacionados na tabela 7.2.
107
MEDIDA
MÉDIA
DESVIO
MPL
22.1
7.4
MDIMC
14.7
10.1
MOPCC
1.4
0.6
MIPC
5.8
2.8
Tabela 7.3: Médias e desvios após clusterização
Após o processo de clusterização analisou-se as médias da produção de leite por
ano de controle. Percebeu-se um aumento entre 2001 a 2006 em 0.2kg e 0.3kg, em que
também foram os que registram maiores médias com 24.5kg e 24.6kg, respectivamente.
Em 2003 manteve a menor média com 20.12kg. Em média, houve uma diferença de 0.6
kg entre as produções comparandas antes do processo de clusterização.
Figura 7.10: Médias da produção de leite por
controle (ano) após clusterização
Quanto aos dias de lactação em classes, a mudança mais expressiva ocorreu na
diminuição da freqüência para animais até 10 dias em lactação e um aumento para
animais entre 120 a 130 dias em lactação. As classes 2 e 3 mantiveram as maiores
freqüências. De forma geral, apresentaram a mesma distribuição comparada com a
distribuição antes do processo da clusterização – histograma ilustrado na figura 7.11.
Para as idades ao parto (figura 7.12) houve uma alteração entre as freqüências das
108
classes 3 e 4 onde, após a clusterização, a classe 4 (28 a 32 meses de idade ao parto)
passou a ter a maior freqüência.
Figura 7.11: Histograma das classes dos
Figura 7.12: Histograma das classes das
dias em lactação após clusterização
idades ao parto após clusterização
Importante destacar que para todos os GC foram identificados as semelhanças,
de forma geral, conforme ilustrado nas figuras 7.13, 7.14 e 7.15, utilizando as medidas
estatísticas Pseudo F, Pseudo T-Squared e Cubic Clustering Criterion (KETTREE &
NAIK, 2000) para seleção do número de agrupamentos. De modo geral, essas medidas
estão associadas a um indicador de dissimilaridade agregada entre todos os clusters
construídos. Através de um gráfico dessas medidas versus o número de clusters
selecionado, é possível identificar aumentos expressivos (picos) no grau de
dissimilaridade para algum número específico de clusters. Esses picos no grau de
dissimilaridade agregada sugerem então pontos de parada no algoritmo de agregação
seqüencial, indicando, portanto quantos clusters utilizar. Com auxílio também do
dendrograma, que indica passo a passo o histórico do processo de agrupamento dos GC
(figura 7.16), observa-se que aquele com dois grupos são o que mais nitidamente os
separam.
109
Figura 7.13: Pseudo F
Figura 7.14: Pseudo T-Squared
Statistic em B1
Statistic em B1
Figura 7.15: Cubic Clustering
Figura 7.16: Dendrograma da
Criterion em B1
clusterização em B1
7.2.3. GC com no máximo 5 observações
Com 8369 registros, a base de dados formada pelos GC com no máximo 5
observações (B2), teve 41.18% dos dados nos GC com três observações. Os GC com
uma e duas observações e os GC com quarto e cinco observações tiveram 35.81% e
23.01% dos dados, respectivamente (tabela 7.4 e figura 7.17).
As distribuições das médias das produções diárias em B2 foram bem
semelhantes as da base de dados B1, variando aproximadamente 0.04% para maiores
médias e 0.02% para os menores (figura 7.18).
110
GC
Registros
PL(kg)
DIM(dias)
OP
IP(meses)
1
1305
20,88
140
1
36 a 40
2
1692
22,14
140
2
36 a 40
3
3446
22,7
150
1
36 a 40
4
1047
22,16
150
2
36 a 40
5
879
22,64
150
1
36 a 40
Tabela 7.4: Número de registros e médias da PL, DIM, OP e IP por GC
O histograma das classes dos dias em lactação, ilustrado na figura 7.19,
apresentou semelhança com relação a B1, mas é importante destacar que em B2 as
classes 2 e 4 tiveram aproximadamente a mesma freqüência com 472 e 469 GC,
respectivamente. Destaca-se que 20.65% dos dados estiveram entre 20 a 60 dias em
lactação.
Figura 7.17: Distribuição
Figura 7.18: Média da produção
das observações
diária por ano do controle
111
Figura 7.19: Histograma das classes dos
Figura 7.20: Histograma das classes das
dias em lactação
idades ao parto
7.2.3.1. Clusterização
Até que o último GC atingisse o número mínimo de 5 observações, utilizando a
base de dados B2 com 1639 rebanhos, foram formados 7960 clusters para os quais
haviam em média 4 GC. Na tabela 7.5 estão relacionadas as médias e os desvios
padrões das medidas para seleção dos agrupamentos.
MEDIDA
MÉDIA
DESVIO
MPL
22.2
7.2
MDIMC
14.7
9.7
MOPCC
1.4
0.6
MIPC
5.9
2.7
Tabela 7.5: Médias e desvios em após clusterização
As médias das produções de leite por ano não apresentaram mudanças
significativas após o processo da clusterização. Fica claro que as médias das maiores
produções mantiveram com 24kg em 2000 e 2006. A única mudança, pouco expressiva,
ocorreu em 1996 com aumento de 0.3 kg (figura 7.21).
112
Figura 7.21: Médias da produção de leite por
controle (ano) após clusterização
O histograma das classes dos dias em lactação após a clusterização (figura 7.22)
apresentou distribuição e resultados muito semelhantes antes da clusterização.
Percebeu-se ligeira variação das freqüências, em média 40 registros por classe. As
máximas freqüências mantiveram entre as classes 2, 3 e 4, ou seja, entre 20 a 50 dias em
lactação. Para as classes das idades ao parto (figura 7.23), a classe 3 (entre 24 a 28
meses) deixou de predominar após a clusterização. A maior freqüência passou a ser
idades ao parto com 28 a 32 meses. Destaca-se também a ausência de dados para idades
ao parto menores que 20 meses.
Figura 7.22: Histograma das classes dos
Figura 7.23: Histograma das classes das
dias em lactação após clusterização
idades ao parto após clusterização
113
Para a identificação de grandes grupos, utilizou-se as medidas de distâncias
ilustradas nas figuras 7.24, 7.25, 7.26 e 7.27. Dentre todos os GC presentes na base de
dados B2, sugere-se uma divisão de 2 grandes clusters.
Figura 7.24: Pseudo F
Figura 7.25: Pseudo T-Squared
Statistic em B2
Statistic em B2
Figura 7.26: Cubic Clustering
Figura 7.27: Dendrograma da
Criterion em B2
clusterização em B2
7.2.4. GC com no máximo 10 observações
Os GC com no máximo 10 observações, presentes na base de dados B3 com 12696
registros, estiveram mais freqüentes nos grupos com 3 observações (27.14%), seguido
dos grupos com no mínimo 2 e 6 observações com 13.33% e 11.70%, respectivamente
(tabela 7.6 e figura 7.28).
114
GC
Registros
PL(kg)
DIM(dias)
OP
IP(meses)
1
1305
20,88
140
1
36 a 40
2
1692
22,14
140
2
36 a 40
3
3446
22,7
150
1
36 a 40
4
1047
22,16
150
2
36 a 40
5
879
22,64
150
1
36 a 40
6
1485
22,85
150
2
36 a 40
7
650
22,54
150
1
36 a 40
8
734
22,80
150
2
36 a 40
9
899
22,69
160
1
36 a 40
10
559
22,94
150
2
36 a 40
Tabela 7.6: Número de registros e médias da PL, DIM, OP e IP por GC
A única diferença significativa quanto a média da produção diária por ano do
controle leiteiro em B3, comparada com a base B2, ocorreu em 2004 com 1kg a menos
(figura 7.29).
Figura 7.28: Distribuição
Figura 7.29: Média da produção
das observações
diária por ano do controle
Uma mudança bastante significativa em comparação as bases B1 e B2,
relacionada à base B3, ocorreu na distribuição de freqüência das classes dos dias em
lactação. Vinte classes tiveram freqüência acima de 400 registros, representando 71.93%
da base de dados, sendo que as maiores médias ocorreram entre 80 a 220 dias em
lactação. Após 230 dias houve uma diminuição contínua, aproximadamente 0.4%, até os
115
360 dias, conforme ilustrado na figura 7.30.
Figura 7.30: Histograma das classes dos
Figura 7.31: Histograma das classes das
dias em lactação
idades ao parto
7.2.4.1. Clusterização
Os resultados relativos à clusterização da base de dados B3 (mínimo de 10
observações por GC com 1713 rebanhos) determinou em média 4 GC para cada grupo,
totalizando 12161 clusters até que o último GC atingissem o número mínimo exigido.
A tabela 7.7 expõe as médias e os desvios padrões das principais medidas para seleção
dos agrupamentos.
MEDIDA
MÉDIA
DESVIO
MPL
22.4
6.8
MDIMC
15.0
8.7
MOPCC
1.4
0.6
MIPC
5.9
2.6
Tabela 7.7: Médias e desvios em após clusterização
As médias da produção diária de leite por ano de controle após clusterização
apresentaram variações de 1kg entre 1993 a 2007, onde as médias máximas atingiram
24kg e as mínimas 21kg (figura 7.32).
116
Figura 7.32: Médias da produção de leite por
controle (ano) após clusterização
Quanto a distribuição de freqüência das classes dos dias em lactação após a
clusterização, as maiores e menores freqüências foram presentes nas mesmas classes,
variando em média 27 GC entre o processo antes e após a clusterização (figura 7.33).
As idades ao parto alteraram significativamente somente para as classes 2, 3 e 4.
A freqüência das idades ao parto entre 20 a 24 meses reduziram 81% após a
clusterização. O mesmo ocorreu para idades entre 24 a 28 com redução de 27%. O
aumento expressivo ocorreu na classe 4 (entre 28 a 32 meses) com 273 dados (figura
7.34).
Figura 7.33: Histograma das classes dos
Figura 7.34: Histograma das classes das
dias em lactação após clusterização
idades ao parto após clusterização
117
Foram identificados dois grandes grupos, para a base de dados B3, através da
medida de similaridade Pseudo F Statistic e na análise do dendrograma (figuras 7.35 e
7.38). Para as outras duas medidas (Pseudo T-Squared Statistic e Cubic Clustering
Criterion) foi sugerido, a priori, um único grande grupo (figuras 7.36 e 7.37).
Figura 7.35: Pseudo F
Figura 7.36: Pseudo T-Squared
Statistic em B3
Statistic em B3
Figura 7.37: Cubic Clustering
Figura 7.38: Dendrograma da
Criterion em B3
clusterização em B3
7.2.5. GC com no máximo 15 observações
Dos 32018 GC formados através da base de dados original, 47.57% deles
estiveram presentes na base B4. Os GC formados com 3 observações tiveram maior
freqüência (22.62%), como nas outras bases. Dentre os GC com 7 a 15 observações a
média foi 660 registros (4.2%). Na base de dados B4, as médias das produções de leite
não se alteraram entre os anos de controle comparada com a base B3 (tabela 7.8, figuras
7.39 e 7.40).
118
GC
Registros
PL(kg)
DIM(dias)
OP
IP(meses)
1
1305
20,88
140
1
36 a 40
2
1692
22,14
140
2
36 a 40
3
3446
22,7
150
1
36 a 40
4
1047
22,16
150
2
36 a 40
5
879
22,64
150
1
36 a 40
6
1485
22,85
150
2
36 a 40
7
650
22,54
150
1
36 a 40
8
734
22,80
150
2
36 a 40
9
899
22,69
160
1
36 a 40
10
559
22,94
150
2
36 a 40
11
507
23,32
150
1
36 a 40
12
661
23,32
160
2
36 a 40
13
418
23,43
160
2
36 a 40
14
436
23,43
160
2
36 a 40
15
515
23,63
160
2
36 a 40
Tabela 7.8: Número de registros e médias da PL, DIM, OP e IP por GC
Figura 7.39: Distribuição
Figura 7.40: Média da produção
das observações
diária por ano do controle
O histograma da distribuição de freqüência das classes dos dias em lactação da
base B4 tendeu para uma normal, mas as classes 2, 3 e 4 tiveram altas freqüências
(acima de 500 registros por classe). A maioria dos GC ficaram presentes entre as classes
12 a 18, ou seja, GC com idade ao parto entre 130 a 190 dias em lactação (acima de 600
119
registros por classe). Mais de 70% dos GC tiveram as idades ao parto entre 24 a 44
meses (figuras 7.41 e 7.42).
Figura 7.41: Histograma das classes dos
Figura 7.42: Histograma das classes das
dias em lactação
idades ao parto
7.2.51.1. Clusterização
Para a clusterização dos dados em B4 formou-se 15231 clusters com 1730
rebanhos até que o último GC atingissem no mínimo de 15 observações. Para cada
clusters teve-se em média 17 GC. As médias e desvios para as principais medidas estão
relacionadas na tabela 7.9.
MEDIDA
MÉDIA
DESVIO
MPL
22.5
6.6
MDIMC
15.0
8.3
MOPCC
1.4
0.6
MIPC
6.0
2.5
Tabela 7.9: Médias e desvios em após clusterização
Após o processo de clusterização, as médias da produção de leite por ano de
controle em B4, tiveram um aumento em 2000 e 2006 em 0.7kg e 0.4kg, em que
também foram os que registram maiores médias com 25.2kg e 24.1kg, respectivamente.
Em 1993, 1994 e 2007 foram encontrados os menores médias com 21kg (figura 7.43).
120
Figura 7.43: Médias da produção de leite por
controle (ano) após clusterização
Quanto aos dias de lactação em classes, a mudança mais expressiva ocorreu na
diminuição da freqüência para animais até 10 dias em lactação e um aumento para
animais com 140 a 150 e 180 a 190 dias em lactação. De forma geral, o histograma
ilustrado na figura 7.44, apresentou a mesma distribuição comparada com a mesma
distribuição antes do processo da clusterização.
A distribuição de freqüência para as classes das idades ao parto após a
clusterização está ilustrada na figura 7.45. Idades até 24 meses ao parto apresentaram as
menores freqüências. Mais de 70% dos clusters estiveram representados entre 24 e 44
meses de idade ao parto.
Figura 7.44: Histograma das classes dos
Figura 7.45: Histograma das classes das
dias em lactação após clusterização
idades ao parto após clusterização
121
Para a base de dados B4 foram identificados diferentes grandes grupos,
dependendo da métrica utilizada. Percebeu-se, no dendrograma, que através do grau de
similaridade sugerido, existem dois grandes clusters, mas não distantes outros grandes
conjuntos. Pela métrica utilizando Pseudo F Statistic foi sugerido 4 grandes grupos,
enquanto que Pseudo T-Squared Statistic sugeriu 3 grupos (figuras 7.46 a 7.49).
Figura 7.46: Pseudo F
Figura 7.47: Pseudo T-Squared
Statistic em B4
Statistic em B4
Figura 7.48: Cubic Clustering
Figura 7.49: Dendrograma da
Criterion em B4
clusterização em B4
122
Capítulo 8
Conclusões
Esta dissertação apresentou uma possível solução para o problema do número
insuficiente de observações por grupo contemporâneo de tamanho reduzido para as
avaliações genéticas de bovinos leiteiros, bem como a aplicação de um método de
clusterização hierárquica capaz de realizar este processo.
Como foi visto anteriormente, sabe-se que a eliminação de pequenos rebanhos
pode ter conseqüências negativas para o melhoramento genético, diminuindo a
oportunidade de seleção de alguns reprodutores. Agrupar rebanhos pode ser uma
solução para este problema, mas faz-se necessário conhecer as diferenças e semelhanças
entre os principais métodos, saber quando aplicá-los e desenvolver técnicas que definam
quais os melhores critérios de semelhança entre eles, de modo a minimizar outras fontes
de erros nas avaliações genéticas.
Foi comprovada a eficácia da análise de componentes principais na redução de
11 variáveis descritivas que definiram as semelhanças entre os GC, para seis vetores,
que explicaram 93,28% da variância total dos dados.
Nesse estudo aplicou-se o método da variância mínima de Ward (PROC
CLUSTER; SAS Institute, 2008), com objetivo em formar grupos de mesmo tamanho
com pouca distinção entre grupos, a quatro diferentes conjuntos de dados onde somente
GC sem o número mínimo de observações foram candidatos a formarem clusters. O
conjunto de dados B15 foi o que melhor ajustou os dados, apresentou menores desvios e
gerou grupos mais precisos, considerando pequenas mudanças na estrutura original dos
rebanhos com relação à base de dados antes da clusterização. Neste mesmo conjunto, as
menores variações entre GC e a maiores correlações sugerem que os procedimentos de
clusterização podem ser uma boa escolha para pré-processar a base de dados antes da
aplicação das análises genéticas em rebanhos leiteiros.
Apesar de esperado, quanto maior o número de contemporâneos em cada grupo,
menor a variância do erro de predição e, portanto, maior rigor de predição. Verificou-se
uma tendência crescente à medida que aumentou a restrição do número mínimo de
123
animais contemporâneos em cada GC de três para quinze observações. Neste sentido,
faz-se necessário garantir um número máximo de observações em cada GC e, ao mesmo
tempo, maximizar o número de filhas e de rebanhos que contribuem para a avaliação
dos touros.
Espera-se que este estudo colabore com as metodologias empregadas pelos
órgãos oficiais responsáveis pela avaliação genética das características de produção de
bovinos leiteiros. Porém, ainda é necessário continuar com a pesquisa, o
desenvolvimento e a validação desta metodologia para viabilizá-la como solução para
número insuficiente de observações por grupo contemporâneo de tamanho reduzido
para as avaliações genéticas de bovinos leiteiros
Durante esta dissertação, um artigo titulado como “Clusterização de rebanhos
leiteiros usando método de aprendizado não supervisionado” foi publicado no Sétimo
Congresso Brasileiro de Agroinformática em 2009 (Anexo C). O objetivo do trabalho
foi estudar métodos de clusterização em um conjunto de dados relacionado ao ciclo de
vida e produção de leite de bovinos da raça Holandesa, visando encontrar padrões que
possam dividi-la em grupos usando todos os rebanhos como candidato em potencial.
Apesar dos resultados serem relativamente conclusivos às vantagens da
aplicação técnica de clusterização de GC com tamanho reduzido, ficou claro a
necessidade de investigar com mais detalhe a aplicação desta técnica, como por
exemplo, assumir alguns efeitos aleatórios.
Para futuros estudos, em continuidade ao trabalho realizado, seria importante:
•
assumir efeitos aleatórios para criação de GC;
•
formar cluster com outros números mínimos de GC por base de dados;
•
testar outros métodos de clusterização;
•
avaliar os resultados encontrados através do Modelo Animal (avaliação
genética);
•
criar uma interface que facilite a aplicação;
•
aplicar a metodologia estudada para outras raças de bovinos leiteiros.
124
Referências Bibliográficas
ALMEIDA, A.; MARANHÃO, A. Aplicação de Algoritmos de Agrupamento a
Dados Biológicos. Tese M.Sc., Universidade Federal de Alagoas, Alagoas, 2004.
AMO, S. Técnicas de Mineração de Dados. Tese de M.Sc., Programa de Mestrado em
Ciência da Computação, Universidade Federal de Uberlândia. Uberlândia – MG,
2003.
ANDERBER, M. R. Clustering analysis for applications. London: Academic Press,
1973.
ANDRADE, L. M.; EL FARO, L.; CARDOSO, V. L., et al. Efeitos genéticos e de
ambiente sobre a produção de leite e a contagem de células somáticas em vacas
holandesas. Revista Brasileira de Zootecnia, v.36, n.2, pp.343-349, 2007.
ASBIA – Associação Brasileira de Inseminação Artificial. Disponível em:
<http://www. asbia.com.br>. Acesso em 26 de janeiro de 2010.
ASCENO, J. Reconhecimento de padrões. Setúbal, Portugal. Escola Superior de
Tecnologia, 2003.
BAO, H. T. Automatic Clustering Detection. Disponível em: <http://www.
netnam.vn/unescocourse/knowlegde/51.htm>. Acesso 30 outubro de 2009.
BERKHIN, P. Survey of clustering data mining techniques. Relatório Técnico. San
Jose,
USA,
2002.
Disponível
em:
<http://citeseerx.ist.psu.edu/viewdoc/
download?doi=10.1.1.18.3739&rep=rep1&type=pdf>. Acesso em 24 de outubro de
2009.
BEZDEK, J. C.; PAL, S. K. Fuzzy models for pattern recognition: methods that
search for structures in data. Piscataway: IEEE Press, 1992.
BRAGA, A. P., et al. Redes neurais artificiais. In: Rezende, Solange Oliveira, 2003.
BRAILOVSKY, V. L. A probabilistic approach to clustering. In: Pattern Recogn
Lett. pp. 193–198, 1991.
BUSSAB, W. O.; MIAZAKI, E. S.; ANDRADE, D. F. Introdução à análise de
agrupamentos. São Paulo: Associação Brasileira de Estatística, 1990.
CALINSKI, R.; HARABASZ, J. A dendrite method for cluster analysis.
Communications in Statistics, v. 3, pp. 1–27, 2004.
CARABAÑO, M. J.; MORENO, A.; LÓPEZ-ROMERO, P.; DÍAZ., C. Comparing
alternative definitions of the contemporary group effect in Avileña Negra
125
Ibérica beef cattle using classical and Bayesian criteria. Journal of Animal
Science V.82, pp. 3447-3457, 2004.
CARDOSO V. L.; CASSOLI L. D.; GUILHERMINO M. M.; MACHADO P. F.;
NOGUERIA, J. R.; FREITAS M. A. R. Análise econômica de esquemas
alternativos de controle leiteiro. In: Arq. Bras. Med. Vet. Zootec. v.57 n.1 Belo
Horizonte, fev. 2005.
CARNEIRO, A. P. S.; TORRES, R. A.; EUCLYDES, R. F., et al. Efeito da conexidade
de dados sobre o valor fenotípico médio e a variância genética aditiva. Rev.
bras. Zootec., v.30, n.2, p.336-341, 2001.
CARVALHEIRA, J. Predição de parâmetros genéticos para a produção diária de
leite em gado Holstein, Pardo Suíço e Modicana no sudeste Siciliano. In: X
Congresso de Zootecnia, Estação Zootécnica Nacional, Vale de Santarém, 2000.
CARVALHEIRA, J.; POLLAK, J.; QUAAS, R. L.; BLAKE, R. W. An autoregressive
repeatability animal model for test-day records in multiple lactations. Journal
of Dairy Science v.85, pp. 2040-2045, 2002.
CARVALHO, G. R.; VIEIRA, S. B. K.; DUARTE, M. M.; GUIMARÃES, T. F. A.
Produção mundial de leite: uma análise da concentração entre 1992 e 2006. In:
10 Congresso Panamericano do Leite.. v. 10. pp. 1-5, San José : FEPALE, 2008.
CAVALCANTI J.; NICOMEDES L. Clusterização baseada em algoritmos fuzzy.
Tese M.Sc., Universidade Federal de Pernambuco. Ciência da Computação. Recife
– PE, 2006.
CEPAGRO - Comissão Especial de Planejamento, Controle e Avaliação das Estatísticas
Agropecuárias. In: Estatística da Produção Pecuária, Indicadores IBGE. Setembro,
2009.
CLIFFORD, H. T.; STEPHENSON, W. An introduction to numerical taxonomy.
London: Academic Press, 1975.
COBUCI, J. A.; ABREU, U. G. P.;
TORRES, R. A. Formação de Grupos
Contemporâneos em Bovinos de Corte. Embrapa Pantanal. Documentos, v.87,
2006.
CORMACK, R. M. A. Review of classification. Journal of the Royal Statistical
Society, v. 134 pp. 321- 367, 1971.
COSTA, C. N. Reflexões sobre a gestão zootécnica: o controle leiteiro na raça
Holandesa. Alguma lição?, 2005. Disponível em: <http://www.milkpoint.com.
br>. Acesso em 2 de dezembro de 2009.
126
COSTA, C. N. Para que servem as avaliações genéticas de touros?, 2006. Disponível
em: <http://www.milkpoint.com.br>. Acesso em 27 de janeiro de 2010.
COSTA, C. N. Avaliações genéticas para a produção de leite e de seus componentes
qualitativos: o Brasil e o Interbull. Perspectivas?, 2006. Disponível em:
<http://www.milkpoint.com.br>. Acesso em 27 de janeiro de 2010.
COSTA, C. N. An investigation into heterogeneity of variance for milk and fat
yields of Holstein cows in Brazilian herd environments. Genetic and Molecular
Biology, v.22, n.3, pp.375-381, 1999.
COSTA, C. N.; BLAKE, R. W.; POLLAK, E. J., et al. Genetic analysis of Holstein
cattle populations in Brazil and United States. Journal of Dairy Science, v.83,
n.12, pp.2963-2974, 2000.
COSTA, C. N.; FREITAS, A. F.; COBUCI, J. A., et al. Sumário Nacional de Touros
da Raça Holandesa – 2009. Embrapa Gado de Leite. Documentos, n.134, 2009.
COSTA, C. N.; MELO, C. M. R.; MARTINEZ, M. L., et al. Estimation of genetic
parameters for test day milk records of first lactation Gir cows in Brazil using
random regression. In: World Congress Of Genetics Applied Livestock
Production,
7.,
2002,
Montpellier. Proccedings... Montpellier:
INRA,
Communication n.17-07, 2002.
COSTA, C. N.; MELO, C. N. R.; PACHER, I. U., et al. Genetic parameters for test
day milk yield of first lactation Holstein cows estimated by random regression
using Legendre polynomials. In: World Congress Animal Production, 9, Rio
Grande do Sul, pp.77, 2003.
DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de
dados. Maringá, Departamento de Informática, Universidade Estadual de Maringá,
2000.
DONI, M. V. Análise de Cluster: Métodos Hierárquico e de Particionamento.
Universidade
Presbiteriana
Mackenzie.
Disponível
em:
<http://meusite.
mackenzie.com.br/rogerio/tgi/2004Cluster.PDF>. Acesso 20 dezembro de 2009.
DUDA, R. O.; HART, P. E. Pattern Classification and Scene Analysis, New York:
John Wiley & Sons, Inc. New York, 2001.
DUNN, G.; EVERRIT, B.S. An introduction to numerical taxonomy. New York:
Cambridge University Press, 1980.
ELMASRI, R.; NAVATHE, S. Conceitos de Data Mining. In: Sistemas de Banco de
Dados. São Paulo: Pearson Addison Wesley, pp. 624-645, 2005.
127
EMBRAPA – Empresa Brasileira de Pesquisa Agropecuária. Principais Indicadores
Leites e Derivados. Ano 2, n. 18 (dez/2009) – Embrapa Gado de Leite, Juiz de
Fora : MG.
FACELI, K.; CARVALHO, A.; SOUTO, C. P. F. L.; MARCÍLIO C. P. Validação de
algoritmos de agrupamento. In: Relatórios Técnicos do Instituto de Ciências
Matemáticas da Computação, São Carlos – SP, n 254, 2005.
FAO – Food and Agriculture Organization of the United Nations. [S.I.]: FAOSTAT
database, 2009. Disponível em: <http://faostat.fao.org/>. Acesso em 27 de janeiro
de 2010.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R.
Advances in Knowledge Discovery & Data Mining. In: American Association for
Artificial Intelligence, 1 ed., Menlo Park: Califórnia, 1996.
FERRAZ, J.B.S.; ELER, J.P. Qualidade dos dados coletados. In: Simpósio Nacional
da Sociedadade Brasileira de Melhoramento AnimaL, Uberaba, pp.265-269, 1998.
FISHER, R. A. The Use of Multiple Measurements in Taxonomic Problems. In
Annals of Eugenics 7, pp. 179-188, 1936.
FREITAS, A. F.; COSTA, C. N.; MENEZES, C. R. A.; PAIVA, L. C.; SILVA, M. V. G.
B. S.; GUIMARAES, M. F. M.; CAETANO, A. R.; PAIVA, S. R.; JUNQUEIRA,
A. N.; MOURA, L. F. M. M. Programa de Melhoramento Genético da Raça
Girolando Teste de Progênie: Sumário de Touros 2009. Embrapa Gado de Leite.
Documentos, n. 133, 2009.
FREITAS, M. S.; DURAES, M. C.; FREITAS, A. F., et al. Comparação da produção
de leite e de gordura e da duração da lactação entre cinco "graus de sangue"
originados de cruzamentos entre Holandês e Gir em Minas Gerais. Arquivo
Brasileiro de Medicina Veterinária e Zootecnia. v.53, n.6, pp.708-713, 2001.
GALDINI, C. H.; FARO, L. E.; FREITAS, M. A. R. Seleção para produção de leite
auxiliada pela curva de lactação de vacas mestiças. In: Reunião anual da
Sociedade Brasileira de Zootecnia, 35, 1998, Botucatu – SP. Anais... Botucatu:
SBZ, pp.291, 1998.
HAIR, J. F., et al. Análise multivariada de dados. Trad. Adonai S. Sant’Anna e
Anselmo C. Neto. 5 ed. Porto Alegre: Bookman, 2005.
HALKIDI, M.; BATISTAKIS, Y.; VAZIRGIANNIS, M. On clustering validation
techniques. Journal of Intelligent Information Systems, v. 17, n. 2-3, pp. 107-145,
2001.
128
HAN, J. W.; KAMBER, M. Data-mining: Concepts and Techniques. New Jersey.
Morgan Kaufmann, 2001.
HAND, D.; MANNILA H.; SMYTH P. Principles of Data Mining. MIT Press, 2001.
HARRISON, T. H. Intranet data warehouse. São Paulo, SP : Editora Berkeley Brasil,
1998.
HENDERSON, C. R. Comparison of alternative sire evaluation methods. Journal of
Animal Science v.41, pp.760-770, 1975.
IBGE – Instituto Brasileiro de Geografia e Estatística. [S.I.]: IBGE, 2004. Disponível
em: <http://www.ibge.gov.br>. Acesso em 27 de janeiro de 2010.
INMON, W. H.; HACKATHORN, R. D. Como usar o Data Warehouse. Rio de
Janeiro, Infobook, 1997.
KAUFMAN, L.; ROUSSEEUW, P. J. Finding Groups in Data: An Introduction to
Cluster Analysis. 4.ed. New York: Wiley, 1990.
KENNEDY, B. W.; TRUS, D. Considerations on Genetic Connectedness Between
management Units Under an Animal Model. Journal of Animal Science, v. 71,
pp. 2341-2352, 1993.
KLEINBERG, J. An impossibility theorem for clustering. In:
Proc. of the 16th
conference on Neural Information Processing Systems, pp. 463–470, 2002.
JACCARD, P. Étude comparative de la distribuition florale dans une portion des
Alpes et des Jura. Bulletin de la Societé Voudoise des Sciencies Natureller, n.37,
pp.547-579, 1901.
JAIN, A. K. et al. Data Clustering: A Review. ACM Computing Surveys, v. 31, n. 3,
pp. 264–323, 1999.
JESUS, C. S. et al. A Informação, o Processo Decisório e as Ferramentas para este
Fim. Salvador, BA, Curso de Administração, Faculdade Ruy Barbosa, 2004.
JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis. In:
Prentice-Hall, inc. 4 ed. New Jersey, 1998.
KHATTREE, R., NAIK, D. N. Multivariate Data Reduction and Discrimination
with SAS Software. Wiley Inter-Science, 2000.
KOERICH, A. Aprendizagem de Máquina – Aprendizagem Não Supervisionada,
2005. Disponível em: <http://www.ppgia.pucpr.br/~alekoe/AM/2005/>. Acesso em
9 de novembro de 2009.
KUGLER, M.; JÚNIOR, J. T.; LOPES, H. S. Desenvolvimento de uma Rede Neural
LVQ em Linguagem VHDL para Aplicações em Tempo-Real, VI Congresso
129
Brasileiro de Redes Neurais, 2003. Disponível em: <http://www.cpgei.cefetpr.br/
~hslopes/publicacoes/2003/cbrn2003c.pdf>. Acesso em 5 outubro de 2009.
LAROSE, T. D. Discovering Knowledge in Data: An Introduction to Data Mining.
New Jersey. John Wiley & Sons, Hoboken, 2004.
MAGALHÃES, H. R.; EL FARO, L.; CARDOSO, V. L. et al. Influência de fatores de
ambiente sobre a contagem de células somáticas e sua relação com perdas na
produção de leite de vacas da raça Holandesa. Revista Brasileira de Zootecnia,
v.35, n.2, pp.415-421, 2006.
MARTINS, C. A. Uma Abordagem para Pré-processamento de Dados Textuais em
Algoritmos de Aprendizado. Tese de PhD, ICMC-USP, São Paulo – SP, 2003.
MAPA – Ministério da Agricultura, Pecuária e Abastecimento. [S.I.]
Agrostat.
Disponível em: <http://www.agricultura.gov.br/>. Acesso em 29 dejaneiro de 2010.
MATTEUCCI, M. A Tutorial on Clustering Algorithms. Disponível em:
<http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/hierarchical.ht
ml>. Acesso em 9 de novembro de 2009.
MDIC – Ministério do Desenvolvimento, Indústria e Comércio Exterior. [S.I.]
Aliceweb: exportação. Disponível em: <http://www.mdic.gov.br>. Acesso em 27 de
janeiro de 2010.
MEYER, K. Estimates of variances due to sire × herd interactions and
environmental covariances between paternal half-sibs for first lactation dairy
production. Livestock. Prod. Sci. v.17, pp. 95-115, 1987.
MISZTAL, I.; STABEL, T.; JAMROZIK, J.; MÄNTYSAARI, E.A.; MEUWISSEN,
T.H.E. Strategies for estimating the parameters needed for different test-day
models. Journal of Dairy Science, v.83, pp. 1125-1134, 2000.
MOLENTO, C. F. M.; MONARDES, H.; RIBAS, N. P., et al. Curvas de lactação de
vacas holandesas do Estado do Paraná, Brasil. Ciência Rural, v.34, n.5, pp.15851591, 2004.
MONARD, C. M.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de
máquina.Universidade de São Paulo, São Paulo – SP, 2003.
MOSCATO, Z. V. Uma visão geral de clusterização de dados. Campinas, SP.
DCA/FEEC/Unicamp, 2004.
NAVEGA, S. Princípios essenciais do Data Mining. In: Anais do Infoimagem. São
Paulo – SP, 2002.
NORO, G.; GOZÁLEZ, F. H. D.; CAMPOS, R., et al. Fatores ambientais que afetam
130
a produção e a composição do leite em rebanhos assistidos por cooperativas no
Rio Grande do Sul. Revista Brasileira de Zootecnia, v.35, n.3, pp.1129-1135,
2006.
NOVAES, U. R. Agrupamento de Dados Através de Algoritmos SWARM, Tese de
M.Sc., COPPE/UFRJ, 2002. Disponível em: <http://www.coc.ufrj.br/teses/
mestrado/inter/2002/teses/NOVAES_UR_02_t_M_int.pdf>. Acesso
em
2
de
dezembro de 2009.
OCDE – Organization for economic co-operation and development. Disponível em:
<http://www.oecd.org/>. Acesso em 27de janeiro de2010.
OLIVEIRA, H. N. Grupos de contemporâneos e conectabilidade. In: Curso sobre
Avaliação Genética em Bovinos de Corte, 1. Ribeirão Preto: USP, p.1-13, 1995.
PAKHIRA, M. K.; BANDYOPADHYAY, S.; MAULIK, U. Validity index for crisp
and fuzzy clusters. Pattern Recognition, pp. 487–501, 2004.
PEIXOTO, M. G. C. D.; VERNEQUE, R. S.; PENNA, V. M.; PEREIRA, M. C., et al.
Programa Nacional de Melhoramento do Guzerá para Leite: resultados do
Teste de Progênie, do Arquivo Zootécnico Nacional e do Núcleo MOET.
Embrapa Gado de Leite. Documentos, n.132, 2009.
PTAK, E.; ZARNECKI, A. Comparison of different test day models used for genetic
evaluation of Polish Black-ans.White cattle. Journal of Animal. And Feed Sci.
v.9, n.2, pp.261-269, 2000.
RIBAS, N. P.; HARTMANN, W.; MONARDES, H. G., et al. Sólidos totais do leite em
amostras de tanque nos estados do Paraná, Santa Catarina e São Paulo.
Revista Brasileira de Zootecnia, v.33, n.6, pp.2343-2350, 2004.
SANTOS, J. E. P.; SANTOS, F. A. P.; JUCHEM, S. O. Monitoramento do manejo
nutricional em rebanhos leiteiros. In: Reunião anual da Sociedade Brasileira de
Zootecnia, 38, 2001, Piracicaba. Anais... São Paulo: Sociedade Brasileira de
Zootecnia, pp. 361-374, 2001.
SAS Enterprise Miner. User's Guide. Version 5.2. Cary, North Caroline: SAS Institute
Inc; 2006.
SAS Institute Inc. User's Guide. Version 9. Cary, North Caroline: SAS Institute Inc;
2008.
SCHAEFFER, L. Estimation of variance components under a selection model.
Journal of Dairy Science v. 70, pp. 661-671, 1987.
SCHMITZ, F., EVERETT, R.W., QUAAS. R.L. Herd-year-season clustering. Journal
131
of Dairy Science v. 74, pp. 629-636, 1991.
SECEX – Secretaria de Comércio Exterior. [S.I.] Aliceweb. Disponível em:
<http://aliceweb.desenvolvimento.gov.br>. Acesso em 29 de janeiro de 2010.
SHIMBO, M. V.; FERRAZ, J. B.; ELER, J. R., et al. Tendência ambiental em
características produtivas na raça Nelore. In: Reunião Anual da Sociedade
Brasileira de Zootecnia, (CDROM). Viçosa – MG, p.247, 2000.
SILVA, A. Análise Classificatória. Universidade Nova de Lisboa. Faculdade de
Ciências e Tecnologia. Disponível em: <http://ferrari.dmat.fct.unl.pt/services/
AnaliseDados/Cluster.pdf >. Acesso em 25 de janeiro de 2009.
SNEATH, P. H.; SOKAL, R. R. Numerical taxonomy: the principles and practice of
numerical classification. San Francisco: W. H. Freeman, 1973.
STRABEL, T.; SZWACZKOWSKI, T. The use of test day models with small size of
contemporary groups. Journal of Animal Breeding and Genetics. v.116, n.5, pp.
379-386, 1999.
SWALVE, H. H. The effect of test day models on the estimation of genetic
parameters and breeding values for dairy yield traits. Journal of Dairy Science
v.78:, pp. 929-938, 1995.
TEIXEIRA, N. M.; FREITAS, A. F.; BARRA, R. B. Influência de fatores de meio
ambiente na variação mensal da composição e contagem de células somáticas
do leite em rebanhos no estado de Minas Gerais. Arquivo Brasileiro de Medicina
Veterinária e Zootecnia, v.55, pp.4911-499, 2003.
THOMÉ, A. C. G. Data Warehouse, Data Mining. In: Redes Neurais – Uma
ferramenta para KDD e Data Mining, 2002.
TROVO, J. B. Fundamentos da avaliação genética. In: Curso sobre Avaliação
Genética em Bovinos de Corte. Ribeirão Preto: USP, pp.1-19, 1995.
USDA – United States Department of Agriculture. Disponível em: <http://www.fas.
usda.gov/>. Acesso em 26 de janeiro de 2010.
VAN VLECK, L. Contemporary groups for genetic evaluations. Journal of Dairy
Science v. 70, pp. 2456-2464, 1987.
VASCONCELOS, J.; CARVALHEIRA, J. Assessment of heterogeneity of residual
variances in an autoregressive test-day multiple lactations model. EAAP – 58th
Annual Meeting, Dublin – Ireland. 26 - 29 de August 2007, Session 10, Poster 39,
2007.
VASCONCELOS, J.; SANTOS, F.; BARROSO, R.; MARTINS, A.; FERREIRA, A.;
132
CARVALHEIRA, J. Effects of Clustering Dairy Herds for Genetic Evaluations
using Different Descriptors to Define Similarities between Production
Environments. In: 8th World Congress on Genetics Applied to Livestock
Production. 2006. Proc. 8th World Cong. Gen. Appl. Livest. Prod., CD-ROM
communication n° 24-30, 2006.
VASCONCELOS, J.; BAGNATO, A.; PEREIRA, A.; CARVALHEIRA, J. Effects of
clustering herds with small size contemporary groups in dairy cattle genetic
evaluations. Journal of Dairy Science v.91, pp.377-384, 2008.
VERNEQUE, R. S.; PEIXOTO, M. G. C. D.; FILHO, A. E. V. et al. Programa
Nacional de Melhoramento do Gir Leiteiro Sumário Brasileiro de Touros
Resultado do Teste de Progênie – Maio 2009. Embrapa Gado de Leite.
Documentos, n. 131, 2009.
VIANNA, M. Análise de Cluster: Métodos Hierárquicos e de Particionamento.
Disponível em: <http://meusite.mackenzie.com.br/rogerio/tgi/2004Cluster.PDF>.
Acesso em 14 de dezembro de 2009.
VISSCHER, P. M.; GODDARD, M.E. Fixed and random contemporary groups.
Journal of Dairy Science v.76, pp. 1444-1454, 1993.
XIE, X. L.; BENI, G. A validity measure for fuzzy clustering. IEEE Transactions on
Pattern Analysis and Machine Intelligence, pp. 841–847, 1991.
XU, R. et al. Survey of clustering algorithms. In: IEEE Transactions on Neural
Networks, v. 16, n. 3, pp. 645–678, 2005.
WADE, K. M. Parameter estimation for mixed linear models with first order
autoregressive covariance structure. Doctoral Diss., Cornell Univ. Ithaca, NY, pp
117, 1990.
WINIDAMS. Cluster Analysis, 2005. Disponível em: <http://stat.caspur.it/Manuali/
WinIdams/HtmlEN/E2clusfi.htm>. Acesso em 19 novembro de 2009.
WARD, J. H. Hierarchical Grouping to optimize an objective function. Journal of
American Statistical Association, n.58 (301), pp. 236-244, 1963. Disponível em:
<http://iv.slis.indiana.edu/sw/data/ward.pdf>. Acesso em 14 outubro de 2009.
WOOD, C.M.; CHRISTIAN, L.L.; ROTHSCHILD, M.F. Use of an animal model in
situations of limited subclass numbers and high degrees of relationships.
Journal of Animal Science, v. 69, n. 4, p. 1420-1427, 1991.
YURAS,
G.
Minimum-Distance
Classifiers.
Disponível
em:
<http://www.
profc.udec.cl/~gabriel/tutoriales/rsnote/cp11/cp11-6.htm>. Acesso em 14 outubro
133
de 2009.
ZAIANE, O. R. et al. On data clustering analysis: scalability, constraints and
validation. Edmonton Alberta, University of Alberta, 2003.
ZAHN, C. T. Graph-theoretical methods for detecting and describing gestalt
clusters. IEEE Trans. Comput., pp. 68–86, 1971.
134
ANEXO A
Domínio dos Atributos
VALOR
DESCRIÇÃO
1
Raça holandesa
99
Desconhecido
Tabela AI.1 – Domínio do atributo variabilidade do animal
VALOR
DESCRIÇÃO
<nulo>
Desconhecido
AL
Alagoas
BR8
CE
Ceará
DF
Distrito Federal
ES
Espírito Santo
GO
Goiás
MG
Minas Gerais
MG8
Minas Gerais
MS
Mato Grosso do Sul
PR
Paraná
PR8
Paraná
RJ
Rio de Janeiro
RS
Rio Grande do Sul
RS8
Rio Grande do Sul
SC
Santa Catarina
SP
São Paulo
SP8
São Paulo
Tabela AI.2 – Domínio do atributo unidade da federação
135
VALOR
DOMÍNIO GS1
31/32
5
PCOD
6
GC-01
7
GC-02
8
GC-03
9
GC-04
10
GC-05
11
GC-06
12
GC-07
13
GC-08
14
GC-09
15
GC-10
16
GC-11
17
GC-12
18
GC-13
19
GC-14
20
GC-15
21
GC-22
28
GC-23
29
PO
30
<nulo>
31
Tabela AI.3 – Domínio do atributo grau de sangue
Campo
Atributo
Tipo
COD
Código do registro
Numérico
REB
Rebanho
Numérico
VACA
Número do animal
Numérico
RGANIMAL
Registro do animal
Texto
DNASC
Dia de nascimento
Numérico
MNASC
Mês de nascimento
Numérico
136
ANASC
Ano de nascimento
Numérico
DCONT
Dia do controle leiteiro
Numérico
MCONT
Mês do controle leiteiro
Numérico
ACONT
Ano do controle leiteiro
Numérico
DPART
Dia do parto
Numérico
MPART
Mês do parto
Numérico
APART
Ano do parto
Numérico
PL
Produção de leite
Numérico
G
Gordura
Numérico
P
Proteína
Numérico
CCS
Contagem de células somáticas
Numérico
UF5
Unidade da Federação
Texto
REGPAI
Registro do pai
Texto
REGMAE
Registro da mãe
Texto
GS1
Grau de sange do animal
Numérico
DENC
Dia de encerramento da lactação
Numérico
MENC
Mês de encerramento da lactação
Numérico
AENC
Ano de encerramento da lactação
Numérico
ORD
Ordem de parto
Numérico
DIM
Dias em lactação a data do controle
Numérico
DEL
Dias em lactação ao término da lactação
Numérico
IP
Idade ao parto
Numérico
ENASC
Estação de nascimento
Numérico
EPART
Estação de parto
Numérico
ECONT
Estação do controle leiteiro
Numérico
EENC
Estação do encerramento da lactação
Numérico
TDAY
Test-day
Numérico
CAUSA
Causa de encerramento
Numérico
SIT
Situação da vaca
Numérico
LEITE305
Produção em 305 dias
Numérico
G305
Gordura em 305 dias
Numérico
P305
Proteína em 305 dias
Numérico
LACT305
Lactose em 305 dias
Numérico
137
SOL305
Numérico
Sólidos totais em 305 dias
Tabela AI.4 – Definição dos dados após todas as edições.
VALOR
IDADE AO PARTO (MESES)
1
< 20
2
20 a 24
3
24 a 28
4
28 a 32
5
32 a 36
6
36 a 40
7
40 a 44
8
44 a 48
9
48 a 52
10
52 a 56
11
56 a 60
12
60 a 64
13
64 a 68
14
68 a 72
15
72 a 76
16
> 76
Tabela AI.5 – Domínio dos valores discretizados da idade ao parto
138
Anexo B
Instruções PL/SQL
B.1. Atualizações
-- Atualização dos valores da nova variável de encerramento a partir da antiga variável
de encerramento
UPDATE Base_Multípla SET DENC1 = DENC, MENC1 = MENC, AENC1 =
AENC
WHERE DSEC IS NULL OR MSEC IS NULL OR ASEC IS NULL OR
DSEC <= 0 OR MSEC <= 0 OR ASEC <= 0;
-- Atualização dos valores da nova variável de encerramento a partir da variável de
secagem
UPDATE Base_Multipla SET DENC1 = DSEC, MENC1 = MSEC, AENC1 =
ASEC
WHERE DENC IS NULL OR MENC IS NULL OR AENC IS NULL OR
DENC <= 0 OR MENC <= 0 OR AENC <= 0;
-- Atualização dos valores da nova variável de encerramento se a antiga variável de
encerramento for maior que a data de secagem
UPDATE Base_Multipla SET DENC1 = DENC, MENC1 = MENC, AENC1 =
AENC
WHERE AENC>ASEC AND
DENC IS NOT NULL AND MENC IS NOT NULL AND AENC IS NOT NULL
AND
DENC >= 0 AND MENC >= 0 AND AENC >= 0 AND
DSEC IS NOT NULL AND MSEC IS NOT NULL AND ASEC IS NOT NULL
AND
139
DSEC >= 0 AND MSEC >= 0 AND ASEC >= 0;
-- Atualização dos valores da nova variável de encerramento se a data de secagem for
maior que a antiga variável de encerramento
UPDATE Base_Multípla SET DENC1 = DSEC, MENC1 = MSEC, AENC1 =
ASEC
WHERE ASEC>AENC AND
DENC IS NOT NULL AND MENC IS NOT NULL AND AENC IS NOT NULL
AND
DENC >= 0 AND MENC >= 0 AND AENC >= 0 AND
DSEC IS NOT NULL AND MSEC IS NOT NULL AND ASEC IS NOT NULL
AND
DSEC >= 0 AND MSEC >= 0 AND ASEC >= 0;
-- Atualização dos valores da IP
UPDATE Base_Multipla SET IP =
cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart))cdate(CStr(dnasc)+'/'+CStr(mnasc)+'/'+CStr(anasc));
-- Atualização dos valores dos DIM
UPDATE Base_Multipla SET DIM =
cdate(CStr(dcont)+'/'+CStr(mcont)+'/'+CStr(acont))cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart));
-- Atualização dos valores do DEL
UPDATE Base_Multipla SET DEL =
cdate(CStr(denc1)+'/'+CStr(menc1)+'/'+CStr(aenc1))cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart));
-- Atualização dos valores da UF “AL” para “1”
UPDATE Base_Multípla SET UF5 = 1
WHERE UF5="AL";
-- Atualização dos valores da UF “CE” para “2”
140
UPDATE Base_Multípla SET UF5 = 2
WHERE UF5 = "CE";
-- Atualização dos valores da UF “DF” para “3”
UPDATE Base_Multípla SET UF5 = 3
WHERE UF5 = "DF";
-- Atualização dos valores da UF “ES” para “4”
UPDATE Base_Multípla SET UF5 = 4
WHERE UF5 = "ES";
-- Atualização dos valores da UF “GO” para “5”
UPDATE Base_Multípla SET UF5 = 5
WHERE UF5 = "GO";
-- Atualização dos valores da UF “MG” para “6”
UPDATE Base_Multípla SET UF5 = 6
WHERE UF5 = "MG";
-- Atualização dos valores da UF “MG8” para “6”
UPDATE Base_Multípla SET UF5 = 6
WHERE UF5 = "MG8";
-- Atualização dos valores da UF “MS” para “7”
UPDATE Base_Multípla SET UF5 = 7
WHERE UF5 = "MS";
-- Atualização dos valores da UF “PR” para “8”
UPDATE Base_Multípla SET UF5 = 8
WHERE UF5 = "PR";
-- Atualização dos valores da UF “PR8” para “8”
UPDATE Base_Multípla SET UF5 = 8
WHERE UF5 = "PR8";
141
-- Atualização dos valores da UF “RJ” para “9”
UPDATE Base_Multípla SET UF5 = 9
WHERE UF5 = "RJ";
-- Atualização dos valores da UF “RS” para “10”
UPDATE Base_Multípla SET UF5 = 10
WHERE UF5 = "RS";
-- Atualização dos valores da UF “RS8” para “10”
UPDATE Base_Multípla SET UF5 = 10
WHERE UF5 = "RS8";
-- Atualização dos valores da UF “SC” para “11”
UPDATE Base_Multípla SET UF5 = 11
WHERE UF5 = "SC";
-- Atualização dos valores da UF “SP” para “12”
UPDATE Base_Multípla SET UF5 = 12
WHERE UF5 = "SP";
-- Atualização dos valores da UF “SP8” para “12”
UPDATE Base_Multípla SET UF5 = 12
WHERE UF5 = "SP8";
-- Atualização dos valores da ausência de valor da UF para “98”
UPDATE Base_Multípla SET UF5 = 98
WHERE UF5 = "BR8";
-- Atualização dos valores da ausência de valor da UF para “99”
UPDATE Base_Multípla SET UF5 = 99
WHERE UF5 IS NULL;
142
-- Atualização dos valores da estação de nascimento 1 pelo mês de nascimento entre 1 e
3
UPDATE Base_Multípla SET ENASC =1
WHERE MNASC BETWEEN 1 AND 3;
-- Atualização dos valores da estação de nascimento 2 pelo mês de nascimento entre 4 e
6
UPDATE Base_Multípla SET ENASC =2
WHERE MNASC BETWEEN 4 AND 6;
-- Atualização dos valores da estação de nascimento 3 pelo mês de nascimento entre 7 e
9
UPDATE Base_Multípla SET ENASC =3
WHERE MNASC BETWEEN 7 AND 9;
-- Atualização dos valores da estação de nascimento 4 pelo mês de nascimento entre 10
e 12
UPDATE Base_Multípla SET ENASC =4
WHERE MNASC BETWEEN 10 AND 12;
-- Atualização dos valores da estação de parto 1 pelo mês de parto entre 1 e 3
UPDATE Base_Multípla SET EPART =1
WHERE MPART BETWEEN 1 AND 3;
-- Atualização dos valores da estação de parto 2 pelo mês de parto entre 4 e 6
UPDATE Base_Multípla SET EPART =2
WHERE MPART BETWEEN 4 AND 6;
-- Atualização dos valores da estação de parto 3 pelo mês de parto entre 7 e 9
UPDATE Base_Multípla SET EPART =3
WHERE MPART BETWEEN 7 AND 9;
-- Atualização dos valores da estação de parto 4 pelo mês de parto entre 10 e 12
UPDATE Base_Multípla SET EPART =4
WHERE MPART BETWEEN 10 AND 12;
143
-- Atualização dos valores da estação de controle 1 pelo mês de controle entre 1 e 3
UPDATE Base_Multípla SET ECONT =1
WHERE MCONT BETWEEN 1 AND 3;
-- Atualização dos valores da estação de controle 2 pelo mês de controle entre 4 e 6
UPDATE Base_Multípla SET ECONT =2
WHERE MCONT BETWEEN 4 AND 6;
-- Atualização dos valores da estação de controle 3 pelo mês de controle entre 7 e 9
UPDATE Base_Multípla SET ECONT =3
WHERE MCONT BETWEEN 7 AND 9;
-- Atualização dos valores da estação de controle 4 pelo mês de controle entre 10 e 12
UPDATE Base_Multípla SET ECONT =4
WHERE MCONT BETWEEN 10 AND 12;
-- Atualização dos valores da estação de encerramento 1 pelo mês de controle entre 1 e
3
UPDATE Base_Multípla SET EENC =1
WHERE MENC1 BETWEEN 1 AND 3;
-- Atualização dos valores da estação de encerramento 2 pelo mês de controle entre 4 e
6
UPDATE Base_Multípla SET EENC =2
WHERE MENC1 BETWEEN 4 AND 6;
-- Atualização dos valores da estação de encerramento 3 pelo mês de controle entre 7 e
9
UPDATE Base_Multípla SET EENC =3
WHERE MENC1 BETWEEN 7 AND 9;
-- Atualização dos valores da estação de encerramento 4 pelo mês de controle entre 10
e 12
144
UPDATE Base_Multípla SET EENC =4
WHERE MENC1 BETWEEN 10 AND 12;
B.2. Exclusões
-- Excluir registros sem Registro do Animal
DELETE
FROM Base_Multípla
WHERE rg animal IS NULL OR rg animal='0' OR rg animal='-';
-- Excluir registros onde RGANIMAL é igual RGPAI
DELETE
FROM Base_Multipla
WHERE rganimal=regpai;
-- Excluir registros onde RGANIMAL é igual RGMAE
DELETE
FROM Base_Multipla
WHERE rganimal=regmae;
-- Excluir registros onde RGANIMAL é igual RGPAI verificando em toda a base de
dados
DELETE
FROM Base_Multipla
WHERE regpai in (SELECT rganimal FROM Base_Multipla);
-- Excluir registros onde RGPAI é igual RGANIMAL verificando em toda a base de
dados
DELETE
FROM Base_Multipla
WHERE rganimal in (SELECT regpai FROM Base_Multipla);
-- Excluir registros sem RGPAI e RGMAE
DELETE
145
FROM Base_Multípla
WHERE (regpai IS NULL OR regpai='0') AND (regmae IS NULL OR
regmae='0');
-- Excluir registros sem data de nascimento
DELETE
FROM Base_Multípla
WHERE (dnasc<=0 OR mnasc<=0 OR anasc<=0) OR
(dnasc IS NULL OR mnasc IS NULL OR anasc IS NULL) OR
(dnasc>31 OR mnasc>12 OR anasc>2010);
-- Excluir registros sem data do controle leiteiro
DELETE
FROM Base_Multípla
WHERE (dcont<=0 OR mcont<=0 OR acont<=0) OR
(dcont IS NULL OR mcont IS NULL OR acont Is Null) OR
(dcont>31 OR mcont>12 OR acont>2010);
-- Excluir registros sem data de parto
DELETE
FROM Base_Multípla
WHERE (dpart<=0 OR mpart<=0 OR apart<=0) OR
(dpart IS NULL OR mpart IS NULL OR apart IS NULL) OR
(dpart>31 OR mpart>12 OR apart>2010);
-- Excluir registros com data de parto do animal maior que a data do controle leiteiro
DELETE
FROM Base_Multípla
WHERE (cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart)) >
cdate(CStr(dcont)+'/'+CStr(mcont)+'/'+CStr(acont)));
-- Excluir registros com data de nascimento do animal maior que a data do parto
DELETE
FROM Base_Multipla
146
WHERE (cdate(CStr(dnasc)+'/'+CStr(mnasc)+'/'+CStr(anasc)) >
cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart)));
-- Excluir registros com data de nascimento do animal maior que a data do controle
leiteiro
DELETE
FROM Base_Multipla
WHERE (cdate(CStr(dnasc)+'/'+CStr(mnasc)+'/'+CStr(anasc)) >
cdate(CStr(dcont)+'/'+CStr(mcont)+'/'+CStr(acont)));
-- Excluir registros com produção de leite diária nula ou igual a zero
DELETE
FROM Base_Multípla
WHERE pl<=0 OR pl IS NULL;
-- Excluir registros com data do controle menor que 5 dias ou maior que 365 dias da
data do parto
DELETE
FROM Base_Multípla
WHERE dim not between 5 and 365;
-- Excluir registros onde a ordem de parto está fora do limite aceitável relacionado a
idade ao parto
DELETE
FROM Base_Multípla
WHERE (
((ip/30.5 not between 18 and 42) and op=1)
Or ((ip/30.5 not between 32 and 60) and op=2)
Or ((ip/30.5 not between 45 and 78) and op=3)
Or ((ip/30.5 not between 60 and 96) and op=4)
Or ((ip/30.5 not between 74 and 114) and op=5));
-- Excluir registros onde a data do primeiro controle leiteiro estiver fora do intervalo
entre 5 a 45 dias após a data do parto
147
DELETE
FROM Base_Multípla
WHERE (dim not between 5 and 45) and tday=1;
-- Excluir registros onde a data dos controles leiteiro subsequentes ao primeiro for
posterior a 45 dias do primeiro controle leiteiro
DELETE
FROM Base_Multípla
WHERE (
(((Base_Multipla.tday)=2) And ((Base_Multipla.dim) Not Between 6 And 90))
Or (((Base_Multipla.tday)=3) And ((Base_Multipla.dim) Not Between 7 And
135))
Or (((Base_Multipla.tday)=4) And ((Base_Multipla.dim) Not Between 8 And
180))
Or (((Base_Multipla.tday)=5) And ((Base_Multipla.dim) Not Between 95 And
225))
Or (((Base_Multipla.tday)=6) And ((Base_Multipla.dim) Not Between 10 And
270))
Or (((Base_Multipla.tday)=7) And ((Base_Multipla.dim) Not Between 11 And
315))
Or (((Base_Multipla.tday)=8) And ((Base_Multipla.dim) Not Between 12 And
360))
Or (((Base_Multipla.tday)=9) And ((Base_Multipla.dim) Not Between 13 And
405))
Or (((Base_Multipla.tday)=10) And ((Base_Multipla.dim) Not Between 14 And
450))
Or (((Base_Multipla.tday)=11) And ((Base_Multipla.dim) Not Between 15 And
495))
Or (((Base_Multipla.tday)=12) And ((Base_Multipla.dim) Not Between 16 And
540)));;
-- Excluir animais com grau de sangue PCOD
DELETE
FROM Base_Multipla
148
WHERE Base_Multipla.gs1 = 3;
-- Excluir registros com mais de 12 controles leiteiros
DELETE
FROM Base_Multipla
WHERE Base_Multipla.tday > 12;
B.3. Cálculos
-- Cálculo do DIM
SELECT cdate(CStr(dcont)+'/'+CStr(mcont)+'/'+CStr(acont))cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart)) AS DIM
FROM Base_Multipla;
-- Cálculo do IP
SELECT cdate(CStr(dpart)+'/'+CStr(mpart)+'/'+CStr(apart))cdate(CStr(dnasc)+'/'+CStr(mnasc)+'/'+CStr(anasc)) AS IP
FROM Base_Multipla;
B.4. Alterações
-- Alteração da tabela para inclusão do campo TDAY
ALTER TABLE Base_Multípla
ADD COLUMN TDAY NUMBER (2);
-- Alteração da tabela para inclusão do campo IP
ALTER TABLE Base_Multípla
ADD COLUMN IP NUMBER (8);
-- Alteração da tabela para inclusão do campo OP
ALTER TABLE Base_Multípla
ADD COLUMN OP NUMBER (8);
-- Alteração da tabela para inclusão do campo DIM
149
ALTER TABLE Base_Multipla
ADD COLUMN DIM NUMBER (8);
-- Alteração da tabela para inclusão do campo DENC1
ALTER TABLE Base_Multípla
ADD COLUMN DENC1 NUMBER (8);
-- Alteração da tabela para inclusão do campo MENC1
ALTER TABLE Base_Multípla
ADD COLUMN MENC1 NUMBER (8);
-- Alteração da tabela para inclusão do campo AENC1
ALTER TABLE Base_Multípla
ADD COLUMN AENC1 NUMBER (8);
-- Alteração da tabela para inclusão do campo ENASC
ALTER TABLE Base_Multípla
ADD COLUMN ENASC NUMBER (1);
-- Alteração da tabela para inclusão do campo EPART
ALTER TABLE Base_Multípla
ADD COLUMN EPART NUMBER (1);
-- Alteração da tabela para inclusão do campo ECONT
ALTER TABLE Base_Multípla
ADD COLUMN ECONT NUMBER (1);
-- Alteração da tabela para inclusão do campo EENC
ALTER TABLE Base_Multípla
ADD COLUMN EENC NUMBER (1);
-- Alteração da tabela para exclusão do campo BASE
ALTER TABLE Base_Multipla
DROP COLUMN BASE;
150
-- Alteração da tabela para exclusão do campo BASE1
ALTER TABLE Base_Multipla
DROP COLUMN BASE1;
-- Alteração da tabela para exclusão do campo NC
ALTER TABLE Base_Multipla
DROP COLUMN NC;
-- Alteração da tabela para exclusão do campo NCS
ALTER TABLE Base_Multipla
DROP COLUMN NCS;
-- Alteração da tabela para exclusão do campo ORD4
ALTER TABLE Base_Multípla
DROP COLUMN ORD4;
-- Alteração da tabela para exclusão do campo DENC
ALTER TABLE Base_Multipla
DROP COLUMN DENC;
-- Alteração da tabela para exclusão do campo MENC
ALTER TABLE Base_Multipla
DROP COLUMN MENC;
-- Alteração da tabela para exclusão do campo AENC
ALTER TABLE Base_Multipla
DROP COLUMN AENC;
-- Alteração da tabela para exclusão do campo DSEC
ALTER TABLE Base_Multipla
DROP COLUMN DSEC;
-- Alteração da tabela para exclusão do campo MSEC
151
ALTER TABLE Base_Multipla
DROP COLUMN MSEC;
-- Alteração da tabela para exclusão do campo ASEC
ALTER TABLE Base_Multipla
DROP COLUMN ASEC;
-- Alteração da tabela para exclusão do campo COBERTURA
ALTER TABLE Base_Multipla
DROP COLUMN COBERTURA;
152
Anexo C
153
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo