Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a
obtenção do grau de Doutor em Ciências (D.Sc.)
IMPUTAÇÃO BAYESIANA NO CONTEXTO DA MINERAÇÃO DE DADOS
Estevam Rafael Hruschka Júnior
Outubro/2003
Orientador: Nelson Francisco Favilla Ebecken
Programa: Engenharia Civil
A substituição de valores ausentes em bases de dados (também chamada de
imputação) é uma importante tarefa, na fase de preparação dos dados, para o processo de
mineração de dados. Este trabalho apresenta um novo método de imputação tendo como
base a representação do conhecimento através de redes bayesianas. As redes bayesianas são
utilizadas como mecanismo de inferência na predição de valores adequados para se
preencher as lacunas existentes em bancos de dados. Para tanto, além de se definir as etapas
necessárias para a aplicação do novo método, realiza-se o desenvolvimento de um
algoritmo de propagação de evidências em redes bayesianas chamado GBC e um método
genérico de otimização do aprendizado de redes bayesianas a partir de dados. Os resultados
experimentais mostram que o processo de otimização do aprendizado a partir de dados é
adequado no contexto bayesiano, e o método de imputação é consistente.
v
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements
for the degree of Doctor of Science (D.Sc.)
BAYESIAN IMPUTATION IN THE DATAMINING CONTEXT
Estevam Rafael Hruschka Júnior
October/2003
Advisor: Nelson Francisco Favilla Ebecken
Department: Civil Engineering
The substitution of missing values in databases (also called imputation) is an
important task in the data preparation step of the KDD (Knowledge Discovery in
Databases) process. This work presents a new imputation method based on bayesian
structures. Bayesian Networks are employed to infer values which will be used to fill-in the
gaps present in the databases. Furthermore, a simple bayesian network evidence
propagation algorithm (Global Bayesian Conditioning - GBC) and an optimization step to
be applied in a bayesian network learning procedure are developed. The experimental
results show that the GBC algorithm is useful and the optimization step and the imputation
method are consistent.
vi
Download

Redes Bayesianas para Preparação de Dados em Tarefas