Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) IMPUTAÇÃO BAYESIANA NO CONTEXTO DA MINERAÇÃO DE DADOS Estevam Rafael Hruschka Júnior Outubro/2003 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil A substituição de valores ausentes em bases de dados (também chamada de imputação) é uma importante tarefa, na fase de preparação dos dados, para o processo de mineração de dados. Este trabalho apresenta um novo método de imputação tendo como base a representação do conhecimento através de redes bayesianas. As redes bayesianas são utilizadas como mecanismo de inferência na predição de valores adequados para se preencher as lacunas existentes em bancos de dados. Para tanto, além de se definir as etapas necessárias para a aplicação do novo método, realiza-se o desenvolvimento de um algoritmo de propagação de evidências em redes bayesianas chamado GBC e um método genérico de otimização do aprendizado de redes bayesianas a partir de dados. Os resultados experimentais mostram que o processo de otimização do aprendizado a partir de dados é adequado no contexto bayesiano, e o método de imputação é consistente. v Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) BAYESIAN IMPUTATION IN THE DATAMINING CONTEXT Estevam Rafael Hruschka Júnior October/2003 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering The substitution of missing values in databases (also called imputation) is an important task in the data preparation step of the KDD (Knowledge Discovery in Databases) process. This work presents a new imputation method based on bayesian structures. Bayesian Networks are employed to infer values which will be used to fill-in the gaps present in the databases. Furthermore, a simple bayesian network evidence propagation algorithm (Global Bayesian Conditioning - GBC) and an optimization step to be applied in a bayesian network learning procedure are developed. The experimental results show that the GBC algorithm is useful and the optimization step and the imputation method are consistent. vi