Boletim
Ano 8 Número 16
Outubro de 2010
Informativo do Grupo de Pesquisa
Matemática Computacional
-------------------------------------------------------------------------------------------------------------PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS (PUC GOIÁS)
DEPARTAMENTO DE COMPUTAÇÃO
-------------------------------------------------------------------------------------------------------------EDITORIAL
Temos a satisfação de publicar mais um número do Boletim para os interessados em
Computação. Em particular, em Matemática Computacional.
Pensamos que através deste Boletim poderemos observar a relevância do Grupo no
País devido, principalmente, às premiações de seus membros e às nossas publicações.
A principal novidade do Grupo é a premiação de nossos pesquisadores e a
publicação de dois livros em uma semana por um de nossos pesquisadores. O pesquisador
Nelson Maculan Filho recebeu o Prêmio de Mérito Científico 2010 pela Sociedade
Brasileira de Computação (SBC) e o pesquisador Leizer de Lima Pinto será o representante
do Programa de Engenharia de Sistemas e Computação da Universidade Federal do Rio de
Janeiro (PESC/UFRJ) para concorrer ao Prêmio CAPES de Teses 2010, dentre as vinte
teses de doutorado defendidas em 2009 no PESC/UFRJ. Maiores detalhes sobre o prêmio
CAPES de Teses está na seção Perguntas e Respostas. Também, o pesquisador Marco
Antonio Figueiredo Menezes publicou um livro com o colega Antônio César Baleeiro
Alves (professor da UFG) e um segundo com o técnico Marcello Marinho Ribeiro
(mestrando na UnB). Veja na subseção Livros publicados.
Os integrantes do grupo no momento são: como pesquisadores, Clarimar José
Coelho, Marco Antonio Figueiredo Menezes, Sibelius Lellis Vieira (PUC Goiás),
Humberto José Longo, Leizer de Lima Pinto, Telma Woerle de Lima Soares (UFG),
Claudio Thomas Bornstein, Nelson Maculan Filho (COPPE-PESC/UFRJ) e Maria do
Socorro Nogueira Rangel (UNESP-São José do Rio Preto); como estudantes, Arinéia
Nogueira de Assis, Dalilla da Mota Morais, Douglas Machado de Freitas, Francisco de
Assis Rodrigues dos Anjos, Gustavo Siqueira Vinhal, Heber Valdo Nogueira, Kelligton
Fabrício de Souza Neves, Lino Lopes de Barros Filho, Paulo Henrique de Oliveira Souza,
Tiago da Silva Curtinhas (PUC Goiás) e Elivelton Ferreira Bueno (Universidade de
Montreal/Canadá); e como técnicos, Anderson da Silva Soares, Arlindo Rodrigues Galvão
Filho, Synara Rosa Gomes dos Santos (ITA), Gustavo Teodoro Laureano (USP/São
Carlos), Ivon Rodrigues Canedo (PUC Goiás) e Marcello Marinho Ribeiro (UnB).
Marco Antonio Figueiredo Menezes
Líder do Grupo
--------------------------------------------------------------------------------------------------------------
1
PERGUNTAS E RESPOSTAS: Sobre o Prêmio CAPES de Teses.
Aqui, a nossa idéia é a de levantar algumas perguntas para os alunos da Computação
que venham a esclarecer, viabilizar e integrar a sua formação. Em seguida, forneceremos as
devidas respostas através de entrevistas com responsáveis pela área.
O que é o Prêmio CAPES de Tese?
O Prêmio CAPES de Tese objetiva outorgar distinção às melhores teses de
doutorado defendidas e aprovadas nos cursos reconhecidos pelo Ministério da Educação.
Este prêmio é outorgado para a melhor tese de doutorado de cada uma das áreas do
conhecimento reconhecidas pela CAPES, onde os critérios considerados para a escolha são
a originalidade e a qualidade do trabalho.
O Grande Prêmio CAPES de Tese.
As teses premiadas no Prêmio CAPES de Tese são agrupadas pelos três grupos de
grandes áreas, que são:
• Áreas de Ciências Biológicas, Ciências da Saúde e Ciências Agrárias;
• Áreas de Engenharias e Ciências Exatas e da Terra;
• Áreas de Ciências Humanas, Lingüística, Letras e Artes, Ciências Sociais
Aplicadas e Ensino de Ciências.
Então, é selecionada a melhor tese de cada uma dessas três grandes áreas, as quais
recebem o Grande Prêmio CAPES de Tese.
Para saber mais sobre o Prêmio CAPES de Tese e o Grande Prêmio CAPES de Tese
visite a página da CAPES: http://www.capes.gov.br/premios-capes-de-teses.
----------------------------------------------------------------------------------------------------------ACONTECEU
Aconteceu informa Congressos, Simpósios, Jornadas e Encontros Científicos com a
nossa participação, de março/2010 a setembro/2010.
33ª Reunião Anual da Sociedade Brasileira de Química: 28 a 31 de maio de 2010,
Águas de Lindóia/SP.
XXX Congresso da Sociedade Brasileira de Computação: 20 a 23 de julho de 2010,
Belo Horizonte/MG.
XLI Simpósio Brasileiro de Pesquisa Operacional: 30 de agosto a 03 de setembro de
2010, Bento Gonçalves/RS.
XXXIII Congresso Nacional de Matemática Aplicada e Computacional: 20 a 23 de
setembro de 2010, Águas de Lindóia/SP.
2
-------------------------------------------------------------------------------------------------------------ACONTECENDO
Acontecendo relata as atividades do Grupo Matemática Computacional. Sugerimos
uma visita ao nosso MURAL, em frente ao Departamento de Computação e no final do
corredor em frente a sala 409, bloco F, área 3.
Seminário de Otimização: Toda sexta-feira, das 17h às 18h, na Área 3, Bloco F, Sala 409.
Coordenador: Dr. Marco Antonio Figueiredo Menezes.
Seminário de Análise Multivariada: Toda terça-feira, das 17 às 18h, na Área 3, Bloco F,
Sala 409. Coordenador: Dr. Clarimar José Coelho.
Projetos em andamento:
1.
Manutenção e desenvolvimento do LabPL (quinto ano –
http://agata.ucg.br/formularios/vpg/projeto/admin/ficha_cadastro.asp?inscricao=2513
)–
Coordenador: Marco Antonio; PROPE/PUC GOIÁS.
Desenvolvimento de aplicativo para dar apoio ao gerenciamento da grade
horária na Universidade Católica de Goiás (terceiro ano http://agata.ucg.br/formularios/vpg/projeto/admin/ficha_cadastro.asp?inscricao=3289 ) Coordenador: Marco Antonio; PROPE/PUC GOIÁS.
2.
3.
Quimiometria baseada em técnicas de processamento de sinal (terceiro
http://agata.ucg.br/formularios/vpg/projeto/admin/ficha_cadastro.asp?inscricao=3387 ) -
ano -
Coordenador Clarimar; PROPE/PUC GOIÁS.
Estudo de autenticidade de documentos por meio da análise de tintas de
canetas empregando a Micro-espectrometria no Infravermelho e Raman (primeiro
ano - http://agata.ucg.br/formularios/vpg/projeto/admin/ficha_cadastro.asp?inscricao=3834 ) Coordenador Clarimar; PROPE/PUC GOIÁS.
4.
Combustíveis Importados – Calibração por FTIR e transferência para 35
laboratórios da PF (primeiro ano http://agata.ucg.br/formularios/vpg/projeto/admin/ficha_cadastro.asp?inscricao=3835 ) Coordenador Clarimar; PROPE/PUC GOIÁS.
5.
6.
Otimização da Gestão da Cadeia de Suprimentos (primeiro ano http://agata.ucg.br/formularios/vpg/projeto/admin/ficha_cadastro.asp?inscricao=3801 ) -
Coordenador Sibelius; PROPE/PUC GOIÁS.
Orientações em andamento:
1. Sobre o problema de designação de salas de aula – Aluno Kelligton Fabrício de
Souza Neves; Orientador: Marco Antonio Figueiredo Menezes; Trabalho de
Conclusão de Curso II.
3
2. Implementação de um algoritmo randômico para programação linear – aluno Lino
Lopes de Barros filho; Orientador: Marco Antonio Figueiredo Menezes; Iniciação
Científica, Voluntário.
3. Um estudo sobre o problema designação turmas-salas – Aluna Arinéia Nogueira de
Assis; Orientador: Marco Antonio Figueiredo Menezes; Iniciação Científica,
Voluntária.
-------------------------------------------------------------------------------------------------------------ACONTECERÁ
Acontecerá informa eventos nos próximos meses no que concerne às atividades de
pesquisa.
VI Semana de Ciência e Tecnologia da PUC Goiás: 19 a 23 de outubro de 2010,
Goiânia/Goiás.
-------------------------------------------------------------------------------------------------------------PRODUÇÃO CIENTÍFICA
Divulgação da produção científica. Este Boletim divulga o período março/2010setembro/2010.
Livros publicados:
1. A. C. B. Alves e M. A. F. Menezes. Introdução à pesquisa operacional. Goiânia:
Editora da PUC Goiás, 2010, 311p.
2. M. M. Ribeiro e M. A. F. Menezes. Uma breve introdução à computação gráfica.
Rio de Janeiro: Editora Ciência Moderna, 2010, 88p.
Trabalhos publicados em revistas:
J. A. M. Brito, N. Maculan, M. Lila e F. M. T. Montenegro. An exact algorithm for
the stratification problem with proportional allocation. Optimization Letters. Vol. 4,
N. 2, p. 185-195, 2010.
2. A. P. de Lucena, N. Maculan e L. G. Simonetti. Reformulations and solution
algorithms for the maximum leaf spanning tree problem. Computational
Management Science, Vol. 7, N. 3, p. 289-311, 2010.
3. L. L. Pinto e G. Laporte. An efficient algorithm for the Steiner Tree Problem with
revenue, bottleneck and hop objective functions. European Journal of Operational
Research, Vol. 207, N. 1, p. 45-49, 2010.
4. L. L. Pinto e M. M. B. Pascoal. On algorithms for the tricriteria shortest path
problem with two bottleneck objective functions. Computers & Operations
Research, Vol. 37, N. 10, p. 1774-1779, 2010.
1.
4
Trabalhos publicados em congressos:
1.
Da Silva, A. L. B., Pedrosa, L. Vicente, S. Da C. Coelho, C. J. Emprego das
técnicas de reamostragem bagging e subbaging em calibração multivariada, I
Simpósio de Ciência e Meio Ambiente, Anápolis, 2010.
Orientações concluídas:
1. Filtro de Kalman, Aluno: Gustavo Siqueira Vinhal; Orientador: Clarimar José
Coelho, Iniciação Científica.
2. Spline Cúbica, Aluno: Tiago Curtinhas; Orientador: Clarimar José Coelho, Iniciação
Científica.
-------------------------------------------------------------------------------------------------------------ARTIGO
Métodos de Particionamento de Dados para Problemas de
Calibração Multivariada
Márcio Félix Reis
Departamento de Computação
Pontifícia Universidade Católica de Goiás (PUC Goiás)
Introdução
A Calibração Multivariada é uma área da química analítica que busca um modelo
matemático que descreva a relação entre medidas indiretas obtidas por um método
instrumental e medidas diretas obtidas por métodos convencionais [1]. As medidas indiretas
são fáceis de adquirir, mas as medidas diretas são difíceis. Por isso, criamos modelos
matemáticos para predição de medidas diretas de amostras desconhecidas a partir de
medidas indiretas. Os métodos de calibração multivariada mais usados são regressão linear
múltipla (MLR), regressão por componentes principais (PCR) e regressão por mínimos
quadrados parciais (PLS) [2].
Antes da aplicação do modelo construído, o mesmo deve ser validado com o
objetivo de testar a sua capacidade preditiva [3]. Uma boa maneira de validarmos o modelo
seria a coleta de novos dados que poderiam ser comparados com a predição do modelo, mas
isso nem sempre é possível [4]. Nesse contexto, podemos simular a coleta de novos dados
dividindo os dados em dois subconjuntos, chamados de treinamento e validação. O
conjunto de treinamento é usado para estimar os coeficientes do modelo e o de validação
para medir a previsão do modelo.
A seguir vamos descrever métodos usados para particionamento de conjuntos de
dados em subconjuntos representativos de treinamento e validação.
5
Amostragem Aleatória - RS
A Amostragem Aleatória (RS) é uma técnica popular devido à sua simplicidade e
também porque um grupo de dados extraído aleatoriamente de um conjunto maior segue a
distribuição estatística de todo o conjunto [5]. O método RS particiona o conjunto de dados
selecionando aleatoriamente as amostras de treinamento e teste. Isto não garante a
representatividade dos conjuntos [5]. Sua vantagem é a simplicidade.
Vale ressaltar que existe a possibilidade de geração de sequências aleatórias nos
computadores atuais, mas em geral usamos sequências pseudo aleatórias, que são geradas
por algoritmos determinísticos.
Nesse trabalho usamos a função rand do Matlab que gera sequências pseudo
aleatórias com distribuição uniforme.
Algoritmo
1. Selecione uma amostra aleatoriamente.
2. Volte para 1 até que o número de amostras selecionadas seja suficiente.
Kennard-Stone - KS
O algoritmo Kennard-Stone (KS) visa selecionar um subconjunto representativo de
um conjunto de N amostras. Para isso o algoritmo emprega a distância Euclidiana d x(p, q)
entre os x-vetores de cada par (p, q) de amostras calculada como
(1)
onde N é o número de amostras e J é o numero de variáveis.
A seleção começa pelo par (p1, p2) mais distantes e a cada iteração o algoritmo
seleciona mais uma amostra maximizando as distâncias mínimas entre as amostras já
selecionados e as remanescentes.
Algoritmo
1. Selecione duas amostras mais distantes usando a medida de distância Euclidiana.
2. Para cada amostra não selecionada, armazene em uma lista a menor distância
Euclidiana para uma amostra selecionada.
3. Da lista de menor distâncias, selecione a amostra com distância máxima.
4. Volte para 2 até que o número de amostras selecionadas seja suficiente.
Figura 1: Ilustração do Algoritmo KS.
6
A figura 1. a) mostra as duas amostras inicialmente selecionadas (indicadas com as
caixas) que estão mais distantes. A figura 1. b) mostra as menores distâncias euclidianas
das amostras não selecionadas para as selecionadas. A figura 1. c) mostra a seleção da
amostra com a maior distância Euclidiana.
O algoritmo KS pode ser usado para dividir o conjunto de dados em duas partes
iguais: um conjunto de treinamento (as amostras selecionadas) e um conjunto de validação
(as amostras restantes). Uma desvantagem do KS é a sensibilidade para outliers, o que pode
comprometer todo o processo de seleção de amostras: as amostras mais distantes são
selecionadas primeiro [6]. Este método provou ser útil [5, 6, 7].
Particionamento de Conjunto de Amostras Baseado em Distâncias x-y
Comuns - SPXY
O método SPXY foi proposto em [5] e consiste da inclusão na distância definida na
equação (1) da distância referente à variável dependente y. A distância d y(p, q) pode ser
calculada como
(2)
onde N é o numero de amostras.
A fim de atribuir importância igual à distribuição das amostras nos espaços x e y, as
distâncias dx(p, q) e dy(p, q) são divididas pelos seus valores máximos no conjunto de
dados. Desta forma, a uma distância xy normalizada é calculada como
(3)
Um procedimento de seleção similar ao algoritmo KS pode ser aplicado com a
distância dxy(p, q) ao invés da dx(p, q).
Em relação ao esforço computacional, SPXY é comparável com o KS, pois ambos
os algoritmos empregam simples cálculos de distância [5].
Validação Cruzada
A validação cruzada é uma técnica de validação com base apenas nos dados de
calibração [1]. Primeiro, uma amostra do conjunto de calibração é excluída. Em seguida, a
calibração é realizada sobre o resto das amostras e ela é testada na primeira amostra,
comparando y com y . A primeira amostra é então colocada de volta no conjunto de
calibração, e o procedimento é repetido excluindo a amostra dois. O processo continua até
que todas as amostras foram excluídas uma vez.
7
Uma vantagem da validação cruzada é que a validação pode ser feita sem que o
conjunto de calibração seja dividido previamente, aumentando o número de amostras
disponíveis para calibração.
Material e Métodos
Os dados usados no trabalho foram obtidos por meio de um espectrômetro. Esses
dados estão organizados na forma de uma matriz X e um vetor y. A matriz X tem 100
linhas (amostras) e 701 colunas (comprimentos de onda), onde Xi,j é a absorção da amostra
i no comprimento de onda j. O vetor y tem 100 linhas e uma coluna, onde y i é a
concentração de proteína na amostra i.
Os modelos de calibração multivariada foram obtidos utilizando o Algoritmo de
Projeções Sucessivas [2] e a MLR com diferentes subconjuntos de dados. Os dados foram
divididos em 3 subconjuntos, chamados calibração (50 amostras), validação (25 amostras) e
teste (25 amostras) utilizando os métodos RS, KS e SPXY. A calibração feita com os
subconjuntos particionados pelo RS foi repetida 10 vezes, usando diferentes sementes para
geração de números pseudo-aleatórios, e o resultado apresentado é a média dos resultados
obtidos.
A implementação foi feita utilizando o programa Matlab.
Resultados
O índice utilizado para comparar o quanto o valor predito se aproxima da
concentração esperada é a raiz quadrada do erro quadrático médio de predição (RMSEP)
que é dado por
(4)
onde y i é a i-ésima concentração predita pelo modelo de regressão.
Os resultados da predição usando os métodos de Amostragem Aleatória (RS),
Kennard-Stone (KS), Particionamento de Conjunto de Amostras Baseado em Distâncias xy Comuns (SPXY) e Validação Cruzada (CV) são apresentados na Tabela 1. A primeira
coluna da tabela 1 mostra o nome dos métodos utilizados. A segunda coluna mostra o
RMSEP. A terceira apresenta o tempo médio de execução em segundos. A quarta coluna
mostra o número de variáveis selecionadas.
Método
RMSEP
tempo (s) número de variáveis selecionadas
RS
0,62
15
22
KS
0,48
14,8
11
SPXY
0,49
14,7
22
CV
0,17
7698,8
77
Tabela 1: Resultados
8
O tempo de execução dos métodos RS, KS e SPXY são próximos de 15 segundos.
A CV apresentou o menor RMSEP e o maior tempo de execução.
Conclusão
Foi apresentado neste trabalho o uso de métodos de particionamento de dados em
problemas de calibração multivariada. Como exemplo de aplicação foi feita a determinação
da concentração de proteína em amostras de trigo. A comparação entre os métodos foi
apresentada. Conclui-se que os resultados obtidos com a Validação Cruzada em termos de
RMSEP são melhores do que os resultados obtidos com os outros métodos. Observa-se
ainda a significativa desvantagem em termos de custo computacional da Validação
Cruzada.
Referências
Tormod Naes, Tomas Isaksson, Tom Fearn, Tony Davies, A User Friendly Guide to
Multivariate Calibration and Classification - NIR Publications 2002.
[2] Mário César Ugulino Araújo, Teresa Cristina Bezerra Saldanha, Roberto Kawakami
Harrop Galvão, Takashi Yoneyama, Henrique Caldas Chame, Valeria Visani, The
successive projections algorithm for variable selection in spectroscopic
multicomponent anasysis, Chem. and Int. Lab. Syst. 57 (2001) 65 - 73.
[3] Márcia M. C. Ferreira, Alexandre M. Antunes, Marisa S. Melgo e Pedro L. O.
Volpe, Quimiometria I: calibração multivariada, um tutorial, Quím. Nova vol.22 n.5
São Paulo Sept./Oct. 1999.
[4] Ronald D. Snee, Validation of Regression Models: Methods and Examples,
Technometrics, Vol. 19, No. 4. (Nov., 1977), pp. 415-428.
[5] Roberto Kawakami Harrop Galvão, Mário César Ugulino Araujo, Gledson Emídio
José, Marcio José Coelho Pontes, Edvan Cirino Silva, Teresa Cristina Bezerra
Saldanha, A method for calibration and validation subset partitioning, Talanta 67
(2005) 736 - 740.
[6] P. J. de Groot, G. J. Postma, W. J. Melssen, L. M. C. Buydens, Selecting a
representative training set for the classification of demolition waste using remote
NIR sensing, Analytica Chimica Acta 392 (1999) 67 - 75.
[7] Karmen Rajer-Kanduˇc, Jure Zupan, Nineta Majcen, Separation of data on the
training and test set for modelling: a case study for modelling of five colour
properties of a white pigment, Chem. and Int. Lab. Syst. 65 (2003) 221 - 229.
-------------------------------------------------------------------------------------------------------------[1]
INFORMAÇÕES E CONTATO
Página Principal: http://agata.ucg.br/formularios/NPI/matematicacomp_index.htm
Página do boletim: http://agata.ucg.br/formularios/NPI/matematicacomp_boletim.htm
[email protected]
9
Download

Ano 8, Número 16, Outubro 2010