Relatório da Unidade Curricular
Químio-informática
João Montargil Aires de Sousa
Provas para obtenção do Título de Agregado
em Química, Especialidade de Química Orgânica
pela Faculdade de Ciências e Tecnologia
da Universidade Nova de Lisboa
Março de 2010
ÍNDICE
Página
1. Introdução e Enquadramento Curricular ....................................
3
1.1. Definição de Químio-informática ............................................
3
1.2. Panorama Internacional do Ensino da Químio-informática ....
3
1.3. Génese da Proposta ..................................................................
4
1.4. Enquadramento Curricular .......................................................
5
1.5. Disciplinas Relacionadas Noutras Universidades .................... 5
1.6. Bibliografia da Introdução .......................................................
6
2. Objectivos da Unidade Curricular ................................................
8
2.1. Objectivos Globais de Formação .............................................
8
2.2. Objectivos Específicos de Formação .......................................
9
3. Conteúdos Programáticos da Unidade Curricular ......................
11
3.1. Resumo do Programa ...............................................................
11
3.2. Desenvolvimento dos Conteúdos Programáticos ....................
13
3.3. Bibliografia ..............................................................................
43
4. Metodologia de Ensino e Avaliação ............................................
44
4.1. Planeamento .............................................................................
44
4.2. Organização das Aulas e Metodologia ....................................
44
4.3. Avaliação .................................................................................
46
Apêndice 1: Indicações Gerais para os Exercícios Práticos ............
47
Apêndice 2: Ficha da Unidade Curricular ........................................
48
- 2 -
1. Introdução e Enquadramento Curricular
1.1. Definição de Químio-informática
A Químio-informática é uma área científica que utiliza metodologias informáticas para resolver problemas
de Química frequentemente associados à utilização de informação sobre estruturas moleculares. Apesar de
ter um nome recente, a Químio-informática tem uma história de mais de 40 anos,1 criou revistas científicas
próprias bem estabelecidas, produziu livros de referência, foi incorporada em variados programas
curriculares e teve um enorme impacto industrial nomeadamente na indústria farmacêutica ao nível dos
processos de descoberta de novos fármacos.2 Também hoje o acesso de todos os químicos a vastíssimas
fontes de informação envolvendo estruturas moleculares é suportado por infra-estruturas químioinformáticas frequentemente imperceptíveis.
Apesar de para alguns autores a Químio-informática englobar a aplicação de cálculos teóricos de mecânica
quântica,3 na prática esta última tem permanecido sob a designação de “Química Computacional”,
“Química Teórica” ou mesmo “Modelação Molecular”. Exemplos de aplicações típicas da Químioinformática são a gestão de bases de dados químicas, análise de grandes conjuntos de dados experimentais
associados a estruturas moleculares, utilização de métodos estatísticos e de aprendizagem automática para
a previsão de actividades biológicas ou outras propriedades observáveis (QSAR/QSPR), aplicação de
métodos de inteligência artificial para elucidação estrutural, ou a visualização de estruturas e informação
química.
1.2. Panorama Internacional do Ensino da Químio-informática
O mercado de trabalho e os grupos académicos de investigação em Químio-informática recrutaram
tradicionalmente químicos que trabalharam em áreas com forte envolvimento de computação – como os
cálculos de química quântica ou a cristalografia de raios-X – ou que adquiriram formação específica de
forma mais ou menos estruturada. Nos últimos 15 anos têm sido dados passos para formalizar o ensino
universitário da Químio-informática.4 Foram assim implementados cursos desta disciplina em várias
universidades, com grande variedade de formatos. Em alguns casos criaram-se mestrados especificamente
de Químio-informática que visam treinar especialistas para exercer funções químio-informáticas na
indústria ou na academia. São casos de referência os Mestrados das Universidades de Sheffield (Reino
Unido), Estrasburgo (França) e Indiana (E.U.A.).5 Também tem sido frequente a inclusão de disciplinas de
Químio-informática em mestrados de Química e de Farmácia. São disso exemplo as disciplinas Tópicos
de Quimioinformática do Programa de Pós-graduação em Ciências Farmacêuticas da Universidade de S.
Paulo (Ribeirão Preto, Brasil)6 ou os módulos de Químio-informática do Mestrado em Ciências
Moleculares da Universidade de Erlangen-Nuremberga (Alemanha).5
Ao mesmo tempo introduziram-se curricula de Químio-informática em cursos de 1º ciclo de Química com
o objectivo de fornecer aos químicos competências específicas no manuseamento computacional de
estruturas químicas e na análise de conjuntos de dados, por exemplo para estabelecer relações estruturaactividade (QSAR). Estão neste caso as disciplinas de Informática Química no bacharelato em Química da
Universidade de Cambridge (Reino Unido),7 Introdução à Químio-informática no bacharelato de Química
da Escola Politécnica Federal de Lausanne (Suíça),8 Infochimie na Licenciatura em Química na
Universidade de Estrasburgo (França),9 Introdução à Químio-informática para alunos do 1º ano do
Departamento de Química da Universidade de Sheffield,4 e o módulo de Químio-informática por mim
introduzido na unidade curricular de Química Computacional da Licenciatura em Química Aplicada na
Universidade Nova de Lisboa.10
Recentemente têm também aparecido cursos de 1º ciclo orientados para a Químio-informática, de que é
exemplo o bacharelato em Química com Informática na Universidade de Sheffield,11 ou o bacharelato de 4
anos em Químio-informática na Universidade Tecnológica do Michigan (E.U.A.).12
- 3 -
Um marco importante no ensino da Químio-informática foi a publicação em 2003 de dois livros de texto
introdutórios
Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003.
Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics; Kluwer: Dordrecht, 2003.
que contribuíram para definir as fronteiras da disciplina e forneceram instrumentos de referência para o
ensino universitário.
Um outro evento significativo foi a Declaração de Obernai em 2006 por 100 cientistas de 18 países
europeus, E.U.A. e Canadá que chamou a atenção para a necessidade não só de treinar especialistas em
Químio-informática como também de formar químicos com competências nesta área.13
1.3. Génese da Proposta
A minha intervenção no ensino da Químio-informática iniciou-se em 1999 com a introdução de um
pequeno projecto (“Molécula Web”) na unidade curricular de Química de Produtos Naturais da
Licenciatura em Química Aplicada na FCT/UNL, em que se pretendia ensinar os alunos a incorporar
informação química e estruturas 3D em páginas HTML.14
Em 2000 aceitei o convite para introduzir um módulo de redes neuronais no Mestrado em Química
Analítica Aplicada na Faculdade de Ciências da Universidade de Lisboa.15 Foi no âmbito dessa
colaboração que desenvolvi o software JATOON para o ensino de redes neuronais de back-propagation,
Kohonen e de counterpropagation.16,17
Em 2002 publiquei no Boletim da Sociedade Portuguesa de Química um artigo intitulado “Quimioinformática: Conteúdos que Urge Ensinar” em que apresentei a área e propus matérias a incluir em cursos
universitários.18 Tanto quanto sei terá sido essa a primeira vez que o termo “Quimio-informática” foi
usado em Português.
No ano seguinte tive a oportunidade de contribuir com capítulos para os livros
Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003.
Handbook of Chemoinformatics: from Data to Knowledge, Gasteiger, J., Engel, T., Eds.; WileyVCH: Weinheim, 2003.
Em 2006 participei na Comissão Científica do workshop “Chemoinformatics in Europe: Research and
Teaching”, Obernai (França), do qual resultou a Declaração de Obernai13 de que fui signatário.
Após a contratação como Professor Auxiliar do Departamento de Química da FCT/UNL colaborei na
introdução duma unidade curricular de Química Computacional com um módulo de Químio-informática,
durante a reestruturação da Licenciatura em Química Aplicada de 2002. A nova disciplina começou a
funcionar no ano lectivo de 2006/2007. Todo o material usado (apresentações teóricas, protocolos
práticos, software próprio e conjuntos de dados) tem sido disponibilizado na Internet em Português10 e
Inglês.19 Esta unidade curricular é obrigatória no perfil de Química Orgânica da Licenciatura de Química
Aplicada da FCT/UNL, o qual obteve a certificação Eurobachelor em 2007. Tive oportunidade de
apresentar a disciplina no simpósio “Cheminformatics from Teaching to Research: Cheminformatics
Education” (235º Encontro Nacional da Sociedade Americana de Química, Nova Orleães, E.U.A., 2008)
tendo o exemplo desta unidade curricular sido citado em artigos sobre o ensino da Químio-informática.5,20
Em Maio de 2009 os conteúdos de aprendizagem automática foram adaptados para um módulo de duas
sessões da disciplina Tópicos de Quimioinformática do Programa de Pós-graduação em Ciências
Farmacêuticas que ministrei na Universidade de S. Paulo (Ribeirão Preto, Brasil).
- 4 -
Em Dezembro de 2009, no contexto da intervenção como Professor Convidado da Universidade de
Estrasburgo (França), ministrei quatro sessões do Mestrado em Químio-informática tendo versado sobre
métodos de aprendizagem automática, representação e classificação de reacções químicas.21
1.4. Enquadramento Curricular
É na sequência destes 10 anos de experiência pedagógica em Químio-informática que submeto o presente
Relatório de Unidade Curricular. Proponho-a como uma unidade curricular obrigatória para o 3º ano de
uma licenciatura em Química. Apesar dessa caracterização, poderá também ser integrada numa
licenciatura de Química como unidade curricular opcional, dependendo do plano de estudos e do perfil
pretendido para a licenciatura. É também adequada como opção em licenciaturas de Bioquímica ou
Biologia Celular e Molecular, mestrados integrados de Engenharia Química ou em cursos de mestrado nas
áreas da Química e Farmácia.
A proposta de inclusão de uma unidade curricular obrigatória de Químio-informática no plano de estudos
de uma licenciatura em Química radica, em primeiro lugar, na convicção de que uma licenciatura
universitária de 3 anos em Química deve fornecer uma formação científica alargada que permita a um
licenciado aceder a formação avançada em Química, mas também noutras áreas relacionadas. Assim
sendo, o plano de estudos deve valorizar disciplinas que desenvolvam competências transferíveis e de
multidisciplinaridade, como é o caso da Químio-informática. Em segundo lugar, a proposta baseia-se na
percepção do impacto crescente que as tecnologias de informação têm na Química. A abundância de
informação química já hoje existente, a facilidade de geração de dados experimentais e a ubiquidade dos
meios informáticos tornam necessária a utilização e compreensão de ferramentas químio-informáticas,
mesmo por químicos experimentais. A realização de uma unidade curricular como esta no 3º ano da
licenciatura é também uma oportunidade para reforçar alguns conceitos estudados noutras disciplinas,
como por exemplo estereoquímica, influência da estrutura em propriedades físicas de compostos, técnicas
analíticas ou metabolismo.
1.5. Disciplinas Relacionadas Noutras Universidades
Quase todas as unidades curriculares de Química Computacional ministradas nas licenciaturas de Química
em Portugal abordam essencialmente teoria de mecânica quântica nos seus vários níveis de aproximações
e a sua aplicação ao cálculo de propriedades termodinâmicas.
As unidades curriculares de Química Computacional I e II da Faculdade de Ciências da Universidade de
Lisboa (FCUL)22 – obrigatória a primeira e opcional a segunda – para alunos do 3º ano da Licenciatura em
Química incluem também conteúdos de redes neuronais, algoritmos genéticos e suas aplicações em
Química. A unidade curricular de Modelação Molecular da Licenciatura em Química na Universidade da
Madeira23 é obrigatória para os alunos do 3º ano e inclui um capítulo de “Design de ligandos” que aborda
a representação computacional de moléculas e análise de diversidade molecular. A unidade curricular
opcional de “Química aplicada ao design de fármacos” da Licenciatura em Química na Universidade do
Porto24 inclui o estudo de QSAR para além de técnicas de modelação molecular.
Ao nível de cursos de 2º ciclo, existe uma unidade curricular de “Redes neuronais e quimiometria” no
Mestrado em Química Teórica e Modelação Computacional da FCUL25 e uma unidade curricular de
“Aplicação de SARs e QSARs à concepção de novos fármacos” no Mestrado em Química na mesma
Faculdade26 que aborda a representação de estruturas moleculares e métodos de aprendizagem automática
(regressões lineares, árvores de decisão, redes neuronais) para QSAR. Tenho ministrado alguns módulos
destas unidades curriculares e tive assim possibilidade de acompanhar como estas temáticas têm sido
introduzidas em Portugal e como os alunos as têm recebido.
As unidades curriculares de Quimiometria nos Mestrados dos Departamentos de Química das
Universidades do Minho27 e de Coimbra28 incluem capítulos sobre análise multivariada e suas aplicações
em Química.
- 5 -
A unidade curricular que aqui proponho assemelha-se nos conteúdos às congéneres da EPFL de Lausanne
(Suíça), Universidade de Estrasburgo (França), Universidades de Cambridge e Sheffield (Reino Unido)
antes mencionadas. Todas incluem representação da estrutura molecular e QSAR/QSPR. Em Lausanne
aborda-se também o formato JCAMP para o arquivo de informação espectroscópica e a visualização de
informação química em páginas web com o applet JMol. Em Estrasburgo e Sheffield os programas
incluem screening virtual. A disciplina de Cambridge inclui pesquisa em bases de dados bibliográficas.
1.6. Bibliografia da Introdução
1. Chen, W.L. Chemoinformatics: Past, Present and Future. J. Chem. Inf. Model. 2006, 46 (6), 22302255.
2. Chemoinformatics in Drug Discovery, Oprea, T. I., Ed.; Wiley-VCH: Weinheim, 2005.
3. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003.
4. Willett, P. Education for Chemoinformatics. Workshop “Chemoinformatics in Europe: Research
and Teaching”, Obernai (França), 2006. http://infochim.ustrasbg.fr/chemoinformatics/Teaching.php
5. Warr, W. A. Cheminformatics Education. QSAR World, November 2008,
http://www.qsarworld.com/cheminformatics-education.php
6. https://sistemas.usp.br/fenixweb/fexDisciplina?sgldis=6025824
7. http://www-teach.ch.cam.ac.uk/guides/II_main.pdf
8. http://scgc.epfl.ch/bachelor_23.htm
9. http://www-chimie.u-strasbg.fr/IMG/pdf/9.pdf
10. http://www.dq.fct.unl.pt/cadeiras/qc/
11. http://www.shef.ac.uk/chemistry/prospectiveug/courses/informatics.html
12. http://www.chemistry.mtu.edu/pages/undergrad/index.php
13. The Obernai Declaration, Obernai (França), 2006,
http://infochim.u-strasbg.fr/chemoinformatics/Obernai_declaration.php
14. http://www.dq.fct.unl.pt/cadeiras/qpn1/main.html
15. http://www.dq.fct.unl.pt/staff/jas/fc2000/
16. http://www.dq.fct.unl.pt/staff/jas/jatoon/
17. Aires-de-Sousa, J. JATOON: Java Tools for Neural Networks. Chemom. Intell. Lab. Syst. 2002,
61(1-2), 167-173.
18. Aires-de-Sousa, J. Quimio-informática: Conteúdos que Urge Ensinar. Química 2002, 84, 55-59.
http://www.spq.pt/boletim/docs/BoletimSPQ_084_055_09.pdf
19. http://www.dq.fct.unl.pt/staff/jas/qc/
20. Kind, T.; Leamy, T.; Leary, J. A.; Fiehn, O. Software Platform Virtualization in Chemistry
Research and University Teaching. J. Cheminformatics 2009, 1:18.
21. http://www.dq.fct.unl.pt/staff/jas/teaching/Strasbourg2009/
22. http://www.dqb.fc.ul.pt/1ciclo/quimica/pc_quimica.htm
23. http://www.uma.pt
24. http://www.fc.up.pt
- 6 -
25. http://www.dqb.fc.ul.pt/2ciclo/qteorica/plano.htm
26. http://www.dqb.fc.ul.pt/2ciclo/quim/
27. http://www.quimica.uminho.pt/ e
http://www.gri.uminho.pt/Default.aspx?tabid=10&pageid=456&lang=pt
28. https://woc.uc.pt/quimica
Todos os web sites foram acedidos em Março de 2010.
- 7 -
2. Objectivos da Unidade Curricular
2.1. Objectivos Globais de Formação
A frequência da unidade curricular proposta no presente Relatório deverá contribuir para que o aluno:
Compreenda a necessidade de utilizar métodos informáticos para processar grandes volumes de
informação química.
Compreenda a vantagem de transformar uma estrutura química numa linguagem para a
representação e processamento por um computador.
Aprenda as principais estratégias para a representação computacional de estruturas moleculares e
reacções químicas.
Aprenda os fundamentos da teoria de bases de dados de estruturas moleculares.
Aprenda a representar aspectos específicos da estrutura molecular por descritores moleculares.
Adquira competências para a utilização de técnicas de aprendizagem automática.
Adquira competências para a aplicação da metodologia QSAR/QSPR – relações quantitativas
estrutura-actividade e estrutura-propriedade.
Reconheça a versatilidade das metodologias computacionais estudadas e aprenda a reduzir
problemas concretos a formatos tratáveis pelas mesmas.
Reconheça as limitações dos métodos aprendidos e a necessidade de novos desenvolvimentos.
Consolide conceitos fundamentais de Química (como estereoquímica ou influência de aspectos
estruturais nas propriedades físicas dum composto).
Reflicta sobre as possibilidades e limitações da construção de modelos preditivos em Química.
Desenvolva competências para aceder à literatura de Químio-informática e para aprender
autonomamente novos tópicos nesta área.
Desenvolva capacidades de multidisciplinaridade (por exemplo em estudos de QSAR).
Desenvolva competências transferíveis no domínio das tecnologias de informação.
- 8 -
2.2. Objectivos Específicos de Formação
Representação da estrutura molecular
Aprender as regras fundamentais da notação linear SMILES
Ser capaz de codificar uma estrutura molecular simples (<10 átomos, hidrogénios excluídos)
em SMILES
Ser capaz de desenhar a fórmula de estrutura de uma molécula simples (<10 átomos,
hidrogénios excluídos) a partir da representação SMILES
Reconhecer a necessidade de representações canónicas de estruturas moleculares
Interpretar estruturas de Markush
Aprender a construir as matrizes de adjacências, ligações e distâncias dada uma estrutura
molecular
Aprender a interpretar tabelas de conectividade
Aprender a interpretar os formatos MDL Molfile e SDfile
Aprender a utilizar software para a interconversão de ficheiros e para a estandardização de
estruturas
Aprender a representar estruturas moleculares por hashed fingerprints
Aprender a utilizar software para a geração rápida de modelos moleculares 3D e seu arquivo
em formatos moleculares MDL Molfile e PDB
Aprender o conceito de farmacóforo e a sua utilização no design de fármacos
Bases de dados de estruturas químicas
Compreender as especificidades dos sistemas de bases de dados de estruturas moleculares
Distinguir entre pesquisa por estrutura, sub-estrutura e semelhança
Análise de diversidade molecular
Reconhecer a utilidade de análises de diversidade molecular no planeamento de experiências
laboratoriais de screening
Aprender a calcular distâncias entre moléculas através do coeficiente euclidiano e coeficiente
de Tanimoto com base em hashed fingerprints
Aprender a calcular a diversidade dentro de um conjunto de moléculas
Aprender a calcular a distância de uma moléculas a um conjunto de moléculas
Aprender um algoritmo para a selecção de um sub-conjunto com máxima diversidade
Representação de reacções químicas
Aprender a interpretar e utilizar representações SMILES de reacções químicas
Aprender a interpretar ficheiros no formato MDL RDfile, incluindo a especificação do centro
reaccional e mapeamento átomo-a-átomo
- 9 -
Descritores moleculares
Compreender o que são descritores moleculares
Distinguir entre diferentes tipos de descritores moleculares, nomeadamente descritores
constitucionais, descritores de fragmentos, descritores topológicos e descritores 3D
Aprender a definição de alguns descritores representativos como o índice de Wiener, vectores
de autocorrelação 2D e funções de distribuição radial 3D
Aprender a usar software para o cálculo de descritores moleculares
Introdução às relações quantitativas estrutura-propriedade e estrutura-actividade (QSPR e
QSAR)
Aprender o que são relações quantitativas estrutura-propriedade e estrutura-actividade (QSPR
e QSAR)
Compreender os vários passos para o estabelecimento de QSPR e QSAR
Métodos para análise de dados
Aprender a utilizar regressões multilineares para QSPR/QSAR
Familiarizar-se com os aspectos fundamentais do algoritmo e com a estrutura de árvores de
decisão
Compreender os aspectos fundamentais do algoritmo de Random Forests e as suas
vantagens/desvantagens em relação a árvores de decisão
Compreender o funcionamento de redes neuronais de back-propagation, Kohonen e de
counterpropagation
Ser capaz de utilizar software para treinar e aplicar árvores de decisão, Random Forests e
redes neuronais.
Distinguir entre aprendizagem supervisionada e não-supervisionada
Aprender a aplicar técnicas de aprendizagem automática a problemas de Química
- 10 -
3. Conteúdos Programáticos da Unidade Curricular
3.1. Resumo do Programa
1. Introdução
1.1. Objectos e métodos da Químio-informática
2. Representação da estrutura molecular
2.1. Necessidade e estratégias para a representação de compostos químicos
2.2. A notação linear SMILES
2.3. Representação de estruturas moleculares no formato InChI
2.4. Estruturas de Markush
2.5. Representação de estruturas moleculares por grafos moleculares e matrizes
2.6. Tabelas de conectividade
2.7. Os formatos MDL Molfile e SDfile
2.7. Software para a interconversão de ficheiros e para a estandardização de estruturas
2.8. Representações por chaves estruturais, hashed fingerprints e hash codes
2.9. Representação de estruturas 3D e o formato PDB
2.10. Software para a geração de estruturas 3D a partir da conectividade
2.10. Representação de superfícies moleculares
2.11. Farmacóforos
3. Bases de dados de estruturas químicas
3.1. Pesquisa por estrutura, sub-estrutura e semelhança
4. Análise de diversidade molecular
4.1. Definições de similaridade entre moléculas
4.2. Definições de diversidade dentro de um conjunto de moléculas
4.3. Distância de um composto a um conjunto de compostos
4.4. Algoritmos para a selecção de um sub-conjunto com diversidade máxima
5. Representação de reacções químicas
5.1. Representação de reacções nos formatos SMILES e MDL RDfile
5.2. Representação de centros reaccionais e mapeamento átomo-a-átomo
6. Descritores moleculares
6.1. Descritores constitucionais
6.2. Descritores de fragmentos
- 11 -
6.3. Descritores topológicos
6.3.a. O índice de Wiener
6.3.b. Vectores de autocorrelação 2D
6.4. Descritores 3D
6.4.a. Funções de distribuição radial
6.5. Software para o cálculo de descritores moleculares
7. Introdução às relações quantitativas estrutura-propriedade (QSPR) e estruturaactividade (QSAR)
7.1. Selecção de conjuntos de treino, validação e previsão
7.2. Selecção de descritores
7.3. Treino e avaliação de modelos
8. Métodos para análise de dados
8.1. Regressões multilineares
8.2. Árvores de decisão
8.3. Random Forests
8.4. Redes neuronais de back-propagation
8.5. Redes neuronais de Kohonen
8.6. Redes neuronais de counterpropagation
- 12 -
3.2. Desenvolvimento dos Conteúdos Programáticos
1ª Aula
Conteúdos teóricos
Objectos e métodos da Químio-informática. Na introdução à disciplina são apresentadas estatísticas
relativas à dimensão actual da base de dados Chemical Abstracts para exemplificar a necessidade de usar
computadores na gestão da informação química hoje existente. A Químio-informática é apresentada como
uma disciplina que utiliza métodos computacionais para resolver problemas em Química, nomeadamente
problemas relacionados com o processamento de estruturas moleculares. Esta unidade curricular aborda
particularmente a representação de moléculas em formatos electrónicos, cálculo de propriedades da
estrutura molecular (descritores moleculares), comparação de estruturas e utilização de métodos de
aprendizagem automática para o estabelecimento de relações estrutura-propriedade e estrutura-actividade.
São apresentados aos alunos os principais objectos da Químio-informática: estruturas moleculares,
reacções químicas, propriedades físicas (como solubilidades, coeficientes de partição ou espectroscopia),
químicas (como electrofilia ou estabilidade química) ou biológicas (como toxicidade ou actividade
farmacológica).
É apresentada, como uma aplicação típica desta disciplina, a utilização de métodos de estatística e
métodos de aprendizagem automática (como árvores de decisão ou redes neuronais) para o
estabelecimento de relações entre estrutura e propriedades.
Necessidade de representação de compostos químicos. Inicia-se a abordagem da representação de
estruturas moleculares discutindo a inadequação de formatos de imagem para esse efeito e referindo a
necessidade de representar a essência da fórmula estrutural: átomos, ligações e estereoquímica. A
representação de estruturas moleculares em formatos electrónicos é necessária para o arquivo de
informação, visualização, gestão/pesquisa em bases de dados, identificação de relações entre estrutura e
propriedades, ou cálculo de propriedades.
Uma representação não ambígua identifica uma só estrutura possível (por exemplo o nome ‘tolueno’).
Uma representação é única se uma dada estrutura só puder ser representada de uma forma.
As notações lineares representam estruturas por sequências de letras e números. Os alunos são chamados
a recordar pelo menos um tipo de notação linear que já conhecem: a nomenclatura IUPAC. É apresentada
a vantagem de outras notações lineares que, por serem extremamente compactas e usarem códigos mais
facilmente interpretáveis por uma máquina, são muito úteis para armazenar e manusear estruturas num
computador. Permitem transmitir estruturas facilmente (por exemplo, no conteúdo de texto duma
mensagem de correio electrónico ou no campo de pesquisa dum motor de pesquisa web).
A notação linear SMILES. É apresentada a notação SMILES (Simplified Molecular Input Line Entry
System) que permite representar moléculas por sequências muito compactas e intuitivas. É exemplificado
como a estrutura de propan-1-ol pode ser representada por CCCO. As regras mais importantes são
resumidas do seguinte modo:
Átomos são representados pelos seus símbolos atómicos.
Átomos de H são omitidos (ficam implícitos).
Átomos vizinhos ficam um a seguir ao outro.
Ligações duplas representam-se por ‘=‘, triplas por ‘#’.
Ramificações representam-se por parênteses.
Anéis são representados atribuindo dígitos ao dois átomos que fecham o anel.
É explicado como a quiralidade num centro tetraédrico é especificada com os caracteres @ (sentido
oposto ao do relógio) ou @@ (sentido do relógio). A caracterização é feita olhando para o centro de
quiralidade a partir do primeiro ligando que aparece no SMILES, e observando em que sentido estão
dispostos os outros três ligandos quando ordenados segundo a ordem de aparecimento no SMILES. A
- 13 -
estereoquímica em redor duma ligação dupla (estereoquímica cis/trans) é especificada com os caracteres
‘\’ e ‘/’.
Nesta aula são também demonstrados os programas MarvinSketch e MarvinView do pacote Marvin
Beans (ChemAxon Ltd., gratuito para uso académico) usado na unidade curricular para a visualização e
edição de estruturas moleculares.
Antes de apresentar a existência de um algoritmo para gerar representações SMILES únicas, os alunos
poderão realizar os exercícios referentes à primeira aula. No exercício 1.6.b aperceber-se-ão da
necessidade de representações únicas e uniformizadas para a identificação fiável de estruturas iguais.
É demonstrado o programa Standardizer (ChemAxon Ltd., gratuito para uso académico) usado nesta
unidade curricular para a estandardização de estruturas moleculares.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 1 (p. 1-12), Capítulo 2 (p. 15-27, 84).
2. SMILESTM : Simplified Molecular Input Line Entry System, http://www.daylight.com/smiles/
1ª Aula
Exercícios práticos
Todos os ficheiros necessários para os exercícios práticos desta unidade curricular podem ser obtidos a
partir do site da unidade curricular em http://www.dq.fct.unl.pt/staff/jas/agregacao – ver Apêndice 1.
1.1. Escreva, sem recurso a software, uma representação SMILES para as seguintes moléculas (use um
editor de texto como o Notepad no Windows; ou gedit, TextEditor, Kate, ou Kwrite no Linux):
1.1.a.
1.1.b.
1.1.c.
1.1.d.
1.2. Copie para o programa MarvinSketch os SMILES que escreveu no problema anterior e confirme que
estão certos. (Pode fazer “Copy” dum SMILES e “Paste” em cima da área de trabalho do MarvinSketch.)
1.3. Desenhe estruturas moleculares para as seguintes representações SMILES:
1.3.a. CCCCBr
1.3.c. C#CCc1ccccc1
1.3.b. CC(CO)CCCN
1.3.d. CCC(C)(F)OC(=S)OC
- 14 -
1.4. Copie os SMILES do problema anterior para o programa MarvinSketch e confirme que as estruturas
que desenhou estão certas.
1.5. Escreva a representação SMILES para o enantiómero (R) do aminoácido lisina. Confirme com o
programa MarvinSketch que está certa.
1.6. Faça download do ficheiro 1000stru.smi. Trata-se dum ficheiro com 1000 estruturas em formato
SMILES.
1.6.a. Verifique se há estruturas repetidas (sugestão: faça “Copy” e “Paste” dos SMILES para uma
folha de cálculo, por exemplo MS Excel no Windows ou OpenOffice.org Calc).
1.6.b. Com um programa Marvin visualize as estruturas nas linhas 130 e 425 do ficheiro. Tinha-as
identificado na alínea anterior? Se não tinha, utilize um procedimento alternativo que permita
identificar casos como esses. (Sugestão: utilize o programa Standardizer para transformar as
representações SMILES).
_______________________________________________
No final desta aula o aluno deverá
Reconhecer a necessidade de usar técnicas informáticas para processar grandes volumes de
dados químicos hoje existentes.
Ter aprendido as regras fundamentais da notação linear SMILES.
Ser capaz de codificar uma estrutura molecular simples (<10 átomos, hidrogénios excluídos)
em SMILES.
Ser capaz de desenhar a fórmula de estrutura de uma molécula simples (<10 átomos,
hidrogénios excluídos) a partir da representação SMILES.
Reconhecer a necessidade de representações canónicas de estruturas moleculares.
2ª Aula
Conteúdos teóricos
Representação de estruturas moleculares no formato InChI. Na continuação da matéria sobre
notações lineares é mencionado o formato InChI como uma notação linear desenvolvida pela IUPAC para
ser o equivalente digital ao nome IUPAC para um composto. A representação InChI é composta por
camadas, cada uma com um tipo de informação: fórmula, conectividade, isótopos, estereoquímica,
tautómeros e carga. Foi desenvolvido um algoritmo que gera uma notação não ambígua e única e cuja
implementação está disponível em http://www.iupac.org/inchi/
Estruturas de Markush. Um diagrama de estruturas de Markush é um tipo de representação específica
de uma série de compostos químicos. O diagrama não descreve apenas uma estrutura, mas várias famílias
de compostos. Tem um esqueleto base e substituintes que são listados como texto, separadamente do
diagrama. Estruturas de Markush são referidas por serem muito usadas em bases de dados de patentes.
- 15 -
R1= H, halogénio, OH, COOH
R2= H, CH3
X= Cl, Br, CH3
Exemplo de estrutura de Markush.
Representação de estruturas moleculares por grafos moleculares e matrizes. Nesta aula é também
apresentada a estratégia de representar uma estrutura molecular através dum grafo matemático em que
cada átomo é um vértice e cada ligação é uma aresta. É uma estratégia poderosa porque permite processar
estruturas moleculares matematicamente usando teoria de grafos. É referida como exemplo a
possibilidade de usar teoremas conhecidos na Matemática para identificar sub-estruturas.
Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por
vezes os átomos de H são omitidos). Uma matriz de adjacência indica que átomos estão ligados. Uma
matriz de distâncias indica as distâncias entre átomos (definida como número de ligações entre os átomos
ao longo do caminho mais curto, ou como distância 3D).
Tabelas de conectividade. Uma tabela de conectividade lista os átomos existentes na molécula e lista as
ligações entre eles (pode incluir átomos de H ou não). São apresentados exemplos como o seguinte em
que os alunos são convidados a reconhecer na tabela de conectividade cada átomo e cada ligação da
estrutura.
2
1
5
3
6
Lista de átomos
1
C
2
C
3
C
4
Cl
5
C
6
C
Lista de ligações
1º át. 2º át. ordem
1
2
1
2
3
1
3
4
1
3
5
1
5
6
2
4
Exemplo de tabela de conectividade.
Os formatos MDL Molfile e SDfile utilizam tabelas de conectividade. Foram desenvolvidos pela
empresa Molecular Design Limited (MDL) e tornaram-se estandartes de facto para o arquivo e troca de
informação sobre estruturas moleculares e propriedades associadas. O formato Molfile inclui um
cabeçalho (header) e uma tabela de conectividade. O formato SDfile inclui informação estrutural (em
formato Molfile) e dados associados, para um ou mais compostos. As definições destes formatos podem
ser consultadas em http://www.mdli.com/downloads/public/ctfile/ctfile.jsp
Existe uma variedade de software para a interconversão de formatos moleculares. Nesta aula demonstrase o programa Standardizer (ChemAxon Ltd.) usado nesta unidade curricular para o efeito.
- 16 -
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 2 (p. 30-51, 70).
2. The IUPAC International Chemical Identifier (InChITM), http://www.iupac.org/inchi/
3. CTfile Formats, http://www.mdli.com/downloads/public/ctfile/ctfile.jsp
2ª Aula
Exercícios práticos
2.1. Represente a matriz de adjacência, a matriz de ligações e a matriz de distâncias topológicas para as
moléculas das perguntas 1.1.b e 1.1.c.
2.2. Faça download do ficheiro semlig.mol. Trata-se do ficheiro em formato MDL Molfile para a
estrutura do problema 1.1.b, mas sem o bloco correspondente às ligações. Se tentar abrir o ficheiro com o
programa Marvin não conseguirá. Abra o ficheiro com um editor de texto e corrija-o construindo o bloco
das ligações. Abra o ficheiro corrigido com o Marvin e confirme que está certo.
2.3. Faça download do ficheiro 500stru.sdf. Trata-se dum ficheiro com 500 estruturas em formato SDfile.
Verifique se a estrutura da aspirina existe no ficheiro. E a do 2-bromonaftaleno?
2.4. Faça download dos ficheiros 300stru.sdf e 248stru.smi. O primeiro é um ficheiro com 300 estruturas
em formato SDfile, o segundo tem 248 estruturas moleculares em formato SMILES. Quantas moléculas
(e quais) do primeiro ficheiro existem também no segundo?
2.5. Imagine que está a trabalhar com o ficheiro prodnat.mol (faça download) que lhe tinha sido enviado
por um colaborador como sendo a estrutura de um produto natural. Aparentemente trata-se de um ficheiro
em formato MDL Molfile. Mas quando tenta visualizar a estrutura usando o programa MarvinSketch
obtém um resultado estranho... Edite o ficheiro, identifique a causa e corrija o erro.
_______________________________________________
No final desta aula o aluno deverá
Ser capaz de interpretar estruturas de Markush.
Ter aprendido a construir as matrizes de adjacências, ligações e distâncias dada uma
estrutura molecular.
Saber interpretar tabelas de conectividade.
Saber interpretar ficheiros nos formatos MDL Molfile e SDfile.
Saber utilizar software para a interconversão de ficheiros e para a estandardização de
estruturas.
- 17 -
3ª Aula
Conteúdos teóricos
Representações de tamanho fixo para estruturas moleculares. Nesta aula apresenta-se em primeiro
lugar a necessidade frequente de representar a estrutura molecular através de um número constante de
parâmetros, independente do tamanho da molécula, para o processamento estatístico (por exemplo por
análise multivariada) ou para o tratamento por técnicas de aprendizagem automática. Estão nesta
categoria as representações por chaves estruturais (structural keys) e hashed fingerprints.
As chaves estruturais codificam a presença num composto de determinadas características como
fragmentos. Por exemplo, se forem definidos 20 fragmentos, a representação tem um comprimento de 20,
independentemente da molécula codificada. É uma representação ambígua, ou seja, pode ser igual para
moléculas diferentes, mas é muito útil para a pesquisa de semelhanças entre moléculas.
Hashed Fingerprints codificam a presença de sub-estruturas (as quais não estão previamente definidas)
através de um determinado número de valores binários (0/1). Cada uma das posições do código que
recebe um valor binário é designada por bit. Em primeiro lugar são geradas todas as sequências de átomos
ligados contendo entre um e um número definido de átomos. È dado como exemplo a alanina (usando a
notação SMILES, CC(N)C(O)=O) em que as sequências de comprimento zero são simplesmente os
átomos C, N e O, as sequências de comprimento 1 são CC, CN, CO e C=O, e assim por diante. Cada uma
das sequências é submetida a uma função que atribui o valor 1 a alguns bits do fingerprint. A mesma
sequência activa sempre os mesmos bits e o algoritmo é capaz de atribuir bits a qualquer sequência. É
referido que pode haver colisões (o mesmo bit activado por sequências diferentes), que não é possível
interpretar os fingerprints, que os átomos de hidrogénio são omitidos e que a estereoquímica não é
considerada.
Na geração de hashed fingerprints os parâmetros a definir previamente são o comprimento do fingerprint,
o tamanho das sequências e o número de bits activados por cada sequência. É explicado como estes
parâmetros influenciam a memória necessária assim como a capacidade dos fingerprints para distinguir
moléculas diferentes.
É enfatizada a principal aplicação de hashed fingerprints na pesquisa de semelhanças entre moléculas em
grandes bases de dados.
Demonstra-se na aula o programa generfp (ChemAxon Ltd.) utilizado nesta unidade curricular para o
cálculo de hashed fingerprints.
Hash codes são transformações da estrutura molecular numa sequência de letras e/ou números com um
determinado comprimento. Codificam fragmentos existentes na molécula. Não são interpretáveis e são
usados como identificadores únicos de estruturas, por exemplo para verificar rapidamente se um
determinado composto existe numa grande base de dados. Também podem ser definidos para átomos
individualmente.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 2 (p. 71-75).
2. Daylight Theory Manual, Daylight Version 4.9, Release Date 02/01/08, Daylight Chemical
Information Systems, Inc. http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
- 18 -
3ª Aula
Exercícios práticos
3.1. Faça download do ficheiro 10stru.smi. Trata-se dum ficheiro com 10 estruturas diferentes em formato
SMILES.
3.1.a. Utilizando o programa generfp do software JCHEM calcule hashed fingerprints para as 10
estruturas, com tamanho = 64 (8 bytes) e máximo número de ligações nas sequências = 3. O comando
a executar é (a partir da directoria onde tem o ficheiro 10stru.smi)
generfp -fl 8 -pl 3 <10stru.smi>10stru_a.fp
Os fingerprints ficam no ficheiro 10stru_a.fp.
3.1.b. Os fingerprints da alínea anterior conseguem distinguir as 10 estruturas umas das outras?
Porquê?
3.1.c. Calcule novos fingerprints para as 10 estruturas mas agora com maior poder de discriminação:
máximo número de ligações nas sequências = 5. O comando a executar é
generfp -fl 8 -pl 5 <10stru.smi>10stru_c.fp
Consegue assim distinguir as 10 estruturas?
3.1.d. Aumente ainda o poder de discriminação: tamanho = 128 (16 bytes) e máximo número de
ligações nas sequências = 5. O comando a executar é
generfp -fl 16 -pl 5 <10stru.smi>10stru_d.fp
Consegue assim distinguir as 10 estruturas? Será possível distinguir todas as 10 estruturas com hashed
fingerprints? Porquê?
3.1.e. E se aumentar agora o número de bits activados por cada sequência, de 2 (default) para 5? O
comando a executar é
generfp -fl 16 -pl 5 -bc 5 <10stru.smi>10stru_e.fp
Continua a conseguir distinguir as estruturas que distinguia antes? Porquê?
_______________________________________________
No final desta aula o aluno deverá
Conhecer os aspectos fundamentais do algoritmo para gerar hashed fingerprints.
Saber representar estruturas moleculares por hashed fingerprints.
Conhecer as características de chaves estruturais e hash codes.
- 19 -
4ª Aula
Conteúdos teóricos
Bases de dados de estruturas químicas e de reacções. Nesta aula é explicado como as bases de dados
de compostos têm características muito específicas devido à especificidade da informação arquivada:
estruturas moleculares. Uma utilização frequente destas bases de dados é a pesquisa por estrutura. A
identificação de uma estrutura pode ser implementada gerando uma representação canónica para todas as
moléculas da base de dados (por exemplo hash codes), assim como para a molécula-pergunta, e
pesquisando uma representação igual. Outro tipo de pesquisa é a de sub-estrutura, isto é, a procura de
estruturas que tenham um determinado fragmento. Para isso são usados métodos da teoria de grafos para
verificar se um grafo está inteiramente contido noutro (isomorfismo de subgrafos). Como esta pesquisa
pode ser lenta, é normalmente efectuada uma pesquisa inicial rápida (por exemplo baseada em chaves
estruturais ou fingerprints) para excluir a maior parte dos compostos e só depois são aplicados os
algoritmos para identificação de isomorfismo de subgrafos.
Neste contexto são relembradas matérias anteriormente estudadas (grafos moleculares, representações
canónicas, chaves estruturais, hash codes) e explicitada a sua utilidade.
Análise de similaridade. A pesquisa por semelhança numa base de dados de estruturas químicas é uma
alternativa à pesquisa por estrutura, ou por sub-estrutura. Os alunos são convidados a reflectir sobre o
conceito de semelhança estrutural e a propor o recurso a conceitos já estudados. Para uma pesquisa por
semelhança é necessário calcular uma medida de semelhança entre o composto dado e todos os
compostos da base de dados. Esta permite ordenar a base de dados e apresentar um determinado número
de estruturas encontradas. A definição de semelhança entre compostos é também importante para a
análise da diversidade em conjuntos de compostos. Subjacente ao interesse por definições e pesquisa de
semelhanças está a hipótese de que estruturas semelhantes tendem a apresentar propriedades semelhantes.
Os alunos são confrontados com as muitas possibilidades de definir distância entre compostos
(inversamente relacionada com semelhança), que variam também nos descritores usados para representar
compostos.
Cálculo de semelhanças com hashed fingerprints. A semelhança entre dois compostos X e Y pode ser
calculada com base na semelhança entre os seus hashed fingerprints. Definindo
a = nº de bits ‘1’ no composto X mas não no Y.
b = nº de bits ‘1’ no composto Y mas não no X.
c = nº de bits ‘1’ tanto no composto X como no Y.
d = nº de bits ‘0’ tanto no composto X como no Y.
n = ( a + b + c + d ) é o total de bits
podemos calcular vários coeficientes que medem a distância (e inversamente a semelhança) entre
fingerprints, dois dos mais comuns sendo:
Coeficiente Euclidiano:
( c + d ) / n (quantos bits são iguais em X e Y)
Coeficiente de Tanimoto:
c / (a + b + c)
Selecção de conjuntos de moléculas com elevada diversidade. Quando se pretende testar
experimentalmente um conjunto de compostos para identificar os mais promissores em termos de uma
determinada propriedade (screening) é frequente tentar reduzir redundâncias dentro do conjunto para
maximizar os recursos empregues. Uma estratégia habitual é seleccionar um conjunto de compostos com
a maior diversidade possível de estruturas. As definições de semelhança estrutural podem ser aqui usadas.
- 20 -
Os alunos são convidados a propor medidas da diversidade dentro de um conjunto de moléculas. São
depois apresentados alguns exemplos frequentemente usados:
soma normalizada das distâncias entre todos os pares de moléculas no conjunto.
média das distâncias de todos os compostos ao centróide (as coordenadas do centróide são as
médias das coordenadas dos vectores descritores de todos os compostos do conjunto).
média das distâncias ao vizinho mais próximo para todas as moléculas do conjunto.
Os alunos são agora estimulados a propor maneiras de definir a distância de um composto a um conjunto
de compostos e de seleccionar um sub-conjunto com máxima diversidade.
A distância de um composto a um conjunto de compostos pode ser definida pela distância deste
composto a) ao composto(s) mais semelhante(s) no conjunto, b) ao centróide do conjunto.
Algoritmos para a selecção de um sub-conjunto com máxima diversidade. Existe uma grande
variedade de algoritmos para este problema. Apresenta-se como ilustração um algoritmo simples
frequentemente implementado, de selecção baseada na dissemelhança entre compostos:
1. Seleccionar um composto do conjunto inicial (aleatoriamente, ou o centróide, por exemplo) e
retirá-lo para o sub-conjunto.
2. Calcular a dissemelhança (distância) entre cada composto restante e o sub-conjunto já construído.
3. Retirar o composto restante mais dissemelhante do sub-conjunto já construído.
4. Voltar ao passo 2 se o sub-conjunto tiver menos compostos do que o pretendido.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 6 (p. 291-298, 302-313).
2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht,
2007, Capítulo 1 (p. 1-16), Capítulo 5 (p. 99-103), Capítulo 6 (p. 119, 128-131).
4ª Aula
Exercícios práticos
4.1. Faça download do ficheiro 1500stru.smi. Trata-se dum ficheiro com 1500 estruturas diferentes em
formato SMILES. Proponha uma estratégia, e execute-a, para encontrar no ficheiro a estrutura mais
parecida com o alcalóide estilopina. (Encontre na WWW, via Google, a estrutura de “stylopine”).
4.2. Proponha uma estratégia e execute-a para seleccionar um sub-conjunto do conjunto da questão
anterior que contenha 10 compostos e que tenha o máximo de diversidade molecular.
_______________________________________________
No final desta aula o aluno deverá
Compreender as especificidades dos sistemas de bases de dados de estruturas moleculares.
- 21 -
Saber distinguir entre pesquisa por estrutura, sub-estrutura e semelhança.
Reconhecer a utilidade de análises de diversidade molecular no planeamento de experiências
laboratoriais de screening.
Ser capaz de calcular distâncias entre moléculas através do coeficiente euclidiano e
coeficiente de Tanimoto com base em hashed fingerprints.
Saber calcular a diversidade dentro de um pequeno conjunto de moléculas.
Saber calcular a distância de uma molécula a um pequeno conjunto de moléculas.
Conhecer um algoritmo para a selecção de um sub-conjunto com máxima diversidade.
5ª Aula
Conteúdos teóricos
Representação de estruturas 3D. A estrutura tridimensional influencia decisivamente muitas
propriedades das moléculas (por exemplo muitas propriedades biológicas). Os alunos são convidados a
relembrar conteúdos de outras disciplinas, por exemplo estereoquímica e isomeria conformacional em
Química Orgânica, ou interacções enzima-ligando em Bioquímica. Para muitos problemas em Químioinformática é necessário considerar modelos 3D de estruturas moleculares. A isomeria conformacional
resulta fundamentalmente da rotação em torno de ligações rotáveis. Diferentes confórmeros têm
diferentes energias e podem interconverter-se uns nos outros com facilidade variável.
A representação mais habitual da estrutura 3D consiste num sistema de coordenadas cartesianas, ou seja,
nas coordenadas x, y e z de cada átomo. Para uma mesma conformação existem infinitas coordenadas
possíveis, dependendo da orientação da estrutura relativamente aos eixos de referência.
Aqui pode apelar-se aos conhecimentos já adquiridos pelos alunos sobre o formato MDL Molfile – este
permite listar as coordenadas 3D no bloco dos átomos da tabela de conectividade. Outra representação da
estrutura 3D é a matriz Z, em que se especificam coordenadas internas (comprimentos de ligação, ângulos
de ligação e ângulos diedros). É usada sobretudo por programas de mecânica quântica.
O formato PDB (Protein Data Bank) foi pensado para o arquivo de estruturas tridimensionais de
macromoléculas biológicas (principalmente proteínas, ácidos nucleicos e seus complexos). Começou por
ser usado para estruturas cristalográficas e dados experimentais associados, mas tem sido alargado para
acomodar outro tipo de resultados experimentais e teóricos relacionados com a estrutura 3D. Os ficheiros
PDB incluem as coordenadas cartesianas dos átomos, estrutura primária e secundária de proteínas,
informação bibliográfica, factores da estrutura cristalográfica e dados experimentais de RMN e raios X.
Nesta aula demonstra-se a visualização da estrutura de uma proteína estudada em Bioquímica a partir de
um ficheiro PDB.
Geração de estruturas 3D a partir da conectividade. Podem ser geradas estruturas 3D a partir das
conectividades das moléculas, usando métodos teóricos baseados na Mecânica Quântica. Estes podem
recorrer a vários níveis de teoria dependendo das exigências e restrições computacionais.
Existem também métodos empíricos muito apoiados em técnicas químio-informáticas para gerar modelos
3D muito rapidamente. Estes usam fragmentos com geometrias previamente definidas, regras acerca de
ângulos e distâncias interatómicas, bases de dados de geometrias e optimizações simples. Nesta aula são
demonstrados programas dos pacotes Marvin Beans e JChem, assim como o programa CORINA, que
possuem aquela funcionalidade e que são usados nos exercícios práticos desta unidade curricular.
- 22 -
Representação de superfícies moleculares. A estrutura 3D é apenas o “esqueleto” da molécula, mas a
molécula tem “pele” – a superfície molecular – que é determinante das interacções que se podem
estabelecer entre moléculas.
A superfície molecular é apresentada como dividindo o espaço 3D num volume interno e num volume
externo. É enfatizado como esta definição é apenas uma analogia com objectos macroscópicos uma vez
que as moléculas não podem ser tratadas simplesmente pelas leis da mecânica clássica. A densidade
electrónica é contínua e existem probabilidades de encontrar electrões em qualquer ponto do espaço. Os
alunos são chamados a recordar conceitos de orbitais moleculares estudados em outras disciplinas como
Teoria da Ligação Química e Química Física.
Há diversos modos de definir a superfície molecular. Os mais usados são a superfície de van der Waals
(definida pelo envelope das esferas de van der Waals de todos os átomos), a superfície de Connolly
(gerada simulando uma esfera a rolar sobre a superfície de van der Waals) e a superfície acessível a um
solvente (definida pela trajectória do centro da esfera que gera a superfície de Connolly).
Farmacóforo. Para introduzir o conceito de farmacóforo pode evocar-se o modelo chave-fechadura como
uma aproximação à especificidade da interacção ligando-receptor. O farmacóforo pode ser comparado às
características que uma chave deve ter para abrir uma determinada fechadura. É definido como um
conjunto de características locais duma molécula, dispostas segundo uma geometria 3D definida e que é
proposto como chave de reconhecimento num local do receptor e responsável pela actividade biológica da
molécula. Exemplos de características definidas num farmacóforo são: átomo doador em ponte de H,
átomo aceitador em ponte de H, ou fragmento hidrofóbico.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 2 (p. 92-121, 124-127).
2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht,
2007, Capítulo 2 (p. 27-35).
5ª Aula
Exercícios práticos
5.1. Gere modelos 3D empíricos para as 10 estruturas do problema 3.1. usando o programa MarvinView
(Menu “Edit” → “Clean” → “3D”). Grave-os em formato SDfile. Visualize-os com o programa
MarvinSpace ou MarvinView.
5.2. Gere modelos 3D empíricos para as mesmas estruturas utilizando o serviço de demonstração do
programa CORINA em http://www.molecular-networks.com/online_demos/corina_demo. Grave-os em
formato PDB. Visualize-os com o programa MarvinSpace ou MarvinView.
5.3. Escolha uma das moléculas anteriores e visualize vários tipos de superfícies moleculares com o
programa MarvinSpace (Menu “Show” → “Surface”).
5.4. Faça download do ficheiro s_canad.mol. Este contém a estrutura de (S)-canadina em formato MDL
Molfile.
5.4.a. Gere a estrutura 3D.
5.4.b. Abra com um editor de texto o ficheiro que tem a estrutura 3D e altere o que for necessário para
obter a (R)-canadina.
- 23 -
5.4.c. Abra agora, com o programa MarvinSpace, os ficheiros antes e depois da alteração e confirme
que procedeu correctamente.
_______________________________________________
No final desta aula o aluno deverá
Saber utilizar software para a geração rápida de modelos moleculares 3D e seu arquivo em
formatos moleculares MDL Molfile e PDB.
Conhecer as características gerais de algoritmos para gerar superfícies moleculares.
Ter apreendido o conceito de farmacóforo e conhecer a sua utilidade no design de fármacos.
6ª Aula
Conteúdos teóricos
Representação de reacções químicas. O processamento de informação sobre reacções químicas é
necessário para tarefas como o arquivo e pesquisa de informação em bases de dados, comparação e
análise de conjuntos de reacções, definição da generalidade/limitações dum tipo de reacção,
desenvolvimento de modelos de reactividade, previsão do resultado de reacções, análise de redes de
reacções (como sínteses orgânicas, vias metabólicas ou vias de degradação de compostos na atmosfera) e
desenvolvimento de métodos para o design de sínteses.
Nesta unidade curricular são focadas as representações de reacções nos formatos SMILES e MDL RDfile.
Representação de centros reaccionais e mapeamento átomo-a-átomo. Os alunos são inicialmente
confrontados com o problema de identificar reacções num conjunto de reacções que sejam do mesmo tipo
apesar de ocorrerem em reagentes com estruturas muito variadas. A caracterização de uma reacção é
facilitada pela identificação do centro reaccional – conjunto de átomos e ligações covalentes que são
alterados com a reacção. Uma ligação pertence ao centro reaccional se for estabelecida, quebrada ou tiver
alterado a sua ordem. Um átomo pertence ao centro reaccional se estiver envolvido numa ligação do
centro reaccional ou se for alterado na sua carga, número de electrões π, valência, ou ligações implícitas a
átomos de hidrogénio. O formato MDL RDfile permite especificar os átomos e ligações do centro
reaccional.
Para além da identificação do centro reaccional é relevante o mapeamento átomo-a-átomo, isto é, a
correspondência entre átomos dos reagentes e átomos dos produtos. O formato MDL RDfile também
permite especificar o mapeamento átomo-a-átomo em reacções.
O mapeamento átomo-a-átomo e a atribuição de centros reaccionais pode ser feita manualmente ou
automaticamente com programas implementados para o efeito. Apesar dos progressos no
desenvolvimento de algoritmos e programas para o mapeamento átomo-a-átomo, este permanece um
problema de grande complexidade que requer com frequência conhecimentos sobre mecanismos
reaccionais.
A especificação de centros reaccionais permite identificar reacções idênticas com diferentes reagentes e
permite caracterizar reacções através de propriedades físico-químicas dos centros reaccionais.
Nesta aula é demonstrada a) a especificação do centro reaccional e o mapeamento átomo-a-átomo num
ficheiro em formato MDL RDfile e b) a visualização dessa informação com o programa MarvinSketch.
- 24 -
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 3 (p. 169-175).
2. CTfile Formats, http://www.mdli.com/downloads/public/ctfile/ctfile.jsp , Capítulos 7-8.
6ª Aula
Exercícios práticos
6.1. Escreva, sem recurso a software, a representação SMILES da reacção de esterificação do cloreto de
acetilo com etanol. Verifique agora com o programa MarvinSketch se está certa.
6.2. Converta a representação SMILES do problema anterior para o formato RDfile.
6.2.a. Abra o ficheiro rdf com um editor de texto e identifique as tabelas de conectividade dos
reagentes e dos produtos.
6.2.b. Identifique, nas tabelas de conectividade dos reagentes, as ligações que se quebraram durante a
reacção.
6.2.c. Identifique, nas tabelas de conectividade dos produtos, as ligações que se formaram durante a
reacção.
6.2.d. Usando um editor de texto, marque no ficheiro rdf a informação que identificou nas alíneas c. e
d. sobre as ligações envolvidas na reacção. Abra (com o programa MarvinSketch) o ficheiro rdf
alterado e visualize graficamente a informação adicionada.
6.2.e. Abra o ficheiro rdf da alínea a. com o programa MarvinSketch e marque com a interface gráfica
do programa as ligações envolvidas na reacção. Grave o ficheiro. Abra-o com um editor de texto e
compare-o com o que obteve manualmente na alínea d.
6.3. Como deve alterar a representação SMILES do problema 6.1. para incluir trietilamina como
catalisador da reacção? Confirme o novo SMILES com o programa MarvinSketch.
6.4. Experimente fazer o mapeamento átomo-a-átomo com o programa MarvinSketch para a reacção das
questões anteriores (Menu “Structure” → “Reaction” → “Map atoms”). Verifique se o mapeamento
corresponde ao que fez manualmente. Comente.
_______________________________________________
No final desta aula o aluno deverá
Saber interpretar e utilizar representações SMILES de reacções químicas.
Saber interpretar ficheiros no formato MDL RDfile, incluindo a especificação do centro
reaccional e mapeamento átomo-a-átomo.
Reconhecer a utilidade da especificação do centro reaccional e mapeamento átomo-a-átomo.
- 25 -
7ª Aula
Conteúdos teóricos
Descritores moleculares são representações matemáticas de uma molécula que resultam de uma
transformação da informação estrutural disponível para a molécula. São tipicamente números que
codificam características da estrutura molecular. Os alunos são convidados a apresentar descritores
moleculares que já conheçam e saibam calcular (um exemplo é a massa molecular). Descritores
moleculares são muito usados em relações quantitativas estrutura-actividade (QSAR). A construção de
modelos QSAR assenta em técnicas de regressão (estatística ou de aprendizagem automática) que
estabelecem relações entre as estruturas moleculares dum conjunto de treino, codificadas por descritores
moleculares, e as respectivas propriedades a prever.
Descritores constitucionais são propriedades globais da molécula como o peso molecular, número de
átomos, número de ligações, número de ligações rotáveis, ou soma dos volumes atómicos de van der
Waals.
Descritores de fragmentos contam a ocorrência de grupos funcionais e sub-unidades estruturais
previamente definidas.
Os descritores topológicos consideram a estrutura molecular como um grafo (o grafo molecular). A
aplicação de teoremas da teoria de grafos permite gerar invariantes de grafos que são usados como
descritores da molécula. Um exemplo é o índice de Wiener, definido como a soma de todas as distâncias
entre quaisquer dois átomos de carbono na molécula (distâncias em termos de ligações carbono-carbono).
Pode ser calculado somando todos os elementos na matriz de distâncias e dividindo por 2. O índice de
Wiener dá indicações sobre a ramificação, sendo uma aproximação muito simplificada à superfície de van
der Waals.
Outro exemplo de descritores topológicos são os vectores de autocorrelação 2D definidos por
N
N
a(d ) = ∑∑ δ (d i , j − d ) p j pi
i =1 j =1
1∀d i , j = d
0∀d i , j ≠ d
δ =
em que N é o número de átomos na molécula, di,j é a distância topológica entre os átomos i e j (número de
ligações no percurso mais curto) e p é uma propriedade atómica para os átomos i e j (por exemplo cargas
ou polarizabilidades).
Os descritores 3D codificam aspectos da estrutura tridimensional de moléculas. Requerem assim
modelos moleculares 3D que, em aplicações QSAR, são normalmente gerados por um método empírico.
Um exemplo de descritor 3D é a função de distribuição radial (RDF) definida por
N −1
g (r ) = ∑
N
∑p p e
i
− B ( r − rij ) 2
j
i =1 j =i +1
em que N é o número de átomos na molécula, pi uma propriedade atómica para o átomo i (ex. carga), rij a
distância 3D entre os átomos i e j e B um parâmetro ajustável. A representação gráfica de g(r) em função
de r tem uma interpretação simples, em que cada par de átomos contribui para uma zona do gráfico
centrada na sua distância interatómica, o valor da contribuição é proporcional ao produto das
propriedades dos dois átomos e a largura da zona para a qual contribui relaciona com o valor de B.
Têm sido propostos milhares de descritores moleculares que têm permitido o estabelecimento de relações
entre estrutura e propriedades físicas, químicas e biológicas. Vários programas estão disponíveis para o
cálculo de descritores moleculares. Nesta aula é demonstrada a utilização do programa Dragon (Talete
SRL) através da interface web disponível no laboratório virtual VCCLAB (ww.vcclab.org, de acesso
- 26 -
gratuito). Este procedimento vai ser requerido para gerar descritores moleculares nos exercícios
propostos.
Nesta aula devem ser realçados os vários aspectos da estrutura molecular que são codificados pelos vários
descritores apresentados. Por exemplo, a massa molecular dá informação sobre o tamanho da molécula, o
índice de Wiener sobre a ramificação, vectores de autocorrelação 2D sobre o tipo de conectividade entre
átomos, códigos RDF sobre a distribuição dos átomos com determinadas propriedades no espaço 3D.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 8 (p. 401-417).
7ª Aula
Exercícios práticos
7.1. Faça download do ficheiro fathead.xls. Trata-se dum ficheiro MS Excel com 87 estruturas diferentes
em formato SMILES e as respectivas toxicidades para o peixe Fathead Minnow em LC50 (quanto maior
o valor de LC50 menor a toxicidade).
7.1.a. Extraia apenas as representações SMILES para um ficheiro de texto e grave-o.
7.1.b. Abra o web browser e ligue-se ao site http://www.vcclab.org. Escolha o serviço E-DRAGON
que lhe permitirá calcular descritores moleculares. Faça upload do ficheiro com os SMILES, clicando
em “upload data”. Escolha “smiles” no menu para selecção do formato do ficheiro de input.
Seleccione descritores “constitutional descriptors” e “molecular properties”. Clique em “submit your
task”.
7.1.c. Depois dos cálculos concluídos, no menu de topo com a indicação “Task Manager”, escolha
“Results as text”. Clique em “inspect dragon log” para verificar se o cálculo correu sem problemas.
Clique em “open results.txt in a browser”. Copie os resultados para a folha de cálculo onde tem as
toxicidades, de forma a que existam tantas linhas quantos os compostos (debaixo da linha com os
títulos) e tantas colunas quantos os descritores (mais as duas colunas com os SMILES e as
toxicidades).
7.1.d. Verifique se há alguma relação entre a toxicidade e os seguintes descritores: MW (peso
molecular), Mp (polarizabilidade média), RBF (número de ligações com rotação livre), nAB (número
de ligações aromáticas), ALOGP (coeficiente de partição octanol/água).
NOTA: Pode obter informação sobre todos os descritores calculados pelo DRAGON em
http://michem.disat.unimib.it/chm/Help/edragon/index.html
Dados extraídos de http://www.epa.gov/ncct/dsstox.
7.2. Para o mesmo conjunto de dados do problema 7.1., calcule agora descritores de grupos funcionais.
Na interface VCCLAB escolha de novo “Data parameters” no menu de topo. Depois de submeter a tarefa
e de aparecer a mensagem “Task … downloaded …”, altere a tarefa no menu por baixo do botão “Login”.
Pode então inspeccionar os resultados mudando “Task Manager” para “Results as text”.
Identifique as estruturas que têm:
- 27 -
7.2.a. Grupo funcional éster alifático (descritor nRCOOR)
7.2.b. Grupo funcional éster aromático (descritor nArCOOR)
7.2.c. Grupo funcional ácido carboxílico alifático (descritor nRCOOH)
7.2.d. Grupo funcional álcool primário (descritor nOHp)
7.2.e. Grupo funcional álcool secundário (descritor nOHs)
7.3. Para o mesmo conjunto de dados do problema 7.1., calcule agora descritores RDF (Radial
Distribution Function).
_______________________________________________
No final desta aula o aluno deverá
Compreender o que são descritores moleculares.
Ser capaz de distinguir entre diferentes tipos de descritores moleculares, nomeadamente
descritores constitucionais, descritores de fragmentos, descritores topológicos e descritores
3D.
Conhecer a definição de alguns descritores representativos como o índice de Wiener,
vectores de autocorrelação 2D e funções de distribuição radial 3D.
Saber usar software para o cálculo de descritores moleculares.
8ª Aula
Conteúdos teóricos
Introdução às relações quantitativas estrutura-propriedade (QSPR) e estrutura-actividade
(QSAR). Os alunos são primeiramente convidados a reflectir sobre como a fórmula de estrutura de uma
molécula determina as propriedades observáveis que o composto vai exibir. Essa relação implica que as
propriedades moleculares sejam função da estrutura. Apesar de assim ser, a construção de modelos que
prevejam rigorosamente propriedades a partir da fórmula de estrutura é em geral um problema difícil. De
forma empírica, a partir de conjuntos de dados experimentais, é possível aplicar técnicas estatísticas
(como regressões lineares) ou métodos de aprendizagem automática (como redes neuronais, árvores de
decisão ou support vector machines) para estabelecer relações entre estrutura química e propriedade
molecular (QSPR), ou entre estrutura química e actividade biológica (QSAR). Para tal, as estruturas
químicas são representadas por um número fixo de parâmetros – descritores moleculares.
São apresentados os vários passos dum estudo de QSPR ou QSAR: a) definir os conjuntos de dados, b)
seleccionar os descritores moleculares, c) treinar o modelo e d) avaliar o modelo.
A partir dos dados disponíveis devem seleccionar-se 3 conjuntos disjuntos: um conjunto de treino para
construir o modelo, um conjunto de validação para optimizar parâmetros do treino e um conjunto de
previsão para testar o modelo final com objectos ainda não vistos pelo modelo. Os alunos são convidados
a propor métodos para garantir que não existem compostos simultaneamente no conjunto de treino e de
previsão. Aproveita-se a ocasião para relembrar representações canónicas, por exemplo através de
SMILES ou InChI. A divisão do conjunto inicial pode ser feita de forma aleatória, pode basear-se na
- 28 -
distribuição da propriedade a prever ou na diversidade molecular. Uma análise de diversidade molecular
do conjunto de dados permite seleccionar um conjunto de treino que cubra o melhor possível o universo
das estruturas disponíveis. Também aqui deve ser relembrado o que foi estudado sobre diversidade
molecular, alargando agora com a possibilidade de definir semelhanças entre moléculas a partir de
descritores moleculares entretanto aprendidos.
Muitos estudos têm sido dedicados ao problema da selecção de descritores. Se possível, os descritores a
usar devem estar relacionados com a propriedade a prever, com base em conhecimentos sobre o
problema. Por exemplo se sabemos que o ponto de fusão está relacionado com o tamanho e com a
polaridade dos compostos, para modelar o ponto de fusão devemos incluir descritores que codifiquem o
tamanho e a polaridade. Outros critérios para seleccionar descritores são a correlação entre descritores e a
variância – dois descritores muito correlacionados são redundantes enquanto que descritores com baixa
variância são pobres em informação. Por vezes também são usadas técnicas de análise multivariada como
Análise de Componentes Principais (PCA) para transformar o conjunto de descritores num conjunto mais
pequeno com maior densidade de informação. Como veremos em sessões seguintes, alguns algoritmos de
aprendizagem automática têm procedimentos intrínsecos de selecção de descritores.
Regressões multilineares exprimem a propriedade a prever (y) como uma combinação linear de
descritores moleculares x1, x2, ... xn:
y = a1 x1 + a2 x2 + a3 x3 + … + an xn + b
O problema consiste em encontrar valores óptimos para os parâmetros a1, a2, ... an e b o que é feito
minimizando a soma dos quadrados das distâncias dos pontos à recta definida pela equação num espaço
com n dimensões. Os alunos são relembrados de outras ocasiões em que aplicaram regressões lineares,
provavelmente com uma única variável, por exemplo em Bioquímica a propósito de cinética enzimática.
É também feito apelo a conceitos possivelmente aprendidos em Estatística.
É apresentado como exemplo de aplicação uma regressão multilinear para a previsão da constante de
velocidade da reacção de um composto com o radical OH na atmosfera (Gramatica, P.; Pilutti, P.; Papa,
E. Validated QSAR Prediction of OH Tropospheric Degradability: Splitting into Training-test Set and
Consensus Modeling. J. Chem. Inf. Comput. Sci. 2004, 44, 1794-1802).
Bibliografia seleccionada
1. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht,
2007, Capítulo 4 (p. 75-89).
8ª Aula
Exercícios práticos
Nesta sessão vai construir modelos que aprendem com dados experimentais para se tornarem capazes de
prever uma propriedade a partir da estrutura molecular.
8.1. Faça download do ficheiro solub_tr.xls. Este contém 149 estruturas no formato SMILES e os
respectivos valores de solubilidade em água (log S).
8.1.a. Abra o ficheiro numa folha de cálculo e copie os SMILES para um ficheiro de texto.
8.1.b. Calcule, para todas as estruturas, descritores topológicos, índices de informação, walk and path
counts e índices de conectividade, através do programa E-DRAGON no web site vcclab.org, tal como
no problema 7.1.b.
- 29 -
8.1.c. Transfira para uma folha de cálculo os descritores calculados (cada linha corresponderá a um
composto e cada coluna a um descritor). Acrescente uma coluna com os valores de log S para cada
composto.
8.1.d. Construa uma regressão multilinear para log S em função dos seguintes descritores: MAXDP,
piPC10, XMOD, X1sol, X4v, CIC1, MPC10, T(Cl..Cl), X5v, X1v. Qual foi o valor de R2 obtido? Que
medidas de significância? Identifique a expressão analítica do modelo que calcula log S em função dos
descritores.
INSTRUÇÕES: OPÇÃO 1 (COM O MS EXCEL 11). Menu “Tools” → “Data Analysis” →
“Regression” (se não existir “Data Analysis”, primeiro escolha “Add-ins” → “Data Analysis”). Em
“Input Y-Range” seleccione as células com os valores de log S e em “Input X-Range” seleccione as
células com os valores dos descritores. OPÇÃO 2 (COM O SERVIÇO WEB WESSA.NET). Abra o
web browser em http://www.wessa.net/esteq.wasp, apague os dados que estão em “Data X” e copie
para o mesmo espaço os valores dos descritores e de log S. Apague os dados que estão em “Names of
X columns” e copie para o mesmo espaço os nomes dos descritores e “logS”. Clique em “Compute”.
Verifique se os dados foram correctamente interpretados e em “Endogenous Series” escolha “logS”.
Clique em “Estimate”.
8.1.e. Calcule os mesmos descritores para um conjunto independente de 20 estruturas no ficheiro
solub_pr.xls (conjunto de previsão). Faça previsões para log S desses compostos (implemente na folha
de cálculo a expressão analítica encontrada em 8.1.d.) e compare-os com os valores experimentais.
Calcule o coeficiente de correlação entre os valores calculados e os valores experimentais.
8.1.f. Construa uma nova regressão multilinear, agora usando apenas os descritores Rww, X2, SPI,
PJI2, Whetp, D/D, X0A, SRW09, IDET e ZM2V. Compare este modelo com o anterior. Aplique-o ao
conjunto de previsão. O que conclui?
Dados extraídos de http://www.vcclab.org/lab/alogps/
_______________________________________________
No final desta aula o aluno deverá
Saber o que são relações quantitativas estrutura-propriedade e estrutura-actividade (QSPR e
QSAR).
Conhecer os vários passos para o estabelecimento de QSPR e QSAR.
Saber utilizar regressões multilineares para QSPR/QSAR.
9ª Aula
Conteúdos teóricos
Árvores de decisão. A apresentação desta matéria pode iniciar-se evocando exemplos de árvores de
decisão já encontradas mais ou menos explicitamente pelos alunos (como sistemas de classificação de
isomeria, ou chaves dicotómicas em Biologia). Apresenta-se a possibilidade de um computador descobrir
as regras para construir uma árvore a partir de conjuntos de objectos com características e classificação
conhecidas. Uma árvore de decisão consiste numa hierarquia de regras baseadas em valores dos
descritores para os objectos do conjunto de treino. Cada regra consiste num teste lógico normalmente
definido com base num descritor. A árvore é construída recursivamente, cada regra dividindo o conjunto
de dados dum nó em dois nós descendentes – objectos com valor abaixo dum determinado nível caem
- 30 -
num dos nós descendentes e objectos com valores acima caem no outro nó descendente. Aos nós
terminais ficam associadas previsões sobre a propriedade em estudo, que são obtidas pela maioria dos
objectos do conjunto de treino que atingem esse nó (no caso de árvore de classificação) ou pela média da
propriedade a modelar dos objectos do conjunto de treino que caem nesse nó (no caso de árvore de
regressão).
Existem variações no algoritmo para a construção de árvores de decisão. É apresentado um algoritmo
típico em que é construída uma árvore “inteira” sendo o conjunto de dados inicial sub-dividido ao longo
dos vários ramos da árvore. Cada regra de divisão é avaliada por uma função de impureza que decresce
quando a divisão permite que o conteúdo dos nós descendentes seja mais homogéneo que o do nó antes
da divisão. A regra escolhida é a que permite um máximo decréscimo na função de impureza. A árvore
cresce enquanto é possível diminuir a função de impureza mais do que um valor previamente definido.
Ou então a árvore cresce até existirem apenas nós puros, ou com todos os objectos idênticos, sendo
seguidamente podada de baixo para cima retirando algumas divisões com base numa medida de custocomplexidade. Finalmente, entre várias árvores possíveis, é escolhida a árvore que origina o mais baixo
erro em validação cruzada.
O método é ilustrado com uma aplicação para a previsão de mutagenicidade de hidrocarbonetos
aromáticos policíclicos (Gramatica, P.; Papa, E.; Marrocchi, A.; Minuti, L.; Taticchi, A. QSAR Modelling
of PAH Mutagenicity by Classification Methods based on Holistic Theoretical Molecular Descriptors.
Ecotoxicology and Environmental Safety 2007, 66 (3), 353-361) e com uma aplicação para a previsão da
capacidade para inibir a enzima CYP3A4 (Choi, I.; Kim, S. Y.; Kim, H.; Kang, N. S.; Bae, M. A.; Yo, S.E.; Jung, J.; No, K. T. Classification Models for CYP450 3A4 Inhibitors and Non-inhibitors. Eur. J. Med.
Chem. 2009, 44(6), 2354-2360).
Random Forests. Uma Random Forest (RF) consiste num conjunto (“ensemble”) de árvores de decisão
construídas até à pureza dos nós terminais. Cada árvore é treinada com um sub-conjunto aleatório do
conjunto de treino, e para a construção de cada nó apenas é disponibilizado um sub-conjunto aleatório dos
descritores. A previsão para um objecto é obtida por voto das árvores do conjunto.
As RF podem ser avaliadas através do erro “out of bag” (OOB) obtido da seguinte forma. Como cada
árvore é construída com base num sub-conjunto do conjunto de treino, no fim do treino de cada árvore as
previsões obtidas para os objectos que ficaram fora do sub-conjunto de treino para essa árvore são
independentes dos dados usados para construir o modelo. A combinação dos erros associados a todas
essas previsões de todas as árvores da RF dá origem ao erro OOB.
O número de votos na classe vencedora permite associar uma probabilidade a cada previsão. São
mencionadas outras vantagens de RF como sejam a elevada qualidade das previsões, determinação da
importância relativa de cada descritor, cálculo de semelhança entre objectos com base no modelo
construído, possibilidade de processar grandes conjuntos de dados com muitos descritores, e possibilidade
de lidar com conjuntos de dados desproporcionados em termos de classes.
O método é ilustrado com uma aplicação para prever a mutagenicidade usando um conjunto com mais de
4000 compostos (Zhang, Q.-Y.; Aires-de-Sousa, J. Random Forest Prediction of Mutagenicity from
Empirical Physicochemical Descriptors. J. Chem. Inf. Model. 2007, 47(1), 1-8).
Nesta unidade curricular é usado o software R (de código aberto) com a biblioteca RPART para árvores
de decisão e com a biblioteca RandomForest para treinar e aplicar Random Forests.
- 31 -
Árvore de decisão treinada para prever a mutagenicidade de hidrocarbonetos aromáticos policíclicos. Os
descritores seleccionados (Gs e R5m+) são descritores 3D do tipo WHIM e GETAWAY respectivamente.
Bibliografia seleccionada
1. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht,
2007, Capítulo 3 (p. 153-156).
2. Breiman, L.; Cutler, A. Random Forests,
http://stat-www.berkeley.edu/users/breiman/RandomForests/
9ª Aula
Exercícios práticos
9.1. A capacidade de um composto atingir o cérebro a partir da corrente sanguínea é um aspecto crucial
do design de fármacos. Fármacos que se destinam ao sistema nervoso central devem atravessar a barreira
hematoencefálica (Blood-Brain Barrier, BBB) enquanto que essa propriedade é indesejável em fármacos
que têm outros órgãos-alvo. Neste exercício vai construir modelos com árvores de decisão e Random
Forests para prever a capacidade de um composto atravessar a barreira hematoencefálica, a partir da sua
fórmula estrutural. Faça download do ficheiro bbb_tr.xls. Este contém 148 estruturas no formato SMILES
e as respectivas classificações quanto à capacidade de transporem a barreira hematoencefálica (positivo:p,
negativo: n) Este é o conjunto de treino, isto é, o conjunto que vai usar para construir o modelo.
9.1.a. Calcule para todas as estruturas índices de conectividade, descritores geométricos e
propriedades moleculares.
9.1.b. Faça download do ficheiro bbb_pr.xls. Este contém 62 estruturas no formato SMILES e as
respectivas classificações quanto à capacidade de transporem a barreira hematoencefálica (BBB). Este
é o conjunto de previsão, isto é, o conjunto que vai usar para avaliar a capacidade do modelo fazer
previsões em situações novas. Calcule os mesmos descritores que para o conjunto de treino.
9.1.c. Utilizando o programa R construa uma árvore de decisão que preveja a propriedade biológica a
partir dos descritores calculados para o conjunto de treino. Obtenha previsões para o conjunto de
previsão.
INSTRUÇÕES: Deve fazer download do ficheiro arvore.r (é o script para construir a árvore) e editálo para introduzir as alterações necessárias lá indicadas. Deve preparar os conjuntos de dados de modo
a que a primeira linha tenha os rótulos dos descritores (os mesmos rótulos que aparecem no script
arvore.r). Estão disponíveis no web site da unidade curricular exemplos de scripts, conjuntos de treino
e previsão, prontos a testar. Os seus ficheiros podem ser preparados com um editor de texto copiando e
colando os descritores moleculares de uma folha de cálculo de modo que as linhas correspondam a
compostos e as colunas a descritores. Se tiver os ficheiros com os dados e o ficheiro arvore.r na
- 32 -
directoria /home/al0000 deve dirigir-se, na shell do Linux (ou na linha de comandos MS-DOS), a essa
directoria e executar o seguinte comando:
R rterm --no-restore --no-save <arvore.r>result.txt
O ficheiro com os resultados (result.txt) será gravado na mesma directoria e o ficheiro postscript (.ps)
com o diagrama da árvore ficará gravado na directoria que especificou no script arvore.r. Para
visualizar o ficheiro .ps pode precisar de usar um serviço web para convertê-lo primeiro no formato
pdf (por exemplo http://view.samurajdata.se/ ou http://www.ps2pdf.com/convert.htm ).
9.1.d. Avalie o modelo. Identifique os descritores mais relevantes e as regras estabelecidas.
9.1.e. Agora vai testar uma Random Forest para resolver o mesmo problema, em vez da árvore de
decisão. Para isso deverá usar o script rf.r em vez do arvore.r. Faça download do ficheiro rf.r e edite-o
com um editor de texto para efectuar as alterações necessárias, como indicado dentro do ficheiro. Pode
usar os mesmos conjuntos de treino e de previsão que usou para a árvore.
9.1.f. Execute o script rf.r como para a árvore de decisão.
9.1.g. Avalie o modelo obtido. Identifique os descritores mais relevantes, a percentagem de erro OOB
e calcule a percentagem de erro para o conjunto de previsão. Compare os resultados com os da árvore
de decisão.
Dados extraídos de http://www.cheminformatics.org. Ref: J. Chem. Inf. Model. 2005, 45(5), 13761384.
_______________________________________________
No final desta aula o aluno deverá
Conhecer os aspectos fundamentais do algoritmo e da estrutura de árvores de decisão.
Compreender os aspectos fundamentais do algoritmo de Random Forests e as suas
vantagens/desvantagens em relação a árvores de decisão.
Saber usar o software R para aplicar árvores de decisão e Random Forests.
10ª Aula
Revisões
Esta aula tem por finalidade consolidar as competências práticas baseadas nos conteúdos apresentados até
então. Deverá ser aproveitada para que os alunos possam acabar exercícios das aulas anteriores ainda não
terminados, e sobretudo para esclarecerem dúvidas. São frequentes as dificuldades a editar e executar
scripts do programa R, pelo que proponho esta aula precisamente nesta altura do semestre. É também
uma boa ocasião para treinar as competências relacionadas com o cálculo de descritores moleculares que
serão necessárias para os trabalhos a executar até ao final do semestre.
Aos alunos mais adiantados podem ser propostos problemas de avaliação de anos anteriores que
envolvam as matérias já ensinadas.
- 33 -
11ª Aula
Conteúdos teóricos
Redes neuronais feed-forward ou de back-propagation. As redes neuronais são apresentadas como
modelos inspirados no sistema nervoso humano que tentam tornar um computador capaz de aprender e de
aplicar os conhecimentos. São apresentadas aplicações muito concretas que mostram as potencialidades
das redes neuronais: condução automática de automóveis ou reconhecimento de caracteres após
digitalização de documentos de texto. As redes neuronais respondem a um conjunto de estímulos
(entradas ou input) com um resultado (saída ou output). Durante uma fase de treino, estes modelos
“aprendem” a dar respostas certas aos estímulos recebidos, sendo usado para esse efeito um conjunto de
dados com as respostas pretendidas para cada input. Uma vez correctamente treinadas, as redes são
capazes de dar respostas (previsões) a estímulos novos, residindo aí uma das suas principais
potencialidades.
O modelo mais popular de redes neuronais artificiais é a arquitectura feed-forward, originalmente
treinada com o algoritmo de back-propagation (BPG). Redes de BPG são geralmente implementadas com
três camadas: uma camada de input que recebe os valores de entrada, uma camada escondida que
processa valores intermediários, e uma camada de output que produz as respostas (saídas) para o exterior.
Neurónio. Cada camada é constituída por unidades funcionais chamadas neurónios, que processam os
valores numéricos recebidos. Cada neurónio de uma camada está ligado a todos os neurónios da camada
adjacente. Um neurónio extra com um valor fixo de 1 é usado nas camadas de input e escondida. O valor
resultante de um neurónio é transmitido ao neurónio seguinte multiplicado por um parâmetro chamado
peso, específico para a ligação entre dois neurónios concretos. Os valores que chegam a um neurónio são
somados e o resultado é transformado num valor de output por uma função de activação.
Sinapse é uma ligação entre dois neurónios. Cada sinapse tem associada uma força sináptica (peso, em
neurónios artificiais) que modula o sinal que é transmitido entre neurónios.
Representação esquemática do treino de uma rede de backpropagation.
- 34 -
Treino da rede. A rede aprende por correcção dos pesos. No início do treino são atribuídos valores
aleatórios aos pesos. Todos os pesos são corrigidos cada vez que um objecto do conjunto de treino é
submetido à rede e o treino prossegue submetendo todos os objectos do conjunto de treino iterativamente
até optimizar a capacidade da rede para fazer previsões. A capacidade da rede aplicar o conhecimento
aprendido a situações novas é monitorizada por um conjunto de teste. Quando o erro obtido para esse
conjunto de teste é mínimo o treino deve ser interrompido. Finalmente a rede deve ser validada com um
conjunto independente de previsão não usado até esse momento.
A utilização de redes neuronais feed-forward é ilustrada com uma aplicação descrita na literatura para a
previsão de solubilidade a partir da estrutura molecular (Yan, A.; Gasteiger, J. Prediction of Aqueous
Solubility of Organic Compounds Based on a 3D Structure Representation. J. Chem. Inf. Comput. Sci.
2003, 43(2), 429-434) e outra para a simulação de espectros de RMN (Binev, Y.; Aires-de-Sousa, J.
Structure-Based Predictions of 1H NMR Chemical Shifts Using Feed-Forward Neural Networks. J. Chem.
Inf. Comput. Sci. 2004, 44(3), 940-945).
É demonstrado o software JATOON (J. Aires de Sousa, 2001) disponível em
http://www.dq.fct.unl.pt/staff/jas/jatoon o qual é usado nesta unidade curricular para explorar redes
neuronais.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 9 (p. 452-454, 462-464).
2. Gasteiger, J.; Zupan, J. Neural Networks in Chemistry. Angew. Chem., Int. Ed.Engl. 1993, 32,
503-527.
3. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH:
Weinheim, 1999, Capítulos 2, 3, 8.
11ª Aula
Exercícios práticos
11.1. Utilize os dados do problema 8.1.d para treinar uma rede neuronal back-propagation que preveja o
valor de log S a partir de descritores moleculares.
11.1.a. Normalize os dados de modo a que os valores de log S fiquem transformados em valores na
gama 0.1 – 0.9. Pode usar a seguinte fórmula para transformar cada valor x num novo valor norm:
norm = 0.1 + (x-MIN)/(MAX-MIN)×0.8
onde MAX é o máximo valor do descritor e MIN é o mínimo valor do descritor.
11.1.b. Abra o endereço web do programa JATOON (http://www.dq.fct.unl.pt/staff/jas/jatoon) e
escolha “JATOON-BPG”.
11.1.c. Seleccione 100 objectos e copie-os para o JATOON, para o espaço de texto do lado superior
esquerdo. Este será o conjunto de treino.
11.1.d. Seleccione outros 50 objectos e copie-os também para o JATOON, mas desta vez para o
espaço de texto do lado superior direito. Este será o conjunto de monitorização (ou de teste).
11.1.e. Na janela do JATOON escolha 10 neurónios de input, 3 neurónios escondidos e 1 neurónio de
output. Escolha 1000 ciclos (epochs), momentum=0.5 e rate=0.5. Clique no botão “Train” para iniciar
o treino.
- 35 -
11.1.f. Determine ao fim de quantos ciclos o treino poderia ter sido terminado (quando o erro para o
conjunto de teste for mínimo, ou tiver estabilizado).
11.1.g. Inspeccione o gráfico clicando uma vez com o botão esquerdo do rato sobre o gráfico e
movendo-o sobre o gráfico. Anote o erro para o conjunto de teste e de treino ao fim dos ciclos
determinados no passo anterior.
11.1.h. Repita os passos e-g usando os mesmos parâmetros ou variando o número de neurónios
escondidos, número de ciclos (epochs), momentum e rate.
(Agora vai treinar uma rede com os melhores parâmetros encontrados, durante o número de ciclos
ideal, e depois vai obter previsões para um conjunto de dados ainda não usado.)
11.1.i. De entre as redes testadas em h, escolha aquela que permitiu obter o menor erro para o conjunto
de teste, ao fim do número de ciclos determinado como óptimo. Treine agora uma rede com esses
parâmetros mas apenas durante o número de ciclos (epochs) óptimo – figura seguinte.
Painel do programa JATOON após treinada uma rede BPG.
- 36 -
(Agora vai usar a rede treinada, para fazer previsões de objectos novos.)
11.1.j. Faça agora previsões para um conjunto independente (o usado no problema 8.1.e). Para isso
copie os descritores respectivos para o JATOON, para o espaço de texto do lado superior esquerdo.
Limpe o campo do lado direito clicando em ‘C >’. Clique no botão “Predict”. No campo de texto do
lado direito aparecem as previsões no formato inputs -> previsão.
(Agora vai avaliar as previsões obtidas.)
11.1.l. Para avaliar as previsões use uma folha de cálculo. Compare os valores previstos com os
valores experimentais. Para isso tem que converter os valores produzidos pela rede em valores não
normalizados. Compare os resultados com os obtidos com regressão linear no problema 8.1.e.
_______________________________________________
No final desta aula o aluno deverá
Compreender o funcionamento de redes neuronais back-propagation.
Ser capaz de utilizar o software JATOON para treinar e aplicar redes neuronais backpropagation a problemas simples.
Ser capaz de equacionar um problema simples de modo a poder ser resolvido por uma rede
neuronal.
12ª Aula
Conteúdos teóricos
Redes neuronais de Kohonen ou mapas auto-organizativos (SOM). Antes de iniciar a descrição
detalhada deste tipo de redes é apresentada a sua funcionalidade principal de distribuir objectos num
mapa de modo que objectos com características semelhantes ocupem zonas comuns do mapa. A
informação fornecida como input a um SOM é organizada numa grelha bidimensional de neurónios,
tendo cada neurónio tantos elementos (pesos) quantos os descritores utilizados (parâmetros de input).
Antes do treino, os pesos são gerados de forma aleatória. Durante o treino, cada objecto do conjunto de
treino é submetido à rede activando o neurónio com pesos mais parecidos com o vector de input
(normalmente com base na distância euclidiana). Todos os neurónios competem pela activação –
aprendizagem competitiva. Este é o neurónio vencedor (é a posição no mapa). Após encontrar o
neurónio vencedor, os pesos são corrigidos de modo a tornarem-se ainda mais próximos do vector de
input. Os neurónios vizinhos do neurónio vencedor são corrigidos, sendo a correcção maior para os
neurónios mais próximos do neurónio vencedor. A rede é treinada submetendo todos os objectos dum
conjunto de treino e aplicando correcções, repetidamente. Do treino dum SOM resulta que objectos
semelhantes (em termos dos descritores usados) activam o mesmo neurónio ou neurónios vizinhos.
Treino não-supervisionado. Durante o treino, sempre que um objecto do conjunto de treino é
apresentado activa um neurónio vencedor e provoca correcções de pesos. Mas em nenhum destes passos é
usada a informação sobre a pertença do objecto a uma determinada classe – treino não-supervisionado.
No final do treino são mapeados todos os objectos do conjunto de treino e só então é usada a informação
sobre a classe de cada objecto – para atribuir a cada neurónio a classe dos objectos que o activam. Aqui é
enfatizada a diferença entre treino supervisionado (usado por exemplo em árvores de decisão e redes
neuronais back-propagation) e treino não supervisionado usado em redes de Kohonen. Podem também
referir-se semelhanças e diferenças entre SOM e Análise de Componentes Principais (PCA).
- 37 -
Normalização dos dados. Sendo usada a distância euclidiana para determinar o neurónio vencedor, é
necessário normalizar cada descritor para que nenhum deles domine os outros pelo facto de variar numa
gama diferente.
É apresentada uma aplicação de redes neuronais de Kohonen para o design de antagonistas selectivos do
receptor purinérgico A2A : Schneider, G.; Nettekoven, M. Ligand-Based Combinatorial Design of
Selective Purinergic Receptor (A2A) Antagonists Using Self-Organizing Maps. J. Comb. Chem. 2003,
5(3), 233-237.
É demonstrada a utilização do software JATOON (J. Aires de Sousa, 2001, disponível em
http://www.dq.fct.unl.pt/staff/jas/jatoon ) para explorar redes neuronais de Kohonen.
Representação esquemática de uma rede neuronal de Kohonen
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 9 (p. 455-459).
2. Gasteiger, J.; Zupan, J. Neural Networks in Chemistry. Angew. Chem., Int. Ed.Engl. 1993, 32,
503-527.
3. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH:
Weinheim, 1999, Capítulo 6.
12ª Aula
Exercícios práticos
12.1. Neste exercício vai construir redes neuronais de Kohonen (ou mapas auto-organizativos) que
classificam automaticamente a estrutura molecular de esteróides de acordo com a sua actividade
biológica. Faça download do ficheiro estd.sdf que contém as estruturas moleculares de 31 esteróides e o
ficheiro estd_act.txt com as correspondentes actividades para o receptor CBG (Corticosteroid Binding
Globulin).
- 38 -
12.1.a. Calcule descritores RDF para todas as estruturas com o programa E-DRAGON através da
interface web em vcclab.org, como descrito nas aulas anteriores (com a novidade de agora transferir
um ficheiro SDfile em vez dum ficheiro com representações SMILES).
12.1.b. Copie os descritores RDF para uma folha de cálculo. Copie para a mesma folha de cálculo a
classe de actividade dos compostos (2ª coluna do ficheiro estd_act.txt). Na folha de cálculo as linhas
correspondem a compostos e as colunas a descritores. A última coluna tem a classe de actividade.
12.1.c. De forma a poder usar os dados com o programa JATOON, precisa de substituir os números
correspondentes às classes de actividade por letras maiúsculas (1→A, 2→B, 3→C).
12.1.d. Vá a http://www.dq.fct.unl.pt/staff/jas/jatoon e escolha “JATOON-SOM” – este é o programa
para redes neuronais de Kohonen. Copie o conjunto de dados dos esteróides (descritores e classe de
actividade) para a área de texto no topo do painel do JATOON. Clique em “Train Kohonen NN”.
12.1.e. No final do treino clique em “Map objects” para inspeccionar em que neurónios foram
mapeados os objectos pela rede treinada. Observe como os compostos se agruparam (ou não) de
acordo com a classe de actividade. Pode adicionar um número ao rótulo da classe para identificar no
mapa compostos individuais (por ex. A1, A2, …B1, B2, …).
12.1.f. Repita o treino usando outros parâmetros (tamanho da rede, velocidade inicial de treino,
número de ciclos) para verificar o seu impacto nos resultados.
12.1.g. Agora repita o treino mas deixe alguns compostos fora (conjunto de previsão) – mais tarde vai
verificar se o mapa é capaz de os classificar correctamente.
12.1.h. Depois do treino copie os objectos do conjunto de previsão para o painel do JATOON e clique
em “Map objects”. Verifique se são correctamente mapeados de acordo com as suas actividades, isto
é, objectos da classe “A” em neurónios encarnados, “B” em neurónios azuis, “C” em neurónios
verdes. Discuta como este mapa poderia ser usado para fazer previsões para novos compostos.
Origem dos dados: http://www2.chemie.uni-erlangen.de/services/steroids/.
12.2. Faça download do ficheiro metabol.xls. Este contém um conjunto de metabolitos representados em
SMILES e uma classificação segundo a via metabólica em que participam (glicólise, metabolismo das
pirimidinas, metabolismo do piruvato e metabolismo da fenilalanina/tirosina/triptofano).
12.2.a. Calcule descritores RDF para todas as estruturas usando o programa E-DRAGON como
anteriormente.
12.2.b. Transfira os descritores para uma folha de cálculo e junte a coluna com a classificação.
Transforme os rótulos das classes em letras A-D tal como requerido pelo programa JATOON.
12.2.c. Treine redes de Kohonen para classificar metabolitos segundo as vias metabólicas a partir de
descritores RDF. Teste os vários tipos de descritores RDF separadamente e avalie qual tem maior
capacidade para separar as classes.
12.2.d. Identifique e compare os compostos que correspondem a sobreposição de vias metabólicas.
Pode obter detalhes sobre as vias metabólicas em www.genome.jp
Dados extraídos da base de dados KEGG (http://www.genome.jp).
_______________________________________________
- 39 -
No final desta aula o aluno deverá
Compreender o funcionamento de redes neuronais de Kohonen.
Ser capaz de distinguir entre aprendizagem supervisionada e não-supervisionada.
Ser capaz de utilizar o software JATOON para treinar e aplicar redes de Kohonen.
Ser capaz de aplicar redes neuronais de Kohonen a problemas de Química.
13ª Aula
Conteúdos teóricos
Redes neuronais de counterpropagation. A aula começa por levantar a possibilidade de usar mapas
auto-organizativos que produzam também um output numérico, ou seja, que possam ser usadas em
problemas de modelação. As redes de counterpropagation têm esta possibilidade. A arquitectura destas
redes consiste numa camada de Kohonen (camada de input) ligada a uma camada de output com o mesmo
número de neurónios, organizados com a mesma topologia e alinhados com os neurónios da camada de
input – esquema na página seguinte. A camada de input funciona como uma rede de Kohonen, cada
neurónio com tantos pesos quantos os descritores. A camada de output permite ao mapa produzir
respostas numéricas. Cada neurónio de output terá tantos pesos quantos os tipos de output pretendidos.
Antes do treino, os pesos são gerados de forma aleatória.
Durante o treino só os pesos da camada de input são usados para determinar o neurónio vencedor. Mas as
correcções são aplicadas tanto na camada de input como na camada de output – o(s) peso(s) da camada de
output correspondente(s) ao neurónio vencedor também é(são) corrigido(s) de modo a tornar(em)-se mais
próximo(s) da(s) propriedade(s) associada(s) ao objecto submetido. A rede é treinada submetendo todos
os objectos dum conjunto de treino, aplicando correcções, repetidamente.
Após o treino, a rede está preparada para fazer previsões para objectos novos. Os descritores do novo
objecto são submetidos à rede como input, o neurónio vencedor é encontrado, o neurónio de output
correspondente é activado e o(s) seu(s) peso(s) é(são) usado(s) como previsão.
A utilização de redes neuronais de counterpropagation é ilustrada com uma aplicação para prever a
capacidade dum composto se ligar a receptores GPCR (G-Protein-Coupled Receptors) – Selzer, P.; Ertl,
P. Identification and Classification of GPCR Ligands Using Self-Organizing Neural Networks. QSAR
Comb. Sci. 2005, 24(2), 270-276; Selzer, P.; Ertl, P. Applications of Self-Organizing Neural Networks in
Virtual Screening and Diversity Selection. J. Chem. Inf. Model. 2006, 46(6), 2319 -2323.
Nesta unidade curricular são exploradas redes neuronais de counterpropagation com o software JATOON
(J. Aires de Sousa, 2001) disponível em http://www.dq.fct.unl.pt/staff/jas/jatoon.
- 40 -
Representação esquemática do treino e aplicação de uma rede neuronal de counterpropagation com múltiplos
outputs.
Bibliografia seleccionada
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003,
Capítulo 9 (p. 459-462).
2. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH:
Weinheim, 1999, Capítulo 7.
13ª Aula
Exercícios práticos
13.1. Faça download dos ficheiros flavo.sdf e flavo_act.dat. O primeiro contém 55 estruturas moleculares
de flavonóides (incluindo as coordenadas 3D calculadas pelo programa CORINA) e o segundo contém os
valores para as actividades biológicas correspondentes (valores de IC50 para a inibição de PTK – Protein
Tyrosine Kinase).
13.1.a. Com o programa E-DRAGON (no site vcclab.org) calcule descritores de autocorrelação 2D,
descritores RDF e descritores 3D-Morse para os flavonóides.
13.1.b. Escolha aleatoriamente 5 flavonóides e guarde-os como conjunto de previsão.
13.1.c. Com os restantes 50 flavonóides treine três redes de counterpropagation (com o programa
JATOON) de tamanho 8×8, uma usando descritores de autocorrelação 2D, outra descritores RDF e
- 41 -
outra descritores 3D-Morse. Depois de treinadas as redes, obtenha previsões para o conjunto de treino.
Qual das três redes aprendeu melhor os dados?
13.1.d. Usando a melhor das redes, obtenha previsões para os 5 flavonóides do conjunto de previsão e
compare-as com os valores experimentais.
Dados extraídos de http://www2.chemie.uni-erlangen.de/publications/ANN-book/datasets/.
13.2. Como poderia utilizar uma rede de counterpropagation para resolver o problema 12.2 (classificação
de metabolitos)? Experimente a sua proposta e compare os resultados com os que obteve para o problema
12.2.
13.3. Como poderia utilizar uma rede de counterpropagation para resolver os problemas 11.1 e 8.1
(previsão de solubilidade em água)? Experimente a sua proposta e compare os resultados com os que
obteve nas questões 11.1 e 8.1.
_______________________________________________
No final desta aula o aluno deverá
Compreender o funcionamento de redes neuronais de counterpropagation.
Ser capaz de utilizar o software JATOON para treinar e aplicar redes de counterpropagation.
Ser capaz de aplicar redes neuronais de counterpropagation a problemas de Química.
14ª Aula
Conclusão de trabalhos práticos.
Avaliação prática.
Nesta aula os alunos poderão finalizar trabalhos atrasados e esclarecer dúvidas. Cada aluno será
individualmente avaliado de forma breve quanto às competências práticas adquiridas, por exemplo
demonstrando a resolução de um exercício proposto nos protocolos. O resultado desta avaliação será
incluído na avaliação prática que tem peso de 30% na nota final. A possibilidade de realização desta
avaliação prática complementar está condicionada ao número de alunos no turno, só sendo possível com
menos de 15 alunos, ou então recorrendo à colaboração de outro(s) avaliador(es).
- 42 -
3.3. Bibliografia
Livros de suporte à unidade curricular:
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003.
2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht,
2007.
Bibliografia complementar:
1. Handbook of Chemoinformatics: from Data to Knowledge, Gasteiger, J., Engel, T., Eds.; WileyVCH: Weinheim, 2003.
2. Bunin, B. A.; Bajorath, J.; Siesel, B.; Morales, G. Chemoinformatics: Theory, Practice, and
Products; Springer: Dordrecht, 2007.
3. Encyclopedia of Computational Chemistry, von R. Schleyer, P, Allinger, N. L., Clark, T.,
Gasteiger, J., Kollman, P. A., Schaefer III, H. F., Schreiner, P. R., Eds.; John Wiley & Sons,
Ltd.,1998.
4. Breiman, L.; Friedman, J. H.; Olshen, R. A.; Stone, C. J. Classification and Regression Trees;
Chapman & Hall/CRC: Boca Raton, Florida, 1998.
5. Breiman, L.; Cutler, A. Random Forests, http://statwww.berkeley.edu/users/breiman/RandomForests/
6. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH:
Weinheim, 1999.
7. Gasteiger, J.; Zupan, J. Neural Networks in Chemistry, Angew. Chem., Int. Ed.Engl. 1993, 32,
503-527.
8. Brereton, R. G. Chemometrics: Data Analysis for the Laboratory and Chemical Plant; John
Wiley & Sons, Ltd.: Chichester, 2003.
9. The IUPAC International Chemical Identifier (InChITM), http://www.iupac.org/inchi/
10. CTfile Formats, http://www.mdli.com/downloads/public/ctfile/ctfile.jsp
11. SMILESTM : Simplified Molecular Input Line Entry System, Daylight Chemical Information
Systems, Inc. http://www.daylight.com/smiles/
12. Daylight Theory Manual, Daylight Version 4.9, Release Date 02/01/08, Daylight Chemical
Information Systems, Inc. http://www.daylight.com/dayhtml/doc/theory/index.html
Todos os endereços web foram acedidos em Março de 2010.
- 43 -
4. Metodologia de Ensino e Avaliação
4.1. Planeamento
Aula
Duração
Conteúdo
1
3h
Introdução. Representação de estruturas moleculares. A notação SMILES.
2
3h
O formato InChI. Estruturas de Markush. Grafos moleculares e matrizes. Tabelas
de conectividade. Os formatos MDL Molfile e SDfile.
3
3h
Chaves estruturais (structural keys), hashed fingerprints e hash codes.
4
3h
Bases de dados de estruturas químicas e de reacções. Análise de similaridade.
Selecção de conjuntos de moléculas com elevada diversidade.
5
3h
Representação de estruturas 3D. Geração de estruturas 3D a partir da
conectividade. Representação de superfícies moleculares. Farmacóforo.
6
3h
Representação de reacções químicas. Representação de centros reaccionais e
mapeamento átomo-a-átomo.
7
3h
Descritores moleculares.
8
3h
Introdução a QSPR e QSAR. Regressões multilineares.
9
3h
Árvores de decisão e Random Forests.
10
3h
Revisões
11
3h
Redes neuronais feed-forward.
12
3h
Redes neuronais de Kohonen.
13
3h
Redes neuronais de counterpropagation.
14
3h
Conclusão de trabalhos práticos. Avaliação prática.
4.2. Organização das Aulas e Metodologia
A carga horária proposta para a unidade curricular é de 3 horas semanais, num semestre com 14 semanas.
Propõe-se uma organização em aulas exclusivamente teórico-práticas (TP) de 3 horas, 1 vez por semana.
Em cada sessão o tempo é em regra distribuído em 1 hora para a apresentação teórica dos conteúdos e 2
horas para a resolução de exercícios no computador. O número de alunos por turno deve adequar-se à
capacidade do laboratório de computadores, para que não haja mais do que 2 alunos por computador.
Opto pela organização dos tempos de aula em 3 TP, em vez de uma distribuição em 1 hora de aula teórica
(T) e 2 horas de aula teórico-prática (TP) por semana, porque aquela permite maior flexibilidade na
gestão do tempo usado para apresentações teóricas e para resolução de problemas. No caso de
inadequação do laboratório de computadores à apresentação de conteúdos teóricos, ou por conveniência
de horários, a proposta elaborada pode ser igualmente implementada no formato 1T + 2TP.
A organização proposta dos tempos de aula implica normalmente que os alunos resolvam os exercícios
práticos imediatamente a seguir aos conceitos teóricos correspondentes terem sido apresentados. Para a
maioria dos alunos esta é uma maneira de reforçar a matéria aprendida nas apresentações. Outros alunos,
porém, precisam de algum tempo de estudo antes de resolverem os problemas. Uma vez que as
apresentações das aulas são disponibilizadas desde o início do semestre, esses alunos podem ter um
primeiro contacto com os assuntos antes da aula, ou então usar algum tempo do período de aula teóricoprática para rever os slides apresentados. Como todos os recursos necessários para os exercícios práticos
- 44 -
(software e dados) podem ser instalados e usados fora da sala de aula, os alunos poderão sempre acabar
de resolver exercícios fora do tempo de aula.
As apresentações dos conteúdos são feitas em formato MS PowerPoint e inclui sempre que possível a
demonstração do software necessário para resolver os exercícios práticos. As apresentações são
intercaladas com exercícios de peer teaching em que os alunos se ensinam mutuamente. A estratégia a
usar consiste em apresentar uma questão de escolha múltipla sobre a matéria acabada de apresentar e dar
2 minutos para que os alunos discutam livremente a questão. Ao fim desse tempo o docente pede para
votarem na resposta certa, com braço no ar. Se não houver unanimidade, repete-se a discussão para que
possam discutir de novo o problema, uns alunos tentando convencer os outros. Se não houver ainda
unanimidade, acertando na resposta certa, o docente repete os conceitos necessários tentando perceber o
que não foi claro anteriormente.
A partir do web site da unidade curricular (http://www.dq.fct.unl.pt/staff/jas/agregacao) os alunos têm
tudo o que precisam para resolver os exercícios práticos: protocolos, acesso a software e conjuntos de
dados. Para que assim seja, foi escolhido apenas software com alguma das seguintes características:
software de acesso livre a estudantes em mais do que uma plataforma (Marvin Beans e JChem da
ChemAxon Ltd., OpenOffice.org da Sun Microsystems Inc., o programa de código aberto R,
todos em versões Windows e Linux)
applets de Java acessíveis com o web browser em qualquer plataforma (JATOON, por mim
programado para ensinar redes neuronais)
serviços web gratuitos (Wessa.net, VCCLAB.org e CORINA).
Também os conjuntos de dados foram preparados a partir de dados acessíveis publicamente na Internet.
O documento com os protocolos dos exercícios práticos, disponibilizado no web site da unidade
curricular, inclui uma introdução (“Indicações Gerais para os Exercícios Práticos”) com indicações sobre
o acesso ao software necessário e com apoio à aquisição de competências simples requeridas pelos
exercícios (utilização básica de folhas de cálculo e da linha de comando MS-DOS em Windows ou da
shell em Linux). Esta introdução está aqui incluída no Apêndice 1.
Nas aulas em que aparecem pela primeira vez exercícios que requerem a implementação de fórmulas em
folhas de cálculo, o início da resolução é demonstrada para todos, de modo a que os alunos menos
familiarizados com folhas de cálculo possam acompanhar o ritmo da turma.
Vários dos exercícios práticos são de tipo tutorial, em que o aluno é guiado para aprender a utilizar
ferramentas novas (exercício 3.1 para gerar hashed fingerprints sem interface gráfica, 7.1 para gerar
descritores moleculares com a interface VCCLAB, 9.1 para usar árvores de decisão / Random Forests
com o programa R, 11.1 e 12.1 para usar redes neuronais com o programa JATOON).
Noutros exercícios, o aluno pode ser ajudado por software no caso de não conseguir resolver alguma
alínea, ou para confirmar as respostas encontradas (por ex. exercícios 1.1-1.5 envolvendo SMILES).
Noutros casos ainda, para resolver o problema há que encontrar uma estratégia que não foi explicitamente
apresentada na aula nem é indicada no protocolo (por ex. exercícios 2.3, 4.1 e 13.2). Na altura de resolver
estas questões a discussão é aberta a todos os alunos, sendo pedidas ideias sobre a estratégia a seguir.
- 45 -
4.3. Avaliação
Propõem-se que a avaliação tenha uma componente prática e uma componente teórica, a primeira com
peso de 30% e a segunda com peso de 70% na nota final. A aprovação é obtida com classificação maior
ou igual a 9,5 valores.
Para a avaliação prática, são distribuídos aos alunos no final de cada aula um ou mais exercícios
seleccionados pelo docente. Os alunos deverão transmitir ao docente um sumário da resolução até à aula
seguinte. Na última aula do semestre o docente avaliará a capacidade dos alunos para resolver um
problema abrangente proposto nos protocolos, ou outro análogo.
A avaliação teórica realiza-se pela apresentação dum seminário de 20 min em grupo (de dois elementos),
seguida de 20 min de perguntas, dirigidas a cada um dos elementos, acerca do trabalho apresentado e de
outros assuntos do programa da unidade curricular. Os trabalhos são atribuídos pelo docente a cada grupo,
podendo cada grupo escolher o tipo de trabalho entre três possibilidades:
apresentação e discussão de um artigo científico envolvendo tópicos da unidade curricular
resolução de um problema
demonstração de um software de Químio-informática
Exemplos de seminários a atribuir:
1. Artigo: Interprete e apresente o artigo Boiani, M.; Cerecetto, H.; Gonzalez, M.; Gasteiger, J.
Modeling Anti-Trypanosoma cruzi Activity of N-Oxide Containing Heterocycles. J. Chem. Inf.
Model. 2008, 48(1), 213-219.
2. Problema: O ficheiro avaliacao_tr.xls tem estruturas em formato SMILES pertencentes a duas
classes A e B. Construa um modelo que permita classificar os compostos a partir da estrutura
molecular. Teste descritores moleculares constitucionais, índices de informação e códigos RDF.
Com o melhor modelo classifique os nove compostos (T1-T9) no ficheiro avaliacao_te.xls.
3. Software: Demonstre o software OpenBabel (http://openbabel.org) com as suas várias
funcionalidades.
A avaliação teórica, que envolverá um júri constituído pelos docentes da unidade curricular (ou unidade
curricular relacionada) nos 3 anos anteriores, obedecerá aos seguintes critérios:
1. Clareza da apresentação (15%)
2. Capacidade de argumentação durante a discussão do seminário (20%)
3. Competências e conhecimentos revelados no âmbito do assunto apresentado (35%)
4. Conhecimentos revelados acerca das matérias da unidade curricular não directamente
relacionadas com o seminário (30%)
- 46 -
Apêndice 1: Indicações Gerais para os Exercícios Práticos
O software necessário à realização destes trabalhos é de utilização gratuita para estudantes e está
instalado nos computadores a usar nas aulas práticas, ou pode ser usado via serviços web. Todos os
programas necessários podem ser obtidos a partir dos endereços indicados a seguir:
Edição, visualização e processamento de estruturas moleculares e reacções: Marvin Beans e
JChem: http://www.chemaxon.com As propostas dos protocolos estão baseadas na versão
5.2 destes programas.
Análises estatísticas, árvores de decisão e Random Forests: R: http://cran.r-project.org
Descritores moleculares: DRAGON: http://www.vcclab.org
Geração de modelos 3D a partir de estruturas 2D: CORINA:
http://www.molecular-networks.com/online_demos/corina_demo
Redes neuronais: JATOON: http://www.dq.fct.unl.pt/staff/jas/jatoon
Regressões multilineares: http://www.wessa.net
Folha de cálculo: http://www.openoffice.org
Pode obter breves definições dos descritores calculados pelo programa DRAGON em
http://michem.disat.unimib.it/chm/Help/edragon/index.html
Os conjuntos de dados necessários e ficheiros de exemplos podem ser obtidos a partir do site da
unidade curricular em http://www.dq.fct.unl.pt/staff/jas/agregacao
A realização destes trabalhos exige conhecimentos básicos de folhas de cálculo (importação e
exportação de dados, ordenamento, definição de fórmulas). Exemplos de tutoriais para aquisição
rápida destes conhecimentos são:
http://www.usd.edu/trio/tut/excel/
http://phoenix.phys.clemson.edu/tutorials/excel/
http://www.learnopenoffice.org/calccontents.htm
A realização destes trabalhos exige conhecimentos básicos de utilização de programas na janela de
comandos MS-DOS do sistema operativo Windows (ou na shell de Linux). Pode obter rapidamente o
essencial em
http://www.bleepingcomputer.com/tutorials/tutorial76.html
http://www.glue.umd.edu/~nsw/ench250/dostutor.htm
- 47 -
Apêndice 2: Ficha da Unidade Curricular (em 2010)
Unidade curricular
Químio-informática
Curso
Química
Nível do curso
Licenciatura
Tipo de unidade
curricular
Obrigatória
Ano do plano de
estudos
3º
Semestre
6º
Número de créditos
5 ECTS
Docente
João Aires de Sousa
Número de horas de
aula por semana
3 (teórico-práticas)
Objectivos
Aprender as principais estratégias para a representação computacional de
estruturas moleculares e reacções químicas. Aprender a representar aspectos
específicos da estrutura molecular por descritores moleculares. Aprender os
fundamentos da metodologia QSAR/QSPR e a sua implementação com
regressões lineares, árvores de decisão e redes neuronais.
Requisitos
Conhecimentos básicos de química orgânica. Conhecimentos básicos de
informática (trabalho no ambiente Windows ou Linux, utilização de folhas de
cálculo, utilização de web browsers para acesso a informação na Internet).
Programa
Representação de estruturas moleculares: notações lineares, grafos
moleculares, tabela de conectividade, chaves estruturais, hashed fingerprints e
hash codes. Sistemas de bases de dados químicas. Análise de diversidade
molecular. Representação de reacções químicas. Descritores moleculares.
Métodos para previsão de propriedades (QSPR/QSAR): regressões lineares,
árvores de decisão e redes neuronais.
Bibliografia
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH:
Weinheim, 2003.
2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.;
Springer: Dordrecht, 2007.
Métodos de ensino
Apresentação de conteúdos em formato de aula teórica com recurso a
tecnologias multimédia, participação activa dos alunos e demonstração de
software. Resolução de exercícios em laboratório de computadores equipados
com o software necessário, com base em protocolos e conjuntos de dados
acessíveis no web site da unidade curricular.
Métodos de avaliação
Avaliação da componente prática (peso de 30%) pela resolução de problemas
distribuídos ao longo do semestre e por avaliação presencial em frente ao
computador na última aula do semestre. Avaliação da componente teórica
(peso de 70%) pela apresentação de um seminário e discussão. Aprovação com
classificação maior ou igual a 9,5 valores.
Língua de ensino
Português. Se necessário, inglês.
- 48 -
Module Description
Module title
Chemoinformatics
Degree program
Chemistry
Level / category
B.Sc. (“Licenciatura”)
Compulsory/elective/
optional
Compulsory
Semester of the
program
6
ECTS credits
5 ECTS
Module coordinator
João Aires de Sousa
Directed study time
1 theoretical-practical session of 3 hrs / week
Intended learning
outcomes
To know the main approaches to the computer representation of molecular
structures and chemical reactions. To know how to represent features of
molecular structures by molecular descriptors. To know the fundamentals of
QSAR/QSPR methodologies and its application with multilinear regressions,
decision trees and neural networks.
Prior knowledge
required
Basic knowledge of organic chemistry. Basic knowledge of computers
(working with Windows or Linux operating systems, use of spreadsheets, use
of web browsers for Internet access to information).
Syllabus plan
Representation of molecular structures: linear notations, molecular graphs,
connectivity tables, structural keys, hashed fingerprints and hash codes.
Chemical databases systems. Analysis of molecular diversity. Representation
of chemical reactions. Molecular descriptors. Data analysis and property
prediction (QSPR/QSAR): multilinear regressions, decision trees and neural
networks.
Recommended reading
1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH:
Weinheim, 2003.
2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.;
Springer: Dordrecht, 2007.
Teaching methods
Lectures with multimedia technology, active participation of students, and
software demonstrations. In-class resolution of computer exercises with lab
computers equipped with the required software. Exercises are based on
protocols and data sets available from the module’s web site.
Assessment
Assessment of selected practical work throughout the semester and
assessment of practical skills with the computer in the last session of the
semester (30% of final grade). Seminar at the end of the semester (70% of
final grade). Grading scale: 0-20. Approval with grade ≥ 9,5.
Course language
Portuguese. English if required.
- 49 -
Download

Relatório da Unidade Curricular