Relatório da Unidade Curricular Químio-informática João Montargil Aires de Sousa Provas para obtenção do Título de Agregado em Química, Especialidade de Química Orgânica pela Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa Março de 2010 ÍNDICE Página 1. Introdução e Enquadramento Curricular .................................... 3 1.1. Definição de Químio-informática ............................................ 3 1.2. Panorama Internacional do Ensino da Químio-informática .... 3 1.3. Génese da Proposta .................................................................. 4 1.4. Enquadramento Curricular ....................................................... 5 1.5. Disciplinas Relacionadas Noutras Universidades .................... 5 1.6. Bibliografia da Introdução ....................................................... 6 2. Objectivos da Unidade Curricular ................................................ 8 2.1. Objectivos Globais de Formação ............................................. 8 2.2. Objectivos Específicos de Formação ....................................... 9 3. Conteúdos Programáticos da Unidade Curricular ...................... 11 3.1. Resumo do Programa ............................................................... 11 3.2. Desenvolvimento dos Conteúdos Programáticos .................... 13 3.3. Bibliografia .............................................................................. 43 4. Metodologia de Ensino e Avaliação ............................................ 44 4.1. Planeamento ............................................................................. 44 4.2. Organização das Aulas e Metodologia .................................... 44 4.3. Avaliação ................................................................................. 46 Apêndice 1: Indicações Gerais para os Exercícios Práticos ............ 47 Apêndice 2: Ficha da Unidade Curricular ........................................ 48 - 2 - 1. Introdução e Enquadramento Curricular 1.1. Definição de Químio-informática A Químio-informática é uma área científica que utiliza metodologias informáticas para resolver problemas de Química frequentemente associados à utilização de informação sobre estruturas moleculares. Apesar de ter um nome recente, a Químio-informática tem uma história de mais de 40 anos,1 criou revistas científicas próprias bem estabelecidas, produziu livros de referência, foi incorporada em variados programas curriculares e teve um enorme impacto industrial nomeadamente na indústria farmacêutica ao nível dos processos de descoberta de novos fármacos.2 Também hoje o acesso de todos os químicos a vastíssimas fontes de informação envolvendo estruturas moleculares é suportado por infra-estruturas químioinformáticas frequentemente imperceptíveis. Apesar de para alguns autores a Químio-informática englobar a aplicação de cálculos teóricos de mecânica quântica,3 na prática esta última tem permanecido sob a designação de “Química Computacional”, “Química Teórica” ou mesmo “Modelação Molecular”. Exemplos de aplicações típicas da Químioinformática são a gestão de bases de dados químicas, análise de grandes conjuntos de dados experimentais associados a estruturas moleculares, utilização de métodos estatísticos e de aprendizagem automática para a previsão de actividades biológicas ou outras propriedades observáveis (QSAR/QSPR), aplicação de métodos de inteligência artificial para elucidação estrutural, ou a visualização de estruturas e informação química. 1.2. Panorama Internacional do Ensino da Químio-informática O mercado de trabalho e os grupos académicos de investigação em Químio-informática recrutaram tradicionalmente químicos que trabalharam em áreas com forte envolvimento de computação – como os cálculos de química quântica ou a cristalografia de raios-X – ou que adquiriram formação específica de forma mais ou menos estruturada. Nos últimos 15 anos têm sido dados passos para formalizar o ensino universitário da Químio-informática.4 Foram assim implementados cursos desta disciplina em várias universidades, com grande variedade de formatos. Em alguns casos criaram-se mestrados especificamente de Químio-informática que visam treinar especialistas para exercer funções químio-informáticas na indústria ou na academia. São casos de referência os Mestrados das Universidades de Sheffield (Reino Unido), Estrasburgo (França) e Indiana (E.U.A.).5 Também tem sido frequente a inclusão de disciplinas de Químio-informática em mestrados de Química e de Farmácia. São disso exemplo as disciplinas Tópicos de Quimioinformática do Programa de Pós-graduação em Ciências Farmacêuticas da Universidade de S. Paulo (Ribeirão Preto, Brasil)6 ou os módulos de Químio-informática do Mestrado em Ciências Moleculares da Universidade de Erlangen-Nuremberga (Alemanha).5 Ao mesmo tempo introduziram-se curricula de Químio-informática em cursos de 1º ciclo de Química com o objectivo de fornecer aos químicos competências específicas no manuseamento computacional de estruturas químicas e na análise de conjuntos de dados, por exemplo para estabelecer relações estruturaactividade (QSAR). Estão neste caso as disciplinas de Informática Química no bacharelato em Química da Universidade de Cambridge (Reino Unido),7 Introdução à Químio-informática no bacharelato de Química da Escola Politécnica Federal de Lausanne (Suíça),8 Infochimie na Licenciatura em Química na Universidade de Estrasburgo (França),9 Introdução à Químio-informática para alunos do 1º ano do Departamento de Química da Universidade de Sheffield,4 e o módulo de Químio-informática por mim introduzido na unidade curricular de Química Computacional da Licenciatura em Química Aplicada na Universidade Nova de Lisboa.10 Recentemente têm também aparecido cursos de 1º ciclo orientados para a Químio-informática, de que é exemplo o bacharelato em Química com Informática na Universidade de Sheffield,11 ou o bacharelato de 4 anos em Químio-informática na Universidade Tecnológica do Michigan (E.U.A.).12 - 3 - Um marco importante no ensino da Químio-informática foi a publicação em 2003 de dois livros de texto introdutórios Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics; Kluwer: Dordrecht, 2003. que contribuíram para definir as fronteiras da disciplina e forneceram instrumentos de referência para o ensino universitário. Um outro evento significativo foi a Declaração de Obernai em 2006 por 100 cientistas de 18 países europeus, E.U.A. e Canadá que chamou a atenção para a necessidade não só de treinar especialistas em Químio-informática como também de formar químicos com competências nesta área.13 1.3. Génese da Proposta A minha intervenção no ensino da Químio-informática iniciou-se em 1999 com a introdução de um pequeno projecto (“Molécula Web”) na unidade curricular de Química de Produtos Naturais da Licenciatura em Química Aplicada na FCT/UNL, em que se pretendia ensinar os alunos a incorporar informação química e estruturas 3D em páginas HTML.14 Em 2000 aceitei o convite para introduzir um módulo de redes neuronais no Mestrado em Química Analítica Aplicada na Faculdade de Ciências da Universidade de Lisboa.15 Foi no âmbito dessa colaboração que desenvolvi o software JATOON para o ensino de redes neuronais de back-propagation, Kohonen e de counterpropagation.16,17 Em 2002 publiquei no Boletim da Sociedade Portuguesa de Química um artigo intitulado “Quimioinformática: Conteúdos que Urge Ensinar” em que apresentei a área e propus matérias a incluir em cursos universitários.18 Tanto quanto sei terá sido essa a primeira vez que o termo “Quimio-informática” foi usado em Português. No ano seguinte tive a oportunidade de contribuir com capítulos para os livros Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003. Handbook of Chemoinformatics: from Data to Knowledge, Gasteiger, J., Engel, T., Eds.; WileyVCH: Weinheim, 2003. Em 2006 participei na Comissão Científica do workshop “Chemoinformatics in Europe: Research and Teaching”, Obernai (França), do qual resultou a Declaração de Obernai13 de que fui signatário. Após a contratação como Professor Auxiliar do Departamento de Química da FCT/UNL colaborei na introdução duma unidade curricular de Química Computacional com um módulo de Químio-informática, durante a reestruturação da Licenciatura em Química Aplicada de 2002. A nova disciplina começou a funcionar no ano lectivo de 2006/2007. Todo o material usado (apresentações teóricas, protocolos práticos, software próprio e conjuntos de dados) tem sido disponibilizado na Internet em Português10 e Inglês.19 Esta unidade curricular é obrigatória no perfil de Química Orgânica da Licenciatura de Química Aplicada da FCT/UNL, o qual obteve a certificação Eurobachelor em 2007. Tive oportunidade de apresentar a disciplina no simpósio “Cheminformatics from Teaching to Research: Cheminformatics Education” (235º Encontro Nacional da Sociedade Americana de Química, Nova Orleães, E.U.A., 2008) tendo o exemplo desta unidade curricular sido citado em artigos sobre o ensino da Químio-informática.5,20 Em Maio de 2009 os conteúdos de aprendizagem automática foram adaptados para um módulo de duas sessões da disciplina Tópicos de Quimioinformática do Programa de Pós-graduação em Ciências Farmacêuticas que ministrei na Universidade de S. Paulo (Ribeirão Preto, Brasil). - 4 - Em Dezembro de 2009, no contexto da intervenção como Professor Convidado da Universidade de Estrasburgo (França), ministrei quatro sessões do Mestrado em Químio-informática tendo versado sobre métodos de aprendizagem automática, representação e classificação de reacções químicas.21 1.4. Enquadramento Curricular É na sequência destes 10 anos de experiência pedagógica em Químio-informática que submeto o presente Relatório de Unidade Curricular. Proponho-a como uma unidade curricular obrigatória para o 3º ano de uma licenciatura em Química. Apesar dessa caracterização, poderá também ser integrada numa licenciatura de Química como unidade curricular opcional, dependendo do plano de estudos e do perfil pretendido para a licenciatura. É também adequada como opção em licenciaturas de Bioquímica ou Biologia Celular e Molecular, mestrados integrados de Engenharia Química ou em cursos de mestrado nas áreas da Química e Farmácia. A proposta de inclusão de uma unidade curricular obrigatória de Químio-informática no plano de estudos de uma licenciatura em Química radica, em primeiro lugar, na convicção de que uma licenciatura universitária de 3 anos em Química deve fornecer uma formação científica alargada que permita a um licenciado aceder a formação avançada em Química, mas também noutras áreas relacionadas. Assim sendo, o plano de estudos deve valorizar disciplinas que desenvolvam competências transferíveis e de multidisciplinaridade, como é o caso da Químio-informática. Em segundo lugar, a proposta baseia-se na percepção do impacto crescente que as tecnologias de informação têm na Química. A abundância de informação química já hoje existente, a facilidade de geração de dados experimentais e a ubiquidade dos meios informáticos tornam necessária a utilização e compreensão de ferramentas químio-informáticas, mesmo por químicos experimentais. A realização de uma unidade curricular como esta no 3º ano da licenciatura é também uma oportunidade para reforçar alguns conceitos estudados noutras disciplinas, como por exemplo estereoquímica, influência da estrutura em propriedades físicas de compostos, técnicas analíticas ou metabolismo. 1.5. Disciplinas Relacionadas Noutras Universidades Quase todas as unidades curriculares de Química Computacional ministradas nas licenciaturas de Química em Portugal abordam essencialmente teoria de mecânica quântica nos seus vários níveis de aproximações e a sua aplicação ao cálculo de propriedades termodinâmicas. As unidades curriculares de Química Computacional I e II da Faculdade de Ciências da Universidade de Lisboa (FCUL)22 – obrigatória a primeira e opcional a segunda – para alunos do 3º ano da Licenciatura em Química incluem também conteúdos de redes neuronais, algoritmos genéticos e suas aplicações em Química. A unidade curricular de Modelação Molecular da Licenciatura em Química na Universidade da Madeira23 é obrigatória para os alunos do 3º ano e inclui um capítulo de “Design de ligandos” que aborda a representação computacional de moléculas e análise de diversidade molecular. A unidade curricular opcional de “Química aplicada ao design de fármacos” da Licenciatura em Química na Universidade do Porto24 inclui o estudo de QSAR para além de técnicas de modelação molecular. Ao nível de cursos de 2º ciclo, existe uma unidade curricular de “Redes neuronais e quimiometria” no Mestrado em Química Teórica e Modelação Computacional da FCUL25 e uma unidade curricular de “Aplicação de SARs e QSARs à concepção de novos fármacos” no Mestrado em Química na mesma Faculdade26 que aborda a representação de estruturas moleculares e métodos de aprendizagem automática (regressões lineares, árvores de decisão, redes neuronais) para QSAR. Tenho ministrado alguns módulos destas unidades curriculares e tive assim possibilidade de acompanhar como estas temáticas têm sido introduzidas em Portugal e como os alunos as têm recebido. As unidades curriculares de Quimiometria nos Mestrados dos Departamentos de Química das Universidades do Minho27 e de Coimbra28 incluem capítulos sobre análise multivariada e suas aplicações em Química. - 5 - A unidade curricular que aqui proponho assemelha-se nos conteúdos às congéneres da EPFL de Lausanne (Suíça), Universidade de Estrasburgo (França), Universidades de Cambridge e Sheffield (Reino Unido) antes mencionadas. Todas incluem representação da estrutura molecular e QSAR/QSPR. Em Lausanne aborda-se também o formato JCAMP para o arquivo de informação espectroscópica e a visualização de informação química em páginas web com o applet JMol. Em Estrasburgo e Sheffield os programas incluem screening virtual. A disciplina de Cambridge inclui pesquisa em bases de dados bibliográficas. 1.6. Bibliografia da Introdução 1. Chen, W.L. Chemoinformatics: Past, Present and Future. J. Chem. Inf. Model. 2006, 46 (6), 22302255. 2. Chemoinformatics in Drug Discovery, Oprea, T. I., Ed.; Wiley-VCH: Weinheim, 2005. 3. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003. 4. Willett, P. Education for Chemoinformatics. Workshop “Chemoinformatics in Europe: Research and Teaching”, Obernai (França), 2006. http://infochim.ustrasbg.fr/chemoinformatics/Teaching.php 5. Warr, W. A. Cheminformatics Education. QSAR World, November 2008, http://www.qsarworld.com/cheminformatics-education.php 6. https://sistemas.usp.br/fenixweb/fexDisciplina?sgldis=6025824 7. http://www-teach.ch.cam.ac.uk/guides/II_main.pdf 8. http://scgc.epfl.ch/bachelor_23.htm 9. http://www-chimie.u-strasbg.fr/IMG/pdf/9.pdf 10. http://www.dq.fct.unl.pt/cadeiras/qc/ 11. http://www.shef.ac.uk/chemistry/prospectiveug/courses/informatics.html 12. http://www.chemistry.mtu.edu/pages/undergrad/index.php 13. The Obernai Declaration, Obernai (França), 2006, http://infochim.u-strasbg.fr/chemoinformatics/Obernai_declaration.php 14. http://www.dq.fct.unl.pt/cadeiras/qpn1/main.html 15. http://www.dq.fct.unl.pt/staff/jas/fc2000/ 16. http://www.dq.fct.unl.pt/staff/jas/jatoon/ 17. Aires-de-Sousa, J. JATOON: Java Tools for Neural Networks. Chemom. Intell. Lab. Syst. 2002, 61(1-2), 167-173. 18. Aires-de-Sousa, J. Quimio-informática: Conteúdos que Urge Ensinar. Química 2002, 84, 55-59. http://www.spq.pt/boletim/docs/BoletimSPQ_084_055_09.pdf 19. http://www.dq.fct.unl.pt/staff/jas/qc/ 20. Kind, T.; Leamy, T.; Leary, J. A.; Fiehn, O. Software Platform Virtualization in Chemistry Research and University Teaching. J. Cheminformatics 2009, 1:18. 21. http://www.dq.fct.unl.pt/staff/jas/teaching/Strasbourg2009/ 22. http://www.dqb.fc.ul.pt/1ciclo/quimica/pc_quimica.htm 23. http://www.uma.pt 24. http://www.fc.up.pt - 6 - 25. http://www.dqb.fc.ul.pt/2ciclo/qteorica/plano.htm 26. http://www.dqb.fc.ul.pt/2ciclo/quim/ 27. http://www.quimica.uminho.pt/ e http://www.gri.uminho.pt/Default.aspx?tabid=10&pageid=456&lang=pt 28. https://woc.uc.pt/quimica Todos os web sites foram acedidos em Março de 2010. - 7 - 2. Objectivos da Unidade Curricular 2.1. Objectivos Globais de Formação A frequência da unidade curricular proposta no presente Relatório deverá contribuir para que o aluno: Compreenda a necessidade de utilizar métodos informáticos para processar grandes volumes de informação química. Compreenda a vantagem de transformar uma estrutura química numa linguagem para a representação e processamento por um computador. Aprenda as principais estratégias para a representação computacional de estruturas moleculares e reacções químicas. Aprenda os fundamentos da teoria de bases de dados de estruturas moleculares. Aprenda a representar aspectos específicos da estrutura molecular por descritores moleculares. Adquira competências para a utilização de técnicas de aprendizagem automática. Adquira competências para a aplicação da metodologia QSAR/QSPR – relações quantitativas estrutura-actividade e estrutura-propriedade. Reconheça a versatilidade das metodologias computacionais estudadas e aprenda a reduzir problemas concretos a formatos tratáveis pelas mesmas. Reconheça as limitações dos métodos aprendidos e a necessidade de novos desenvolvimentos. Consolide conceitos fundamentais de Química (como estereoquímica ou influência de aspectos estruturais nas propriedades físicas dum composto). Reflicta sobre as possibilidades e limitações da construção de modelos preditivos em Química. Desenvolva competências para aceder à literatura de Químio-informática e para aprender autonomamente novos tópicos nesta área. Desenvolva capacidades de multidisciplinaridade (por exemplo em estudos de QSAR). Desenvolva competências transferíveis no domínio das tecnologias de informação. - 8 - 2.2. Objectivos Específicos de Formação Representação da estrutura molecular Aprender as regras fundamentais da notação linear SMILES Ser capaz de codificar uma estrutura molecular simples (<10 átomos, hidrogénios excluídos) em SMILES Ser capaz de desenhar a fórmula de estrutura de uma molécula simples (<10 átomos, hidrogénios excluídos) a partir da representação SMILES Reconhecer a necessidade de representações canónicas de estruturas moleculares Interpretar estruturas de Markush Aprender a construir as matrizes de adjacências, ligações e distâncias dada uma estrutura molecular Aprender a interpretar tabelas de conectividade Aprender a interpretar os formatos MDL Molfile e SDfile Aprender a utilizar software para a interconversão de ficheiros e para a estandardização de estruturas Aprender a representar estruturas moleculares por hashed fingerprints Aprender a utilizar software para a geração rápida de modelos moleculares 3D e seu arquivo em formatos moleculares MDL Molfile e PDB Aprender o conceito de farmacóforo e a sua utilização no design de fármacos Bases de dados de estruturas químicas Compreender as especificidades dos sistemas de bases de dados de estruturas moleculares Distinguir entre pesquisa por estrutura, sub-estrutura e semelhança Análise de diversidade molecular Reconhecer a utilidade de análises de diversidade molecular no planeamento de experiências laboratoriais de screening Aprender a calcular distâncias entre moléculas através do coeficiente euclidiano e coeficiente de Tanimoto com base em hashed fingerprints Aprender a calcular a diversidade dentro de um conjunto de moléculas Aprender a calcular a distância de uma moléculas a um conjunto de moléculas Aprender um algoritmo para a selecção de um sub-conjunto com máxima diversidade Representação de reacções químicas Aprender a interpretar e utilizar representações SMILES de reacções químicas Aprender a interpretar ficheiros no formato MDL RDfile, incluindo a especificação do centro reaccional e mapeamento átomo-a-átomo - 9 - Descritores moleculares Compreender o que são descritores moleculares Distinguir entre diferentes tipos de descritores moleculares, nomeadamente descritores constitucionais, descritores de fragmentos, descritores topológicos e descritores 3D Aprender a definição de alguns descritores representativos como o índice de Wiener, vectores de autocorrelação 2D e funções de distribuição radial 3D Aprender a usar software para o cálculo de descritores moleculares Introdução às relações quantitativas estrutura-propriedade e estrutura-actividade (QSPR e QSAR) Aprender o que são relações quantitativas estrutura-propriedade e estrutura-actividade (QSPR e QSAR) Compreender os vários passos para o estabelecimento de QSPR e QSAR Métodos para análise de dados Aprender a utilizar regressões multilineares para QSPR/QSAR Familiarizar-se com os aspectos fundamentais do algoritmo e com a estrutura de árvores de decisão Compreender os aspectos fundamentais do algoritmo de Random Forests e as suas vantagens/desvantagens em relação a árvores de decisão Compreender o funcionamento de redes neuronais de back-propagation, Kohonen e de counterpropagation Ser capaz de utilizar software para treinar e aplicar árvores de decisão, Random Forests e redes neuronais. Distinguir entre aprendizagem supervisionada e não-supervisionada Aprender a aplicar técnicas de aprendizagem automática a problemas de Química - 10 - 3. Conteúdos Programáticos da Unidade Curricular 3.1. Resumo do Programa 1. Introdução 1.1. Objectos e métodos da Químio-informática 2. Representação da estrutura molecular 2.1. Necessidade e estratégias para a representação de compostos químicos 2.2. A notação linear SMILES 2.3. Representação de estruturas moleculares no formato InChI 2.4. Estruturas de Markush 2.5. Representação de estruturas moleculares por grafos moleculares e matrizes 2.6. Tabelas de conectividade 2.7. Os formatos MDL Molfile e SDfile 2.7. Software para a interconversão de ficheiros e para a estandardização de estruturas 2.8. Representações por chaves estruturais, hashed fingerprints e hash codes 2.9. Representação de estruturas 3D e o formato PDB 2.10. Software para a geração de estruturas 3D a partir da conectividade 2.10. Representação de superfícies moleculares 2.11. Farmacóforos 3. Bases de dados de estruturas químicas 3.1. Pesquisa por estrutura, sub-estrutura e semelhança 4. Análise de diversidade molecular 4.1. Definições de similaridade entre moléculas 4.2. Definições de diversidade dentro de um conjunto de moléculas 4.3. Distância de um composto a um conjunto de compostos 4.4. Algoritmos para a selecção de um sub-conjunto com diversidade máxima 5. Representação de reacções químicas 5.1. Representação de reacções nos formatos SMILES e MDL RDfile 5.2. Representação de centros reaccionais e mapeamento átomo-a-átomo 6. Descritores moleculares 6.1. Descritores constitucionais 6.2. Descritores de fragmentos - 11 - 6.3. Descritores topológicos 6.3.a. O índice de Wiener 6.3.b. Vectores de autocorrelação 2D 6.4. Descritores 3D 6.4.a. Funções de distribuição radial 6.5. Software para o cálculo de descritores moleculares 7. Introdução às relações quantitativas estrutura-propriedade (QSPR) e estruturaactividade (QSAR) 7.1. Selecção de conjuntos de treino, validação e previsão 7.2. Selecção de descritores 7.3. Treino e avaliação de modelos 8. Métodos para análise de dados 8.1. Regressões multilineares 8.2. Árvores de decisão 8.3. Random Forests 8.4. Redes neuronais de back-propagation 8.5. Redes neuronais de Kohonen 8.6. Redes neuronais de counterpropagation - 12 - 3.2. Desenvolvimento dos Conteúdos Programáticos 1ª Aula Conteúdos teóricos Objectos e métodos da Químio-informática. Na introdução à disciplina são apresentadas estatísticas relativas à dimensão actual da base de dados Chemical Abstracts para exemplificar a necessidade de usar computadores na gestão da informação química hoje existente. A Químio-informática é apresentada como uma disciplina que utiliza métodos computacionais para resolver problemas em Química, nomeadamente problemas relacionados com o processamento de estruturas moleculares. Esta unidade curricular aborda particularmente a representação de moléculas em formatos electrónicos, cálculo de propriedades da estrutura molecular (descritores moleculares), comparação de estruturas e utilização de métodos de aprendizagem automática para o estabelecimento de relações estrutura-propriedade e estrutura-actividade. São apresentados aos alunos os principais objectos da Químio-informática: estruturas moleculares, reacções químicas, propriedades físicas (como solubilidades, coeficientes de partição ou espectroscopia), químicas (como electrofilia ou estabilidade química) ou biológicas (como toxicidade ou actividade farmacológica). É apresentada, como uma aplicação típica desta disciplina, a utilização de métodos de estatística e métodos de aprendizagem automática (como árvores de decisão ou redes neuronais) para o estabelecimento de relações entre estrutura e propriedades. Necessidade de representação de compostos químicos. Inicia-se a abordagem da representação de estruturas moleculares discutindo a inadequação de formatos de imagem para esse efeito e referindo a necessidade de representar a essência da fórmula estrutural: átomos, ligações e estereoquímica. A representação de estruturas moleculares em formatos electrónicos é necessária para o arquivo de informação, visualização, gestão/pesquisa em bases de dados, identificação de relações entre estrutura e propriedades, ou cálculo de propriedades. Uma representação não ambígua identifica uma só estrutura possível (por exemplo o nome ‘tolueno’). Uma representação é única se uma dada estrutura só puder ser representada de uma forma. As notações lineares representam estruturas por sequências de letras e números. Os alunos são chamados a recordar pelo menos um tipo de notação linear que já conhecem: a nomenclatura IUPAC. É apresentada a vantagem de outras notações lineares que, por serem extremamente compactas e usarem códigos mais facilmente interpretáveis por uma máquina, são muito úteis para armazenar e manusear estruturas num computador. Permitem transmitir estruturas facilmente (por exemplo, no conteúdo de texto duma mensagem de correio electrónico ou no campo de pesquisa dum motor de pesquisa web). A notação linear SMILES. É apresentada a notação SMILES (Simplified Molecular Input Line Entry System) que permite representar moléculas por sequências muito compactas e intuitivas. É exemplificado como a estrutura de propan-1-ol pode ser representada por CCCO. As regras mais importantes são resumidas do seguinte modo: Átomos são representados pelos seus símbolos atómicos. Átomos de H são omitidos (ficam implícitos). Átomos vizinhos ficam um a seguir ao outro. Ligações duplas representam-se por ‘=‘, triplas por ‘#’. Ramificações representam-se por parênteses. Anéis são representados atribuindo dígitos ao dois átomos que fecham o anel. É explicado como a quiralidade num centro tetraédrico é especificada com os caracteres @ (sentido oposto ao do relógio) ou @@ (sentido do relógio). A caracterização é feita olhando para o centro de quiralidade a partir do primeiro ligando que aparece no SMILES, e observando em que sentido estão dispostos os outros três ligandos quando ordenados segundo a ordem de aparecimento no SMILES. A - 13 - estereoquímica em redor duma ligação dupla (estereoquímica cis/trans) é especificada com os caracteres ‘\’ e ‘/’. Nesta aula são também demonstrados os programas MarvinSketch e MarvinView do pacote Marvin Beans (ChemAxon Ltd., gratuito para uso académico) usado na unidade curricular para a visualização e edição de estruturas moleculares. Antes de apresentar a existência de um algoritmo para gerar representações SMILES únicas, os alunos poderão realizar os exercícios referentes à primeira aula. No exercício 1.6.b aperceber-se-ão da necessidade de representações únicas e uniformizadas para a identificação fiável de estruturas iguais. É demonstrado o programa Standardizer (ChemAxon Ltd., gratuito para uso académico) usado nesta unidade curricular para a estandardização de estruturas moleculares. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 1 (p. 1-12), Capítulo 2 (p. 15-27, 84). 2. SMILESTM : Simplified Molecular Input Line Entry System, http://www.daylight.com/smiles/ 1ª Aula Exercícios práticos Todos os ficheiros necessários para os exercícios práticos desta unidade curricular podem ser obtidos a partir do site da unidade curricular em http://www.dq.fct.unl.pt/staff/jas/agregacao – ver Apêndice 1. 1.1. Escreva, sem recurso a software, uma representação SMILES para as seguintes moléculas (use um editor de texto como o Notepad no Windows; ou gedit, TextEditor, Kate, ou Kwrite no Linux): 1.1.a. 1.1.b. 1.1.c. 1.1.d. 1.2. Copie para o programa MarvinSketch os SMILES que escreveu no problema anterior e confirme que estão certos. (Pode fazer “Copy” dum SMILES e “Paste” em cima da área de trabalho do MarvinSketch.) 1.3. Desenhe estruturas moleculares para as seguintes representações SMILES: 1.3.a. CCCCBr 1.3.c. C#CCc1ccccc1 1.3.b. CC(CO)CCCN 1.3.d. CCC(C)(F)OC(=S)OC - 14 - 1.4. Copie os SMILES do problema anterior para o programa MarvinSketch e confirme que as estruturas que desenhou estão certas. 1.5. Escreva a representação SMILES para o enantiómero (R) do aminoácido lisina. Confirme com o programa MarvinSketch que está certa. 1.6. Faça download do ficheiro 1000stru.smi. Trata-se dum ficheiro com 1000 estruturas em formato SMILES. 1.6.a. Verifique se há estruturas repetidas (sugestão: faça “Copy” e “Paste” dos SMILES para uma folha de cálculo, por exemplo MS Excel no Windows ou OpenOffice.org Calc). 1.6.b. Com um programa Marvin visualize as estruturas nas linhas 130 e 425 do ficheiro. Tinha-as identificado na alínea anterior? Se não tinha, utilize um procedimento alternativo que permita identificar casos como esses. (Sugestão: utilize o programa Standardizer para transformar as representações SMILES). _______________________________________________ No final desta aula o aluno deverá Reconhecer a necessidade de usar técnicas informáticas para processar grandes volumes de dados químicos hoje existentes. Ter aprendido as regras fundamentais da notação linear SMILES. Ser capaz de codificar uma estrutura molecular simples (<10 átomos, hidrogénios excluídos) em SMILES. Ser capaz de desenhar a fórmula de estrutura de uma molécula simples (<10 átomos, hidrogénios excluídos) a partir da representação SMILES. Reconhecer a necessidade de representações canónicas de estruturas moleculares. 2ª Aula Conteúdos teóricos Representação de estruturas moleculares no formato InChI. Na continuação da matéria sobre notações lineares é mencionado o formato InChI como uma notação linear desenvolvida pela IUPAC para ser o equivalente digital ao nome IUPAC para um composto. A representação InChI é composta por camadas, cada uma com um tipo de informação: fórmula, conectividade, isótopos, estereoquímica, tautómeros e carga. Foi desenvolvido um algoritmo que gera uma notação não ambígua e única e cuja implementação está disponível em http://www.iupac.org/inchi/ Estruturas de Markush. Um diagrama de estruturas de Markush é um tipo de representação específica de uma série de compostos químicos. O diagrama não descreve apenas uma estrutura, mas várias famílias de compostos. Tem um esqueleto base e substituintes que são listados como texto, separadamente do diagrama. Estruturas de Markush são referidas por serem muito usadas em bases de dados de patentes. - 15 - R1= H, halogénio, OH, COOH R2= H, CH3 X= Cl, Br, CH3 Exemplo de estrutura de Markush. Representação de estruturas moleculares por grafos moleculares e matrizes. Nesta aula é também apresentada a estratégia de representar uma estrutura molecular através dum grafo matemático em que cada átomo é um vértice e cada ligação é uma aresta. É uma estratégia poderosa porque permite processar estruturas moleculares matematicamente usando teoria de grafos. É referida como exemplo a possibilidade de usar teoremas conhecidos na Matemática para identificar sub-estruturas. Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H são omitidos). Uma matriz de adjacência indica que átomos estão ligados. Uma matriz de distâncias indica as distâncias entre átomos (definida como número de ligações entre os átomos ao longo do caminho mais curto, ou como distância 3D). Tabelas de conectividade. Uma tabela de conectividade lista os átomos existentes na molécula e lista as ligações entre eles (pode incluir átomos de H ou não). São apresentados exemplos como o seguinte em que os alunos são convidados a reconhecer na tabela de conectividade cada átomo e cada ligação da estrutura. 2 1 5 3 6 Lista de átomos 1 C 2 C 3 C 4 Cl 5 C 6 C Lista de ligações 1º át. 2º át. ordem 1 2 1 2 3 1 3 4 1 3 5 1 5 6 2 4 Exemplo de tabela de conectividade. Os formatos MDL Molfile e SDfile utilizam tabelas de conectividade. Foram desenvolvidos pela empresa Molecular Design Limited (MDL) e tornaram-se estandartes de facto para o arquivo e troca de informação sobre estruturas moleculares e propriedades associadas. O formato Molfile inclui um cabeçalho (header) e uma tabela de conectividade. O formato SDfile inclui informação estrutural (em formato Molfile) e dados associados, para um ou mais compostos. As definições destes formatos podem ser consultadas em http://www.mdli.com/downloads/public/ctfile/ctfile.jsp Existe uma variedade de software para a interconversão de formatos moleculares. Nesta aula demonstrase o programa Standardizer (ChemAxon Ltd.) usado nesta unidade curricular para o efeito. - 16 - Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 2 (p. 30-51, 70). 2. The IUPAC International Chemical Identifier (InChITM), http://www.iupac.org/inchi/ 3. CTfile Formats, http://www.mdli.com/downloads/public/ctfile/ctfile.jsp 2ª Aula Exercícios práticos 2.1. Represente a matriz de adjacência, a matriz de ligações e a matriz de distâncias topológicas para as moléculas das perguntas 1.1.b e 1.1.c. 2.2. Faça download do ficheiro semlig.mol. Trata-se do ficheiro em formato MDL Molfile para a estrutura do problema 1.1.b, mas sem o bloco correspondente às ligações. Se tentar abrir o ficheiro com o programa Marvin não conseguirá. Abra o ficheiro com um editor de texto e corrija-o construindo o bloco das ligações. Abra o ficheiro corrigido com o Marvin e confirme que está certo. 2.3. Faça download do ficheiro 500stru.sdf. Trata-se dum ficheiro com 500 estruturas em formato SDfile. Verifique se a estrutura da aspirina existe no ficheiro. E a do 2-bromonaftaleno? 2.4. Faça download dos ficheiros 300stru.sdf e 248stru.smi. O primeiro é um ficheiro com 300 estruturas em formato SDfile, o segundo tem 248 estruturas moleculares em formato SMILES. Quantas moléculas (e quais) do primeiro ficheiro existem também no segundo? 2.5. Imagine que está a trabalhar com o ficheiro prodnat.mol (faça download) que lhe tinha sido enviado por um colaborador como sendo a estrutura de um produto natural. Aparentemente trata-se de um ficheiro em formato MDL Molfile. Mas quando tenta visualizar a estrutura usando o programa MarvinSketch obtém um resultado estranho... Edite o ficheiro, identifique a causa e corrija o erro. _______________________________________________ No final desta aula o aluno deverá Ser capaz de interpretar estruturas de Markush. Ter aprendido a construir as matrizes de adjacências, ligações e distâncias dada uma estrutura molecular. Saber interpretar tabelas de conectividade. Saber interpretar ficheiros nos formatos MDL Molfile e SDfile. Saber utilizar software para a interconversão de ficheiros e para a estandardização de estruturas. - 17 - 3ª Aula Conteúdos teóricos Representações de tamanho fixo para estruturas moleculares. Nesta aula apresenta-se em primeiro lugar a necessidade frequente de representar a estrutura molecular através de um número constante de parâmetros, independente do tamanho da molécula, para o processamento estatístico (por exemplo por análise multivariada) ou para o tratamento por técnicas de aprendizagem automática. Estão nesta categoria as representações por chaves estruturais (structural keys) e hashed fingerprints. As chaves estruturais codificam a presença num composto de determinadas características como fragmentos. Por exemplo, se forem definidos 20 fragmentos, a representação tem um comprimento de 20, independentemente da molécula codificada. É uma representação ambígua, ou seja, pode ser igual para moléculas diferentes, mas é muito útil para a pesquisa de semelhanças entre moléculas. Hashed Fingerprints codificam a presença de sub-estruturas (as quais não estão previamente definidas) através de um determinado número de valores binários (0/1). Cada uma das posições do código que recebe um valor binário é designada por bit. Em primeiro lugar são geradas todas as sequências de átomos ligados contendo entre um e um número definido de átomos. È dado como exemplo a alanina (usando a notação SMILES, CC(N)C(O)=O) em que as sequências de comprimento zero são simplesmente os átomos C, N e O, as sequências de comprimento 1 são CC, CN, CO e C=O, e assim por diante. Cada uma das sequências é submetida a uma função que atribui o valor 1 a alguns bits do fingerprint. A mesma sequência activa sempre os mesmos bits e o algoritmo é capaz de atribuir bits a qualquer sequência. É referido que pode haver colisões (o mesmo bit activado por sequências diferentes), que não é possível interpretar os fingerprints, que os átomos de hidrogénio são omitidos e que a estereoquímica não é considerada. Na geração de hashed fingerprints os parâmetros a definir previamente são o comprimento do fingerprint, o tamanho das sequências e o número de bits activados por cada sequência. É explicado como estes parâmetros influenciam a memória necessária assim como a capacidade dos fingerprints para distinguir moléculas diferentes. É enfatizada a principal aplicação de hashed fingerprints na pesquisa de semelhanças entre moléculas em grandes bases de dados. Demonstra-se na aula o programa generfp (ChemAxon Ltd.) utilizado nesta unidade curricular para o cálculo de hashed fingerprints. Hash codes são transformações da estrutura molecular numa sequência de letras e/ou números com um determinado comprimento. Codificam fragmentos existentes na molécula. Não são interpretáveis e são usados como identificadores únicos de estruturas, por exemplo para verificar rapidamente se um determinado composto existe numa grande base de dados. Também podem ser definidos para átomos individualmente. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 2 (p. 71-75). 2. Daylight Theory Manual, Daylight Version 4.9, Release Date 02/01/08, Daylight Chemical Information Systems, Inc. http://www.daylight.com/dayhtml/doc/theory/theory.finger.html - 18 - 3ª Aula Exercícios práticos 3.1. Faça download do ficheiro 10stru.smi. Trata-se dum ficheiro com 10 estruturas diferentes em formato SMILES. 3.1.a. Utilizando o programa generfp do software JCHEM calcule hashed fingerprints para as 10 estruturas, com tamanho = 64 (8 bytes) e máximo número de ligações nas sequências = 3. O comando a executar é (a partir da directoria onde tem o ficheiro 10stru.smi) generfp -fl 8 -pl 3 <10stru.smi>10stru_a.fp Os fingerprints ficam no ficheiro 10stru_a.fp. 3.1.b. Os fingerprints da alínea anterior conseguem distinguir as 10 estruturas umas das outras? Porquê? 3.1.c. Calcule novos fingerprints para as 10 estruturas mas agora com maior poder de discriminação: máximo número de ligações nas sequências = 5. O comando a executar é generfp -fl 8 -pl 5 <10stru.smi>10stru_c.fp Consegue assim distinguir as 10 estruturas? 3.1.d. Aumente ainda o poder de discriminação: tamanho = 128 (16 bytes) e máximo número de ligações nas sequências = 5. O comando a executar é generfp -fl 16 -pl 5 <10stru.smi>10stru_d.fp Consegue assim distinguir as 10 estruturas? Será possível distinguir todas as 10 estruturas com hashed fingerprints? Porquê? 3.1.e. E se aumentar agora o número de bits activados por cada sequência, de 2 (default) para 5? O comando a executar é generfp -fl 16 -pl 5 -bc 5 <10stru.smi>10stru_e.fp Continua a conseguir distinguir as estruturas que distinguia antes? Porquê? _______________________________________________ No final desta aula o aluno deverá Conhecer os aspectos fundamentais do algoritmo para gerar hashed fingerprints. Saber representar estruturas moleculares por hashed fingerprints. Conhecer as características de chaves estruturais e hash codes. - 19 - 4ª Aula Conteúdos teóricos Bases de dados de estruturas químicas e de reacções. Nesta aula é explicado como as bases de dados de compostos têm características muito específicas devido à especificidade da informação arquivada: estruturas moleculares. Uma utilização frequente destas bases de dados é a pesquisa por estrutura. A identificação de uma estrutura pode ser implementada gerando uma representação canónica para todas as moléculas da base de dados (por exemplo hash codes), assim como para a molécula-pergunta, e pesquisando uma representação igual. Outro tipo de pesquisa é a de sub-estrutura, isto é, a procura de estruturas que tenham um determinado fragmento. Para isso são usados métodos da teoria de grafos para verificar se um grafo está inteiramente contido noutro (isomorfismo de subgrafos). Como esta pesquisa pode ser lenta, é normalmente efectuada uma pesquisa inicial rápida (por exemplo baseada em chaves estruturais ou fingerprints) para excluir a maior parte dos compostos e só depois são aplicados os algoritmos para identificação de isomorfismo de subgrafos. Neste contexto são relembradas matérias anteriormente estudadas (grafos moleculares, representações canónicas, chaves estruturais, hash codes) e explicitada a sua utilidade. Análise de similaridade. A pesquisa por semelhança numa base de dados de estruturas químicas é uma alternativa à pesquisa por estrutura, ou por sub-estrutura. Os alunos são convidados a reflectir sobre o conceito de semelhança estrutural e a propor o recurso a conceitos já estudados. Para uma pesquisa por semelhança é necessário calcular uma medida de semelhança entre o composto dado e todos os compostos da base de dados. Esta permite ordenar a base de dados e apresentar um determinado número de estruturas encontradas. A definição de semelhança entre compostos é também importante para a análise da diversidade em conjuntos de compostos. Subjacente ao interesse por definições e pesquisa de semelhanças está a hipótese de que estruturas semelhantes tendem a apresentar propriedades semelhantes. Os alunos são confrontados com as muitas possibilidades de definir distância entre compostos (inversamente relacionada com semelhança), que variam também nos descritores usados para representar compostos. Cálculo de semelhanças com hashed fingerprints. A semelhança entre dois compostos X e Y pode ser calculada com base na semelhança entre os seus hashed fingerprints. Definindo a = nº de bits ‘1’ no composto X mas não no Y. b = nº de bits ‘1’ no composto Y mas não no X. c = nº de bits ‘1’ tanto no composto X como no Y. d = nº de bits ‘0’ tanto no composto X como no Y. n = ( a + b + c + d ) é o total de bits podemos calcular vários coeficientes que medem a distância (e inversamente a semelhança) entre fingerprints, dois dos mais comuns sendo: Coeficiente Euclidiano: ( c + d ) / n (quantos bits são iguais em X e Y) Coeficiente de Tanimoto: c / (a + b + c) Selecção de conjuntos de moléculas com elevada diversidade. Quando se pretende testar experimentalmente um conjunto de compostos para identificar os mais promissores em termos de uma determinada propriedade (screening) é frequente tentar reduzir redundâncias dentro do conjunto para maximizar os recursos empregues. Uma estratégia habitual é seleccionar um conjunto de compostos com a maior diversidade possível de estruturas. As definições de semelhança estrutural podem ser aqui usadas. - 20 - Os alunos são convidados a propor medidas da diversidade dentro de um conjunto de moléculas. São depois apresentados alguns exemplos frequentemente usados: soma normalizada das distâncias entre todos os pares de moléculas no conjunto. média das distâncias de todos os compostos ao centróide (as coordenadas do centróide são as médias das coordenadas dos vectores descritores de todos os compostos do conjunto). média das distâncias ao vizinho mais próximo para todas as moléculas do conjunto. Os alunos são agora estimulados a propor maneiras de definir a distância de um composto a um conjunto de compostos e de seleccionar um sub-conjunto com máxima diversidade. A distância de um composto a um conjunto de compostos pode ser definida pela distância deste composto a) ao composto(s) mais semelhante(s) no conjunto, b) ao centróide do conjunto. Algoritmos para a selecção de um sub-conjunto com máxima diversidade. Existe uma grande variedade de algoritmos para este problema. Apresenta-se como ilustração um algoritmo simples frequentemente implementado, de selecção baseada na dissemelhança entre compostos: 1. Seleccionar um composto do conjunto inicial (aleatoriamente, ou o centróide, por exemplo) e retirá-lo para o sub-conjunto. 2. Calcular a dissemelhança (distância) entre cada composto restante e o sub-conjunto já construído. 3. Retirar o composto restante mais dissemelhante do sub-conjunto já construído. 4. Voltar ao passo 2 se o sub-conjunto tiver menos compostos do que o pretendido. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 6 (p. 291-298, 302-313). 2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007, Capítulo 1 (p. 1-16), Capítulo 5 (p. 99-103), Capítulo 6 (p. 119, 128-131). 4ª Aula Exercícios práticos 4.1. Faça download do ficheiro 1500stru.smi. Trata-se dum ficheiro com 1500 estruturas diferentes em formato SMILES. Proponha uma estratégia, e execute-a, para encontrar no ficheiro a estrutura mais parecida com o alcalóide estilopina. (Encontre na WWW, via Google, a estrutura de “stylopine”). 4.2. Proponha uma estratégia e execute-a para seleccionar um sub-conjunto do conjunto da questão anterior que contenha 10 compostos e que tenha o máximo de diversidade molecular. _______________________________________________ No final desta aula o aluno deverá Compreender as especificidades dos sistemas de bases de dados de estruturas moleculares. - 21 - Saber distinguir entre pesquisa por estrutura, sub-estrutura e semelhança. Reconhecer a utilidade de análises de diversidade molecular no planeamento de experiências laboratoriais de screening. Ser capaz de calcular distâncias entre moléculas através do coeficiente euclidiano e coeficiente de Tanimoto com base em hashed fingerprints. Saber calcular a diversidade dentro de um pequeno conjunto de moléculas. Saber calcular a distância de uma molécula a um pequeno conjunto de moléculas. Conhecer um algoritmo para a selecção de um sub-conjunto com máxima diversidade. 5ª Aula Conteúdos teóricos Representação de estruturas 3D. A estrutura tridimensional influencia decisivamente muitas propriedades das moléculas (por exemplo muitas propriedades biológicas). Os alunos são convidados a relembrar conteúdos de outras disciplinas, por exemplo estereoquímica e isomeria conformacional em Química Orgânica, ou interacções enzima-ligando em Bioquímica. Para muitos problemas em Químioinformática é necessário considerar modelos 3D de estruturas moleculares. A isomeria conformacional resulta fundamentalmente da rotação em torno de ligações rotáveis. Diferentes confórmeros têm diferentes energias e podem interconverter-se uns nos outros com facilidade variável. A representação mais habitual da estrutura 3D consiste num sistema de coordenadas cartesianas, ou seja, nas coordenadas x, y e z de cada átomo. Para uma mesma conformação existem infinitas coordenadas possíveis, dependendo da orientação da estrutura relativamente aos eixos de referência. Aqui pode apelar-se aos conhecimentos já adquiridos pelos alunos sobre o formato MDL Molfile – este permite listar as coordenadas 3D no bloco dos átomos da tabela de conectividade. Outra representação da estrutura 3D é a matriz Z, em que se especificam coordenadas internas (comprimentos de ligação, ângulos de ligação e ângulos diedros). É usada sobretudo por programas de mecânica quântica. O formato PDB (Protein Data Bank) foi pensado para o arquivo de estruturas tridimensionais de macromoléculas biológicas (principalmente proteínas, ácidos nucleicos e seus complexos). Começou por ser usado para estruturas cristalográficas e dados experimentais associados, mas tem sido alargado para acomodar outro tipo de resultados experimentais e teóricos relacionados com a estrutura 3D. Os ficheiros PDB incluem as coordenadas cartesianas dos átomos, estrutura primária e secundária de proteínas, informação bibliográfica, factores da estrutura cristalográfica e dados experimentais de RMN e raios X. Nesta aula demonstra-se a visualização da estrutura de uma proteína estudada em Bioquímica a partir de um ficheiro PDB. Geração de estruturas 3D a partir da conectividade. Podem ser geradas estruturas 3D a partir das conectividades das moléculas, usando métodos teóricos baseados na Mecânica Quântica. Estes podem recorrer a vários níveis de teoria dependendo das exigências e restrições computacionais. Existem também métodos empíricos muito apoiados em técnicas químio-informáticas para gerar modelos 3D muito rapidamente. Estes usam fragmentos com geometrias previamente definidas, regras acerca de ângulos e distâncias interatómicas, bases de dados de geometrias e optimizações simples. Nesta aula são demonstrados programas dos pacotes Marvin Beans e JChem, assim como o programa CORINA, que possuem aquela funcionalidade e que são usados nos exercícios práticos desta unidade curricular. - 22 - Representação de superfícies moleculares. A estrutura 3D é apenas o “esqueleto” da molécula, mas a molécula tem “pele” – a superfície molecular – que é determinante das interacções que se podem estabelecer entre moléculas. A superfície molecular é apresentada como dividindo o espaço 3D num volume interno e num volume externo. É enfatizado como esta definição é apenas uma analogia com objectos macroscópicos uma vez que as moléculas não podem ser tratadas simplesmente pelas leis da mecânica clássica. A densidade electrónica é contínua e existem probabilidades de encontrar electrões em qualquer ponto do espaço. Os alunos são chamados a recordar conceitos de orbitais moleculares estudados em outras disciplinas como Teoria da Ligação Química e Química Física. Há diversos modos de definir a superfície molecular. Os mais usados são a superfície de van der Waals (definida pelo envelope das esferas de van der Waals de todos os átomos), a superfície de Connolly (gerada simulando uma esfera a rolar sobre a superfície de van der Waals) e a superfície acessível a um solvente (definida pela trajectória do centro da esfera que gera a superfície de Connolly). Farmacóforo. Para introduzir o conceito de farmacóforo pode evocar-se o modelo chave-fechadura como uma aproximação à especificidade da interacção ligando-receptor. O farmacóforo pode ser comparado às características que uma chave deve ter para abrir uma determinada fechadura. É definido como um conjunto de características locais duma molécula, dispostas segundo uma geometria 3D definida e que é proposto como chave de reconhecimento num local do receptor e responsável pela actividade biológica da molécula. Exemplos de características definidas num farmacóforo são: átomo doador em ponte de H, átomo aceitador em ponte de H, ou fragmento hidrofóbico. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 2 (p. 92-121, 124-127). 2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007, Capítulo 2 (p. 27-35). 5ª Aula Exercícios práticos 5.1. Gere modelos 3D empíricos para as 10 estruturas do problema 3.1. usando o programa MarvinView (Menu “Edit” → “Clean” → “3D”). Grave-os em formato SDfile. Visualize-os com o programa MarvinSpace ou MarvinView. 5.2. Gere modelos 3D empíricos para as mesmas estruturas utilizando o serviço de demonstração do programa CORINA em http://www.molecular-networks.com/online_demos/corina_demo. Grave-os em formato PDB. Visualize-os com o programa MarvinSpace ou MarvinView. 5.3. Escolha uma das moléculas anteriores e visualize vários tipos de superfícies moleculares com o programa MarvinSpace (Menu “Show” → “Surface”). 5.4. Faça download do ficheiro s_canad.mol. Este contém a estrutura de (S)-canadina em formato MDL Molfile. 5.4.a. Gere a estrutura 3D. 5.4.b. Abra com um editor de texto o ficheiro que tem a estrutura 3D e altere o que for necessário para obter a (R)-canadina. - 23 - 5.4.c. Abra agora, com o programa MarvinSpace, os ficheiros antes e depois da alteração e confirme que procedeu correctamente. _______________________________________________ No final desta aula o aluno deverá Saber utilizar software para a geração rápida de modelos moleculares 3D e seu arquivo em formatos moleculares MDL Molfile e PDB. Conhecer as características gerais de algoritmos para gerar superfícies moleculares. Ter apreendido o conceito de farmacóforo e conhecer a sua utilidade no design de fármacos. 6ª Aula Conteúdos teóricos Representação de reacções químicas. O processamento de informação sobre reacções químicas é necessário para tarefas como o arquivo e pesquisa de informação em bases de dados, comparação e análise de conjuntos de reacções, definição da generalidade/limitações dum tipo de reacção, desenvolvimento de modelos de reactividade, previsão do resultado de reacções, análise de redes de reacções (como sínteses orgânicas, vias metabólicas ou vias de degradação de compostos na atmosfera) e desenvolvimento de métodos para o design de sínteses. Nesta unidade curricular são focadas as representações de reacções nos formatos SMILES e MDL RDfile. Representação de centros reaccionais e mapeamento átomo-a-átomo. Os alunos são inicialmente confrontados com o problema de identificar reacções num conjunto de reacções que sejam do mesmo tipo apesar de ocorrerem em reagentes com estruturas muito variadas. A caracterização de uma reacção é facilitada pela identificação do centro reaccional – conjunto de átomos e ligações covalentes que são alterados com a reacção. Uma ligação pertence ao centro reaccional se for estabelecida, quebrada ou tiver alterado a sua ordem. Um átomo pertence ao centro reaccional se estiver envolvido numa ligação do centro reaccional ou se for alterado na sua carga, número de electrões π, valência, ou ligações implícitas a átomos de hidrogénio. O formato MDL RDfile permite especificar os átomos e ligações do centro reaccional. Para além da identificação do centro reaccional é relevante o mapeamento átomo-a-átomo, isto é, a correspondência entre átomos dos reagentes e átomos dos produtos. O formato MDL RDfile também permite especificar o mapeamento átomo-a-átomo em reacções. O mapeamento átomo-a-átomo e a atribuição de centros reaccionais pode ser feita manualmente ou automaticamente com programas implementados para o efeito. Apesar dos progressos no desenvolvimento de algoritmos e programas para o mapeamento átomo-a-átomo, este permanece um problema de grande complexidade que requer com frequência conhecimentos sobre mecanismos reaccionais. A especificação de centros reaccionais permite identificar reacções idênticas com diferentes reagentes e permite caracterizar reacções através de propriedades físico-químicas dos centros reaccionais. Nesta aula é demonstrada a) a especificação do centro reaccional e o mapeamento átomo-a-átomo num ficheiro em formato MDL RDfile e b) a visualização dessa informação com o programa MarvinSketch. - 24 - Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 3 (p. 169-175). 2. CTfile Formats, http://www.mdli.com/downloads/public/ctfile/ctfile.jsp , Capítulos 7-8. 6ª Aula Exercícios práticos 6.1. Escreva, sem recurso a software, a representação SMILES da reacção de esterificação do cloreto de acetilo com etanol. Verifique agora com o programa MarvinSketch se está certa. 6.2. Converta a representação SMILES do problema anterior para o formato RDfile. 6.2.a. Abra o ficheiro rdf com um editor de texto e identifique as tabelas de conectividade dos reagentes e dos produtos. 6.2.b. Identifique, nas tabelas de conectividade dos reagentes, as ligações que se quebraram durante a reacção. 6.2.c. Identifique, nas tabelas de conectividade dos produtos, as ligações que se formaram durante a reacção. 6.2.d. Usando um editor de texto, marque no ficheiro rdf a informação que identificou nas alíneas c. e d. sobre as ligações envolvidas na reacção. Abra (com o programa MarvinSketch) o ficheiro rdf alterado e visualize graficamente a informação adicionada. 6.2.e. Abra o ficheiro rdf da alínea a. com o programa MarvinSketch e marque com a interface gráfica do programa as ligações envolvidas na reacção. Grave o ficheiro. Abra-o com um editor de texto e compare-o com o que obteve manualmente na alínea d. 6.3. Como deve alterar a representação SMILES do problema 6.1. para incluir trietilamina como catalisador da reacção? Confirme o novo SMILES com o programa MarvinSketch. 6.4. Experimente fazer o mapeamento átomo-a-átomo com o programa MarvinSketch para a reacção das questões anteriores (Menu “Structure” → “Reaction” → “Map atoms”). Verifique se o mapeamento corresponde ao que fez manualmente. Comente. _______________________________________________ No final desta aula o aluno deverá Saber interpretar e utilizar representações SMILES de reacções químicas. Saber interpretar ficheiros no formato MDL RDfile, incluindo a especificação do centro reaccional e mapeamento átomo-a-átomo. Reconhecer a utilidade da especificação do centro reaccional e mapeamento átomo-a-átomo. - 25 - 7ª Aula Conteúdos teóricos Descritores moleculares são representações matemáticas de uma molécula que resultam de uma transformação da informação estrutural disponível para a molécula. São tipicamente números que codificam características da estrutura molecular. Os alunos são convidados a apresentar descritores moleculares que já conheçam e saibam calcular (um exemplo é a massa molecular). Descritores moleculares são muito usados em relações quantitativas estrutura-actividade (QSAR). A construção de modelos QSAR assenta em técnicas de regressão (estatística ou de aprendizagem automática) que estabelecem relações entre as estruturas moleculares dum conjunto de treino, codificadas por descritores moleculares, e as respectivas propriedades a prever. Descritores constitucionais são propriedades globais da molécula como o peso molecular, número de átomos, número de ligações, número de ligações rotáveis, ou soma dos volumes atómicos de van der Waals. Descritores de fragmentos contam a ocorrência de grupos funcionais e sub-unidades estruturais previamente definidas. Os descritores topológicos consideram a estrutura molecular como um grafo (o grafo molecular). A aplicação de teoremas da teoria de grafos permite gerar invariantes de grafos que são usados como descritores da molécula. Um exemplo é o índice de Wiener, definido como a soma de todas as distâncias entre quaisquer dois átomos de carbono na molécula (distâncias em termos de ligações carbono-carbono). Pode ser calculado somando todos os elementos na matriz de distâncias e dividindo por 2. O índice de Wiener dá indicações sobre a ramificação, sendo uma aproximação muito simplificada à superfície de van der Waals. Outro exemplo de descritores topológicos são os vectores de autocorrelação 2D definidos por N N a(d ) = ∑∑ δ (d i , j − d ) p j pi i =1 j =1 1∀d i , j = d 0∀d i , j ≠ d δ = em que N é o número de átomos na molécula, di,j é a distância topológica entre os átomos i e j (número de ligações no percurso mais curto) e p é uma propriedade atómica para os átomos i e j (por exemplo cargas ou polarizabilidades). Os descritores 3D codificam aspectos da estrutura tridimensional de moléculas. Requerem assim modelos moleculares 3D que, em aplicações QSAR, são normalmente gerados por um método empírico. Um exemplo de descritor 3D é a função de distribuição radial (RDF) definida por N −1 g (r ) = ∑ N ∑p p e i − B ( r − rij ) 2 j i =1 j =i +1 em que N é o número de átomos na molécula, pi uma propriedade atómica para o átomo i (ex. carga), rij a distância 3D entre os átomos i e j e B um parâmetro ajustável. A representação gráfica de g(r) em função de r tem uma interpretação simples, em que cada par de átomos contribui para uma zona do gráfico centrada na sua distância interatómica, o valor da contribuição é proporcional ao produto das propriedades dos dois átomos e a largura da zona para a qual contribui relaciona com o valor de B. Têm sido propostos milhares de descritores moleculares que têm permitido o estabelecimento de relações entre estrutura e propriedades físicas, químicas e biológicas. Vários programas estão disponíveis para o cálculo de descritores moleculares. Nesta aula é demonstrada a utilização do programa Dragon (Talete SRL) através da interface web disponível no laboratório virtual VCCLAB (ww.vcclab.org, de acesso - 26 - gratuito). Este procedimento vai ser requerido para gerar descritores moleculares nos exercícios propostos. Nesta aula devem ser realçados os vários aspectos da estrutura molecular que são codificados pelos vários descritores apresentados. Por exemplo, a massa molecular dá informação sobre o tamanho da molécula, o índice de Wiener sobre a ramificação, vectores de autocorrelação 2D sobre o tipo de conectividade entre átomos, códigos RDF sobre a distribuição dos átomos com determinadas propriedades no espaço 3D. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 8 (p. 401-417). 7ª Aula Exercícios práticos 7.1. Faça download do ficheiro fathead.xls. Trata-se dum ficheiro MS Excel com 87 estruturas diferentes em formato SMILES e as respectivas toxicidades para o peixe Fathead Minnow em LC50 (quanto maior o valor de LC50 menor a toxicidade). 7.1.a. Extraia apenas as representações SMILES para um ficheiro de texto e grave-o. 7.1.b. Abra o web browser e ligue-se ao site http://www.vcclab.org. Escolha o serviço E-DRAGON que lhe permitirá calcular descritores moleculares. Faça upload do ficheiro com os SMILES, clicando em “upload data”. Escolha “smiles” no menu para selecção do formato do ficheiro de input. Seleccione descritores “constitutional descriptors” e “molecular properties”. Clique em “submit your task”. 7.1.c. Depois dos cálculos concluídos, no menu de topo com a indicação “Task Manager”, escolha “Results as text”. Clique em “inspect dragon log” para verificar se o cálculo correu sem problemas. Clique em “open results.txt in a browser”. Copie os resultados para a folha de cálculo onde tem as toxicidades, de forma a que existam tantas linhas quantos os compostos (debaixo da linha com os títulos) e tantas colunas quantos os descritores (mais as duas colunas com os SMILES e as toxicidades). 7.1.d. Verifique se há alguma relação entre a toxicidade e os seguintes descritores: MW (peso molecular), Mp (polarizabilidade média), RBF (número de ligações com rotação livre), nAB (número de ligações aromáticas), ALOGP (coeficiente de partição octanol/água). NOTA: Pode obter informação sobre todos os descritores calculados pelo DRAGON em http://michem.disat.unimib.it/chm/Help/edragon/index.html Dados extraídos de http://www.epa.gov/ncct/dsstox. 7.2. Para o mesmo conjunto de dados do problema 7.1., calcule agora descritores de grupos funcionais. Na interface VCCLAB escolha de novo “Data parameters” no menu de topo. Depois de submeter a tarefa e de aparecer a mensagem “Task … downloaded …”, altere a tarefa no menu por baixo do botão “Login”. Pode então inspeccionar os resultados mudando “Task Manager” para “Results as text”. Identifique as estruturas que têm: - 27 - 7.2.a. Grupo funcional éster alifático (descritor nRCOOR) 7.2.b. Grupo funcional éster aromático (descritor nArCOOR) 7.2.c. Grupo funcional ácido carboxílico alifático (descritor nRCOOH) 7.2.d. Grupo funcional álcool primário (descritor nOHp) 7.2.e. Grupo funcional álcool secundário (descritor nOHs) 7.3. Para o mesmo conjunto de dados do problema 7.1., calcule agora descritores RDF (Radial Distribution Function). _______________________________________________ No final desta aula o aluno deverá Compreender o que são descritores moleculares. Ser capaz de distinguir entre diferentes tipos de descritores moleculares, nomeadamente descritores constitucionais, descritores de fragmentos, descritores topológicos e descritores 3D. Conhecer a definição de alguns descritores representativos como o índice de Wiener, vectores de autocorrelação 2D e funções de distribuição radial 3D. Saber usar software para o cálculo de descritores moleculares. 8ª Aula Conteúdos teóricos Introdução às relações quantitativas estrutura-propriedade (QSPR) e estrutura-actividade (QSAR). Os alunos são primeiramente convidados a reflectir sobre como a fórmula de estrutura de uma molécula determina as propriedades observáveis que o composto vai exibir. Essa relação implica que as propriedades moleculares sejam função da estrutura. Apesar de assim ser, a construção de modelos que prevejam rigorosamente propriedades a partir da fórmula de estrutura é em geral um problema difícil. De forma empírica, a partir de conjuntos de dados experimentais, é possível aplicar técnicas estatísticas (como regressões lineares) ou métodos de aprendizagem automática (como redes neuronais, árvores de decisão ou support vector machines) para estabelecer relações entre estrutura química e propriedade molecular (QSPR), ou entre estrutura química e actividade biológica (QSAR). Para tal, as estruturas químicas são representadas por um número fixo de parâmetros – descritores moleculares. São apresentados os vários passos dum estudo de QSPR ou QSAR: a) definir os conjuntos de dados, b) seleccionar os descritores moleculares, c) treinar o modelo e d) avaliar o modelo. A partir dos dados disponíveis devem seleccionar-se 3 conjuntos disjuntos: um conjunto de treino para construir o modelo, um conjunto de validação para optimizar parâmetros do treino e um conjunto de previsão para testar o modelo final com objectos ainda não vistos pelo modelo. Os alunos são convidados a propor métodos para garantir que não existem compostos simultaneamente no conjunto de treino e de previsão. Aproveita-se a ocasião para relembrar representações canónicas, por exemplo através de SMILES ou InChI. A divisão do conjunto inicial pode ser feita de forma aleatória, pode basear-se na - 28 - distribuição da propriedade a prever ou na diversidade molecular. Uma análise de diversidade molecular do conjunto de dados permite seleccionar um conjunto de treino que cubra o melhor possível o universo das estruturas disponíveis. Também aqui deve ser relembrado o que foi estudado sobre diversidade molecular, alargando agora com a possibilidade de definir semelhanças entre moléculas a partir de descritores moleculares entretanto aprendidos. Muitos estudos têm sido dedicados ao problema da selecção de descritores. Se possível, os descritores a usar devem estar relacionados com a propriedade a prever, com base em conhecimentos sobre o problema. Por exemplo se sabemos que o ponto de fusão está relacionado com o tamanho e com a polaridade dos compostos, para modelar o ponto de fusão devemos incluir descritores que codifiquem o tamanho e a polaridade. Outros critérios para seleccionar descritores são a correlação entre descritores e a variância – dois descritores muito correlacionados são redundantes enquanto que descritores com baixa variância são pobres em informação. Por vezes também são usadas técnicas de análise multivariada como Análise de Componentes Principais (PCA) para transformar o conjunto de descritores num conjunto mais pequeno com maior densidade de informação. Como veremos em sessões seguintes, alguns algoritmos de aprendizagem automática têm procedimentos intrínsecos de selecção de descritores. Regressões multilineares exprimem a propriedade a prever (y) como uma combinação linear de descritores moleculares x1, x2, ... xn: y = a1 x1 + a2 x2 + a3 x3 + … + an xn + b O problema consiste em encontrar valores óptimos para os parâmetros a1, a2, ... an e b o que é feito minimizando a soma dos quadrados das distâncias dos pontos à recta definida pela equação num espaço com n dimensões. Os alunos são relembrados de outras ocasiões em que aplicaram regressões lineares, provavelmente com uma única variável, por exemplo em Bioquímica a propósito de cinética enzimática. É também feito apelo a conceitos possivelmente aprendidos em Estatística. É apresentado como exemplo de aplicação uma regressão multilinear para a previsão da constante de velocidade da reacção de um composto com o radical OH na atmosfera (Gramatica, P.; Pilutti, P.; Papa, E. Validated QSAR Prediction of OH Tropospheric Degradability: Splitting into Training-test Set and Consensus Modeling. J. Chem. Inf. Comput. Sci. 2004, 44, 1794-1802). Bibliografia seleccionada 1. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007, Capítulo 4 (p. 75-89). 8ª Aula Exercícios práticos Nesta sessão vai construir modelos que aprendem com dados experimentais para se tornarem capazes de prever uma propriedade a partir da estrutura molecular. 8.1. Faça download do ficheiro solub_tr.xls. Este contém 149 estruturas no formato SMILES e os respectivos valores de solubilidade em água (log S). 8.1.a. Abra o ficheiro numa folha de cálculo e copie os SMILES para um ficheiro de texto. 8.1.b. Calcule, para todas as estruturas, descritores topológicos, índices de informação, walk and path counts e índices de conectividade, através do programa E-DRAGON no web site vcclab.org, tal como no problema 7.1.b. - 29 - 8.1.c. Transfira para uma folha de cálculo os descritores calculados (cada linha corresponderá a um composto e cada coluna a um descritor). Acrescente uma coluna com os valores de log S para cada composto. 8.1.d. Construa uma regressão multilinear para log S em função dos seguintes descritores: MAXDP, piPC10, XMOD, X1sol, X4v, CIC1, MPC10, T(Cl..Cl), X5v, X1v. Qual foi o valor de R2 obtido? Que medidas de significância? Identifique a expressão analítica do modelo que calcula log S em função dos descritores. INSTRUÇÕES: OPÇÃO 1 (COM O MS EXCEL 11). Menu “Tools” → “Data Analysis” → “Regression” (se não existir “Data Analysis”, primeiro escolha “Add-ins” → “Data Analysis”). Em “Input Y-Range” seleccione as células com os valores de log S e em “Input X-Range” seleccione as células com os valores dos descritores. OPÇÃO 2 (COM O SERVIÇO WEB WESSA.NET). Abra o web browser em http://www.wessa.net/esteq.wasp, apague os dados que estão em “Data X” e copie para o mesmo espaço os valores dos descritores e de log S. Apague os dados que estão em “Names of X columns” e copie para o mesmo espaço os nomes dos descritores e “logS”. Clique em “Compute”. Verifique se os dados foram correctamente interpretados e em “Endogenous Series” escolha “logS”. Clique em “Estimate”. 8.1.e. Calcule os mesmos descritores para um conjunto independente de 20 estruturas no ficheiro solub_pr.xls (conjunto de previsão). Faça previsões para log S desses compostos (implemente na folha de cálculo a expressão analítica encontrada em 8.1.d.) e compare-os com os valores experimentais. Calcule o coeficiente de correlação entre os valores calculados e os valores experimentais. 8.1.f. Construa uma nova regressão multilinear, agora usando apenas os descritores Rww, X2, SPI, PJI2, Whetp, D/D, X0A, SRW09, IDET e ZM2V. Compare este modelo com o anterior. Aplique-o ao conjunto de previsão. O que conclui? Dados extraídos de http://www.vcclab.org/lab/alogps/ _______________________________________________ No final desta aula o aluno deverá Saber o que são relações quantitativas estrutura-propriedade e estrutura-actividade (QSPR e QSAR). Conhecer os vários passos para o estabelecimento de QSPR e QSAR. Saber utilizar regressões multilineares para QSPR/QSAR. 9ª Aula Conteúdos teóricos Árvores de decisão. A apresentação desta matéria pode iniciar-se evocando exemplos de árvores de decisão já encontradas mais ou menos explicitamente pelos alunos (como sistemas de classificação de isomeria, ou chaves dicotómicas em Biologia). Apresenta-se a possibilidade de um computador descobrir as regras para construir uma árvore a partir de conjuntos de objectos com características e classificação conhecidas. Uma árvore de decisão consiste numa hierarquia de regras baseadas em valores dos descritores para os objectos do conjunto de treino. Cada regra consiste num teste lógico normalmente definido com base num descritor. A árvore é construída recursivamente, cada regra dividindo o conjunto de dados dum nó em dois nós descendentes – objectos com valor abaixo dum determinado nível caem - 30 - num dos nós descendentes e objectos com valores acima caem no outro nó descendente. Aos nós terminais ficam associadas previsões sobre a propriedade em estudo, que são obtidas pela maioria dos objectos do conjunto de treino que atingem esse nó (no caso de árvore de classificação) ou pela média da propriedade a modelar dos objectos do conjunto de treino que caem nesse nó (no caso de árvore de regressão). Existem variações no algoritmo para a construção de árvores de decisão. É apresentado um algoritmo típico em que é construída uma árvore “inteira” sendo o conjunto de dados inicial sub-dividido ao longo dos vários ramos da árvore. Cada regra de divisão é avaliada por uma função de impureza que decresce quando a divisão permite que o conteúdo dos nós descendentes seja mais homogéneo que o do nó antes da divisão. A regra escolhida é a que permite um máximo decréscimo na função de impureza. A árvore cresce enquanto é possível diminuir a função de impureza mais do que um valor previamente definido. Ou então a árvore cresce até existirem apenas nós puros, ou com todos os objectos idênticos, sendo seguidamente podada de baixo para cima retirando algumas divisões com base numa medida de custocomplexidade. Finalmente, entre várias árvores possíveis, é escolhida a árvore que origina o mais baixo erro em validação cruzada. O método é ilustrado com uma aplicação para a previsão de mutagenicidade de hidrocarbonetos aromáticos policíclicos (Gramatica, P.; Papa, E.; Marrocchi, A.; Minuti, L.; Taticchi, A. QSAR Modelling of PAH Mutagenicity by Classification Methods based on Holistic Theoretical Molecular Descriptors. Ecotoxicology and Environmental Safety 2007, 66 (3), 353-361) e com uma aplicação para a previsão da capacidade para inibir a enzima CYP3A4 (Choi, I.; Kim, S. Y.; Kim, H.; Kang, N. S.; Bae, M. A.; Yo, S.E.; Jung, J.; No, K. T. Classification Models for CYP450 3A4 Inhibitors and Non-inhibitors. Eur. J. Med. Chem. 2009, 44(6), 2354-2360). Random Forests. Uma Random Forest (RF) consiste num conjunto (“ensemble”) de árvores de decisão construídas até à pureza dos nós terminais. Cada árvore é treinada com um sub-conjunto aleatório do conjunto de treino, e para a construção de cada nó apenas é disponibilizado um sub-conjunto aleatório dos descritores. A previsão para um objecto é obtida por voto das árvores do conjunto. As RF podem ser avaliadas através do erro “out of bag” (OOB) obtido da seguinte forma. Como cada árvore é construída com base num sub-conjunto do conjunto de treino, no fim do treino de cada árvore as previsões obtidas para os objectos que ficaram fora do sub-conjunto de treino para essa árvore são independentes dos dados usados para construir o modelo. A combinação dos erros associados a todas essas previsões de todas as árvores da RF dá origem ao erro OOB. O número de votos na classe vencedora permite associar uma probabilidade a cada previsão. São mencionadas outras vantagens de RF como sejam a elevada qualidade das previsões, determinação da importância relativa de cada descritor, cálculo de semelhança entre objectos com base no modelo construído, possibilidade de processar grandes conjuntos de dados com muitos descritores, e possibilidade de lidar com conjuntos de dados desproporcionados em termos de classes. O método é ilustrado com uma aplicação para prever a mutagenicidade usando um conjunto com mais de 4000 compostos (Zhang, Q.-Y.; Aires-de-Sousa, J. Random Forest Prediction of Mutagenicity from Empirical Physicochemical Descriptors. J. Chem. Inf. Model. 2007, 47(1), 1-8). Nesta unidade curricular é usado o software R (de código aberto) com a biblioteca RPART para árvores de decisão e com a biblioteca RandomForest para treinar e aplicar Random Forests. - 31 - Árvore de decisão treinada para prever a mutagenicidade de hidrocarbonetos aromáticos policíclicos. Os descritores seleccionados (Gs e R5m+) são descritores 3D do tipo WHIM e GETAWAY respectivamente. Bibliografia seleccionada 1. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007, Capítulo 3 (p. 153-156). 2. Breiman, L.; Cutler, A. Random Forests, http://stat-www.berkeley.edu/users/breiman/RandomForests/ 9ª Aula Exercícios práticos 9.1. A capacidade de um composto atingir o cérebro a partir da corrente sanguínea é um aspecto crucial do design de fármacos. Fármacos que se destinam ao sistema nervoso central devem atravessar a barreira hematoencefálica (Blood-Brain Barrier, BBB) enquanto que essa propriedade é indesejável em fármacos que têm outros órgãos-alvo. Neste exercício vai construir modelos com árvores de decisão e Random Forests para prever a capacidade de um composto atravessar a barreira hematoencefálica, a partir da sua fórmula estrutural. Faça download do ficheiro bbb_tr.xls. Este contém 148 estruturas no formato SMILES e as respectivas classificações quanto à capacidade de transporem a barreira hematoencefálica (positivo:p, negativo: n) Este é o conjunto de treino, isto é, o conjunto que vai usar para construir o modelo. 9.1.a. Calcule para todas as estruturas índices de conectividade, descritores geométricos e propriedades moleculares. 9.1.b. Faça download do ficheiro bbb_pr.xls. Este contém 62 estruturas no formato SMILES e as respectivas classificações quanto à capacidade de transporem a barreira hematoencefálica (BBB). Este é o conjunto de previsão, isto é, o conjunto que vai usar para avaliar a capacidade do modelo fazer previsões em situações novas. Calcule os mesmos descritores que para o conjunto de treino. 9.1.c. Utilizando o programa R construa uma árvore de decisão que preveja a propriedade biológica a partir dos descritores calculados para o conjunto de treino. Obtenha previsões para o conjunto de previsão. INSTRUÇÕES: Deve fazer download do ficheiro arvore.r (é o script para construir a árvore) e editálo para introduzir as alterações necessárias lá indicadas. Deve preparar os conjuntos de dados de modo a que a primeira linha tenha os rótulos dos descritores (os mesmos rótulos que aparecem no script arvore.r). Estão disponíveis no web site da unidade curricular exemplos de scripts, conjuntos de treino e previsão, prontos a testar. Os seus ficheiros podem ser preparados com um editor de texto copiando e colando os descritores moleculares de uma folha de cálculo de modo que as linhas correspondam a compostos e as colunas a descritores. Se tiver os ficheiros com os dados e o ficheiro arvore.r na - 32 - directoria /home/al0000 deve dirigir-se, na shell do Linux (ou na linha de comandos MS-DOS), a essa directoria e executar o seguinte comando: R rterm --no-restore --no-save <arvore.r>result.txt O ficheiro com os resultados (result.txt) será gravado na mesma directoria e o ficheiro postscript (.ps) com o diagrama da árvore ficará gravado na directoria que especificou no script arvore.r. Para visualizar o ficheiro .ps pode precisar de usar um serviço web para convertê-lo primeiro no formato pdf (por exemplo http://view.samurajdata.se/ ou http://www.ps2pdf.com/convert.htm ). 9.1.d. Avalie o modelo. Identifique os descritores mais relevantes e as regras estabelecidas. 9.1.e. Agora vai testar uma Random Forest para resolver o mesmo problema, em vez da árvore de decisão. Para isso deverá usar o script rf.r em vez do arvore.r. Faça download do ficheiro rf.r e edite-o com um editor de texto para efectuar as alterações necessárias, como indicado dentro do ficheiro. Pode usar os mesmos conjuntos de treino e de previsão que usou para a árvore. 9.1.f. Execute o script rf.r como para a árvore de decisão. 9.1.g. Avalie o modelo obtido. Identifique os descritores mais relevantes, a percentagem de erro OOB e calcule a percentagem de erro para o conjunto de previsão. Compare os resultados com os da árvore de decisão. Dados extraídos de http://www.cheminformatics.org. Ref: J. Chem. Inf. Model. 2005, 45(5), 13761384. _______________________________________________ No final desta aula o aluno deverá Conhecer os aspectos fundamentais do algoritmo e da estrutura de árvores de decisão. Compreender os aspectos fundamentais do algoritmo de Random Forests e as suas vantagens/desvantagens em relação a árvores de decisão. Saber usar o software R para aplicar árvores de decisão e Random Forests. 10ª Aula Revisões Esta aula tem por finalidade consolidar as competências práticas baseadas nos conteúdos apresentados até então. Deverá ser aproveitada para que os alunos possam acabar exercícios das aulas anteriores ainda não terminados, e sobretudo para esclarecerem dúvidas. São frequentes as dificuldades a editar e executar scripts do programa R, pelo que proponho esta aula precisamente nesta altura do semestre. É também uma boa ocasião para treinar as competências relacionadas com o cálculo de descritores moleculares que serão necessárias para os trabalhos a executar até ao final do semestre. Aos alunos mais adiantados podem ser propostos problemas de avaliação de anos anteriores que envolvam as matérias já ensinadas. - 33 - 11ª Aula Conteúdos teóricos Redes neuronais feed-forward ou de back-propagation. As redes neuronais são apresentadas como modelos inspirados no sistema nervoso humano que tentam tornar um computador capaz de aprender e de aplicar os conhecimentos. São apresentadas aplicações muito concretas que mostram as potencialidades das redes neuronais: condução automática de automóveis ou reconhecimento de caracteres após digitalização de documentos de texto. As redes neuronais respondem a um conjunto de estímulos (entradas ou input) com um resultado (saída ou output). Durante uma fase de treino, estes modelos “aprendem” a dar respostas certas aos estímulos recebidos, sendo usado para esse efeito um conjunto de dados com as respostas pretendidas para cada input. Uma vez correctamente treinadas, as redes são capazes de dar respostas (previsões) a estímulos novos, residindo aí uma das suas principais potencialidades. O modelo mais popular de redes neuronais artificiais é a arquitectura feed-forward, originalmente treinada com o algoritmo de back-propagation (BPG). Redes de BPG são geralmente implementadas com três camadas: uma camada de input que recebe os valores de entrada, uma camada escondida que processa valores intermediários, e uma camada de output que produz as respostas (saídas) para o exterior. Neurónio. Cada camada é constituída por unidades funcionais chamadas neurónios, que processam os valores numéricos recebidos. Cada neurónio de uma camada está ligado a todos os neurónios da camada adjacente. Um neurónio extra com um valor fixo de 1 é usado nas camadas de input e escondida. O valor resultante de um neurónio é transmitido ao neurónio seguinte multiplicado por um parâmetro chamado peso, específico para a ligação entre dois neurónios concretos. Os valores que chegam a um neurónio são somados e o resultado é transformado num valor de output por uma função de activação. Sinapse é uma ligação entre dois neurónios. Cada sinapse tem associada uma força sináptica (peso, em neurónios artificiais) que modula o sinal que é transmitido entre neurónios. Representação esquemática do treino de uma rede de backpropagation. - 34 - Treino da rede. A rede aprende por correcção dos pesos. No início do treino são atribuídos valores aleatórios aos pesos. Todos os pesos são corrigidos cada vez que um objecto do conjunto de treino é submetido à rede e o treino prossegue submetendo todos os objectos do conjunto de treino iterativamente até optimizar a capacidade da rede para fazer previsões. A capacidade da rede aplicar o conhecimento aprendido a situações novas é monitorizada por um conjunto de teste. Quando o erro obtido para esse conjunto de teste é mínimo o treino deve ser interrompido. Finalmente a rede deve ser validada com um conjunto independente de previsão não usado até esse momento. A utilização de redes neuronais feed-forward é ilustrada com uma aplicação descrita na literatura para a previsão de solubilidade a partir da estrutura molecular (Yan, A.; Gasteiger, J. Prediction of Aqueous Solubility of Organic Compounds Based on a 3D Structure Representation. J. Chem. Inf. Comput. Sci. 2003, 43(2), 429-434) e outra para a simulação de espectros de RMN (Binev, Y.; Aires-de-Sousa, J. Structure-Based Predictions of 1H NMR Chemical Shifts Using Feed-Forward Neural Networks. J. Chem. Inf. Comput. Sci. 2004, 44(3), 940-945). É demonstrado o software JATOON (J. Aires de Sousa, 2001) disponível em http://www.dq.fct.unl.pt/staff/jas/jatoon o qual é usado nesta unidade curricular para explorar redes neuronais. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 9 (p. 452-454, 462-464). 2. Gasteiger, J.; Zupan, J. Neural Networks in Chemistry. Angew. Chem., Int. Ed.Engl. 1993, 32, 503-527. 3. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH: Weinheim, 1999, Capítulos 2, 3, 8. 11ª Aula Exercícios práticos 11.1. Utilize os dados do problema 8.1.d para treinar uma rede neuronal back-propagation que preveja o valor de log S a partir de descritores moleculares. 11.1.a. Normalize os dados de modo a que os valores de log S fiquem transformados em valores na gama 0.1 – 0.9. Pode usar a seguinte fórmula para transformar cada valor x num novo valor norm: norm = 0.1 + (x-MIN)/(MAX-MIN)×0.8 onde MAX é o máximo valor do descritor e MIN é o mínimo valor do descritor. 11.1.b. Abra o endereço web do programa JATOON (http://www.dq.fct.unl.pt/staff/jas/jatoon) e escolha “JATOON-BPG”. 11.1.c. Seleccione 100 objectos e copie-os para o JATOON, para o espaço de texto do lado superior esquerdo. Este será o conjunto de treino. 11.1.d. Seleccione outros 50 objectos e copie-os também para o JATOON, mas desta vez para o espaço de texto do lado superior direito. Este será o conjunto de monitorização (ou de teste). 11.1.e. Na janela do JATOON escolha 10 neurónios de input, 3 neurónios escondidos e 1 neurónio de output. Escolha 1000 ciclos (epochs), momentum=0.5 e rate=0.5. Clique no botão “Train” para iniciar o treino. - 35 - 11.1.f. Determine ao fim de quantos ciclos o treino poderia ter sido terminado (quando o erro para o conjunto de teste for mínimo, ou tiver estabilizado). 11.1.g. Inspeccione o gráfico clicando uma vez com o botão esquerdo do rato sobre o gráfico e movendo-o sobre o gráfico. Anote o erro para o conjunto de teste e de treino ao fim dos ciclos determinados no passo anterior. 11.1.h. Repita os passos e-g usando os mesmos parâmetros ou variando o número de neurónios escondidos, número de ciclos (epochs), momentum e rate. (Agora vai treinar uma rede com os melhores parâmetros encontrados, durante o número de ciclos ideal, e depois vai obter previsões para um conjunto de dados ainda não usado.) 11.1.i. De entre as redes testadas em h, escolha aquela que permitiu obter o menor erro para o conjunto de teste, ao fim do número de ciclos determinado como óptimo. Treine agora uma rede com esses parâmetros mas apenas durante o número de ciclos (epochs) óptimo – figura seguinte. Painel do programa JATOON após treinada uma rede BPG. - 36 - (Agora vai usar a rede treinada, para fazer previsões de objectos novos.) 11.1.j. Faça agora previsões para um conjunto independente (o usado no problema 8.1.e). Para isso copie os descritores respectivos para o JATOON, para o espaço de texto do lado superior esquerdo. Limpe o campo do lado direito clicando em ‘C >’. Clique no botão “Predict”. No campo de texto do lado direito aparecem as previsões no formato inputs -> previsão. (Agora vai avaliar as previsões obtidas.) 11.1.l. Para avaliar as previsões use uma folha de cálculo. Compare os valores previstos com os valores experimentais. Para isso tem que converter os valores produzidos pela rede em valores não normalizados. Compare os resultados com os obtidos com regressão linear no problema 8.1.e. _______________________________________________ No final desta aula o aluno deverá Compreender o funcionamento de redes neuronais back-propagation. Ser capaz de utilizar o software JATOON para treinar e aplicar redes neuronais backpropagation a problemas simples. Ser capaz de equacionar um problema simples de modo a poder ser resolvido por uma rede neuronal. 12ª Aula Conteúdos teóricos Redes neuronais de Kohonen ou mapas auto-organizativos (SOM). Antes de iniciar a descrição detalhada deste tipo de redes é apresentada a sua funcionalidade principal de distribuir objectos num mapa de modo que objectos com características semelhantes ocupem zonas comuns do mapa. A informação fornecida como input a um SOM é organizada numa grelha bidimensional de neurónios, tendo cada neurónio tantos elementos (pesos) quantos os descritores utilizados (parâmetros de input). Antes do treino, os pesos são gerados de forma aleatória. Durante o treino, cada objecto do conjunto de treino é submetido à rede activando o neurónio com pesos mais parecidos com o vector de input (normalmente com base na distância euclidiana). Todos os neurónios competem pela activação – aprendizagem competitiva. Este é o neurónio vencedor (é a posição no mapa). Após encontrar o neurónio vencedor, os pesos são corrigidos de modo a tornarem-se ainda mais próximos do vector de input. Os neurónios vizinhos do neurónio vencedor são corrigidos, sendo a correcção maior para os neurónios mais próximos do neurónio vencedor. A rede é treinada submetendo todos os objectos dum conjunto de treino e aplicando correcções, repetidamente. Do treino dum SOM resulta que objectos semelhantes (em termos dos descritores usados) activam o mesmo neurónio ou neurónios vizinhos. Treino não-supervisionado. Durante o treino, sempre que um objecto do conjunto de treino é apresentado activa um neurónio vencedor e provoca correcções de pesos. Mas em nenhum destes passos é usada a informação sobre a pertença do objecto a uma determinada classe – treino não-supervisionado. No final do treino são mapeados todos os objectos do conjunto de treino e só então é usada a informação sobre a classe de cada objecto – para atribuir a cada neurónio a classe dos objectos que o activam. Aqui é enfatizada a diferença entre treino supervisionado (usado por exemplo em árvores de decisão e redes neuronais back-propagation) e treino não supervisionado usado em redes de Kohonen. Podem também referir-se semelhanças e diferenças entre SOM e Análise de Componentes Principais (PCA). - 37 - Normalização dos dados. Sendo usada a distância euclidiana para determinar o neurónio vencedor, é necessário normalizar cada descritor para que nenhum deles domine os outros pelo facto de variar numa gama diferente. É apresentada uma aplicação de redes neuronais de Kohonen para o design de antagonistas selectivos do receptor purinérgico A2A : Schneider, G.; Nettekoven, M. Ligand-Based Combinatorial Design of Selective Purinergic Receptor (A2A) Antagonists Using Self-Organizing Maps. J. Comb. Chem. 2003, 5(3), 233-237. É demonstrada a utilização do software JATOON (J. Aires de Sousa, 2001, disponível em http://www.dq.fct.unl.pt/staff/jas/jatoon ) para explorar redes neuronais de Kohonen. Representação esquemática de uma rede neuronal de Kohonen Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 9 (p. 455-459). 2. Gasteiger, J.; Zupan, J. Neural Networks in Chemistry. Angew. Chem., Int. Ed.Engl. 1993, 32, 503-527. 3. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH: Weinheim, 1999, Capítulo 6. 12ª Aula Exercícios práticos 12.1. Neste exercício vai construir redes neuronais de Kohonen (ou mapas auto-organizativos) que classificam automaticamente a estrutura molecular de esteróides de acordo com a sua actividade biológica. Faça download do ficheiro estd.sdf que contém as estruturas moleculares de 31 esteróides e o ficheiro estd_act.txt com as correspondentes actividades para o receptor CBG (Corticosteroid Binding Globulin). - 38 - 12.1.a. Calcule descritores RDF para todas as estruturas com o programa E-DRAGON através da interface web em vcclab.org, como descrito nas aulas anteriores (com a novidade de agora transferir um ficheiro SDfile em vez dum ficheiro com representações SMILES). 12.1.b. Copie os descritores RDF para uma folha de cálculo. Copie para a mesma folha de cálculo a classe de actividade dos compostos (2ª coluna do ficheiro estd_act.txt). Na folha de cálculo as linhas correspondem a compostos e as colunas a descritores. A última coluna tem a classe de actividade. 12.1.c. De forma a poder usar os dados com o programa JATOON, precisa de substituir os números correspondentes às classes de actividade por letras maiúsculas (1→A, 2→B, 3→C). 12.1.d. Vá a http://www.dq.fct.unl.pt/staff/jas/jatoon e escolha “JATOON-SOM” – este é o programa para redes neuronais de Kohonen. Copie o conjunto de dados dos esteróides (descritores e classe de actividade) para a área de texto no topo do painel do JATOON. Clique em “Train Kohonen NN”. 12.1.e. No final do treino clique em “Map objects” para inspeccionar em que neurónios foram mapeados os objectos pela rede treinada. Observe como os compostos se agruparam (ou não) de acordo com a classe de actividade. Pode adicionar um número ao rótulo da classe para identificar no mapa compostos individuais (por ex. A1, A2, …B1, B2, …). 12.1.f. Repita o treino usando outros parâmetros (tamanho da rede, velocidade inicial de treino, número de ciclos) para verificar o seu impacto nos resultados. 12.1.g. Agora repita o treino mas deixe alguns compostos fora (conjunto de previsão) – mais tarde vai verificar se o mapa é capaz de os classificar correctamente. 12.1.h. Depois do treino copie os objectos do conjunto de previsão para o painel do JATOON e clique em “Map objects”. Verifique se são correctamente mapeados de acordo com as suas actividades, isto é, objectos da classe “A” em neurónios encarnados, “B” em neurónios azuis, “C” em neurónios verdes. Discuta como este mapa poderia ser usado para fazer previsões para novos compostos. Origem dos dados: http://www2.chemie.uni-erlangen.de/services/steroids/. 12.2. Faça download do ficheiro metabol.xls. Este contém um conjunto de metabolitos representados em SMILES e uma classificação segundo a via metabólica em que participam (glicólise, metabolismo das pirimidinas, metabolismo do piruvato e metabolismo da fenilalanina/tirosina/triptofano). 12.2.a. Calcule descritores RDF para todas as estruturas usando o programa E-DRAGON como anteriormente. 12.2.b. Transfira os descritores para uma folha de cálculo e junte a coluna com a classificação. Transforme os rótulos das classes em letras A-D tal como requerido pelo programa JATOON. 12.2.c. Treine redes de Kohonen para classificar metabolitos segundo as vias metabólicas a partir de descritores RDF. Teste os vários tipos de descritores RDF separadamente e avalie qual tem maior capacidade para separar as classes. 12.2.d. Identifique e compare os compostos que correspondem a sobreposição de vias metabólicas. Pode obter detalhes sobre as vias metabólicas em www.genome.jp Dados extraídos da base de dados KEGG (http://www.genome.jp). _______________________________________________ - 39 - No final desta aula o aluno deverá Compreender o funcionamento de redes neuronais de Kohonen. Ser capaz de distinguir entre aprendizagem supervisionada e não-supervisionada. Ser capaz de utilizar o software JATOON para treinar e aplicar redes de Kohonen. Ser capaz de aplicar redes neuronais de Kohonen a problemas de Química. 13ª Aula Conteúdos teóricos Redes neuronais de counterpropagation. A aula começa por levantar a possibilidade de usar mapas auto-organizativos que produzam também um output numérico, ou seja, que possam ser usadas em problemas de modelação. As redes de counterpropagation têm esta possibilidade. A arquitectura destas redes consiste numa camada de Kohonen (camada de input) ligada a uma camada de output com o mesmo número de neurónios, organizados com a mesma topologia e alinhados com os neurónios da camada de input – esquema na página seguinte. A camada de input funciona como uma rede de Kohonen, cada neurónio com tantos pesos quantos os descritores. A camada de output permite ao mapa produzir respostas numéricas. Cada neurónio de output terá tantos pesos quantos os tipos de output pretendidos. Antes do treino, os pesos são gerados de forma aleatória. Durante o treino só os pesos da camada de input são usados para determinar o neurónio vencedor. Mas as correcções são aplicadas tanto na camada de input como na camada de output – o(s) peso(s) da camada de output correspondente(s) ao neurónio vencedor também é(são) corrigido(s) de modo a tornar(em)-se mais próximo(s) da(s) propriedade(s) associada(s) ao objecto submetido. A rede é treinada submetendo todos os objectos dum conjunto de treino, aplicando correcções, repetidamente. Após o treino, a rede está preparada para fazer previsões para objectos novos. Os descritores do novo objecto são submetidos à rede como input, o neurónio vencedor é encontrado, o neurónio de output correspondente é activado e o(s) seu(s) peso(s) é(são) usado(s) como previsão. A utilização de redes neuronais de counterpropagation é ilustrada com uma aplicação para prever a capacidade dum composto se ligar a receptores GPCR (G-Protein-Coupled Receptors) – Selzer, P.; Ertl, P. Identification and Classification of GPCR Ligands Using Self-Organizing Neural Networks. QSAR Comb. Sci. 2005, 24(2), 270-276; Selzer, P.; Ertl, P. Applications of Self-Organizing Neural Networks in Virtual Screening and Diversity Selection. J. Chem. Inf. Model. 2006, 46(6), 2319 -2323. Nesta unidade curricular são exploradas redes neuronais de counterpropagation com o software JATOON (J. Aires de Sousa, 2001) disponível em http://www.dq.fct.unl.pt/staff/jas/jatoon. - 40 - Representação esquemática do treino e aplicação de uma rede neuronal de counterpropagation com múltiplos outputs. Bibliografia seleccionada 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003, Capítulo 9 (p. 459-462). 2. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH: Weinheim, 1999, Capítulo 7. 13ª Aula Exercícios práticos 13.1. Faça download dos ficheiros flavo.sdf e flavo_act.dat. O primeiro contém 55 estruturas moleculares de flavonóides (incluindo as coordenadas 3D calculadas pelo programa CORINA) e o segundo contém os valores para as actividades biológicas correspondentes (valores de IC50 para a inibição de PTK – Protein Tyrosine Kinase). 13.1.a. Com o programa E-DRAGON (no site vcclab.org) calcule descritores de autocorrelação 2D, descritores RDF e descritores 3D-Morse para os flavonóides. 13.1.b. Escolha aleatoriamente 5 flavonóides e guarde-os como conjunto de previsão. 13.1.c. Com os restantes 50 flavonóides treine três redes de counterpropagation (com o programa JATOON) de tamanho 8×8, uma usando descritores de autocorrelação 2D, outra descritores RDF e - 41 - outra descritores 3D-Morse. Depois de treinadas as redes, obtenha previsões para o conjunto de treino. Qual das três redes aprendeu melhor os dados? 13.1.d. Usando a melhor das redes, obtenha previsões para os 5 flavonóides do conjunto de previsão e compare-as com os valores experimentais. Dados extraídos de http://www2.chemie.uni-erlangen.de/publications/ANN-book/datasets/. 13.2. Como poderia utilizar uma rede de counterpropagation para resolver o problema 12.2 (classificação de metabolitos)? Experimente a sua proposta e compare os resultados com os que obteve para o problema 12.2. 13.3. Como poderia utilizar uma rede de counterpropagation para resolver os problemas 11.1 e 8.1 (previsão de solubilidade em água)? Experimente a sua proposta e compare os resultados com os que obteve nas questões 11.1 e 8.1. _______________________________________________ No final desta aula o aluno deverá Compreender o funcionamento de redes neuronais de counterpropagation. Ser capaz de utilizar o software JATOON para treinar e aplicar redes de counterpropagation. Ser capaz de aplicar redes neuronais de counterpropagation a problemas de Química. 14ª Aula Conclusão de trabalhos práticos. Avaliação prática. Nesta aula os alunos poderão finalizar trabalhos atrasados e esclarecer dúvidas. Cada aluno será individualmente avaliado de forma breve quanto às competências práticas adquiridas, por exemplo demonstrando a resolução de um exercício proposto nos protocolos. O resultado desta avaliação será incluído na avaliação prática que tem peso de 30% na nota final. A possibilidade de realização desta avaliação prática complementar está condicionada ao número de alunos no turno, só sendo possível com menos de 15 alunos, ou então recorrendo à colaboração de outro(s) avaliador(es). - 42 - 3.3. Bibliografia Livros de suporte à unidade curricular: 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003. 2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007. Bibliografia complementar: 1. Handbook of Chemoinformatics: from Data to Knowledge, Gasteiger, J., Engel, T., Eds.; WileyVCH: Weinheim, 2003. 2. Bunin, B. A.; Bajorath, J.; Siesel, B.; Morales, G. Chemoinformatics: Theory, Practice, and Products; Springer: Dordrecht, 2007. 3. Encyclopedia of Computational Chemistry, von R. Schleyer, P, Allinger, N. L., Clark, T., Gasteiger, J., Kollman, P. A., Schaefer III, H. F., Schreiner, P. R., Eds.; John Wiley & Sons, Ltd.,1998. 4. Breiman, L.; Friedman, J. H.; Olshen, R. A.; Stone, C. J. Classification and Regression Trees; Chapman & Hall/CRC: Boca Raton, Florida, 1998. 5. Breiman, L.; Cutler, A. Random Forests, http://statwww.berkeley.edu/users/breiman/RandomForests/ 6. Zupan, J.; Gasteiger, J. Neural Networks in Chemistry and Drug Design, 2ª ed.; Wiley-VCH: Weinheim, 1999. 7. Gasteiger, J.; Zupan, J. Neural Networks in Chemistry, Angew. Chem., Int. Ed.Engl. 1993, 32, 503-527. 8. Brereton, R. G. Chemometrics: Data Analysis for the Laboratory and Chemical Plant; John Wiley & Sons, Ltd.: Chichester, 2003. 9. The IUPAC International Chemical Identifier (InChITM), http://www.iupac.org/inchi/ 10. CTfile Formats, http://www.mdli.com/downloads/public/ctfile/ctfile.jsp 11. SMILESTM : Simplified Molecular Input Line Entry System, Daylight Chemical Information Systems, Inc. http://www.daylight.com/smiles/ 12. Daylight Theory Manual, Daylight Version 4.9, Release Date 02/01/08, Daylight Chemical Information Systems, Inc. http://www.daylight.com/dayhtml/doc/theory/index.html Todos os endereços web foram acedidos em Março de 2010. - 43 - 4. Metodologia de Ensino e Avaliação 4.1. Planeamento Aula Duração Conteúdo 1 3h Introdução. Representação de estruturas moleculares. A notação SMILES. 2 3h O formato InChI. Estruturas de Markush. Grafos moleculares e matrizes. Tabelas de conectividade. Os formatos MDL Molfile e SDfile. 3 3h Chaves estruturais (structural keys), hashed fingerprints e hash codes. 4 3h Bases de dados de estruturas químicas e de reacções. Análise de similaridade. Selecção de conjuntos de moléculas com elevada diversidade. 5 3h Representação de estruturas 3D. Geração de estruturas 3D a partir da conectividade. Representação de superfícies moleculares. Farmacóforo. 6 3h Representação de reacções químicas. Representação de centros reaccionais e mapeamento átomo-a-átomo. 7 3h Descritores moleculares. 8 3h Introdução a QSPR e QSAR. Regressões multilineares. 9 3h Árvores de decisão e Random Forests. 10 3h Revisões 11 3h Redes neuronais feed-forward. 12 3h Redes neuronais de Kohonen. 13 3h Redes neuronais de counterpropagation. 14 3h Conclusão de trabalhos práticos. Avaliação prática. 4.2. Organização das Aulas e Metodologia A carga horária proposta para a unidade curricular é de 3 horas semanais, num semestre com 14 semanas. Propõe-se uma organização em aulas exclusivamente teórico-práticas (TP) de 3 horas, 1 vez por semana. Em cada sessão o tempo é em regra distribuído em 1 hora para a apresentação teórica dos conteúdos e 2 horas para a resolução de exercícios no computador. O número de alunos por turno deve adequar-se à capacidade do laboratório de computadores, para que não haja mais do que 2 alunos por computador. Opto pela organização dos tempos de aula em 3 TP, em vez de uma distribuição em 1 hora de aula teórica (T) e 2 horas de aula teórico-prática (TP) por semana, porque aquela permite maior flexibilidade na gestão do tempo usado para apresentações teóricas e para resolução de problemas. No caso de inadequação do laboratório de computadores à apresentação de conteúdos teóricos, ou por conveniência de horários, a proposta elaborada pode ser igualmente implementada no formato 1T + 2TP. A organização proposta dos tempos de aula implica normalmente que os alunos resolvam os exercícios práticos imediatamente a seguir aos conceitos teóricos correspondentes terem sido apresentados. Para a maioria dos alunos esta é uma maneira de reforçar a matéria aprendida nas apresentações. Outros alunos, porém, precisam de algum tempo de estudo antes de resolverem os problemas. Uma vez que as apresentações das aulas são disponibilizadas desde o início do semestre, esses alunos podem ter um primeiro contacto com os assuntos antes da aula, ou então usar algum tempo do período de aula teóricoprática para rever os slides apresentados. Como todos os recursos necessários para os exercícios práticos - 44 - (software e dados) podem ser instalados e usados fora da sala de aula, os alunos poderão sempre acabar de resolver exercícios fora do tempo de aula. As apresentações dos conteúdos são feitas em formato MS PowerPoint e inclui sempre que possível a demonstração do software necessário para resolver os exercícios práticos. As apresentações são intercaladas com exercícios de peer teaching em que os alunos se ensinam mutuamente. A estratégia a usar consiste em apresentar uma questão de escolha múltipla sobre a matéria acabada de apresentar e dar 2 minutos para que os alunos discutam livremente a questão. Ao fim desse tempo o docente pede para votarem na resposta certa, com braço no ar. Se não houver unanimidade, repete-se a discussão para que possam discutir de novo o problema, uns alunos tentando convencer os outros. Se não houver ainda unanimidade, acertando na resposta certa, o docente repete os conceitos necessários tentando perceber o que não foi claro anteriormente. A partir do web site da unidade curricular (http://www.dq.fct.unl.pt/staff/jas/agregacao) os alunos têm tudo o que precisam para resolver os exercícios práticos: protocolos, acesso a software e conjuntos de dados. Para que assim seja, foi escolhido apenas software com alguma das seguintes características: software de acesso livre a estudantes em mais do que uma plataforma (Marvin Beans e JChem da ChemAxon Ltd., OpenOffice.org da Sun Microsystems Inc., o programa de código aberto R, todos em versões Windows e Linux) applets de Java acessíveis com o web browser em qualquer plataforma (JATOON, por mim programado para ensinar redes neuronais) serviços web gratuitos (Wessa.net, VCCLAB.org e CORINA). Também os conjuntos de dados foram preparados a partir de dados acessíveis publicamente na Internet. O documento com os protocolos dos exercícios práticos, disponibilizado no web site da unidade curricular, inclui uma introdução (“Indicações Gerais para os Exercícios Práticos”) com indicações sobre o acesso ao software necessário e com apoio à aquisição de competências simples requeridas pelos exercícios (utilização básica de folhas de cálculo e da linha de comando MS-DOS em Windows ou da shell em Linux). Esta introdução está aqui incluída no Apêndice 1. Nas aulas em que aparecem pela primeira vez exercícios que requerem a implementação de fórmulas em folhas de cálculo, o início da resolução é demonstrada para todos, de modo a que os alunos menos familiarizados com folhas de cálculo possam acompanhar o ritmo da turma. Vários dos exercícios práticos são de tipo tutorial, em que o aluno é guiado para aprender a utilizar ferramentas novas (exercício 3.1 para gerar hashed fingerprints sem interface gráfica, 7.1 para gerar descritores moleculares com a interface VCCLAB, 9.1 para usar árvores de decisão / Random Forests com o programa R, 11.1 e 12.1 para usar redes neuronais com o programa JATOON). Noutros exercícios, o aluno pode ser ajudado por software no caso de não conseguir resolver alguma alínea, ou para confirmar as respostas encontradas (por ex. exercícios 1.1-1.5 envolvendo SMILES). Noutros casos ainda, para resolver o problema há que encontrar uma estratégia que não foi explicitamente apresentada na aula nem é indicada no protocolo (por ex. exercícios 2.3, 4.1 e 13.2). Na altura de resolver estas questões a discussão é aberta a todos os alunos, sendo pedidas ideias sobre a estratégia a seguir. - 45 - 4.3. Avaliação Propõem-se que a avaliação tenha uma componente prática e uma componente teórica, a primeira com peso de 30% e a segunda com peso de 70% na nota final. A aprovação é obtida com classificação maior ou igual a 9,5 valores. Para a avaliação prática, são distribuídos aos alunos no final de cada aula um ou mais exercícios seleccionados pelo docente. Os alunos deverão transmitir ao docente um sumário da resolução até à aula seguinte. Na última aula do semestre o docente avaliará a capacidade dos alunos para resolver um problema abrangente proposto nos protocolos, ou outro análogo. A avaliação teórica realiza-se pela apresentação dum seminário de 20 min em grupo (de dois elementos), seguida de 20 min de perguntas, dirigidas a cada um dos elementos, acerca do trabalho apresentado e de outros assuntos do programa da unidade curricular. Os trabalhos são atribuídos pelo docente a cada grupo, podendo cada grupo escolher o tipo de trabalho entre três possibilidades: apresentação e discussão de um artigo científico envolvendo tópicos da unidade curricular resolução de um problema demonstração de um software de Químio-informática Exemplos de seminários a atribuir: 1. Artigo: Interprete e apresente o artigo Boiani, M.; Cerecetto, H.; Gonzalez, M.; Gasteiger, J. Modeling Anti-Trypanosoma cruzi Activity of N-Oxide Containing Heterocycles. J. Chem. Inf. Model. 2008, 48(1), 213-219. 2. Problema: O ficheiro avaliacao_tr.xls tem estruturas em formato SMILES pertencentes a duas classes A e B. Construa um modelo que permita classificar os compostos a partir da estrutura molecular. Teste descritores moleculares constitucionais, índices de informação e códigos RDF. Com o melhor modelo classifique os nove compostos (T1-T9) no ficheiro avaliacao_te.xls. 3. Software: Demonstre o software OpenBabel (http://openbabel.org) com as suas várias funcionalidades. A avaliação teórica, que envolverá um júri constituído pelos docentes da unidade curricular (ou unidade curricular relacionada) nos 3 anos anteriores, obedecerá aos seguintes critérios: 1. Clareza da apresentação (15%) 2. Capacidade de argumentação durante a discussão do seminário (20%) 3. Competências e conhecimentos revelados no âmbito do assunto apresentado (35%) 4. Conhecimentos revelados acerca das matérias da unidade curricular não directamente relacionadas com o seminário (30%) - 46 - Apêndice 1: Indicações Gerais para os Exercícios Práticos O software necessário à realização destes trabalhos é de utilização gratuita para estudantes e está instalado nos computadores a usar nas aulas práticas, ou pode ser usado via serviços web. Todos os programas necessários podem ser obtidos a partir dos endereços indicados a seguir: Edição, visualização e processamento de estruturas moleculares e reacções: Marvin Beans e JChem: http://www.chemaxon.com As propostas dos protocolos estão baseadas na versão 5.2 destes programas. Análises estatísticas, árvores de decisão e Random Forests: R: http://cran.r-project.org Descritores moleculares: DRAGON: http://www.vcclab.org Geração de modelos 3D a partir de estruturas 2D: CORINA: http://www.molecular-networks.com/online_demos/corina_demo Redes neuronais: JATOON: http://www.dq.fct.unl.pt/staff/jas/jatoon Regressões multilineares: http://www.wessa.net Folha de cálculo: http://www.openoffice.org Pode obter breves definições dos descritores calculados pelo programa DRAGON em http://michem.disat.unimib.it/chm/Help/edragon/index.html Os conjuntos de dados necessários e ficheiros de exemplos podem ser obtidos a partir do site da unidade curricular em http://www.dq.fct.unl.pt/staff/jas/agregacao A realização destes trabalhos exige conhecimentos básicos de folhas de cálculo (importação e exportação de dados, ordenamento, definição de fórmulas). Exemplos de tutoriais para aquisição rápida destes conhecimentos são: http://www.usd.edu/trio/tut/excel/ http://phoenix.phys.clemson.edu/tutorials/excel/ http://www.learnopenoffice.org/calccontents.htm A realização destes trabalhos exige conhecimentos básicos de utilização de programas na janela de comandos MS-DOS do sistema operativo Windows (ou na shell de Linux). Pode obter rapidamente o essencial em http://www.bleepingcomputer.com/tutorials/tutorial76.html http://www.glue.umd.edu/~nsw/ench250/dostutor.htm - 47 - Apêndice 2: Ficha da Unidade Curricular (em 2010) Unidade curricular Químio-informática Curso Química Nível do curso Licenciatura Tipo de unidade curricular Obrigatória Ano do plano de estudos 3º Semestre 6º Número de créditos 5 ECTS Docente João Aires de Sousa Número de horas de aula por semana 3 (teórico-práticas) Objectivos Aprender as principais estratégias para a representação computacional de estruturas moleculares e reacções químicas. Aprender a representar aspectos específicos da estrutura molecular por descritores moleculares. Aprender os fundamentos da metodologia QSAR/QSPR e a sua implementação com regressões lineares, árvores de decisão e redes neuronais. Requisitos Conhecimentos básicos de química orgânica. Conhecimentos básicos de informática (trabalho no ambiente Windows ou Linux, utilização de folhas de cálculo, utilização de web browsers para acesso a informação na Internet). Programa Representação de estruturas moleculares: notações lineares, grafos moleculares, tabela de conectividade, chaves estruturais, hashed fingerprints e hash codes. Sistemas de bases de dados químicas. Análise de diversidade molecular. Representação de reacções químicas. Descritores moleculares. Métodos para previsão de propriedades (QSPR/QSAR): regressões lineares, árvores de decisão e redes neuronais. Bibliografia 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003. 2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007. Métodos de ensino Apresentação de conteúdos em formato de aula teórica com recurso a tecnologias multimédia, participação activa dos alunos e demonstração de software. Resolução de exercícios em laboratório de computadores equipados com o software necessário, com base em protocolos e conjuntos de dados acessíveis no web site da unidade curricular. Métodos de avaliação Avaliação da componente prática (peso de 30%) pela resolução de problemas distribuídos ao longo do semestre e por avaliação presencial em frente ao computador na última aula do semestre. Avaliação da componente teórica (peso de 70%) pela apresentação de um seminário e discussão. Aprovação com classificação maior ou igual a 9,5 valores. Língua de ensino Português. Se necessário, inglês. - 48 - Module Description Module title Chemoinformatics Degree program Chemistry Level / category B.Sc. (“Licenciatura”) Compulsory/elective/ optional Compulsory Semester of the program 6 ECTS credits 5 ECTS Module coordinator João Aires de Sousa Directed study time 1 theoretical-practical session of 3 hrs / week Intended learning outcomes To know the main approaches to the computer representation of molecular structures and chemical reactions. To know how to represent features of molecular structures by molecular descriptors. To know the fundamentals of QSAR/QSPR methodologies and its application with multilinear regressions, decision trees and neural networks. Prior knowledge required Basic knowledge of organic chemistry. Basic knowledge of computers (working with Windows or Linux operating systems, use of spreadsheets, use of web browsers for Internet access to information). Syllabus plan Representation of molecular structures: linear notations, molecular graphs, connectivity tables, structural keys, hashed fingerprints and hash codes. Chemical databases systems. Analysis of molecular diversity. Representation of chemical reactions. Molecular descriptors. Data analysis and property prediction (QSPR/QSAR): multilinear regressions, decision trees and neural networks. Recommended reading 1. Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003. 2. Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007. Teaching methods Lectures with multimedia technology, active participation of students, and software demonstrations. In-class resolution of computer exercises with lab computers equipped with the required software. Exercises are based on protocols and data sets available from the module’s web site. Assessment Assessment of selected practical work throughout the semester and assessment of practical skills with the computer in the last session of the semester (30% of final grade). Seminar at the end of the semester (70% of final grade). Grading scale: 0-20. Approval with grade ≥ 9,5. Course language Portuguese. English if required. - 49 -