Introdução a bioinformática e a biologia computacional Universidade Federal de Juiz de Fora Instituto de Ciências Exatas Departamento de Ciência da Computação Itamar Leite de Oliveira O QUE É BIOINFORMÁTICA? Bioinformática é uma das áreas de pesquisa que mais cresce em Ciência da Computação. Ela surgiu a partir de um boom no processo de seqüenciamento de DNA, que gerou um enorme volume de dados que agora precisam ser analisados para gerar informações úteis. Características principais da Bioinformática Interdisciplinaridade - Área associada a: - Biologia - Química - Bio-física - Estatística - Matemática - Computação Cooperação - Open source / open code Áreas da computação em que se pode atuar na BIOINFORMÁTICA - Bancos de Dados - Data Mining - Redes Neurais - Aprendizagem de Máquina - Processos Estocásticos - Algoritmos e Combinatória - Visualização / Realidade Virtual Estrutura do DNA DNA Dógma Central da Biologia Molecular Gene (DNA) mRNA Proteína Século 21 Genoma Transcriptoma Proteoma Estrutura 3-D do DNA Tipos RNAs Transcrição do DNA • A síntese dos diferentes tipos de RNA, a partir de um molde de DNA, usando as regras da complementaridade, é um processo denominado Transcrição do DNA – A informação genética contida num segmento do DNA, é reescrita em uma fita simples de RNA – Esta fita apresenta uma seqüência de ribonucleotídios complementar a uma das fitas da dupla hélice de DNA (fita molde) e idêntica àidêntica à seqüência da outra fita (fita codificadora), com substituição de T por U A Unidade de Transcrição Diz-se que as seqüências que antecedem o ponto de início localizam-se à montante (upstream) e as que o sucedem localizam-se à jusante (downstream) A posição das bases é numerada nos dois sentidos, a partir do ponto de início, ao qual se atribui o valor +1. Os valores aumentam (valor positivo) à jusante e diminuem (valor negativo) à montante Processamento Pós-Transcricional Sítios de splicing DNA doador receptor exon intron Transcrição Splicing mRNA Expressão Gênica – Transcrição DNA RNA Polimerase TGCAGCTCCGGACTC CAT...T promotor Transcrição A mRNA Expressão Gênica – Transcrição DNA RNA Polimerase TGCAGCTCCGGACTC CAT... promotor Transcrição mRNA AC G UC G A G G C C U G A G G U A . . . Código Genético • Código Genético mapeamento dos códons nos aminoácidos – 64 códons – 20 aminoácidos aminoácidos mapeados por mais de um códon Degeneração do código genético – 3 códons de parada Código Genético T C A G T Phe Phe Leu Leu Ser Ser Ser Ser Tyr Tyr Parada Parada Cys Cys Parada Trp T C A G C Leu Leu Leu Leu Pro Pro Pro Pro His His Gln Gln Arg Arg Arg Arg T C A G A Ile Ile Ile Met Thr Thr Thr Thr Asn Asn Lys Lys Ser Ser Arg Arg T C A G G Val Val Val Val Ala Ala Ala Ala Asp Asp Glu Glu Gly Gly Gly Gly T C A G 3a base no códon 1a base no códon 2a base no códon Expressão Gênica – Tradução DNA RNA Polimerase TGCAGCTCCGGACTC CAT... promotor Transcrição Ribossomo mRNA ACG GUCGAGGCCUGAGGUA... códon Tradução His Expressão Gênica – Tradução DNA RNA Polimerase TGCAGCTCCGGACTC CAT... promotor Transcrição mRNA ACGUCGAGGCCUGAGGUA... Tradução Ser Cis His Ser Gli Leu Ribossomo Tamanho de Genomas Organismo Genoma Data Genes Est. H.influenzae 1.8 Mb 1995 1.740 S.cerevisiae 12.1 Mb 1996 6.034 C.elegans 97 Mb 1998 19.099 A.thaliana 100 Mb 2000 25.000 D.melanogaster 180 Mb 2000 13.061 H.sapiens 2003 25.000 3000 Mb Genoma Conjunto de genes de um organismo Transcriptoma • Coleção completa de todos os possíveis mRNAs de um organismo. • Regiões de um genoma de um organismo que são transcritas em RNA mensageiro. Proteoma • A coleção completa de proteínas que podem ser produzidas por um organismo. • Podem ser estudadas estaticamente (soma de todas as proteínas possíveis) ou dinamicamente (todas proteínas encontradas num determinado momento) Do DNA ao Genoma Watson e Crick modelo do DNA primeira sequencia de proteína 1955 1960 Primeira estrutura de uma proteína 1965 1970 1975 1980 1985 1990 Primeiro genoma bacterial 1995 Hemophilus Influenzae Genoma da levedura 2000 Primeiro rascunho do genoma humano O Projeto Genoma Humano Iniciado em 1986 Terminado em 2003 Objetivos eram: • Identificar todos os genes no DNA humano, • Determinar as 3 bilhões de sequencias de pares de bases que formam o DNA humano • Melhorar as ferramentas de análise de dados e desenvolver novas A era “pós-genômica” Anotação Genômica Comparativa Genômica estrutural Genômica funcional Objetivo: compreender as redes funcionais de um célula viva Open reading frames Anotação Sítios Funcionais Estrutura, funções CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATG CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA TAT GGA CAA TTG GTT TCT TCT CTG AAT ...... .............. TGAAAAACGTA Sítio de ligação TF CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATG CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA TAT GGA CAA TTG GTT TCT TCT CTG AAT ................................. .............. TGAAAAACGTA Transcription Start Site promotor ORF=Open Reading Frame Ribosome binding Site CDS=Coding Sequence Comparação do genoma inteiro Conclusões sobre as redes reguladoras Genômica Comparativa Perfis, considerando o todo o genoma, dos: • Níveis de mRNA • Níveis de proteínas Genômica Funcional Co-expressão de genes e/ou proteínas Compreensão das funções dos genes e outras partes do genoma Perfis, considerando o todo o genoma, de: • Níveis de mRNA • Níveis de proteínas Genômica Funcional Co-expressão de genes e/ou proteínas Identificação de iterações proteína-proteína Redes de interações Uma rede de iterações pode ser construída para todas as proteínas num organismo A large network of 8184 interactions among 4140 S. Cerevisiae proteins Genômica Estrutural Descobrir a estrutura de todas as proteínas codificadas num genoma Estrutura de Proteína Bioinformática no DCC FIOCRUZ - BH • Núcleo de Bioinformática (NuBio) – ICE – – – – – – – Helio F. Dos Santos (D. Química) Carlos Cristiano (DCC) Itamar L. Oliveira (DCC) Ilaim C. Jr (DCC) Kelle Bellozzi (DCC) Wagner Arbex (EMPRABA GL) Lobosco (DCC) • Financiado pela FAPEMIG Reações Bioquímicas Rede metabólica Enzimas (proteínas) Enzimas Lei de ação de das massas • A velocidade de uma reação química é proporcional a probabilidade de colisões das moléculas S1 + S2 2P A velocidade da reação: dP/dt = v = v+ - v- = k+S1S2 – k-P2 k+ e k-: constantes da reação (fator de proporcionalidade) Cinética de Reações Enzimáticas Cinética de Reações Enzimáticas Cinética de Reações Enzimáticas Cinética de Reações Enzimáticas Cinética de Reações Enzimáticas Cinética de Reações Enzimáticas Cinética de Reações Enzimáticas Equação de Michaelis-Menten: Vmáx k3 [ ET ] Influência do Substrato [E] = cte [S] = V0 linear [S] = V0 V0 = Vmáx Gráfico substrato e produto Parâmetros Cinéticos Parâmetros Cinéticos Lineweaver-Burk Equação Michaelis-Menten Curva: possui a mesma forma para a maioria das enzimas; Expressa pela Equação de Michaelis e Menten; Hipótese: limitante: quebra de ES E + P. Inibidores Competitivos Forma estrutural = substrato competição; Porcentual de inibição concentrações e afinidade pela enzima. Inibidores Competitivos Equação de Michaelis e Menten V Vmáx Km S 1 I S K I Lineweaver-Burk K 1 I 1 1 V Vmáx m K I Vmáx 1 S Inibidores Não-Competitivos Ocupa outro sítio ES, EI e EIS; [S] = não leva todas as E produtiva; Vmáx e Km normal. Inibidores Não-Competitivos Equação da velocidade: V Vmáx S I S 1 I K m 1 K I KI Lineweaver-Burk 1 Km V Vmáx I 1 1 1 K I S Vmáx I 1 KI Biologia Computacional Matriz Estequiométrica Elementos básicos: • compostos ou espécies bioquímicas • concentrações dos compostos • reações ou processos de transporte Matriz Estequiométrica Matriz estequiométrica total v S: xi bl Matriz estequiométrica dos metabólitos internos 0 0 N: xi v k 0 0 v j j v k Parte superior da glicólise da Saccharomyces cerevisiae ADP ADP ATP Glic-6-P v6 ATP ATP v3 v7 v1:Glicose + ATP v2:Glic-6-P + ATP v3:Glic-6-P v4:Fruc-6-P + ATP v5:Fruc-1,6-P2 v6:ADP v7:ATP v8:ATP + AMP_i Fruc-6-P ADP 7 metabólitos ADP ATP ATP v1 Glicose ADP v2 v4 ATP + AMP v5 8 reações Fruc-1,6-P2 v8 2ADP -> ADP + Glic-6-P -> ADP <-> Fruc-6-P -> Fruc-1,6-P2 + ADP -> null -> ATP -> ADP <-> 2ADP -1 -1 1 1 0 0 0 0 -1 1 -1 0 0 0 0 0 0 -1 1 0 0 0 0 0 -1 0 1 1 0 -1 0 0 0 -1 0 0 1 -1 0 0 0 0 0 0 -1 -1 1 2 0 0 0 0 0 0 0 -1 Simulação Dinâmica Balanço para os metabólitos internos: n dxi ij v j dt j 1 Matricial dx Nv dt • ij é o coeficiente estequiométrico do metabólito interno i na reação j • velocidade da reação: v j f x, p Simulação Dinâmica Simulação 5 4.5 4 ATP ADP 3.5 Gluc-6-P 3 mM Fruc-6-P Fruc-1,6-P2 AMPi 2.5 2 1.5 1 0.5 0 0 0.05 0.1 0.15 0.2 0.25 time (min) 0.3 0.35 0.4 0.45 0.5 Análise de Fluxo Metabólico (AFM) Determina os fluxos desconhecidos (internos) dados alguns fluxos conhecidos (medidos). Particionando a equação abaixo segundo esta classificação (conhecidosdesconhecidos) Nv 0 obtém-se N x v x N v 0 c c rearranjando N x v x N c v c Análise de Fluxo Metabólico (AFM) Solução: vx Nx Nc vc Repetindo a eq. da AFM: # N x v x N c v c Resíduo: r Nx v x Nc vc determinado (solução única): r 0 sobredeterminado (solução única): r é mínima indeterminado (várias soluções): r 0 com vx mínima Análise de Balanço de Fluxo (ABF) Restrições de balanço Nv 0 n Z j v j Restrições de capacidade j 1 vmin, j v j vmax, j Restrições Termodinâmicas Reações irreversíveis: Reações reversíveis: vmin 0 vmax e vmin e vmax Análise de Balanço de Fluxo (ABF) ADP v1 Glicose LactatoExt v18 2ATP 2ADP NAD+ NADH Lactato v2 (2) GDH-3-P v3 v7 CoA NADH AcetatoExt Acetato v9 CoA v11 NADH v5 CoA v20 ButiratoExt Acetil-CoA ATP ADP 11 internos 14 externos 2NAD+ Etanol v10 (2) CoA CoA 29,7ATP 2Glicose v13 Butyril-CoA v16 3Biomassa 1,75NADH CoA 2NAD+ v14 Butirato 25 metabólitos FdRed 2NADH v12 H2 NAD+ 2NADH v8 v6 AcAcetil-CoA Acetona 20 reações FdOx ADP ATP Rede metabólica da C. acetobutylicum Glicerol NAD+ PIR v4 v19 ATP v15 2NADH ATP Butanol 2NAD+ v17 ADP Análise de Balanço de Fluxo (ABF) Maximizar H2 maxZ H2 min v2 = 0 max v1 = 8.72 v2 = 0 8,72 v1 = 8.72 v2 = 0 v3 = 17.44 v4 = 17.44 v5 = 17.44 v6 = 34.88 v7 = 0 v8 = 8.72 v9 = 0 v10 = 0 v11 = 0 v12 = 8.72 v13 = 0 v14 = 8.72 v15 = 0 v16 = 0 v17 = 26.16 v18 = 0 v19 = 0 v20 = 0 0 17,44 0 0 17,44 17,44 0 34,88 0 0 0 8,72 0 7,72 0 26,16 0 8,72 0 Biologia Computacional no DCC • Projetos de Pesquisa: Ferramentas Computacionais Aplicadas a Modelos Complexos da Fisiologia de Células Cardíacas – – – – – – Carlos Cristiano Itamar L. Oliveira Marcelo Lobosco Rodrigo Weber Ciro Barbosa Ana Paula C. Silva • Financiado pela FAPEMIG • Outros 2 submetidos ao CNpQ