Bioinformática Conceitos Fundamentais de Biologia Molecular Paulo Henrique Ribeiro Gabriel [email protected] Faculdade de Computação Universidade Federal de Uberlândia 24 de agosto de 2015 Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 1 / 45 Conteúdo 1 Bioinformática 2 Seres Vivos 3 Proteínas 4 Ácidos Nucleicos 5 Genética Molecular Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 2 / 45 Motivação Crescente aumento no volume de dados biológicos GenBank: Banco de dados de sequências biológicas http://www.ncbi.nlm.nih.gov/genbank/ 1.91 1 bases 1.8 × 108 sequências UniProt: Banco de dados de proteínas http://www.uniprot.org/ Mais de 50 milhões de moléculas proteicas Apenas 500 mil completamente analisadas Atualmente, a PubMed — base de dados de artigos biomédicos — possui mais de 25 milhões de artigos indexados http://www.ncbi.nlm.nih.gov/pubmed Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 3 / 45 Crescimento do GenBank Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 4 / 45 O que é Bioinformática Possível Definição Bioinformática é uma área interdisciplinar que lida com o estudo dos métodos para armazenar, recuperar e analisar informação biológica, como ácidos nucleicos, sequências proteicas, estrutura, função e interações genéticas e entre proteínas. Objetivos O principal objetivo da Bioinformática é a compreensão dos processos biológicos utilizando métodos computacionais sobre sequências. biológicas Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 5 / 45 Seres Vivos O que diferencia um ser vivo de algo inanimado? De um modo geral, seres vivos interagem ativamente com o ambiente Essa interação se dá devido a um complexo conjunto de reações químicas Nunca cessam Os produtos (saída) de uma reação podem ser reagentes (entrada) de outras Há uma constante troca de matéria com o ambiente Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 6 / 45 Seres Vivos Tantos seres vivos complexos (plantas, animais) quanto os mais simples (bactérias, vírus) têm um conjunto similar de moléculas químicas As principais moléculas são as proteínas e os ácidos nucleicos A Bilogia Molecular se dedica, basicamente, a compreender estruturas e funções dessas moléculas Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 7 / 45 Proteínas Definição: Proteínas são grandes biomoléculas (ou macromoléculas) compostas por uma ou mais cadeias de resíduos de aminoácidos. Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 8 / 45 Funções Proteicas Proteínas realizam uma grande variedade de funções nos organismos vivos, incluindo: Catálise de reações metabólicas Replicação de DNA Resposta a estímulos Transporte de moléculas Entre outras. . . Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 9 / 45 Aminoácidos Aminoácidos são moléculas orgânicas compostas por moléculas de carbono, oxigênio, hidrogênio e nitrogênio Cada aminoácido possui um átomo central de carbono, chamado carbono-α (Cα ) Esse átomo de carbono se liga a: Um grupo amino (NH2 ) Um grupo carboxila (COOH) Um átomo de hidrogênio (H) Um grupo R (radical ou cadeia lateral) que especifica o tipo do aminoácido Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 10 / 45 Estrutura de um Aminoácido Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 11 / 45 Exemplos de Aminoácidos Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 12 / 45 Aminoácidos Aminoácido Alanina Cisteína Ácido Aspártico Ácido Glutâmico Fenilalanina Glicina Histidina Isoleucina Lisina Leucina Metionina Asparagina Prolina Glutamina Arginina Serina Treonina Valina Triptofano Tirosina Paulo H. R. Gabriel (FACOM/UFU) Abreviação Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr Bioinformática Símbolo A C D E F G H I K L M N P Q R S T V W Y 24 de agosto de 2015 13 / 45 Aminoácidos A sequência de aminoácidos forma um encadeamento chamado cadeia principal Corresponde a uma ligação de carbono com nitrogênio A ligação N − Cα − C é chamada ligação peptídica Ao final dessa ligação, ocorre a eliminação de uma molécula de água H2 O Por essa razão, dizemos que as proteínas são formadas por resíduos de aminoácidos, uma vez que a estrutura desses foi alterada Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 14 / 45 Ligação Peptídica Amino acid (1) N-terminus Amino acid (2) C-terminus Peptide bond Water Dipeptide Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 15 / 45 Estruturas de Proteínas As proteínas podem se dobrar em uma estrutura tridimensional única A forma em que uma proteína se dobra é conhecida como estrutura nativa (ou conformação nativa) Existem 4 níveis de dobramento Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 16 / 45 Estruturas de Proteínas Estrutura primária: consiste na sequência de aminoácidos, sem dobramento (planar) Estrutura secundária: consiste em um dobramento “local”, em uma estrutura regular Os motivos mais comuns de estrutura secundária são a α-hélice, a folha-β pregueada e a volta Estrutura terciária: consiste em um dobramento “global”, ligando estruturas secundárias entre si Aceita-se que a estrutura terciária é única para cada proteína e é diretamente responsável pela sua função Estrutura quaternária: formada, usualmente, por aglomerados de proteínas Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 17 / 45 Dobramento Proteico Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 18 / 45 Exemplo de Proteína Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 19 / 45 Síntese de Proteínas Proteínas são responsáveis pela manutenção da vida Essas moléculas são produzidas por uma estrutura celular chamada ribossomo Nos ribossomos, os aminoácidos são combinados entre si, um por um A maneira como esses aminoácidos se ligam é determinada pelos ácidos nucleicos Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 20 / 45 Ácidos Nucleicos Definição Ácidos nucleicos são macromoléculas compostas por nucleotídeos. Correspondem às moléculas de ácido desoxirribonucleico (DNA) e de ácido ribonucleico (RNA) Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 21 / 45 Ácidos Nucleicos Cytosine Cytosine Nucleobases Guanine Guanine Base pair Adenine Adenine Uracil Thymine helix of sugar-phosphates Nucleobases of RNA Paulo H. R. Gabriel (FACOM/UFU) Nucleobases of DNA RNA DNA Ribonucleic acid Deoxyribonucleic acid Bioinformática 24 de agosto de 2015 22 / 45 Ácidos Nucleicos Ácidos nucleicos são responsáveis por codificar, transmitir e expressar informações genéticas Tais informações são necessárias para codificar proteínas Em outras palavras, ácidos nucleicos carregam instruções que codificam moléculas biológicas Diversas pesquisas têm sido desenvolvidas de modo a determinar as sequências de nucleotídeos de DNA e RNA Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 23 / 45 DNA O DNA possui como função a codificação de informações genéticas É composto por duas sequências de moléculas Cada molécula é uma bases nitrogenadas ou nucleotídeo Cada sequência corresponde a uma fita de DNA Existem 4 bases nitrogenadas: 1 2 3 4 Adenina (A) Citosina (C) Guanina (G) Timina (T) Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 24 / 45 DNA As duas fitas de DNA se ligam de modo a formar uma dupla hélice Assim, as bases nitrogenadas se ligam em pares A↔T C↔G Seres humanos possuem mais de 3 bilhões de pares de base Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 25 / 45 RNA Diferente do DNA, o RNA é composto por uma única fita Possui uracila (U) em sua composição, em vez de timina Diferente do DNA, o RNA possui diferentes funções nas células: Transmissão de informação Decodificação de informação Transporte de aminoácidos Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 26 / 45 Cromossomos e Genoma Cada célula viva possui um conjunto de moléculas de DNA Tais moléculas estão espiraladas, formando os cromossomos O conjunto de todos os cromossomos de uma célula é chamado genoma Cada espécie possui um número característico de cromossomos em seu genoma: Escherichia coli: 1 cromossomo; 4.6 milhões de pares de bases Drosophila melanogaster : 8 cromossomos; 139.5 milhões de pares de bases Homo sapiens: 46 cromossomos; 3234.83 milhões de pares de bases Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 27 / 45 Cromossomo Cell DNA Nucleus Chromosome Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 28 / 45 Cromossomo Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 29 / 45 Genoma Humano Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 30 / 45 Genoma Humano Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 31 / 45 Genes Em geral (mas não sempre) informações sobre codificação de uma proteínas são “armazenadas” em um fragmento contínuo do DNA Cada proteína corresponde a um, e somente um, fragmento de DNA Cada fragmento é chamado gene Observação: Na verdade, é o RNA o responsável pela síntese proteica. . . Assim, podemos dizer que cada gene contém informações necessárias para construir uma molécula de RNA específica para cada proteína. Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 32 / 45 Código Genético Para construir uma proteína, devemos ligar cada um de seus aminoácidos Para isso, o DNA utiliza triplas de nucleotídeos Cada tripla especifica um aminoácido Cada tripla é chamada códon A relação de cada códon e cada aminoácido que um organismo especifica é chamado código genético Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 33 / 45 Código Genético Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 34 / 45 Código Genético Observações: Existem 64 possíveis códons, porém apenas 20 aminoácidos Isso ocorre pois existe redundância no código genético Códigos de STOP servem para delimitar o fim de um gene O códon AUG além de codificar a metionina, também é responsável por definir o início de um gene Estudos recentes mapearam dois novos aminoácidos: selenocisteína (Sec ou U) e pyrrolysine (Pyl ou O) Novos estudos têm sido desenvolvidos de modo a mapear corretamente tais aminoácidos no código genético Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 35 / 45 Síntese de Proteínas Síntese de proteínas é o processo segundo o qual o código armazenado por uma molécula de DNA é traduzido em proteínas Ocorre, basicamente, em duas etapas: 1 2 Transcrição Tradução Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 36 / 45 Transcrição Na transcrição, uma molécula de DNA dá origem a uma molécula de RNA As duas fitas de DNA são separadas por meio de uma enzima chamada helicase Em seguida, outra enzima — RNA polimerase — lê uma das fitas e cria uma molécula de RNA, utilizando a seguinte correspondência: A C G T → → → → U G C A Essa molécula de RNA é chamada de RNA mensageiro (mRNA) Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 37 / 45 Tradução Após a transcrição, o mRNA migra para o citoplasma (caso a célula tenha núcleo) Em seguida, o mRNA é liga a um ribossomo e é utilizado como um “template” para construção de uma sequência de aminoácidos Ribossomos são organelas compostas por proteínas e um outro tipo de RNA, chamado RNA ribossômico (rRNA) O RNA transportador (tRNA) — presente no citoplasma — liga-se a um aminoácido (de acordo com o código genético) e o transporta até o ribossomo Finalmente, dentro do ribossomo, os aminoácidos são ligados entre si, seguindo a sequência especificada pelo código genético Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 38 / 45 Síntese de Proteínas Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 39 / 45 Síntese de Proteínas Assista ao seguinte vídeo: http://youtu.be/2zAGAmTkZNY Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 40 / 45 Em Resumo GTGCATCTGACTCCTGAGGAGAAG CACGTAGACTGAGGACTCCTCTTC DNA (transcription) GUGCAUCUGACUCCUGAGGAGAAG RNA (translation) V H L Paulo H. R. Gabriel (FACOM/UFU) T P E E Bioinformática K protein 24 de agosto de 2015 41 / 45 Dogma Central Todo esse processo (replicação de DNA, produção de RNA, síntese de proteínas) é conhecido como dogma central da biologia molecular Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 42 / 45 Dogma Central Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 43 / 45 Síntese de Proteínas Observação Em organismos eucariontes, determinadas sequências de DNA são transcritas no mRNA mas, em seguida, são removidas Essas sequências são denominadas íntrons e fazem parte do chamado DNA não-codificante As sequências que são mantidas no mRNA são chamadas de éxons pre-mRNA 5′ UTR Exon Intron Exon Intron Exon 3′ UTR mRNA Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 44 / 45 Leitura Recomendada Setubal & Meidanis. Introduction to Computational Molecular Biology, Capítulos 1 e 2, 1997. Hunter. Molecular Biology for Computer Scientists. Link no site. Hunter. Life and Its Molecules: A Brief Introduction. Link no site. Paulo H. R. Gabriel (FACOM/UFU) Bioinformática 24 de agosto de 2015 45 / 45