Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000 Bioinformática e o Projeto GENOMA EST da CANA Introdução elementar à Bioinformática • Biologia 1.01 • Como o genoma é estudado • O Projeto Genoma Humano Projeto GENOMA EST da Cana de Açúcar • Objetivos, Parceiros, Estado Atual • Oportunidades dentro do Projeto O que é Bioinformática? Bioinformática é uma nova disciplina, que serve de ponte entre a Biologia e a Computação. Principal característica: Interdisciplinaridade Origem: • Explosão de informações biológicas (ORGANIZAÇÃO) • Perguntas mais complexas (ANÁLISE DE DADOS) A Explosão das Informações O crescimento dos bancos de dados tem-se dado de forma exponencial (em março/1999, o banco de nucleotídios EMBL continha 2.3 bilhões de bases). Fenômeno similar à INTERNET: • Como recuperar informação útil ? Biologia 1.01 A química da vida é realizada por moléculas chamadas proteínas e ácidos nucléicos. De forma simplística, podemos dizer que: • As proteínas são responsáveis por “o quê”” um ser vivente é e faz, enquanto • Os ácidos nucléicos contêm a informação necessária para produzir proteínas, passando esta receita para as gerações subseqüentes. Biologia 1.01 Proteínas As proteínas são cadeias de moléculas mais simples, chamadas aminoácidos (ou resíduos). Há 20 aminoácidos mais comuns na natureza. Proteínas típicas contêm 300 aminoácidos, mas existem proteínas com 100 ou com 5.000. Biologia 1.01 - Proteínas Uma proteína não é uma seqüência linear de aminoácidos (chamada estrutura primária). Ela se dobra em três dimensões, e a sua forma está relacionada com a sua função. Biologia 1.01 - Ácidos Nucléicos Há dois tipos de ácidos nucléicos : DNA e RNA. O DNA (ácido desoxirribonucléico) contém codificadas informações suficientes para construir cada proteína . O DNA também é uma cadeia (embora dupla) de moléculas mais simples. Biologia 1.01 - O DNA Uma cadeia simples (strand) é constituída por um “backbone” formado por uma repetições de uma molécula de açúcar. Esta molécula de açúcar, por sua vez, contém cinco átomos de carbono (orientação). Ligada a Carbono’1 do backbone estão outras moléculas, chamadas bases. Biologia 1.01 - O DNA Ligada a Carbono’1 do backbone estão outras moléculas, chamadas bases. Ver uma parte do backbone Biologia 1.01 - O DNA Há quatro tipos de bases: adenina (A), guanina(G), citosina (C) e timina (T). A unidade básica de uma molécula de DNA formada por um açúcar, um fosfato e sua base é chamada um nucleotídeo. Uma molécula de DNA contém 200 bases = uma molécula de DNA contém 200 nucleotídeos. Biologia 1.01 - O DNA As bases formam pares ao longo do strand (A -- T, e C --G). Esses pares de bases constituem a unidade de comprimento mais usada para as moléculas de DNA -- bp. Em Biologia Computacional, o DNA é considerado uma cadeia de caracteres, onde cada letra representa uma base. Biologia 1.01 - O DNA Alguns trechos contíguos do DNA contêm informação útil para construção de proteínas, enquanto outros trechos não. Para cada tipo diferente de proteína em um organismo normalmente corresponde um e somente um desses trechos ao longo do DNA, Um trecho desses é conhecido como gene. Biologia 1.01 - Cromossomos Cada célula de um organismo contém algumas moléculas muito longas de DNA. Cada uma dessas moléculas é chamada um cromossomo. Genes são regiões contíguas dos cromossomos, mas elas não cobrem toda a molécula. As regiões entre genes são chamadas “junk DNA”. Biologia 1.01 - Cromossomos O conjunto de cromossomos em uma célula é chamado um genoma. O número de cromossomos em um genoma é característico de uma espécie. Toda célula humana tem 46 cromossomos. Biologia 1.01 - Cromossomos O cromomossomo humano tem cerca de 10**8 pares de bases (bp). O mais longo pedaço de DNA que se pode seqüenciar em um laboratório tem 700 bp. Esta é a motivação dos problemas em áreas como fragment assembly e physical mapping. Biologia 1.01 - Cromossomos Em uma analogia comum (veja JC 27/fev), se • O genoma humano fosse um livro, • os cromossomos seriam os capítulos, • os genes seriam as frases e • as seqüências de DNA seriam as sílabas. Parte do trabalho está em decifrar os genes. Biologia 1.01 - Genes O gene varia de tamanho. No caso dos seres humanos, um gene pode ter algo como 10.000 pares de bases. Certos mecanismos das células são capazes de reconhecer no DNA os pontos precisos onde um gene começa e onde ele termina. ESTs (Expressed Sequence Tags ) são trechos de DNA (aprox. 200 bp) ajudam a identificar genes e sua localização no genoma. Como o Genoma é Estudado Informação básica que queremos obter de qualquer trecho do DNA = seqüência de pares de bases Processo para obter a seqüência = seqüenciamento Seqüenciamento O cromossomo humano tem 10**8 pb. Seqüenciamento em labotatórios < = 700 bp. Há três níveis de “escalas de trabalho”: • Mapas genéticos (10**7 - 10**8 bp) • Mapas físicos (10**5 -- 10**^ bp) • Seqüências (10**3 -- 10**4 bp) Seqüenciamento Mapa Genético O mapa genético mostra a ordem e distância relativa entre os genes, usando informações obtidas a partir de observações estatísticas. Problemas: • Não dá a verdadeira distância ao longo do cromossomo, e • Se os genes estiverem muito próximos, a sua ordem não pode ser definida. Seqüenciamento Mapas Físicos Os mapas físico s refletem a distância real em pares de bases. Um mapa físico mostra a localização de markers, que são pequenas seqüências conhecidas precisamente, dentro de 10**4 pares de bases. Seqüenciamento Seqüenciamento em larga escala É possível obter a seqüência exata de pedaços do DNA na ordem de 10**3 bp. A idéia básica é: • Quebrar diversas cópias de uma pedaço já conhecido (de 700bp) de maneiras diferentes, • Seqüenciar esses fragmentos diretamente, e então • Juntar de novo os fragmentos usando técnicas computacionais. O Projeto Genoma Humano É um esforço multinacional iniciado em 1988, cujo objetivo é produzir a seqüência completa do DNA humano. Como parte do projeto, os genomas de outros organismos, como bactérias, moscas e ratos, também estão sendo estudados. Previsão era para 2005; agora é para 2003. O Projeto Genoma Humano Até hoje muitos genomas de vírus foram completamente seqüenciados, mas os comprimento vão de 1 Kbp a 10 Kbp. Outros resultados positivos: • bactéria Haemophilus influenzae (18 Kbp) • yeast (10 milhões de bp) -- 1996. Em fev, o Projeto Genoma da Xylella fastidiosa da FAPESP encerou com sucesso o seqüenciamento. O Projeto Genoma Humano Tarefa enorme, que só pode ser resolvida com colaboração. Hoje existem muitos bancos de dados com informações sobre seqüências conhecidas e dados associados. Ex: GenBank Esses bancos crescem numa velocidade exponencial. Técnicas foram desenvolvidas para permitir buscas aceleradas e versáteis neles. O Projeto Genoma Humano Até hoje muitos genomas de vírus foram completamente seqüenciados, mas os comprimento vão de 1 Kbp a 10 Kbp. Outros resultados positivos: • bactéria Haemophilus influenzae (18 Kbp) • yeast (10 milhões de bp) -- 1996. Em fev, o Projeto Genoma da Xylella fastidiosa da FAPESP encerou com sucesso o seqüenciamento. O Projeto Genoma EST da Cana OBJETIVOS: Como o genoma da cana é muito mais complexo, o objetivo é identificar e seqüenciar alguns genes relevantes, que permitam alterar algumas propriedades importantes da cana (ex: teor de sacarose), e possivelmente modificá-las. O Projeto Genoma EST da Cana Parceiros no Projeto: • Os mesmos Laboratórios de seqüenciamento e de Bioinformática envolvidos no Projeto Genoma da Xyllela fastidiosa • Instituto de Pesquisa Agropecuária (IPA) • Departamento de Biologia da UFRPE • Centro de Informática da UFPE O Projeto Genoma EST da Cana Estado Atual: • Iniciado em junho / 1999 • Seqüenciadores comprados, faltam chegar. • Laboratórios de seqüenciamento de SP já estão registrando os seus “reads” (33 Kbp). • Este processo vai parar em 400 Kbp. • Contatos estão estabelecidos para uma visita ao Lab. de Bioinformática da UNICAMP no final de março. O Projeto Genoma EST da Cana Oportunidades dentro do Projeto: • Aprender técnicas novas, numa área que só tende a crescer. (*****) • Bolsas de Iniciação Científica da FACEPE. • Trabalhar com problemas que se reproduzem em outras áreas da computação: – Algoritmos sobre cadeias de caracteres longas – Busca em bancos de Dados gigantescos O Projeto Genoma EST da Cana Se você gostaria de trabalhar neste prjeto: • Preencha a ficha de inscrição, e • Traga o seu histórico escolar. Trabalho há muito. As bolsas estão aprovadas, mas ...... não se sabe quando vão sair.