Bioinformática e
O Projeto GENOMA EST da CANA
Katia Guimarães
1o. de março de 2000
Bioinformática e o Projeto
GENOMA EST da CANA
 Introdução elementar à Bioinformática
• Biologia 1.01
• Como o genoma é estudado
• O Projeto Genoma Humano
 Projeto
GENOMA EST da Cana de Açúcar
• Objetivos, Parceiros, Estado Atual
• Oportunidades dentro do Projeto
O que é Bioinformática?

Bioinformática é uma nova disciplina, que serve
de ponte entre a Biologia e a Computação.

Principal característica: Interdisciplinaridade

Origem:
• Explosão de informações biológicas (ORGANIZAÇÃO)
• Perguntas mais complexas (ANÁLISE DE DADOS)
A Explosão das Informações
 O crescimento dos bancos de dados
tem-se dado de forma exponencial
(em março/1999, o banco de nucleotídios
EMBL continha 2.3 bilhões de bases).
 Fenômeno similar à INTERNET:
• Como recuperar informação útil ?
Biologia 1.01

A química da vida é realizada por moléculas
chamadas proteínas e ácidos nucléicos.

De forma simplística, podemos dizer que:
• As proteínas são responsáveis por “o quê””
um ser vivente é e faz, enquanto
• Os ácidos nucléicos contêm a informação
necessária para produzir proteínas, passando
esta receita para as gerações subseqüentes.
Biologia 1.01 
Proteínas
As proteínas são cadeias de moléculas mais
simples, chamadas aminoácidos (ou resíduos).

Há 20 aminoácidos mais comuns na natureza.

Proteínas típicas contêm 300 aminoácidos,
mas existem proteínas com 100 ou com 5.000.
Biologia 1.01 -

Proteínas
Uma proteína não é uma seqüência linear de
aminoácidos (chamada estrutura primária).
Ela se dobra em três dimensões, e a sua forma
está relacionada com a sua função.
Biologia 1.01 -
Ácidos Nucléicos

Há dois tipos de ácidos nucléicos : DNA e RNA.

O DNA (ácido desoxirribonucléico) contém
codificadas informações suficientes para
construir cada proteína .

O DNA também é uma cadeia (embora dupla)
de moléculas mais simples.
Biologia 1.01



-
O DNA
Uma cadeia simples (strand) é constituída por
um “backbone” formado por uma repetições de
uma molécula de açúcar.
Esta molécula de açúcar, por sua vez, contém
cinco átomos de carbono (orientação).
Ligada a Carbono’1 do backbone estão outras
moléculas, chamadas bases.
Biologia 1.01


-
O DNA
Ligada a Carbono’1 do backbone estão outras
moléculas, chamadas bases.
Ver uma parte do backbone
Biologia 1.01
-
O DNA

Há quatro tipos de bases: adenina (A),
guanina(G), citosina (C) e timina (T).

A unidade básica de uma molécula de DNA
formada por um açúcar, um fosfato e sua
base é chamada um nucleotídeo.

Uma molécula de DNA contém 200 bases =
uma molécula de DNA contém 200 nucleotídeos.
Biologia 1.01

-
O DNA
As bases formam pares ao longo do strand
(A -- T, e C --G).

Esses pares de bases constituem a unidade de
comprimento mais usada para as moléculas de
DNA -- bp.

Em Biologia Computacional, o DNA é considerado
uma cadeia de caracteres, onde cada letra
representa uma base.
Biologia 1.01
-
O DNA

Alguns trechos contíguos do DNA contêm
informação útil para construção de proteínas,
enquanto outros trechos não.

Para cada tipo diferente de proteína em um
organismo normalmente corresponde um e
somente um desses trechos ao longo do DNA,

Um trecho desses é conhecido como gene.
Biologia 1.01 - Cromossomos

Cada célula de um organismo contém algumas
moléculas muito longas de DNA.

Cada uma dessas moléculas é chamada um
cromossomo.

Genes são regiões contíguas dos cromossomos,
mas elas não cobrem toda a molécula.

As regiões entre genes são chamadas “junk DNA”.
Biologia 1.01 - Cromossomos

O conjunto de cromossomos em uma célula é
chamado um genoma.

O número de cromossomos em um genoma é
característico de uma espécie.

Toda célula humana tem 46 cromossomos.
Biologia 1.01 - Cromossomos

O cromomossomo humano tem cerca de 10**8
pares de bases (bp).

O mais longo pedaço de DNA que se pode
seqüenciar em um laboratório tem 700 bp.

Esta é a motivação dos problemas em áreas
como fragment assembly e physical mapping.
Biologia 1.01 - Cromossomos

Em uma analogia comum (veja JC 27/fev), se
• O genoma humano fosse um livro,
• os cromossomos seriam os capítulos,
• os genes seriam as frases e
• as seqüências de DNA seriam as sílabas.

Parte do trabalho está em decifrar os genes.
Biologia 1.01 - Genes
O gene varia de tamanho. No caso dos seres
humanos, um gene pode ter algo como 10.000
pares de bases.
 Certos mecanismos das células são capazes de
reconhecer no DNA os pontos precisos onde um
gene começa e onde ele termina.


ESTs (Expressed Sequence Tags ) são trechos de
DNA (aprox. 200 bp) ajudam a identificar genes
e sua localização no genoma.
Como o Genoma é Estudado

Informação básica que queremos obter de
qualquer trecho do DNA =
 seqüência de pares de bases

Processo para obter a seqüência =
 seqüenciamento
Seqüenciamento

O cromossomo humano tem 10**8 pb.

Seqüenciamento em labotatórios < = 700 bp.

Há três níveis de “escalas de trabalho”:
• Mapas genéticos (10**7 - 10**8 bp)
• Mapas físicos (10**5 -- 10**^ bp)
• Seqüências (10**3 -- 10**4 bp)
Seqüenciamento 

Mapa Genético
O mapa genético mostra a ordem e distância
relativa entre os genes, usando informações
obtidas a partir de observações estatísticas.
Problemas:
• Não dá a verdadeira distância ao longo do
cromossomo, e
• Se os genes estiverem muito próximos, a sua
ordem não pode ser definida.
Seqüenciamento 

Mapas Físicos
Os mapas físico s refletem a distância real em
pares de bases.
Um mapa físico mostra a localização de markers,
que são pequenas seqüências conhecidas
precisamente, dentro de 10**4 pares de bases.
Seqüenciamento Seqüenciamento em larga escala

É possível obter a seqüência exata de pedaços do
DNA na ordem de 10**3 bp.

A idéia básica é:
• Quebrar diversas cópias de uma pedaço já conhecido
(de 700bp) de maneiras diferentes,
• Seqüenciar esses fragmentos diretamente, e então
• Juntar de novo os fragmentos usando técnicas
computacionais.
O Projeto Genoma Humano

É um esforço multinacional iniciado em 1988,
cujo objetivo é produzir a seqüência completa
do DNA humano.

Como parte do projeto, os genomas de outros
organismos, como bactérias, moscas e ratos,
também estão sendo estudados.

Previsão era para 2005; agora é para 2003.
O Projeto Genoma Humano

Até hoje muitos genomas de vírus foram
completamente seqüenciados, mas os
comprimento vão de 1 Kbp a 10 Kbp.

Outros resultados positivos:
• bactéria Haemophilus influenzae (18 Kbp)
• yeast (10 milhões de bp) -- 1996.

Em fev, o Projeto Genoma da Xylella fastidiosa da FAPESP
encerou com sucesso o seqüenciamento.
O Projeto Genoma Humano

Tarefa enorme, que só pode ser resolvida com
colaboração.

Hoje existem muitos bancos de dados com
informações sobre seqüências conhecidas
e dados associados. Ex: GenBank

Esses bancos crescem numa velocidade
exponencial. Técnicas foram desenvolvidas para
permitir buscas aceleradas e versáteis neles.
O Projeto Genoma Humano

Até hoje muitos genomas de vírus foram
completamente seqüenciados, mas os
comprimento vão de 1 Kbp a 10 Kbp.

Outros resultados positivos:
• bactéria Haemophilus influenzae (18 Kbp)
• yeast (10 milhões de bp) -- 1996.

Em fev, o Projeto Genoma da Xylella fastidiosa da FAPESP
encerou com sucesso o seqüenciamento.
O Projeto Genoma EST da Cana

OBJETIVOS:
Como o genoma da cana é muito mais
complexo, o objetivo é identificar e
seqüenciar alguns genes relevantes,
que permitam alterar algumas
propriedades importantes da cana
(ex: teor de sacarose), e possivelmente
modificá-las.
O Projeto Genoma EST da Cana
 Parceiros no Projeto:
• Os mesmos Laboratórios de seqüenciamento
e de Bioinformática envolvidos no Projeto
Genoma da Xyllela fastidiosa
• Instituto de Pesquisa Agropecuária (IPA)
• Departamento de Biologia da UFRPE
• Centro de Informática da UFPE
O Projeto Genoma EST da Cana
 Estado Atual:
• Iniciado em junho / 1999
• Seqüenciadores comprados, faltam chegar.
• Laboratórios de seqüenciamento de SP já
estão registrando os seus “reads” (33 Kbp).
• Este processo vai parar em 400 Kbp.
• Contatos estão estabelecidos para uma visita
ao Lab. de Bioinformática da UNICAMP no final
de março.
O Projeto Genoma EST da Cana
 Oportunidades dentro do Projeto:
• Aprender técnicas novas, numa área que só
tende a crescer. (*****)
• Bolsas de Iniciação Científica da FACEPE.
• Trabalhar com problemas que se reproduzem
em outras áreas da computação:
– Algoritmos sobre cadeias de caracteres longas
– Busca em bancos de Dados gigantescos
O Projeto Genoma EST da Cana

Se você gostaria de trabalhar neste prjeto:
• Preencha a ficha de inscrição, e
• Traga o seu histórico escolar.
 Trabalho há muito.
 As bolsas estão aprovadas, mas ......
não se sabe quando vão sair.