Genómica
Licenciatura em Ciências Biomédicas
Departamento de Ciências da Saúde,
UCP
Fevereiro 2013
Sumário
3. Montagem de genomas
• Montagem hierárquica
• Montagem de genomas completos
• Montagem de genomas com base em
modelos
• Problemas associados à montagem dos
genomas
– Controlo de qualidade
18-03-2013
Genómica 12-13 MJC
2
Montagem de genomas
• Após a sequenciação temos fragmentos (de
tamanhos que vão de 1000 a 40 pbs) que é
preciso reordenar na sequência original.
Sobreposições em média de duas
centenas de pares de bases. Equivale a
ter um puzzle de 30 milhões de peças
18-03-2013
Genómica 12-13 MJC
Aumenta o número de peças para 2-3
triliões.
3
Algumas das peças…
• Faltam
– Problemas na construção das bibliotecas
– Problemas com a amplificação por PCR
• Têm erros
– Zonas repetitivas
– Erros no PCR
18-03-2013
Aumentamos o nº de
vezes que cada peça é
sequenciada!
Entre 8 e 100 vezes
Genómica 12-13 MJC
4
A sequência (read) ideal
• É longa
• Não tem erros
18-03-2013
Genómica 12-13 MJC
5
Podemos considerar 2 tipos
• Única (single read)
– Resulta da sequenciação do
fragmento em si.
• Emparelhada (paired read)
– Nestas leituras eu sei a
sequência das pontas e a
que distância estão uma da
outra.
18-03-2013
Genómica 12-13 MJC
6
MONTAGEM HIERÁRQUICA OU DE
CLONES
18-03-2013
Genómica 12-13 MJC
7
Abordagem usada para alinhar
grandes inserções clonadas
– Primeiro é
feito o
mapeamento
dos clones
por padrões
de digestão,
marcadores
de linkage ou
mutações
induzidas.
18-03-2013
Genómica 12-13 MJC
8
Desse mapeamento….
• Escolhem-se os fragmentos a vermelho pois
implicam a menor sobreposição.
• É feita a sequenciação desses fragmentos:
– Cada sequenciação (read) é avaliada quanto à sua
qualidade.
– É reconstruida a sequencia inicial usando as
sobreposições.
18-03-2013
Genómica 12-13 MJC
9
MONTAGEM DE GENOMAS
COMPLETOS
18-03-2013
Genómica 12-13 MJC
10
Método mais aplicado atualmente
• Uma vez que a maioria da sequenciação já não
implica clonagem.
• Dispensa o passo do mapeamento.
• São sequenciadas as extremidades dos vários
fragmentos que são depois alinhadas.
18-03-2013
Genómica 12-13 MJC
11
Desse alinhamento surge o “contig”
• Inclui 3 fases:
– Sobreposição
– Alinhamento
– Consenso
18-03-2013
Genómica 12-13 MJC
12
Desse alinhamento surge o “contig”
A localização vai ser
determinada pela
homologia
18-03-2013
Genómica 12-13 MJC
13
Vários contigs dão um scaffold
18-03-2013
Genómica 12-13 MJC
14
18-03-2013
Genómica 12-13 MJC
15
ALGUNS ALGORITMOS DE
MONTAGEM DE GENOMAS
18-03-2013
Genómica 12-13 MJC
16
Greedy
• Como a homologia é a única condição este
tipo de algoritmos é muito influenciado pelas
sequências repetitivas ou homologias.
18-03-2013
Genómica 12-13 MJC
17
Overlap-Layout-Consensus
• Todas as sobreposições são mapeadas (Overlap)
• É eliminada a informação redundante (Layout)
• Usando a teoria de grafos é desenhado o mapa mais
simples e que corresponderá à organização inicial.
18-03-2013
Genómica 12-13 MJC
18
Overlap-Layout-Consensus
• Pode ser substituído pelo: Align-Layout-Consensus
pois já há vários genomas de referência
sequenciados.
18-03-2013
Genómica 12-13 MJC
19
CONTROLO DE QUALIDADE
18-03-2013
Genómica 12-13 MJC
20
Em genomas de novo
• Não se sabe quase nada
– Nº de scaffolds e contigs que representam o
genoma.
– A proporção de reads que consegue ser
– O comprimento dos contigs e scaffolds
relativamente ao comprimento do genoma.
18-03-2013
Genómica 12-13 MJC
21
N50
• Tamanho do contig mais curto acima do qual
se inclui 50% do genoma.
18-03-2013
Genómica 12-13 MJC
22
Os vários algoritmos devem ser comparados
• Foi feita uma comparação no artigo GAGE:
18-03-2013
Genómica 12-13 MJC
23
O algoritmo deve ter em conta
• Dependendo do organismo
– Tamanho diferente dos genomas
– Heterozigotia diferente
• Humanos (1 par de bases pair/1000)
• Lesmas do mar 1/50–100
18-03-2013
Genómica 12-13 MJC
24
Independentemente do algoritmo…
• Entra lixo
• Sai lixo
– Muitos sequenciadores têm controlos de
qualidade para contaminações, quimeras e erros
de leitura.
18-03-2013
Genómica 12-13 MJC
25
MONTAGEM COMPARATIVA
18-03-2013
Genómica 12-13 MJC
26
Genomas de referência
Genomas de mesma espécie ou espécies
semelhantes que servem de modelo.
Os algoritmos tentam alinhar as sequências
obtidas ao que já está sequenciado
18-03-2013
Genómica 12-13 MJC
27
PROBLEMAS NA MONTAGEM DE
GENOMAS
18-03-2013
Genómica 12-13 MJC
28
Dificuldades
• Contaminação
– Sequências que não pertencem ao genoma que se quer sequenciar.
• Erros de montagem
– As sequências repetidas podem induzir os algoritmos de montagem
em erro. As secções podem ser montadas como mais curtas ou
sobrepostas pelo que desaparecem do genoma final.
• Homologia em grande escala.
– Nos genomas dos mamíferos há zonas com uma grande percentagem
de homologia (>90%) mas que são zonas diferentes do genoma. Como
a homologia éusada para fazer os alinhamentos as montagens
ficammal feitas.
• Polimorfismo genómico
– Dado que muitos genomas são poliploides a montagem de genomas
muitas vezes não consegue distinguir estes polimorfismos como
possibilidades alternativas do mesmo locus.
18-03-2013
Genómica 12-13 MJC
29
Efeito das zonas repetidas
18-03-2013
Genómica 12-13 MJC
30
18-03-2013
Genómica 12-13 MJC
31
Bibliografia
• http://www.ncbi.nlm.nih.gov/projects/genom
e/assembly/assembly.shtml
• http://www.cbcb.umd.edu/research/assembly
_primer.shtml
• Artigo: de novo genome assembly; GAGE
ambos na pasta
18-03-2013
Genómica 12-13 MJC
32
Download

Genómica-montagem