Genómica
Licenciatura em Ciências Biomédicas
Departamento de Ciências da Saúde,
UCP
Fevereiro 2013
Sumário
3. Montagem de genomas
• Montagem hierárquica
• Montagem de genomas completos
• Montagem de genomas com base em
modelos
• Problemas associados à montagem dos
genomas
– Controlo de qualidade
18-03-2013
Genómica 12-13 MJC
2
Montagem de genomas
• Após a sequenciação temos fragmentos (de
tamanhos que vão de 1000 a 40 pbs) que é
preciso reordenar na sequência original.
Sobreposições em média de duas
centenas de pares de bases. Equivale a
ter um puzzle de 30 milhões de peças
18-03-2013
Genómica 12-13 MJC
Aumenta o número de peças para 2-3
triliões.
3
Algumas das peças…
• Faltam
– Problemas na construção das bibliotecas
– Problemas com a amplificação por PCR
• Têm erros
– Zonas repetitivas
– Erros no PCR
18-03-2013
Aumentamos o nº de
vezes que cada peça é
sequenciada!
Entre 8 e 100 vezes
Genómica 12-13 MJC
4
A sequência (read) ideal
• É longa
• Não tem erros (tem bons algoritmos de “base
calling”).
18-03-2013
Genómica 12-13 MJC
5
Podemos considerar 2 tipos
• Única (single read)
– Resulta da sequenciação do
fragmento em si.
• Emparelhada (paired read)
– Nestas leituras eu sei a
sequência das pontas e a
que distância estão uma da
outra.
18-03-2013
Genómica 12-13 MJC
6
Tendo as sequências o desafio é ordená-las
18-03-2013
Genómica 12-13 MJC
7
Obter a
sequência
“limpála”
Ordená-la
18-03-2013
Genómica 12-13 MJC
8
A forma como a montagem é feita
• Depende de haver ou não um genoma de
referência:
– Se há usa-se como modelo
– Se não há deve usar-se outras informações como
informações do exoma por exemplo.
18-03-2013
Genómica 12-13 MJC
9
Alguns algoritmos de montagem
18-03-2013
Genómica 12-13 MJC
10
Problemas na montagem de short reads
• E as que não “encaixam”?
– Sequencias repetidas no genomade referência?
– Errosd de sequenciação
– Balanço entre encontrar o emparelhamento e gerar o
mapa?
• É assim tão importante que encaixem todas as
reads?
– A capacidade/ resultados dependem não só do
algoritmo usado como dos parâmetros descritos para
cada algoritmo.
18-03-2013
Genómica 12-13 MJC
11
Quando a montagem é de novo
18-03-2013
Genómica 12-13 MJC
12
MONTAGEM HIERÁRQUICA OU DE
CLONES
18-03-2013
Genómica 12-13 MJC
13
Abordagem usada para alinhar
grandes inserções clonadas
– Primeiro é
feito o
mapeamento
dos clones
por padrões
de digestão,
marcadores
de linkage ou
mutações
induzidas.
18-03-2013
Genómica 12-13 MJC
14
Desse mapeamento….
• Escolhem-se os fragmentos a vermelho pois
implicam a menor sobreposição.
• É feita a sequenciação desses fragmentos:
– Cada sequenciação (read) é avaliada quanto à sua
qualidade.
– É reconstruida a sequencia inicial usando as
sobreposições.
18-03-2013
Genómica 12-13 MJC
15
MONTAGEM DE GENOMAS
COMPLETOS
18-03-2013
Genómica 12-13 MJC
16
Método mais aplicado atualmente
• Uma vez que a maioria da sequenciação já não
implica clonagem.
• Dispensa o passo do mapeamento.
• São sequenciadas as extremidades dos vários
fragmentos que são depois alinhadas.
18-03-2013
Genómica 12-13 MJC
17
Desse alinhamento surge o “contig”
• Inclui 3 fases:
– Sobreposição
– Alinhamento
– Consenso
18-03-2013
Genómica 12-13 MJC
18
Desse alinhamento surge o “contig”
A localização vai ser
determinada pela
homologia
18-03-2013
Genómica 12-13 MJC
19
Vários contigs dão um scaffold
18-03-2013
Genómica 12-13 MJC
20
18-03-2013
Genómica 12-13 MJC
21
ALGUNS ALGORITMOS DE
MONTAGEM DE GENOMAS
18-03-2013
Genómica 12-13 MJC
22
Greedy
• Como a homologia é a única condição este
tipo de algoritmos é muito influenciado pelas
sequências repetitivas ou homologias.
18-03-2013
Genómica 12-13 MJC
23
Overlap-Layout-Consensus
• Todas as sobreposições são mapeadas (Overlap)
• É eliminada a informação redundante (Layout)
• Usando a teoria de grafos é desenhado o mapa mais
simples e que corresponderá à organização inicial.
18-03-2013
Genómica 12-13 MJC
24
Overlap-Layout-Consensus
• Pode ser substituído pelo: Align-Layout-Consensus
pois já há vários genomas de referência
sequenciados.
18-03-2013
Genómica 12-13 MJC
25
CONTROLO DE QUALIDADE
18-03-2013
Genómica 12-13 MJC
26
Em genomas de novo
• Não se sabe quase nada
– Nº de scaffolds e contigs que representam o
genoma.
– A proporção de reads que consegue ser
– O comprimento dos contigs e scaffolds
relativamente ao comprimento do genoma.
18-03-2013
Genómica 12-13 MJC
27
N50
• Tamanho do contig mais curto acima do qual
se inclui 50% do genoma.
18-03-2013
Genómica 12-13 MJC
28
Os vários algoritmos devem ser comparados
• Foi feita uma comparação no artigo GAGE:
18-03-2013
Genómica 12-13 MJC
29
O algoritmo deve ter em conta
• Dependendo do organismo
– Tamanho diferente dos genomas
– Heterozigotia diferente
• Humanos (1 par de bases pair/1000)
• Lesmas do mar 1/50–100
18-03-2013
Genómica 12-13 MJC
30
Independentemente do algoritmo…
• Entra lixo
• Sai lixo
– Muitos sequenciadores têm controlos de
qualidade para contaminações, quimeras e erros
de leitura.
18-03-2013
Genómica 12-13 MJC
31
MONTAGEM COMPARATIVA
18-03-2013
Genómica 12-13 MJC
32
Genomas de referência
Genomas de mesma espécie ou espécies
semelhantes que servem de modelo.
Os algoritmos tentam alinhar as sequências
obtidas ao que já está sequenciado
18-03-2013
Genómica 12-13 MJC
33
PROBLEMAS NA MONTAGEM DE
GENOMAS
18-03-2013
Genómica 12-13 MJC
34
Dificuldades
• Contaminação
– Sequências que não pertencem ao genoma que se quer sequenciar.
• Erros de montagem
– As sequências repetidas podem induzir os algoritmos de montagem
em erro. As secções podem ser montadas como mais curtas ou
sobrepostas pelo que desaparecem do genoma final.
• Homologia em grande escala.
– Nos genomas dos mamíferos há zonas com uma grande percentagem
de homologia (>90%) mas que são zonas diferentes do genoma. Como
a homologia éusada para fazer os alinhamentos as montagens
ficammal feitas.
• Polimorfismo genómico
– Dado que muitos genomas são poliploides a montagem de genomas
muitas vezes não consegue distinguir estes polimorfismos como
possibilidades alternativas do mesmo locus.
18-03-2013
Genómica 12-13 MJC
35
Efeito das zonas repetidas
18-03-2013
Genómica 12-13 MJC
36
18-03-2013
Genómica 12-13 MJC
37
Bibliografia
• http://www.ncbi.nlm.nih.gov/projects/genom
e/assembly/assembly.shtml
• http://www.cbcb.umd.edu/research/assembly
_primer.shtml
• Artigo: de novo genome assembly; GAGE
ambos na pasta
18-03-2013
Genómica 12-13 MJC
38
Download

Genómica-montagem1