Clusterização de sequências
biológicas : PHRAP e CAP3
[email protected]
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Resumo
- Introdução
- Processamento de reads (revisão)
- DNA
- ESTs
- Pipeline de montagem
- Computando os overlaps
- Formando os contigs e singlets
- Gerando sequência consensu
- Analisando a montagem
- PHRAP x CAP3
Introdução
- Ordenação
dos trechos de DNA sequenciados para a obtenção
da sequência original
- Melhoria da qualidade de sequências de interesse
- Expressão gênica em biblioteca de cDNA
Processamento de reads (revisão)
- O pipeline de um projeto genoma
- Após base calling temos :
>Unknown sequences #1
5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40
40 45 50 50 50 ...
Identificar regiões de
baixa qualidade
Identificar regiões de
vetores
Eliminar sequências
formadas apenas por
vetores
Cortar regiões de baixa
qualidade e vetor
- Possíveis combinações de regiões com qualidade ruim e vetores
Bioinformatics 17 (2001), n. 122001, 1093-1104
- Para cDNA :
Ribossomais podem atrapalhar a
montagem
Mascarando o vetor
Corte de poly-A
Corte em qualidade
Remoção de sequências curtas
GMB 24 (2001), 17-23
Pipeline de montagem
- Algoritmo
Input
Seeded
Clustering
Consensus
Sequences
Clustering
Assembly
Assembled
Clusters
1. Encontra sobreposições dos reads
2. Alinha os pares de reads formando os
contigs
3. Encontra a sequência consensu
..ACGATTACAATAGGTT..
Encontrando os overlaps
• Sort all k-mers in reads
(k ~ 10)
• Find pairs of reads sharing a k-mer
• Extend to full alignment
TACA TAGATTACACAGATTAC T GA
|| ||||||||||||||||| | ||
TAGT TAGATTACACAGATTAC TAGA
-Para uma montagem um alinhamento é considerado válido se tiver :
- Overlap >= 40 pb
- 90% de identidade
Bioinformatics 20 (2004), 2973
Formando os contigs e singlets
- Cria um alinhamento múltiplo local para alinhar todos os reads
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAG TTACACAGATTATTGA
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAG TTACACAGATTATTGA
TAGATTACACAGATTACTGA
contig
Encontra a sequência consensu
TAGATTACACAGATTACTGA TTGATGGCGTAA CTA
TAGATTACACAGATTACTGACTTGATGGCGTAAACTA
TAG TTACACAGATTATTGACTTCATGGCGTAA CTA
TAGATTACACAGATTACTGACTTGATGGCGTAA CTA
TAGATTACACAGATTACTGACTTGATGGGGTAA CTA
TAGATTACACAGATTACTGACTTGATGGCGTAA CTA
-No caso de discrepâncias a escolha da base pode depender :
- Da nota phred das sequências discrepantes
- Da quantidade de relativa de bases discrepantes
Visualizando a montagem
Erros de montagem devido as regiões repetitivas
Sequência consensu
(DNA original)
reads
Marca de um possível erro
de sequenciamento causado
por regiões repetitivas
Montagem com vínculos de forward e reverse
1. Assembly WITH
forward-reverse
constraints
Repeat
2. Assembly WITHOUT
forward-reverse
constraints
Repeat
Misassembled fragment…
Repeat
…leaves a
singleton
PHRAP x CAP3
- Pipeline CAP3
Genome Research 9 (1999), 868
- Performance do CAP3 e PHRAP na montagem de DNA genômico (BACs)
- PHRAP produz contigs maiores
- CAP3 produz menos erros internos (regiões com sobreposição)
- CAP3 produz mais erros externos (nas pontas do consensu)
- Performance do CAP3 e PHRAP na montagem de ESTs
- Para ESTs o CAP3 é melhor que o PHRAP
Nucleic Acid Research 28 (2000), 3657
END
Outline of phrap assembly:
0) Read in sequence & quality data, trim off any
near-homopolymer runs at ends of reads,
construct read complements.
1) Find pairs of reads with matching words.
Eliminate exact duplicate reads. Do swat
comparisons of pairs of reads which have
matching
words,
compute
(complexityadjusted) swat score.
2) Find probable vector matches and mark so
they aren't used in assembly.
3) Find near duplicate reads.
4) Find reads with self-matches.
5) Find matching read pairs that are "noderejected" i.e. do not have "solid" matching
segments.
6) Use pairwise matches to identify confirmed
parts of reads; use these to compute revised
quality values.
7) Compute LLR scores for each match (based
on qualities of discrepant and matching
bases). (Iterate above two steps).
8) Find best alignment for each matching pair of
reads that have more than one significant
alignment in a given region (highest LLRscores among several overlapping).
9) Identify probable chimeric and deletion reads
(the latter are withheld from assembly).
10) Construct contig layouts, using consistent
pairwise matches in decreasing score order
(greedy algorithm). Consistency of layout is
checked at pairwise comparison level.
11) Construct contig sequence as a mosaic of
the highest quality parts of the reads.
12)
Align
reads
to
contig;
tabulate
inconsistencies (read / contig discrepancies) &
possible sites of misassembly. Adjust LLRscores of contig sequence.