Seqüenciamento de DNA via
Phred-Phrap-Consed
Carlos André C. Pessoa
Algoritmos para Processamento de Cadeias
CIn - UFPE - Mestrado/2001.1
Roteiro
Introdução
Problemas
Integração Phred-Phrap-Consed
Phred

Exemplos
Phrap

Exemplos
Consed
Referências
Introdução
O seqüênciamento de DNA possui várias
etapas distintas (algumas vezes isoladas),
mas com um único objetivo global.

Gel Electrophroresis, Chromatograms, Base Calling, Sequence
Assembly, etc.
Problemas
A realização isolada de atividades gera
alguns problemas


Perda de informações
Duplicação de trabalho




Para compensar informações perdidas!
Queda de performance
Incompatibilidade de dados
Lentidão no processo
Desafios
Como integrar a cadeia de processos
necessária para o seqüenciamento de DNA ?
?
Solução: Phred-Phrap-Consed
Coordenado pelo Dr. Phil Green, Universidade de Washington,
Seattle desde 1993.
Sucesso mundial em projetos acadêmicos e comerciais.

Mais de 900 projetos e 36 países utilizam.
Abrange desde a análise em laboratório de um organismo até a
montagem de seus fragmentos de DNA em computador.
Phred-Phrap-Consed
Três ferramentas destinadas a trabalhar em
conjunto (pipeline) e explorar os benefícios
dessa integração
Podem ser usadas isoladamente, mas os
resultados são melhores quando usadas em
conjunto
 Exemplo: Phred gera dados extras que podem ser
utilizados pelo Phrap como dados opcionais para
melhorar seu desempenho. O mesmo ocorre entre Phrap
e Consed.
Phred-Phrap-Consed - Pipeline
Cromatogramas
Visualização dos contigs
Phred
Seqüências
CACATCCCCCTTTCGCCAG
Qualidade
40 52 55 47 19 10 34 ...
Phrap
Consed
Contigs
+
Informações úteis
Phred
Realiza a transformação de cromatogramas
(traces), provenientes das máquinas de
seqüenciamento, em seqüências de DNA.
Baseado na análise do cromatograma,
também associa um fator de qualidade para
cada base da seqüência gerada.
Phred – Iterface via arquivos
Cromatograma
Formatos:
•SCF
•ABI 737/377
•MegaBACE ESD
Phred
Seqüência
Qualidade
CACATCCCCCTTT
12 23 20 56 50 53 ...
Formatos:
•FASTA
•XBAP
•PHD
•SCF
Phred – Fator de qualidade
A qualidade de cada base varia entre 4 e 60.

Indica a chance da base estar correta
 Quanto maior melhor
 É determinado pela análise do cromatograma
Q
Pe
Segurança
10
1 em 10
90%
20
1 em 100
99%
30
1 em 1.000
99,9%
40
1 em 10.000
99,99%
50
1 em 100.000
99,999%
Q = -10 * log10(Pe)
Pe = Probabilidade da
base estar errada
Phred - Exemplo
Entrada:

Arquivo de cromatograma: LCP5AGGEU!LIKAA05.g
 Formato ABI 377
Saída:
Seqüência (formato FASTA):
Qualidade (formato FASTA):
>LCP5AGGEU!LIKAA05.g ...
tgagtggnnnnnnntttgaacactgtg...
...
cagtggcggggccggggcaacggtgtt...
...
aaaccagctcttcttatatagg
>LCP5AGGEU!LIKAA05.g ...
6 8 8 8 6 6 4 0 0 0 0 0 0 0 4...
...
15 11 9 8 8 8 8 8 9 9 9 9 9 11...
...
8 7 7 7 7 7
Phred –Exemplo (visualização)
•Bases: 105-128
•Qualidade ótima
• Visualização via
applet TraceViewer
Phred –Exemplo (visualização)
•Bases: 658-690
•Qualidade ruim
•Definição inferior
Phred – Parâmetros
Ao executar o Phred, 50 parâmetros
podem ser especificados de acordo com
a necessidade do usuário.

Exemplos:
 Diretório dos arquivos de entrada/saída;
 Tipo do formato de saída;
 Rejeitar bases cuja qualidade seja inferior a um
limite especificado;
Phrap – Phragment Assembly Program
Realiza a montagem de seqüências de DNA em
contigs.
Se as informações sobre a qualidade das seqüências
lidas existir, estas são usadas para melhorar o
desempenho.
Produz diversas informações sobre os contigs
gerados

Úteis para ajudar na visualização do resultado e no processo
de finalização da montagem de fragmentos.
Phrap – Interface via arquivos
Seqüências de DNA
CCCCTTTCGCCAG
Qualidade das seqüências
10 12 10 20 30 23 12 ...
TCGCCAGACACAC
TTTTTAAACC
13 35 23 43 34 33 34 ...
10 23 12 23 34 23 23 ...
Formato:
•FASTA
opcional
Phrap
Contigs
CCCCTTTCGCCAGACACAC
TTTTTAAACC
Informações Extras
•Informações para Consed (.ace)
•Lista de seqüências em cada contig
•Qualidade das bases em cada contig
•...
Formato:
•FASTA
Phrap – Definição de contigs
1. Realiza um pre-processamento da entrada;
2. Determina regiões de overlap entre todos
os pares de seqüências;
3. Cria um grafo direcionado baseado no
passo 2;
4. Produz contigs baseado no grafo definido
em 3;
–
Utiliza o algoritmo guloso para selecionar as
arestas em ordem decrescente
Phrap – Pre-processamento
1.
2.
Constrói os complementos das seqüências
lidas (do arquivo “nome.fasta”) e adiciona
ao conjunto de seqüências;
Elimina do conjunto as seqüências
duplicadas;
I.
3.
4.
A similaridade entre todos os pares já é calculada
aqui;
Faz um vector screening no conjunto;
Salva o resultado num arquivo FASTA;
I.
II.
Esse novo arquivo (nomeado “nome.fasta.screen”)
será o arquivo utilizado pelo phrap;
Um novo arquivo de qualidade, nomeado
“nome.fasta.screen.qual” é também criado;
Phrap – Vector Screening
I.
II.
III.
IV.
Encontra no conjunto seqüências de bases que
correspondem a vectors. Tais bases são modificadas para
´X´ e não serão utilizadas pelo phrap;
Essas bases foram introduzidas em laboratório para a
geração dos cromatogramas, portanto não fazem parte
do organismo em estudo;
Os vectors a serem procurados, que são seqüências
normais (acgt...), devem estar em um arquivo no
formato FASTA;
Caso este arquivo não seja informado, o phrap utiliza um
arquivo padrão que contém todos os possíveis vectors
usados normalmente;
Phrap – Exemplo
Abordagem:



Partir de uma seqüência conhecida, dividir
em partes, processar e observar a
qualidade do resultado;
Explorar seqüências com repetições;
Não foram utilizados arquivos de
qualidade, uma vez que as seqüências
foram editadas manualmente;
Phrap – Exemplo
Seqüência original:
1
X
2
X
3
X
4
X
4
Entrada criada:
1
X
2
3
2
X
3
X
X
Resultado: Reconstrução total
1
X
2
X
3
X
4
Phrap – Parâmetros
Ao executar o Phrap, 53 parâmetros
podem ser especificados de acordo com
a necessidade do usuário.

Exemplos:
 Qualidade padrão para cada base (caso não
haja arquivo de qualidade);
 Scores usados no alinhamento de seqüências
(mismatch, insertion, deletion, etc);
 Tamanho mínimo de overlap entre seqüências
para que haja alinhamento;
Consed – The Contig Editor
for Phred-Phrap
Ferramenta de visualização do resultado produzido
pelo Phrap
Permite edição visual dos dados

Inserção, remoção e alteração de (blocos de) bases
Fortemente integrada com o Phrap

Permite que o Phrap perceba as alterações realizadas em
seu resultado e automaticamente tome as mesmas decisões
em futuras montagens realizadas no mesmo projeto.
Consed – Iterface
Contigs
CCCCTTTCGCCAGACAC
TTTTTAAACC
Informações
•Informações para Consed (.ace)
•Lista de seqüências em cada contig
•Qualidade das bases em cada contig
•...
Formato:
•FASTA
Consed
Considerações Finais
Embora os três programas sejam
bastante parametrizáveis ...
 Phred, 50 parâmetros; Phrap, 53 parâmetros
... se eles forem utilizados em conjunto,
apenas um comando, PhredPhrap, é
necessário para executar os programas e
poder visualizar o resultado.
Considerações Finais
A utilização separada dos programas só é
recomendada se o projeto não possuir os
cromatogramas
Caso contrário, ou seja, se a entrada tiver
origem de máquinas de seqüenciamento, o
ideal é utilizar o Phred para gerar as
seqüências.
 Para que os arquivos de qualidade a serem usados pelo
Phrap sejam produzidos.
Considerações Finais
A visualização do cromatograma pelo
TraceViewer mostra que a não utilização
dos arquivos de qualidade é uma
grande desvantagem e é muito perigosa
 Pois um fator de qualidade padrão tanto
prejudica a montagem de partes boas quanto
ruins da seqüência.
Considerações Finais
Ao executar o phrap, observar se os vectors
utilizados no seqüenciamento em laboratório
estão sendo corretamente mascarados nas
seqüências.

Observando se no arquivo “.fasta.screen” os
vectors foram substituídos por seqüências de ‘X’;
 Se não, definir um novo arquivo com as seqüências para
cada vector.
Referências
The Phred - Phrap Package: A brief description,
http://www.phrap.com/background.htm
Phred, http://www.phrap.com/phred/index.htm
Consed - The Contig Editor for Phred-Phrap,
http://www.phrap.com/consed/index.htm
The Phred/Phrap/Consed System Home Page, http://www.phrap.org/
Interpretation of Sequencing Chromatograms,
http://seqcore.brcf.med.umich.edu/doc/dnaseq/interp.html
Trace Viewer, http://bcf.arl.arizona.edu/tools/TraceViewerApplet/phredupload.php3
Download

Seqüência