Análises de sequências
[email protected]
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Resumo
-
Revisão
- Processamento das sequências
- DNA
- ESTs
- Instalação e uso do programa phred
Revisão
O programa PHRED lê o chromatograma identificando e dando uma
nota para cada base que forma a sequência :
0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...
Genome Research 8 (3) (1998), 175-185
background
Qualidade boa
Qualidade média
Qualidade ruim
- Sequenciamento produz seqüências da ordem de 500 pb
Onde q é a nota phred e P é a probabilidade encontrar uma base
errada :
- Nota phred = 20 => 1 base errada a cada 100 (99%)
- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
Processamento das sequências
- Sequência fasta
- Arquivo de qualidade
>Unknown sequences #1
0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50
56 56 50 50 30 40 40 45 ...
Sequências com nota phred = 0 são identificadas pela letra N :
>Unknown
NNNATCG...
DNA genômico
reads
clonar em vetor
sequenciamento
>Unknown sequence
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC
Sequência do vetor de clonagem
Como identificar as regiões do vetor ???
- Necessita
saber qual o vetor utilizado na clonagem dos
fragmentos para pegar a sequência fasta desse vetor (site do
fabricante/distribuidor)
http://www.invitrogen.com/content.cfm?pageid=94
- Ou de forma mais geral e automática, criando um arquivo com
todas as sequências fastas de todos os vetores utilizados, ou pelo
menos os mais utilizados
http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html
A identificação da região do vetor é feita através da comparação da
sequência com o banco de vetores e pode ser feita usando vários
programas. Exemplo :
- Usando o cross_match :
- Este programa faz uma comparação entre as sequências e
mascara a região do vetor na sequência. Isto é, substitui os
nucleotídeos vindos do vetor pela letra X,
>Unknown sequence
XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX
X => Sequência do vetor de clonagem
-Usando o LUCY (Bioinformatics 17 (2001), n. 122001, 1093-1104) :
- Este programa faz uma comparação entre as sequências e
coloca no cabeçalho do fasta as coordenadas da região sem
vetor na sequência
Início da região sem o vetor
Fim da região sem o vetor
>Unknown sequence 19 140
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC
Sequência do vetor de clonagem
- Como
as regiões de vetor e qualidade ruim estão sobrepostas o
problema pode ser complicado
Identificar regiões de
baixa qualidade
Identificar regiões de
vetores
Cortar regiões de baixa
qualidade e vetor
- Possíveis combinações de regiões com qualidade ruim e vetores
Bioinformatics 17 (2001), n. 122001, 1093-1104
- Para cDNA temos que remover o poly-A também :
GMB 24 (2001), 17-23
- Depois de excluído as regiões de vetor e qualidade ruim, é
necessário checar o tamanho dos fragmentos que sobraram
- No final do processo os pedaços com menos de 100 pb são
removidos.
Possíveis cortes de qualidade
- Nota de corte phred :
- Igual a 16 para corte processamento em larga escala
- Igual a 30 quando tem a necessidade de trabalhar com
sequências de alta qualidade (Exemplo : SNPs)
- Igual a 0 quando se está interessado no máximo de
informação possível sobre a sequência estudada.
Possivelmente uma região de qualidade ruim pode continuar
dando similaridade com a proteína de interesse
.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC
Phred 15 GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA
CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca
gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc
aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca
gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga
gcggagctaaagtgacgggggcgcca
Query: 469
TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979
Query: 529
Sbjct: 978
Query: 589
Sbjct: 918
Query: 649
Sbjct: 858
ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588
||||||||||||||||| || |||||||||||||||||| ||||||||||||||||||||
acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919
tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648
|||||||||||||| |||||||||| |||| ||||||||||| |||||||||||||||||
tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859
ccaggcttgatgataccagtttcaacgc 676
||||||||||||||||||||||||||||
ccaggcttgatgataccagtttcaacgc 831
Instalação e uso do phred
- Download
(www.phrap.com)
- “you must email David Gordon the information requested in the
academic user agreement including which platform(s) you want
and your ip address”
- U$10.000,00 para uso não acadêmico
- O programa phred faz parte do pacote : phred / phrap / cross_match
/ consed
- Escrito em linguagem C
- Roda em sistema operacional linux
-Para usar basta criar 3 pastas :
- chromat_dir
- edit_dir
- phd_dir
- Copiar os chromatogramas na pasta chromat_dir
- Entrar na pasta edit_dir e digitar :
- phred -id chromat_dir -pd phd_dir
- Esta linha de comando informa ao phred que os chromatogramas
estão no chromat_dir e os arquivos phds devem ser gravados no
phd_dir
-Como resultado para cada chromatograma gravado no chromat_dir existe um
arquivo no phd_dir no seguinte formato :
BEGIN_SEQUENCE HS01-S1-001-010-A01-HM.F
BEGIN_COMMENT
CHROMAT_FILE: HS01-S1-001-010-A01-HM.F
ABI_THUMBPRINT: 0
PHRED_VERSION: 0.000925.c
CALL_METHOD: phred
QUALITY_LEVELS: 99
TIME: Wed May 4 14:01:17 2005
TRACE_ARRAY_MIN_INDEX: 0
TRACE_ARRAY_MAX_INDEX: 9404
TRIM: 101 319 0.0500
CHEM: term
DYE: ET
END_COMMENT
BEGIN_DNA
c96
g97
a 11 16
a 4 27
c 4 38
a 4 40
g 4 50
a 4 63
t 5 69
...
- Na sequência roda-se o phd2fasta :
- phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual
- Gerando na pasta do edit_dir :
- Arquivo com todas as sequências fasta de todos os chromatogramas lidos :
- seqs_fasta :
>chromatograma 1
ATCGCGC...
>chromatograma 2
TGCGCCA...
- Arquivo com todas as notas phred de cada base para todas os
chromatogramas lidos :
- seqs_fasta.qual :
>chromatograma 1
0 10 12 15 12 20 ...
>chromatograma 2
0 12 13 5 10 10 ...
-Para mascarar o vetor roda-se o cross_match :
- cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 screen > screen.out
- No qual gerar os arquivos :
- screen.out => grava as mensagens de saída do programa
- seqs_fasta.screen => arquivo fasta igual ao seqs_fasta mas com
a letra X substituindo os nucletídeos vindos do vetor
END
Download

to get the file