RepeatMasker
• Aluno: Fred Ulisses maranhão
• Professora: Kátia S. Guimarães
• Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001
Introdução
• http://repeatmasker.genome.washington.edu/cgi
-bin/RepeatMasker/
• Função: Esconder repetições esparsas, regiões
de baixa complexidade e repetições simples
• Desenvolvido e mantido por: Phil Green,
University of Washington
Repetições
• Repetições esparsas
• Regiões de baixa complexidade (ex.: CT-rich)
– Repetições simples (ex.: (TG)n )
O Problema
• Sequência de DNA com repetições são dificeis
de montar e de pesquisar
• Mascar regiões repetitivas pode facilitar o
trabalho de varias outras ferramentas
computacionais
– Ex.: PhredPhrap
O Algoritmo
• Busca de alinhamentos de melhor score
• Compara uma seqüência, com seqüências numa
base de dados
• Procura alinhamentos locais
• Utiliza matrizes de similaridade
• Esconde com:
– N para nucleotídeos
– X para proteínas
O Algoritmo
• RepeatMasker
– cross_match + base de repetições
• swat
–Smith-Waterman Algorithm
Algoritmo de Smith-Waterman
•
•
•
•
Programação dinâmica
Matriz de alinhamentos
Tempo: O(n*m); Espaço: O(n*m)
Matriz de Dayhoff: matrizes PAM
Matriz de alinhamentos
e
A
A
C
T
e
0
0
0
0
0
T
0
0
0
0
1
A
0
1
1
0
0
A
0
1
2
0
0
C
0
0
0
3
1
G
0
0
0
1
2
G
0
0
0
0
0
Matriz de alinhamentos
0
0
0
0
0
base de repetições
0 0 0 0 0
0 1 1 0 0
0 1 2 0 0
0 0 0 3 1
1 0 0 1 2
0
0
0
0
0
Matriz PAM
A
R
N
D
.
.
.
Z
X
*
A R N D ... Z X
2 -2 0 0
0 0
-2 6 0 -1 ... 0 -1
0 0 2 2
1 0
0 -1 2 4
3 -1
.
.
.
.
.
.
.
.
.
0 0 1 3
3 -1
0 -1 0 -1 ...-1 -1
-8 -8 -8 -8
-8 -8
*
-8
-8
-8
-8
-8
-8
1
Entrada
• Seqüência
– Formato Fasta
– Modo de envio: html ou arquivo
• Opções
Opções
• Formato de retorno: html, arquivo tar ou links
• Modo de retorno: na própria janela ou por
e-mail
• Velocidade/sensibilidade
– Default
– Slow: 3 vezes mais lento, 0 a 5% mais seqüências
encontradas
– Quick: 3 a 6 vezes mais rápido. Ignora 5 a 10%
mais seqüências
Opções
• Origem do DNA:
–
–
–
–
Primatas, roedores (otimizados)
Outros mamíferos, Arabidopsis, Drosophila
Outros vertebrados, gramíneas (recentes)
http://www.girinst.org/~server/repbase.html
Opções
• Mostrar alinhamentos (arquivo de alinhamentos)
• Não esconde repetições simples e DNA de
baixa complexidade
• Esconde apenas repetições simples e DNA de
baixa complexidade
Opções
• Apenas esconde Alus (específico para primatas)
• Esconde com “X” para distinguir regiões
escondidas de “N”s já existentes na seqüência
de entrada
• Gera uma “annotation table” com tamanho fixo
de colunas
Outras Opções
• Opções menos comuns podem ser digitadas:
– div (limita a porcentagem máxima de divergências num
alinhamento)
– inv (por default, alinhamentos são no sentido das
seqüências de entrada. Com esta opção, ficam no sentido das
repetições da base)
– frag (define o tamanho dos fragmentos com os quais o
programa vai trabalhar)
– xsmall (regiões repetitivas em minúsculas, o resto em
maiúsculas)
– small (toda a seqüência em minúsculas)
Saída
• Arquivos:
– Seqüência original com regiões escondidas (masked
sequence)
– Annotation file
– Resumo (summary table)
– Alinhamentos (opcional)
Masked Sequence
• Arquivo idêntico ao arquivo de entrada. Exceto
pelas regiões Escondidas
Annotation File
• Um resumo do arquivo de alinhamentos
• Para cada casamento (match) mostra informações da
seqüência de entrada e da base de dados
– Score
– Porcentagem de
• Substituições, Deleções, Inserções
– Nome da seqüência de entrada
– Na seqüência de entrada, posições de
• início, fim, distância da extremidade direita
– Marca de complemento. “C” = complemento
– Nome e tipo da repetição
– Na repetição, posições de
• início, fim, distância da extremidade direita
Summary Table
• Auto-explicativo
• Visão global e estatísticas sobre o que foi feito
Alinhamentos (Opcional)
• Mostra em detalhes os alinhamentos
• Legenda:
– i: transition (g – a, c - t)
– t: transvertion
– ?: alinhado com incógnita
Aplicações
• Busca em base de dados
– Evita casamentos dispendiosos em regiões não
codificantes
– Ex.: antes do blast
• Associado a programas de predição de genes
– Comparar a saida de ambos os programas
– Incorporar RepeatMasker aos programas existentes
Referências
– Página oficial
http://repeatmasker.genome.washington.edu/cgibin/RepeatMasker/
– Base de repetições: Genetic Information Research Institute
http://www.girinst.org/
– Notes on Interspersed Repeats: Um resumo dos principais
tipos de repetições esparsas.
http://globin.cse.psu.edu/globin/html/courses/spring2000/rep
eats.html
– National Center for Biotechnology Information
http://www.ncbi.nlm.nih.gov/