RepeatMasker • Aluno: Fred Ulisses maranhão • Professora: Kátia S. Guimarães • Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001 Introdução • http://repeatmasker.genome.washington.edu/cgi -bin/RepeatMasker/ • Função: Esconder repetições esparsas, regiões de baixa complexidade e repetições simples • Desenvolvido e mantido por: Phil Green, University of Washington Repetições • Repetições esparsas • Regiões de baixa complexidade (ex.: CT-rich) – Repetições simples (ex.: (TG)n ) O Problema • Sequência de DNA com repetições são dificeis de montar e de pesquisar • Mascar regiões repetitivas pode facilitar o trabalho de varias outras ferramentas computacionais – Ex.: PhredPhrap O Algoritmo • Busca de alinhamentos de melhor score • Compara uma seqüência, com seqüências numa base de dados • Procura alinhamentos locais • Utiliza matrizes de similaridade • Esconde com: – N para nucleotídeos – X para proteínas O Algoritmo • RepeatMasker – cross_match + base de repetições • swat –Smith-Waterman Algorithm Algoritmo de Smith-Waterman • • • • Programação dinâmica Matriz de alinhamentos Tempo: O(n*m); Espaço: O(n*m) Matriz de Dayhoff: matrizes PAM Matriz de alinhamentos e A A C T e 0 0 0 0 0 T 0 0 0 0 1 A 0 1 1 0 0 A 0 1 2 0 0 C 0 0 0 3 1 G 0 0 0 1 2 G 0 0 0 0 0 Matriz de alinhamentos 0 0 0 0 0 base de repetições 0 0 0 0 0 0 1 1 0 0 0 1 2 0 0 0 0 0 3 1 1 0 0 1 2 0 0 0 0 0 Matriz PAM A R N D . . . Z X * A R N D ... Z X 2 -2 0 0 0 0 -2 6 0 -1 ... 0 -1 0 0 2 2 1 0 0 -1 2 4 3 -1 . . . . . . . . . 0 0 1 3 3 -1 0 -1 0 -1 ...-1 -1 -8 -8 -8 -8 -8 -8 * -8 -8 -8 -8 -8 -8 1 Entrada • Seqüência – Formato Fasta – Modo de envio: html ou arquivo • Opções Opções • Formato de retorno: html, arquivo tar ou links • Modo de retorno: na própria janela ou por e-mail • Velocidade/sensibilidade – Default – Slow: 3 vezes mais lento, 0 a 5% mais seqüências encontradas – Quick: 3 a 6 vezes mais rápido. Ignora 5 a 10% mais seqüências Opções • Origem do DNA: – – – – Primatas, roedores (otimizados) Outros mamíferos, Arabidopsis, Drosophila Outros vertebrados, gramíneas (recentes) http://www.girinst.org/~server/repbase.html Opções • Mostrar alinhamentos (arquivo de alinhamentos) • Não esconde repetições simples e DNA de baixa complexidade • Esconde apenas repetições simples e DNA de baixa complexidade Opções • Apenas esconde Alus (específico para primatas) • Esconde com “X” para distinguir regiões escondidas de “N”s já existentes na seqüência de entrada • Gera uma “annotation table” com tamanho fixo de colunas Outras Opções • Opções menos comuns podem ser digitadas: – div (limita a porcentagem máxima de divergências num alinhamento) – inv (por default, alinhamentos são no sentido das seqüências de entrada. Com esta opção, ficam no sentido das repetições da base) – frag (define o tamanho dos fragmentos com os quais o programa vai trabalhar) – xsmall (regiões repetitivas em minúsculas, o resto em maiúsculas) – small (toda a seqüência em minúsculas) Saída • Arquivos: – Seqüência original com regiões escondidas (masked sequence) – Annotation file – Resumo (summary table) – Alinhamentos (opcional) Masked Sequence • Arquivo idêntico ao arquivo de entrada. Exceto pelas regiões Escondidas Annotation File • Um resumo do arquivo de alinhamentos • Para cada casamento (match) mostra informações da seqüência de entrada e da base de dados – Score – Porcentagem de • Substituições, Deleções, Inserções – Nome da seqüência de entrada – Na seqüência de entrada, posições de • início, fim, distância da extremidade direita – Marca de complemento. “C” = complemento – Nome e tipo da repetição – Na repetição, posições de • início, fim, distância da extremidade direita Summary Table • Auto-explicativo • Visão global e estatísticas sobre o que foi feito Alinhamentos (Opcional) • Mostra em detalhes os alinhamentos • Legenda: – i: transition (g – a, c - t) – t: transvertion – ?: alinhado com incógnita Aplicações • Busca em base de dados – Evita casamentos dispendiosos em regiões não codificantes – Ex.: antes do blast • Associado a programas de predição de genes – Comparar a saida de ambos os programas – Incorporar RepeatMasker aos programas existentes Referências – Página oficial http://repeatmasker.genome.washington.edu/cgibin/RepeatMasker/ – Base de repetições: Genetic Information Research Institute http://www.girinst.org/ – Notes on Interspersed Repeats: Um resumo dos principais tipos de repetições esparsas. http://globin.cse.psu.edu/globin/html/courses/spring2000/rep eats.html – National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/