Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias Tópicos da Apresentação Motivação Trimagem Verificação de contaminação Clusterização Proposta Cronograma Motivação Importância dos projetos de seqüenciamento Projetos EST no Brasil Ausência de metodologia padrão utilizada pelos diferentes projetos Possibilidade de identificação de melhorias a serem feitas nos processos existentes Trimagem Seqüências EST possuem altas taxas de erros Remoção de regiões de: baixa qualidade vetores adaptadores trechos de baixa complexidade Seqüência de bases 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG Qualidades das bases 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG Baixa Qualidade Alta Qualidade Baixa qualidade 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 XXXGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade Vetor 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCCACGCGTCCGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade Adaptador 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade Seqüência trimada 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade Problemas – Trimagem 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCTCGACCCACGCGTCCGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade Problemas – Trimagem 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA AGGCTCAGGTAGGATTATTTTXXXXXXXXXXXXXXXXXXXTGTAACAAGCTTTGCACCTC CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade Verificação de contaminação Seqüências EST comumente sofrem contaminação de diferentes tipos Identificação e remoção de seqüências contaminadas são necessárias para que não sejam geradas informações inválidas sobre o organismo em estudo Métodos de detecção de contaminação: Similaridade Conjunto de características Similaridade Seqüências de organismos Contaminantes Seqüências a serem verificadas Seqüências contaminadas BLAST Seqüências não contaminadas Contaminação Determinada por critério pré-definido Exemplo: similaridade de 98% e cobertura mínima de 75 bases Conjunto de características Seqüências de organismos contaminantes Extratores de características Assinatura Seqüências contaminadas Comparação Seqüências a serem analisadas Extratores de características Assinatura Outras seqüências Comparação Seqüências conhecidas do organismo alvo Extratores de características Assinatura Seqüências pertencentes ao organismo Clusterização Necessária para eliminação de redundância e identificação de genes Exemplo: 1 2 3 4 5 6 7 8 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC CGTTAATTGACGACTCTGATATTTACTAAGTTTGAGTTATGGACGA CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG CAAGTAGCTTTGGTAATCTTCTCAGTACAACCGACCCACCGTTTCAATCTTTGTA TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA Clusterização Cluster 1 – Tamanho 5 C GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGACGA 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA 5 CGTTAATTGACGACTC*TGATATTTACTAAGTTTGAGTTATGGACGA Cluster 2 – Tamanho 2 C TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATCTTTGTA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 7 CAAGTAGCTTTGGTAA*TCTTCTCAGTACAACCGACCCACCGTTTCAA*TCTTTGTA Singleton 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA Clusterização Existência de diversos programas de clusterização: TGICL Phrap TIGR Assembler CAP3 Validação dos resultados obtidos nos processos de trimagem e verificação de contaminação Proposta – Trimagem Estudos de possíveis melhorias nos processos de trimagem existentes Criação de um conjunto de procedimentos padrões Realização de testes para validação do conjunto de procedimentos Proposta – Contaminação Estudo de possíveis melhorias nos critérios de verificação de contaminação existentes Integração entre os métodos de detecção por similaridade e por conjunto de características Definição de um critério que melhor se aplique ao contexto de projetos EST Realização de testes para validação da metodologia Proposta – Clusterização Análise de programas de clusterização e de seus parâmetros Testes para identificação do melhor programa Utilização da clusterização para validação dos métodos desenvolvidos para trimagem e verificação de contaminação Cronograma 1 – Trimagem: I – Estudo e identificação de melhorias II – Testes III – Escrita dos resultados obtidos no testes Cronograma 2 – Verificação de contaminação: IV – Estudo e identificação de melhorias V – Testes VI – Escrita dos resultados obtidos nos testes Cronograma 3 – Clusterização: VII – Escolha dos programas VIII – Avaliação dos valores de parâmetros IX – Testes X – Escrita dos resultados obtidos nos testes Cronograma 4 – Dissertação: XI – Revisão final do texto XII – Defesa