Aglomerados ou Clusters • Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) • Podemos saber quantas vezes um gene foi seqüenciado e detectar os freqüentes! • Usa-se também para validar bibliotecas • E para expressão diferencial Programas para agrupar transcritos • • • • • • Icatools Phrap Cap3, PCAP Stack Pack MegaBLAST TGICL (MegaBLAST + Cap3) Um aglomerado = Um gene Qualidade das bibliotecas (100 primeiras ESTs) Boa biblioteca? 1 2 3 4 5 7 9 11 Freqüência em que uma EST foi amostrada UniGene • Organização das sequências do GenBank em um conjunto de aglomerados • Cada aglomerado do UniGene contém as sequências que representam um gene único • E também informações relacionadas, como em que tecidos o gene é expresso, etc. • E também onde está mapeado MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar Construção de UniGene para AW1 (5.145 ESTs correspondem a 2.026 clusters) 1800 300000 1600 200000 1200 1000 800 600 400 200 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 >15 0 Número de seqüências no aglomerado Número de algomerados 1400 100000 0 1 2 Etapa 3 4 identidade > 96 % alinhamento > 70 % do potencial