Aglomerados ou
Clusters
• Uma das atividades em bioinformática é formar
aglomerados de todas as sequências geradas no
projeto (as figurinhas de um álbum)
• Podemos saber quantas vezes um gene foi
seqüenciado e detectar os freqüentes!
• Usa-se também para validar bibliotecas
• E para expressão diferencial
Programas para agrupar
transcritos
•
•
•
•
•
•
Icatools
Phrap
Cap3, PCAP
Stack Pack
MegaBLAST
TGICL (MegaBLAST + Cap3)
Um aglomerado = Um gene
Qualidade das bibliotecas
(100 primeiras ESTs)
Boa biblioteca?
1
2
3
4
5
7
9
11
Freqüência em que uma EST foi amostrada
UniGene
• Organização das sequências do GenBank em um
conjunto de aglomerados
• Cada aglomerado do UniGene contém as sequências
que representam um gene único
• E também informações relacionadas, como em que
tecidos o gene é expresso, etc.
• E também onde está mapeado
MegaBLAST gera o UniGene
Todas ESTs contra todas
Detecção de homologia
> 96% de identidade
> 70% do potencial
Aglomerar
Construção de UniGene para AW1
(5.145 ESTs correspondem a 2.026 clusters)
1800
300000
1600
200000
1200
1000
800
600
400
200
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 >15
0
Número de seqüências no aglomerado
Número de algomerados
1400
100000
0
1
2
Etapa
3
4
identidade > 96 %
alinhamento > 70 %
do potencial
Download

Unigene - Biodados