Computational Identification
and Characterization
of Novel Genes from Legumes
Michelle A. Graham, Kevin A.T. Silverstein, Steven B.
Cannon, and Kathryn A. VandenBosch
Julho, 2004
Camilla Moreira
Prof. Paulo Andrade
Introdução
• Importância das Leguminosas (Fabaceae)
• Disponibilidade de seqüências
• ESTs
• TCs – tentativas consenso
• Seqüências específicas
Objetivo
Utilizar seqüências disponíveis no banco de
dados para identificar de forma rápida e
eficiente seqüências de M. truncatula, L.
japonicus e soja, que não têm homólogos em
outros grupos de não-legumes, além de sugerir
funções às seqüências-específicas encontradas
Materiais e Métodos
• Identificação das seqüências-específicas
BLAST
• Caracterização
BlastX
InterProScan
Identificação
Foram usados algoritmos BLAST para
comparar os unigenes (TCs) de Medicago
truncatula, Lotus japonicus e Glycine soja e
max, contra conjuntos de unigenes: NR e EST
do GenBank, e sequências genômicas de arroz
e
Arabidopsis,
além
de
seqüências
nucleotídicas do TIGR
BLAST
• Filtro nas seqüências (repetições, cauda poliA)
• 1º Round
TIGR
TCs
Medicago
Lotus
Glycine
BlastN
e
TBlastX
10-4
Milho
Tomate
Arroz
Arabidopsis
-4
10
Próxima
fase
E-value > 10-4
BLAST
• 2º Round
• TCs
Medicago
Lotus
Glycine
BlastX
10-4
10-4
Banco NR
Espera-se
que sejam
específicas
E-value < 10-4
BLAST
• 3º Round
TBlastX
(TIGR)
Algodão
Alface
Batata
Centeio
Cevada
Girassol
Pinus
Trigo
Sorgo
10-4
10-4
E-value > 10-4
BLAST
• 4º Round
TBlastX
Genoma de
Arroz e
Arabidopsis
E-value > 10-4
BLAST
• 5º Round
TBlastX
EST_Others
E-value > 10-4
Seqüências específicas de
Leguminosas
Identificação Computacional de Genes
Legume-específicos
<<
InterProScan
• Banco de dados de proteínas, domínios e
locais funcionais, no qual características
identificáveis encontradas em proteínas
conhecidas
podem
ser
aplicadas
à
seqüências protéicas desconhecidas
• Busca por motivos protéicos
Caracterização
• Seq Específicas x GenBank (NR)
20% com homologia
• 1ª Análise por Motivos Conservados de
outras proteínas
46 TCs contendo 55 motivos conservados
• 41 ricos em aa específicos
• 14 – F-Box, inibidores de
pectinesterase, zinc finger e nodulinas
Caracterização
• 2ª Mineração de grupos de genes legumeespecíficos com domínios comuns não
caracterizados (geração de único domínio)
• Domínio gerado  procurar entre proteínas
para atribuir função
• 2.525 TCs + 50, 672 e 688 homólogos single
• 665 grupos de potenciais famílias gênicas
F-Box, Ricos em prolina e ricos em cisteína
(CCPs)
Similaridade entre os Motivos de F-Box
Análise dos Motivos dos Grupos CCP
BAC Mth2-34P9
pb
pb
A. Regiões com similaridade (e<-10) a sequências
do GenBank
1.
2.
3,
4,
retroelemento de Arabidopsis
Proteína gag de pêra
poliproteína Pol de Nicotiana tabacum
Proteína de membrana associada a vesícula de
Arabidopsis
5. Poliproteína de N. tabacum
6. Albumin 1 de Medicago truncatula
7, Proteína T31J12.4 de Arabidopsis
8. Transposase Mariner de G. max
9. Proteína expressa de Arabidopsis
10. Fator de transcrição de Arabidopsis
11. Elemento de transposição Tnp2 de Antirrhinum majus
MR = mini-repeats
CCP = genes para proteínas ricas em
cisteína
R1, R2 e R3
Setas verdes: início da tradução da CCP
Cores nos MR = similaridade entre si
Correlação “filogenética” entre os vários mini-repeats e quadro que
mostra a provável composição de MR3-1 a partir de MR1-1 e MR1-2
MYTEADDRA
Dot plot (esquema)
MYTEADDRAMYT
Dot plot (resultado real)
Conclusões
• Origem de não-legumes
• Similaridade com motivos bem representados
em diversas categorias
• Esses genes podem ser exemplos de rápida
evolução (Blast não pode identificar)
• Genes novos – falha na detecção por domínios
(ou não detectados, ou sem similaridade com
proteínas conhecidas)
Conclusões
• Identificação de famílias gênicas tecido
específica
10 raiz e nódulos
8 sementes
4 folhas e flores
7 situações de estresse e patógenos
• Genes
candidatos
à
transformação
ou
silenciamento gênico em análise futuras de
função gênica
Obrigada