Gene Projects
[email protected]
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Motivação
• Muitos dados são gerados num projeto
genoma :
– Fungo Crinipellis Perniciosa :
• 170.000 reads
• 26000 contigs + singlets
• 70% hits encontrados no NR
– Café
• 200.000 reads
• 35000 contigs + singlets
• 80% hits encontrados NR
• Necessidade de explorar os dados no
decorrer do sequenciamento
• Estratégias mais eficientes para buscar
genes :
– Busca por palavras chaves em resultados de
blasts (Keyword Search)
– Busca por sequências similares (Blast Search)
– Busca por padrões de repetição (Pattern
Search)
• Estratégia para eliminar redundância :
– Clusterização
Introdução
• Gene Projects é uma programa que permite :
– Realizar buscas por :
• Palavra chave
• Similaridade de sequências
• Padrões
– Fazer clusterizações dos reads de interesse e
analisar a qualidade da montagem
– Visualizar a sequência fasta e o resultado de blast
dos reads e dos contigs formados
– Ampliar o contig na busca de genes inteiros
– Burcas ORFs (ORFFinder)
– Armazenar todos em resultados em projetos
– Trabalhar via WEB
Uma visão geral
Gene
Projects
WWW
Visualizar sequências,
blasts,
montagens,
ORFs e ...
Análise
Reads
Ferramentas
de Buscas
Contigs
Padrões
Visualizar
sequências e
blasts
Banco
de
Dados
Clusterização
Sequência
Palavra
chave
Fluxograma: projeto genoma
Temáticas
Serviço de submissão
Submissão
- Phred
Blastx/n contra nr/nt
Relatório
- Cross_Match
Armazena os arquivos de Blasts
Alimenta o banco de dados com :
Sequência Fasta
- Qualidade do read (qte bases > 20)
Qualidade das bases
- Tamanho do read
Informação sobre vetores
- Resultado da blastagem (e-value,
score, cabeçalho)
- Vetores (qte bases com vetor)
>Unknown sequences #1
5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40
40 45 50 50 50 ...
Gene Projects
- Busca de seqüências por:
- Palavra chave;
- Blast Sequences;
- Seqüências específicas.
- Pattern search
- Filtros de qualidade de nucleotídeos.
- Visualização das seqüências selecionadas:
- “Clusterização” utilizando o software
Phrap/Cap3
- Análise de contigs e singlets por :
- Blast contra nr;
- Blast contra reads;
- ORFFinder.
- Ferramenta para fechamento de contigs através
de Blast saturação.
Iniciando um projeto
• Cadastro de usuário
Não usar espaços ou
caracteres especiais para
o usuário e nome do
projeto
• Inclusão de projetos
Ferramentas de busca
Ferramentas de busca
• Reads search
Ferramentas de busca
• Keyword search
Ferramentas de busca
• Blast search
Ferramentas de busca
• Pattern search
N - Qualquer nucleotídeo
N(3) - Uma sequência de três
nucleotídeos
N(2,4) - Uma sequência de 2,3 ou 4
nucleotídeos
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
Ex :
[CG](5)TG{A}N(1,5)C
• Interface de projetos
>Contig1
xxxxxxxxxtgatgcacgtcgac
tctataggatcaatatcctagccag
aaaacttctcggtcaaggtctgtat
gacaaagtctcgcaagcatctgta
gagctctactcggaag
CP01-S0-001-001-A01-UC.F
CP01-S0-001-001-A04-UC.F
Blast Saturação
>Contig1
xxxxxxxxxtgatgcacgtcgactctata
ggatcaatatcctagccagaaaacttctcg
gtcaaggtctgtatgacaaagtctcgcaag
catctgtagagctctactcggaag
CP01-S0-001-001-A01-UC.F
CP01-S0-001-001-A04-UC.F
Blastn/reads
Blastando ...
Sequencias que produziram alinhamentos signific
antes :
CP01-S0-001-001-A01-UC.F
> Existente
CP01-S0-001-001-A04-UC.F
> Existente
CP02-PF-012-001-D08-UE.R
> Incluido
CP02-S2-000-028-H06-UE.F
> Incluido
Se existirem
1419
0.0
-
1291
0.0
-
1263
0.0
-
1261
0.0
-
Se não existirem novas
inclusões : FIM
novas inclusões :
Acrescenta os novos reads
Clusterizando novamente
>Contig1
xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctag
ccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaa
gcatctgtagagctctactcggaagatatatatatatatatatat
…
Se o tamanho do novo
contig exceder o limite :
FIM
Anotação automática de genes
INTERFACE DE ANOTAÇÃO:
GERAÇÃO DE SEMENTES:
- Localização de uma ORF em um contig;
- Comparação de ORFs novas com genes
existentes;
- Anotação automática nos bancos nr e GO
(Gene Ontology Consortium);
- Identificação de regiões promotora e
codante;
- Atualização de genes existentes
- Resultado do GO;
- Resultados de Blast contra nr;
- Classificação baseada no GO :
- Função molecular;
- Processo biológico;
- Componente celular.
- Ferramentas de busca em sites por:
- Palavra chave;
- Blast Sequences.
- Histórico de anotação;
- Consulta de genes anotados
Análise dos clusters
• ORFFinder
Análise dos clusters
• Blastn contra a montagem geral
Interface de Anotação
GeneProjects
Conclusão
• Permite a mineração dos dados em
qualquer instante do projeto
• Facilita a busca de genes específicos
• Armazena todos os resultados em
projetos
• Possui ferramentas de ampliação e
análise de seqüências codantes
• Faz a conexão do novo contig gerado com
a montagem geral
• Disponibiliza todos os esses serviços via
WEB
FIM
Download

Click here to get the file