Gene Projects [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp Motivação • Muitos dados são gerados num projeto genoma : – Fungo Crinipellis Perniciosa : • 170.000 reads • 26000 contigs + singlets • 70% hits encontrados no NR – Café • 200.000 reads • 35000 contigs + singlets • 80% hits encontrados NR • Necessidade de explorar os dados no decorrer do sequenciamento • Estratégias mais eficientes para buscar genes : – Busca por palavras chaves em resultados de blasts (Keyword Search) – Busca por sequências similares (Blast Search) – Busca por padrões de repetição (Pattern Search) • Estratégia para eliminar redundância : – Clusterização Introdução • Gene Projects é uma programa que permite : – Realizar buscas por : • Palavra chave • Similaridade de sequências • Padrões – Fazer clusterizações dos reads de interesse e analisar a qualidade da montagem – Visualizar a sequência fasta e o resultado de blast dos reads e dos contigs formados – Ampliar o contig na busca de genes inteiros – Burcas ORFs (ORFFinder) – Armazenar todos em resultados em projetos – Trabalhar via WEB Uma visão geral Gene Projects WWW Visualizar sequências, blasts, montagens, ORFs e ... Análise Reads Ferramentas de Buscas Contigs Padrões Visualizar sequências e blasts Banco de Dados Clusterização Sequência Palavra chave Fluxograma: projeto genoma Temáticas Serviço de submissão Submissão - Phred Blastx/n contra nr/nt Relatório - Cross_Match Armazena os arquivos de Blasts Alimenta o banco de dados com : Sequência Fasta - Qualidade do read (qte bases > 20) Qualidade das bases - Tamanho do read Informação sobre vetores - Resultado da blastagem (e-value, score, cabeçalho) - Vetores (qte bases com vetor) >Unknown sequences #1 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ... Gene Projects - Busca de seqüências por: - Palavra chave; - Blast Sequences; - Seqüências específicas. - Pattern search - Filtros de qualidade de nucleotídeos. - Visualização das seqüências selecionadas: - “Clusterização” utilizando o software Phrap/Cap3 - Análise de contigs e singlets por : - Blast contra nr; - Blast contra reads; - ORFFinder. - Ferramenta para fechamento de contigs através de Blast saturação. Iniciando um projeto • Cadastro de usuário Não usar espaços ou caracteres especiais para o usuário e nome do projeto • Inclusão de projetos Ferramentas de busca Ferramentas de busca • Reads search Ferramentas de busca • Keyword search Ferramentas de busca • Blast search Ferramentas de busca • Pattern search N - Qualquer nucleotídeo N(3) - Uma sequência de três nucleotídeos N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos [AC] - pode ser um A ou um C {AG} - não pode ser nem A e nem G Ex : [CG](5)TG{A}N(1,5)C • Interface de projetos >Contig1 xxxxxxxxxtgatgcacgtcgac tctataggatcaatatcctagccag aaaacttctcggtcaaggtctgtat gacaaagtctcgcaagcatctgta gagctctactcggaag CP01-S0-001-001-A01-UC.F CP01-S0-001-001-A04-UC.F Blast Saturação >Contig1 xxxxxxxxxtgatgcacgtcgactctata ggatcaatatcctagccagaaaacttctcg gtcaaggtctgtatgacaaagtctcgcaag catctgtagagctctactcggaag CP01-S0-001-001-A01-UC.F CP01-S0-001-001-A04-UC.F Blastn/reads Blastando ... Sequencias que produziram alinhamentos signific antes : CP01-S0-001-001-A01-UC.F > Existente CP01-S0-001-001-A04-UC.F > Existente CP02-PF-012-001-D08-UE.R > Incluido CP02-S2-000-028-H06-UE.F > Incluido Se existirem 1419 0.0 - 1291 0.0 - 1263 0.0 - 1261 0.0 - Se não existirem novas inclusões : FIM novas inclusões : Acrescenta os novos reads Clusterizando novamente >Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctag ccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaa gcatctgtagagctctactcggaagatatatatatatatatatat … Se o tamanho do novo contig exceder o limite : FIM Anotação automática de genes INTERFACE DE ANOTAÇÃO: GERAÇÃO DE SEMENTES: - Localização de uma ORF em um contig; - Comparação de ORFs novas com genes existentes; - Anotação automática nos bancos nr e GO (Gene Ontology Consortium); - Identificação de regiões promotora e codante; - Atualização de genes existentes - Resultado do GO; - Resultados de Blast contra nr; - Classificação baseada no GO : - Função molecular; - Processo biológico; - Componente celular. - Ferramentas de busca em sites por: - Palavra chave; - Blast Sequences. - Histórico de anotação; - Consulta de genes anotados Análise dos clusters • ORFFinder Análise dos clusters • Blastn contra a montagem geral Interface de Anotação GeneProjects Conclusão • Permite a mineração dos dados em qualquer instante do projeto • Facilita a busca de genes específicos • Armazena todos os resultados em projetos • Possui ferramentas de ampliação e análise de seqüências codantes • Faz a conexão do novo contig gerado com a montagem geral • Disponibiliza todos os esses serviços via WEB FIM