Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas bacterianos 8-04-2013 Genómica 12-13 MJC 2 Genomas Bacterianos • Bastante mais abundantes que os eucariotas: – Preço – Tamanho – Desconhecimento • Num único dia podem ser sequenciados vários genomas microbianos. MAS….. • A anotação demora bastante mais. 8-04-2013 Genómica 12-13 MJC 3 Anotação de genomas Microbianos Sequenciação NGS • Produz os contigs e scaffolds Pipeline automática • Anota os genes possíveis Revisão manual dos resultados 8-04-2013 Genómica 12-13 MJC • Verifica a anotação automática adicionando mais informação geralmente com base em genomas conhecidos 4 Informação adicional • Ribosomal binding sites (RBSs) • Zonas de término • Motivos e Domínios conservados São informações que refinam e retificam a anotação automática de previsão de genes. Assim a informação dos organismos próximos é muito enriquecida. 8-04-2013 Genómica 12-13 MJC 5 Mais concretamente… • Deve ser próximo do tamanho médio do gene para essa espécie. • Porquê? UTRs Splicing Alternativo – Assim em média metade dos genes estão contidos num único scafold. 8-04-2013 Genómica 12-13 MJC 6 Processo genético de anotação de genomas bacterianos Que outras características? Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press. Que outras características? • • • • RBSs? Sequência Shine-Dalgarno Zonas de termino independentes de Rho. Domínios conservados de proteínas. HGT (assimetrias em composição dos codões e no conteúdo GC); transposases, integrases e elementos IS (elementos de insersão). • Repetições Clustered Regularly Inter-spaced Short Palindromic Repeats e outras repetições sequenciais. 8-04-2013 Genómica 12-13 MJC 8 Num mundo perfeito…. • A anotação estaria completa e correta. MAS…. – Muita da anotação é baseada em homologia de sequências: • Muitas das anotações existentes estão erradas e esses erros são perpetuados. – – – – – 8-04-2013 Inconsistências Erros “ortográficos” O mesmo nome do gene mas produtos genéticos diferentes Proteínas hipotéticas Distinção entre ortólogos e parólogos Genómica 12-13 MJC 9 ANOTAÇÕES INCONSISTENTES 8-04-2013 Genómica 12-13 MJC 10 Espécies e estirpes anotadas por grupos diferentes • Principalmente a nível de genes fusionados/separados • Identificação de genes funcionais ou pseudogenes. • Nomenclatura dos genes muitas vezes é diferente entre grupos. 8-04-2013 Genómica 12-13 MJC 11 Seis anotações diferentes do locus eutM/eutN de Salmonella. Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press. Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli 0157:H7 Sakai. Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press. Escolher os genomas de referência. Usar “média” quando possível e apropriado. Erros ortográficos? • 128 proteínas syntase em vez de synthase. – Trivial? Não, se a procura for com o termo correto há 128 que não aprecem nos resultados. – Software que use a estratégia “did you mean..” 8-04-2013 Genómica 12-13 MJC 14 Mesmo nome (abreviatura) do gene e diferente proteína • 2696 genomas de microrganismos e plasmídeos têm – 23843 genes com pelo menos 2 produtos diferentes: • O gene tnp tem 151 produtos e o tnpA +97. • Em salmonella o gene int tem 12 produtos diferentes, alguns “não produtos”. 8-04-2013 Gene name Product name int bacteriophage integrase int int Gifsy-1 prophage Int hypothetical protein int Integrase int integrase (fragment) phage integrase family site specific recombinase putative cytoplasmic protein Putative integrase putative integrase protein putative P4-type integrase putative phage integrase protein site-specific recombinase, phage integrase family int int Int int int int int Genómica 12-13 MJC Accession NC_003198, NC_004631, NC_015761 NC_006905 NC_006905 NC_003198, NC_004631, NC_006511, NC_012125 NC_003198 NC_006905 NC_006905 NC_003384 NC_006905 NC_006905 NC_006905 NC_012125 15 Proteínas hipotéticas ou previstas • “hypothetical protein” = gene previsto pelo software mas para o qual não há homólogos e não tem domínios funcionais. 53035 • “uncharacterized protein” = 5178212 • Erros de anotação ou proteínas cuja função se desconhece? • Ygenes genes cujo nome provem hipoteticamente da distancia a que está dos genes conhecidos na vizinhança. • Nível de conhecimento que permite a anotação de hipotética deveria ter um peso estatístico. 8-04-2013 Genómica 12-13 MJC 16 Proteínas e domínios desconhecidos • Devem ser eliminados da anotação? • O facto de serem desconhecidos não dá muita informação • Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? 8-04-2013 Genómica 12-13 MJC 17 Distinção entre ortólogos e parólogos Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press. Distinção entre ortólogos e parólogos • Devem ser eliminados da anotação? • O facto de serem desconhecidos não dá muita informação • Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? 8-04-2013 Genómica 12-13 MJC 19 REGRAS DAS BASES DE DADOS DE SEQUÊNCIAS 8-04-2013 Genómica 12-13 MJC 20 Nomenclatura dos CDs • Termos proibidos na nomenclatura das sequências: – Binding, like, domain, motif, gene, homolog • As bases a que se submete a anotação muitas vezes têm programas de validação que detetam estes erros e fazem sugestões de correção. • Outras situações que são previstas como erros são: – CDSs com o nome idêntico a um gene imediatamente ao lado. – Nomes de genes que aparecem mais que uma vez com produtos genéticos diferentes. – Zonas codificantes dentro de outras. 8-04-2013 Genómica 12-13 MJC 21 FUTURO DA ANOTAÇÃO DE GENOMAS BACTERIANOS 8-04-2013 Genómica 12-13 MJC 22 Melhorias para o futuro • Genomas Gold standard – Melhoramento das regras de submissão para evitar alguns erros e sua propagação: • • • • Qualidade da evidência de previsão Previsão automática ou manual Tipo de dados de origem Versão da anotação – Ha genomas com mais dados e portanto podem ser usados com mais confiança: • E.coli, Pseudomonas aeruginosa e Bacillus subtilis – Proteínas multifuncionais são um problema pois a função muitas vezes não pode ser traduzida num nome. GO são uma boa opção a juntar à anotação. 8-04-2013 Genómica 12-13 MJC 23 Melhorias para o futuro • Melhorias na anotação automática – Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática: • Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO • Novos tipos de dados – Dados de expressão de micro-arrays e RNA-Seq. – Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais. 8-04-2013 Genómica 12-13 MJC 24 CONCLUSÕES 8-04-2013 Genómica 12-13 MJC 25 • Avanços em técnicas de sequenciação mas não de anotação • Anotação automática é essencial mas ainda está muito aquém da manual e há muita propagação de erros. • Uso da informação adicional tb não é pacífica: o que deve estar anotado e o que deve permanecer em bases separadas? • O uso de anotações GO melhora a descrição das proteínas e reduz erros de sintaxe. 8-04-2013 Genómica 12-13 MJC 26 Referências • “The automatic annotation of bacterial genomes” artigo na pasta do molar. 8-04-2013 Genómica 12-13 MJC 27