Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes ab initio e baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização 8-04-2013 Genómica 12-13 MJC 2 Anotação de genomas • Estrutural – Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões • Funcional – Ligação das estruturas (sequências) a ontologias genéticas 8-04-2013 Genómica 12-13 MJC 3 Realidade atual • Sequenciação Fácil e barata • Montagem e anotação ainda não acompanharam: – As sequências tornaram-se menores; – Muitos dos genomas atualmente sequenciados são de espécies “exóticas” – Começa a haver muitos dados: • Quantidade • Qualidade (RNA-seq) 8-04-2013 Genómica 12-13 MJC 4 Da montagem à Anotação • Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. – – – – N50 Tamanho das gaps no scafold Número de gaps por scafold Cobertura do genoma. Devem escolher-se high quality drafts (<=> 90% do genoma completo) – Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. – Cobertura de genes >> cobertura do genoma. Porquê? 8-04-2013 Genómica 12-13 MJC 5 Que N50? • Deve ser próximo do tamanho médio do gene para essa espécie. • Porquê? UTRs Splicing Alternativo – Assim em média metade dos genes estão contidos num único scafold. 8-04-2013 Genómica 12-13 MJC 6 As informações anteriores permitem • Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável. • Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis. – Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. – Os dados podem ser usadas como modelos para a determinação de exões/intrões. 8-04-2013 Genómica 12-13 MJC 7 Se • A montagem estiver muito incompleta • N50 for demasiado pequeno…. – A melhor aposta é fazer mais sequenciação. 8-04-2013 Genómica 12-13 MJC 8 FASE DE COMPUTAÇÃO 8-04-2013 Genómica 12-13 MJC 9 Identificação de zonas repetitivas • Baixa complexidade – Trinucleótidos • Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. • Consituem cerca de 47% do genoma humano • Nem sempre estão completos e as extremidades não estão bem definidas. • As repetições nem sempre são conservadas. 8-04-2013 Genómica 12-13 MJC 10 Identificação de zonas repetitivas • Começa por criar-se uma biblioteca de repetições para cada anotação: – Baseada em homologias – De novo (nestas ferramentas geralmente são incluidas outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). • Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. • Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? 8-04-2013 Genómica 12-13 MJC 11 ALINHAMENTO 8-04-2013 Genómica 12-13 MJC 12 Alinhamento das evidências já conhecidas • • • • • • ESTs RNA-seq Proteínas Do mesmo ou de organimos parecidos. O alinhamento é avaliado por % identidade ou % de semelhança. Depois faz-se o agrupamento: – Seleção dos alinhamentos repetidos – Identificação de alinhamentos muito expressos por exemplo (estes são suportados por várias ESTs) • A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo. 8-04-2013 Genómica 12-13 MJC 13 Previsão de genes ab initio • Usam modelos matemáticos e não evidência extra. • Podem ser uteis quando não há evidências experimetais sobre o genoma • Mas são menos poderosos.: – Referem apenas as CDs e não UTRs ou sequências de splicing alternativo. – Precisam de dados específicos para o organismo como frequências dos codões, tamanho dos exões/intrões e % GC. – Precisam de ser treinados com dados o mais perto possível da espécie em análise. – Existem dados para os genomas clássicos mas faltam para espécies mais “exóticas”. – Aqui os dados do GEGMA podem ajudar. • Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões. 8-04-2013 Genómica 12-13 MJC 14 PREVISÕES BASEADAS EM EVIDÊNCIA 8-04-2013 Genómica 12-13 MJC 15 Baseada noutro tipo de dados • Usa EST e RNA-seq e até dados de proteómica. • Cada vez mais as soluções usadas passam pelos dois tipos de aproximações. 8-04-2013 Genómica 12-13 MJC 16 FASE DA ANOTAÇÃO 8-04-2013 Genómica 12-13 MJC 17 Anotação • Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: – Fase da computação • São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. • São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação • Feita por pipelines • Anotam o início e fim de cada gene, exões/intrões e UTRs 8-04-2013 Genómica 12-13 MJC 18 Fase da anotação Previsão CDCs Anotação 8-04-2013 Genómica 12-13 MJC 19 Manual vs automática • Era feito à mão • Hoje é feito automáticamente dado o volume de dados existentes. • Os anotadores automáticos: – Usam a informação fornecida para encontrar genes. – Alinham essas previsões para obter o melhor consenso. – Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) – Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos). 8-04-2013 Genómica 12-13 MJC 20 VISUALIZAÇÃO DA ANOTAÇÃO 8-04-2013 Genómica 12-13 MJC 21 Os resultados da anotação devem ter: • • • • • • Estrutura intrão/exão Codões de inicio e de termino UTRs Splicing alternativo Apresentar os alinhamentos que suportam as previsões Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: – Que os resultados sejam usados por outras ferramentas – Uso de vocabulários controlados em termos de ontologias – Permitem análises genómicas comparativas 8-04-2013 Genómica 12-13 MJC 22 Genetic Model Organism Database (GMOD) • Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas. 8-04-2013 Genómica 12-13 MJC 23 CONTROLO DE QUALIDADE 8-04-2013 Genómica 12-13 MJC 24 Identificação de anotações incorretas • Essencial pois: – Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras. 8-04-2013 Genómica 12-13 MJC 25 Como fazer o controlo de qualidade? SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= Annotation Edit Distance AED= 1-AC 8-04-2013 Genómica 12-13 MJC 26 PUBLICAÇÃO DOS DADOS 8-04-2013 Genómica 12-13 MJC 27 Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase 8-04-2013 Genómica 12-13 MJC 28 Depois da publicação…. Deve ser feita periodicamente a atualização 8-04-2013 Genómica 12-13 MJC 29 CONCLUSÕES 8-04-2013 Genómica 12-13 MJC 30 Em suma • Sequenciação mais barata Mais dados para tratar • Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. • O controlo de qualidade é tb um obstáculo • Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente. 8-04-2013 Genómica 12-13 MJC 31 Bibliografia • Artigo: “ A beginner’s guide to eukariotic genome annotation”. Na pasta do molar. 8-04-2013 Genómica 12-13 MJC 32