Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013 Sumário 3. Montagem de genomas • Montagem hierárquica • Montagem de genomas completos • Montagem de genomas com base em modelos • Problemas associados à montagem dos genomas – Controlo de qualidade 18-03-2013 Genómica 12-13 MJC 2 Montagem de genomas • Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original. Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças 18-03-2013 Genómica 12-13 MJC Aumenta o número de peças para 2-3 triliões. 3 Algumas das peças… • Faltam – Problemas na construção das bibliotecas – Problemas com a amplificação por PCR • Têm erros – Zonas repetitivas – Erros no PCR 18-03-2013 Aumentamos o nº de vezes que cada peça é sequenciada! Entre 8 e 100 vezes Genómica 12-13 MJC 4 A sequência (read) ideal • É longa • Não tem erros 18-03-2013 Genómica 12-13 MJC 5 Podemos considerar 2 tipos • Única (single read) – Resulta da sequenciação do fragmento em si. • Emparelhada (paired read) – Nestas leituras eu sei a sequência das pontas e a que distância estão uma da outra. 18-03-2013 Genómica 12-13 MJC 6 MONTAGEM HIERÁRQUICA OU DE CLONES 18-03-2013 Genómica 12-13 MJC 7 Abordagem usada para alinhar grandes inserções clonadas – Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas. 18-03-2013 Genómica 12-13 MJC 8 Desse mapeamento…. • Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição. • É feita a sequenciação desses fragmentos: – Cada sequenciação (read) é avaliada quanto à sua qualidade. – É reconstruida a sequencia inicial usando as sobreposições. 18-03-2013 Genómica 12-13 MJC 9 MONTAGEM DE GENOMAS COMPLETOS 18-03-2013 Genómica 12-13 MJC 10 Método mais aplicado atualmente • Uma vez que a maioria da sequenciação já não implica clonagem. • Dispensa o passo do mapeamento. • São sequenciadas as extremidades dos vários fragmentos que são depois alinhadas. 18-03-2013 Genómica 12-13 MJC 11 Desse alinhamento surge o “contig” • Inclui 3 fases: – Sobreposição – Alinhamento – Consenso 18-03-2013 Genómica 12-13 MJC 12 Desse alinhamento surge o “contig” A localização vai ser determinada pela homologia 18-03-2013 Genómica 12-13 MJC 13 Vários contigs dão um scaffold 18-03-2013 Genómica 12-13 MJC 14 18-03-2013 Genómica 12-13 MJC 15 ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS 18-03-2013 Genómica 12-13 MJC 16 Greedy • Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias. 18-03-2013 Genómica 12-13 MJC 17 Overlap-Layout-Consensus • Todas as sobreposições são mapeadas (Overlap) • É eliminada a informação redundante (Layout) • Usando a teoria de grafos é desenhado o mapa mais simples e que corresponderá à organização inicial. 18-03-2013 Genómica 12-13 MJC 18 Overlap-Layout-Consensus • Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados. 18-03-2013 Genómica 12-13 MJC 19 CONTROLO DE QUALIDADE 18-03-2013 Genómica 12-13 MJC 20 Em genomas de novo • Não se sabe quase nada – Nº de scaffolds e contigs que representam o genoma. – A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds relativamente ao comprimento do genoma. 18-03-2013 Genómica 12-13 MJC 21 N50 • Tamanho do contig mais curto acima do qual se inclui 50% do genoma. 18-03-2013 Genómica 12-13 MJC 22 Os vários algoritmos devem ser comparados • Foi feita uma comparação no artigo GAGE: 18-03-2013 Genómica 12-13 MJC 23 O algoritmo deve ter em conta • Dependendo do organismo – Tamanho diferente dos genomas – Heterozigotia diferente • Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100 18-03-2013 Genómica 12-13 MJC 24 Independentemente do algoritmo… • Entra lixo • Sai lixo – Muitos sequenciadores têm controlos de qualidade para contaminações, quimeras e erros de leitura. 18-03-2013 Genómica 12-13 MJC 25 MONTAGEM COMPARATIVA 18-03-2013 Genómica 12-13 MJC 26 Genomas de referência Genomas de mesma espécie ou espécies semelhantes que servem de modelo. Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado 18-03-2013 Genómica 12-13 MJC 27 PROBLEMAS NA MONTAGEM DE GENOMAS 18-03-2013 Genómica 12-13 MJC 28 Dificuldades • Contaminação – Sequências que não pertencem ao genoma que se quer sequenciar. • Erros de montagem – As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final. • Homologia em grande escala. – Nos genomas dos mamíferos há zonas com uma grande percentagem de homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas. • Polimorfismo genómico – Dado que muitos genomas são poliploides a montagem de genomas muitas vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus. 18-03-2013 Genómica 12-13 MJC 29 Efeito das zonas repetidas 18-03-2013 Genómica 12-13 MJC 30 18-03-2013 Genómica 12-13 MJC 31 Bibliografia • http://www.ncbi.nlm.nih.gov/projects/genom e/assembly/assembly.shtml • http://www.cbcb.umd.edu/research/assembly _primer.shtml • Artigo: de novo genome assembly; GAGE ambos na pasta 18-03-2013 Genómica 12-13 MJC 32