Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013 Sumário 3. Montagem de genomas • Montagem hierárquica • Montagem de genomas completos • Montagem de genomas com base em modelos • Problemas associados à montagem dos genomas – Controlo de qualidade 18-03-2013 Genómica 12-13 MJC 2 Montagem de genomas • Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original. Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças 18-03-2013 Genómica 12-13 MJC Aumenta o número de peças para 2-3 triliões. 3 Algumas das peças… • Faltam – Problemas na construção das bibliotecas – Problemas com a amplificação por PCR • Têm erros – Zonas repetitivas – Erros no PCR 18-03-2013 Aumentamos o nº de vezes que cada peça é sequenciada! Entre 8 e 100 vezes Genómica 12-13 MJC 4 A sequência (read) ideal • É longa • Não tem erros (tem bons algoritmos de “base calling”). 18-03-2013 Genómica 12-13 MJC 5 Podemos considerar 2 tipos • Única (single read) – Resulta da sequenciação do fragmento em si. • Emparelhada (paired read) – Nestas leituras eu sei a sequência das pontas e a que distância estão uma da outra. 18-03-2013 Genómica 12-13 MJC 6 Tendo as sequências o desafio é ordená-las 18-03-2013 Genómica 12-13 MJC 7 Obter a sequência “limpála” Ordená-la 18-03-2013 Genómica 12-13 MJC 8 A forma como a montagem é feita • Depende de haver ou não um genoma de referência: – Se há usa-se como modelo – Se não há deve usar-se outras informações como informações do exoma por exemplo. 18-03-2013 Genómica 12-13 MJC 9 Alguns algoritmos de montagem 18-03-2013 Genómica 12-13 MJC 10 Problemas na montagem de short reads • E as que não “encaixam”? – Sequencias repetidas no genomade referência? – Errosd de sequenciação – Balanço entre encontrar o emparelhamento e gerar o mapa? • É assim tão importante que encaixem todas as reads? – A capacidade/ resultados dependem não só do algoritmo usado como dos parâmetros descritos para cada algoritmo. 18-03-2013 Genómica 12-13 MJC 11 Quando a montagem é de novo 18-03-2013 Genómica 12-13 MJC 12 MONTAGEM HIERÁRQUICA OU DE CLONES 18-03-2013 Genómica 12-13 MJC 13 Abordagem usada para alinhar grandes inserções clonadas – Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas. 18-03-2013 Genómica 12-13 MJC 14 Desse mapeamento…. • Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição. • É feita a sequenciação desses fragmentos: – Cada sequenciação (read) é avaliada quanto à sua qualidade. – É reconstruida a sequencia inicial usando as sobreposições. 18-03-2013 Genómica 12-13 MJC 15 MONTAGEM DE GENOMAS COMPLETOS 18-03-2013 Genómica 12-13 MJC 16 Método mais aplicado atualmente • Uma vez que a maioria da sequenciação já não implica clonagem. • Dispensa o passo do mapeamento. • São sequenciadas as extremidades dos vários fragmentos que são depois alinhadas. 18-03-2013 Genómica 12-13 MJC 17 Desse alinhamento surge o “contig” • Inclui 3 fases: – Sobreposição – Alinhamento – Consenso 18-03-2013 Genómica 12-13 MJC 18 Desse alinhamento surge o “contig” A localização vai ser determinada pela homologia 18-03-2013 Genómica 12-13 MJC 19 Vários contigs dão um scaffold 18-03-2013 Genómica 12-13 MJC 20 18-03-2013 Genómica 12-13 MJC 21 ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS 18-03-2013 Genómica 12-13 MJC 22 Greedy • Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias. 18-03-2013 Genómica 12-13 MJC 23 Overlap-Layout-Consensus • Todas as sobreposições são mapeadas (Overlap) • É eliminada a informação redundante (Layout) • Usando a teoria de grafos é desenhado o mapa mais simples e que corresponderá à organização inicial. 18-03-2013 Genómica 12-13 MJC 24 Overlap-Layout-Consensus • Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados. 18-03-2013 Genómica 12-13 MJC 25 CONTROLO DE QUALIDADE 18-03-2013 Genómica 12-13 MJC 26 Em genomas de novo • Não se sabe quase nada – Nº de scaffolds e contigs que representam o genoma. – A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds relativamente ao comprimento do genoma. 18-03-2013 Genómica 12-13 MJC 27 N50 • Tamanho do contig mais curto acima do qual se inclui 50% do genoma. 18-03-2013 Genómica 12-13 MJC 28 Os vários algoritmos devem ser comparados • Foi feita uma comparação no artigo GAGE: 18-03-2013 Genómica 12-13 MJC 29 O algoritmo deve ter em conta • Dependendo do organismo – Tamanho diferente dos genomas – Heterozigotia diferente • Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100 18-03-2013 Genómica 12-13 MJC 30 Independentemente do algoritmo… • Entra lixo • Sai lixo – Muitos sequenciadores têm controlos de qualidade para contaminações, quimeras e erros de leitura. 18-03-2013 Genómica 12-13 MJC 31 MONTAGEM COMPARATIVA 18-03-2013 Genómica 12-13 MJC 32 Genomas de referência Genomas de mesma espécie ou espécies semelhantes que servem de modelo. Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado 18-03-2013 Genómica 12-13 MJC 33 PROBLEMAS NA MONTAGEM DE GENOMAS 18-03-2013 Genómica 12-13 MJC 34 Dificuldades • Contaminação – Sequências que não pertencem ao genoma que se quer sequenciar. • Erros de montagem – As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final. • Homologia em grande escala. – Nos genomas dos mamíferos há zonas com uma grande percentagem de homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas. • Polimorfismo genómico – Dado que muitos genomas são poliploides a montagem de genomas muitas vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus. 18-03-2013 Genómica 12-13 MJC 35 Efeito das zonas repetidas 18-03-2013 Genómica 12-13 MJC 36 18-03-2013 Genómica 12-13 MJC 37 Bibliografia • http://www.ncbi.nlm.nih.gov/projects/genom e/assembly/assembly.shtml • http://www.cbcb.umd.edu/research/assembly _primer.shtml • Artigo: de novo genome assembly; GAGE ambos na pasta 18-03-2013 Genómica 12-13 MJC 38