LGE - Laboratório de Genômica e Expressão Ramon Oliveira Vidal Email: [email protected] Doutorando em Genética e Biologia Molecular Sub área: Bioinformática Orientador: Gonçalo A.G. Pereira @ramonvidal Marcadores Moleculares ◦ Marcadores por Hibridação ◦ Marcadores por Amplificação Polimorfismos X mutações SNPs ◦ ◦ ◦ ◦ ◦ Origem Aplicações Haplótipos Genotipagem Identificando os SNPs (em genomas e transcriptomas) Sanger 454 Solexa Taxa de evolução Identificação de SNPs em Coffea arabica Fenótipo Propriedades observáveis de um indivíduo, que se desenvolveram sob a influência de: genótipo do indivíduo fatores ambientais Genótipo Constituição genética de um organismo como revelada pela análise genética e molecular, ou seja, o conjunto completo de genes, tanto dominantes e recessivos. Qualquer característica morfológica ou molecular que diferencia indivíduos, e que seja facilmente detectável É um fenótipo de fácil identificação, normalmente determinado por um único alelo. Características fenotípicas de fácil identificação visual são utilizadas como marcadores morfológicos desde os tempos de Mendel Polimorfismo detectado na seqüência de DNA Vantagens: - Não é objeto de influências ambientais; - Praticamente ilimitado em número; Maior desvantagem é a necessidade de técnicas e equipamentos mais complexos. Reprodutibilidade; Amplamente distribuído através do genoma; Poder de discriminação; Ausência de influências ambientais; Barato; Fácil de mensurar Diplóide: Constituído por duas cópias (homólogos) de cada cromossomo. Alelo: As formas alternativas de um caráter genético encontrado em um determinado locus de um cromossomo. Homozigotos: Um organismo diplóide com alelos idênticos de um determinado gene em ambos os cromossomos homólogos. Heterozigotos :Um organismo diplóide com alelos diferentes de um determinado gene em ambos os cromossomos homólogos. homozigoze Diplóide Alelos heterozigoze Haplóide Hibridação ◦ RFLP – (Restriction Fragment Length Polymorphism) ◦ Minissatélites – VNTR –(Variable Number of Tandem Repeats) Amplificação de DNA ◦ RAPD – (Random Amplified Polymorphic DNA) ◦ SCAR (Sequence Characterized Amplified Regions) ou ASA (Amplified Specific Amplicon) ◦ Microssatélites –SSR (Simple Sequence Repeats) ◦ AFLP (Amplified Fragment Length Polymorphism) RFLP – Restriction Fragment Length Polymorphism RFLP – Restriction Fragment Length Polymorphism Polimorfismo de DNA entre indivíduos pode ser devido a: • Ausência do sítio do primer. • Surgimento de um novo sítio. • Ao comprimento da região amplificada entre sítios de primer Significa Seqüências Simples Repetidas, a qual consiste de pequenas seqüências de nucleotídeos (1 a 4) repetidas em tandem. Essas seqüências são distribuídas ao acaso no genoma e é um dos marcadores mais utilizados atualmente Primers específicos (20 a 30 pb). Diferentes números de elementos simples repetidos. Cada segmento amplificado de tamanho diferente representa um alelo diferente do mesmo loco Mutações genéticas Polimorfismos genéticos ◦ Alteração na seqüência de nucleotídeos de uma molécula de DNA. ◦ O termo "mutação“ é geralmente usado para referir-se a alterações na seqüência de DNA que não estão presentes na maioria dos indivíduos de uma espécie ◦ Diferença na seqüência de DNA entre indivíduos, grupos ou populações. ◦ Incluem SNPs, seqüências repetitivas, inserções, deleções e recombinações. Podem dar origem a olhos ou olhos castanhos, cabelo liso ou cabelos crespo ◦ Resultado de processos naturais ou induzidos por agentes externos (como vírus ou radiação). Polimorfismos são alterações no DNA que se mantém nas gerações futuras ◦ Polimorfismo: variação >1% ◦ Mutação: variação <1% 94% CTTAGCTT 99.9% CTTAGCTT 6% CTTAGTTT 0.1% CTTAGTTT Polimorfismo Mutação Polimorfismos genéticos X Mutações genéticas TAAAAAT • Polimorfismos foram mutações que se propagaram ao longo de gerações TAAAAAT TAAAAAT TAAAAAT TAACAAT TAAAAAT TAACAAT TAACAAT TAACAAT TAACAAT Single Nucleotide Polymorphism, ou SNP ("snip"): ◦ pequena mudança, ou variação, que pode ocorrer em um único nucleotídeo numa sequência de DNA em uma porção significativa (mais de 1%) de uma população. SNPs são as mais frequêntes formas de variações genéticas ◦ 90% das variações genéticas humanas vêm dos SNPs SNPs tem se tornado marcadores de preferência pela sua grande abundância e desenvolvimento de tecnologias genotipagem em larga escala. pelo de SNPs em menor quantidade em genes do que em regiões nãocodificantes Menor quantidade de SNPs nos cromossomos sexuais (humano). Dentro de um único cromossomo, SNPs podem se concentrar em uma região específica, geralmente implicando uma região de interesse ou de pesquisa. Em média, ocorrem a cada 300~600 nucleotídeos (humano). Genes com maior pressão para modificação tem maior frequência de SNP (resistência, adaptação, interação parasita-hospedeiro, etc) Intra espécie ◦ Diversidade entre os indivíduos de uma mesma espécie ◦ Reflete os SNPs entre os alelos (espécies diplóides) Inter espécies ◦ Diversidade entre espécies diferentes Transições Purina<->Purina Pirimidina<->Pirimidina Transversões Purina<->Pirimidina Não-codificantes Codificantes Sinônimas Não-sinônimas conservativas Não-conservativas Genotipagem ◦ Detecção de genótipos de individuos. ◦ Pode ser realizada observando os SNPs. Haplótipo (genótipo haplóide) ◦ Alelo encontrado em um único cromossomo que apresenta o mesmo padrão de SNPs. ◦ Blocos haplótipos e tendem a ser herdados juntos. ◦ Podem servir como marcadores de doença genética. ◦ A análise de haplótipos é útil na identificação de eventos de recombinação. Dentro de um bloco haplótipo, acontece pouca ou nenhuma recombinação Os SNPs dentro de um bloco haplótipo são passados juntos nas gerações futuras Um haplótipo é um conjunto de SNP no mesmo cromossomo -A C T T T G C T C- Haplotype 1 C T C -A C T T A G C T T- Haplotype 2 C A T -A A T T T G C T C- Haplotype 3 A T C SNP1 SNP2 SNP3 SNP1 SNP2 SNP3 Haplotype patterns I2 I1 C1 Recombination hotspots S1 S2 Haplotype blocks SNP loci S3 S4 S5 S1 SNP loci S2 S3 S4 S5 Chromosome C2 C1 : Major allele : Minor allele C2 SNPs estão relacionados com a diversidade de genótipos de humanos ◦ podem ser mapeados relacionando-os a diversidade de fenótipos. Um SNP individual ou um bloco haplótipo pode servir de indicação para ◦ características agronômicas ◦ doenças ◦ etc Essa relação constitui a base e a motivação para a identificação e genotipagem de SNPs. O genoma de cada indivíduo contém distintos padrões de SNPs Pessoas podem ser agrupadas de acordo com esse perfil Perfil de SNPs são importantes na identificação de respostas a terapias ◦ Existe uma correlação entre certos perfis de SNPs e respostas específicas a tratamentos Genoma/transcriptoma ◦ Sanger ◦ 454 ◦ Solexa/Solid/... Alinhamento de sequências Identificação de Discrepâncias Encontrando SNPs: Mineração de SNPs baseados no sequenciamento (Sanger tradicional) Genomic mRNA cDNA Library EST Overlap Sequenciamento De DNA BAC Library RRS Library BAC Overlap Shotgun Overlap Encontrando SNPs: Mineração de SNPs baseados no sequenciamento DNA from multiple individuals Fragment DNA Sequence and Reassemble (known sequence) Assembly with other overlapping mismatches = SNPs GTTACGCCAATACAGGATCCAGGAGATTACC GTTACGCCAATACAGCATCCAGGAGATTACC Amplificação do DNA 5’ Sequenciamento 3’ Vários indivíduos Phred Phrap Base-calling Contig assembly PolyPhred Polymorphism detection Consed Sequence viewing Polymorphism tagging Analysis Relatório de polimorfismos Genotipagem individual SNP Discovery - Sanger sequencing (EST) SNP Discovery - Diploids (heterozygous loci) Método Sanger foi o único utilizado por 30 anos Sanger processa em paralelo 96 sequencias enquanto NGS processa milhões de sequencias a um custo 6X menor. Problemas: ◦ ◦ ◦ ◦ Fidelidade dos dados Tamanho dos reads Custo da infraestrutura Manipular grandes volumes de dados ACTTAAGGCTGACTAGC TCGTACCGATATGCTG Sequencias curtas não mapeiam unicamente em um lugar no genoma. Solução #1: Reads longos. Solução #2: Reads pareados. Necessário ter uma montagem de referência Mapeamento dos reads na referencia Coberturas médias necessárias: ◦ Solexa - 100X, 454 - 10X Análise estatística para validar discrepâncias com base na redundância dos dados Muitos Softwares disponíveis Desenvolvimento de algorítmos para aumentar velocidade de processamento http://seqanswers.com/wiki/Special:BrowseData sequencing errors SNP haploid strain 1 AACGTTAGCATA AACGTTAGCATA AACGTTAGCATA strain 2 AACGTTCGCATA AACGTTCGCATA strain 3 AACGTTAGCATA AACGTTAGCATA AACGTTAGCATA diploid individual 1 AACGTTAGCATA AACGTTAGCATA AACGTTCGCATA AACGTTCGCATA individual 2 AACGTTCGCATA AACGTTCGCATA AACGTTCGCATA AACGTTCGCATA individual 3 AACGTTAGCATA AACGTTAGCATA Para inferir uma taxa de evolução a um gene são estimados o KA e o KS KA - é a relação entre substituições não sinônimas e todos os possíveis sitios não sinônimos KS – é a relação entre substituições sinônimas e todos os possíveis sítios sinônimos Exemplo: Prolina: ◦ CCT ◦ CCA ◦ CCG ◦ CCC Um sítio sinônimo e dois não sinônimos A taxa KA/KS é uma medida clássica da evolução de maneira global num gene KA/KS << 1 indica que uma substancial proporção de mudanças de aminoácidos devem ter sido eliminadas por seleção de purificação. KA/KS > 1 indica seleção adaptativa ou positiva NG: Nei, M. and Gojobori, T. (1986) - Faster LWL: Li, W.H., et al. (1985) LPB: Li, W.H. (1993) and Pamilo, P. and Bianchi, N.O. (1993) MLWL (Modified LWL), MLPB (Modified LPB): Tzeng, Y.H., et al. (2004) YN: Yang, Z. and Nielsen, R. (2000) MYN (Modified YN): Zhang, Z., et al. (2006) GY: Goldman, N. and Yang, Z. (1994) MS (Model Selection), MA (Model Averaging) A taxa de KAKS em humanos e chimpanzes é de 0,23. Assumindo que mutações sinônimas são neutras, esse resultado implica que 77% das alterações de aminoácidos em genes hominideos são suficientemente deletérias e são eliminadas por seleção natural. Como mutações sinônimas não são totalmente neutras, a proporção de alterações de aminoácido neutras com consequências deletérias deve ser maior Identificar e caracterizar SNPs em sequências de EST Identificar os haplótipos com base nos padrões de SNPs Identificar kaks Foram utilizados dados de duas espécies de café: ◦ Coffea arabica, ◦ Coffea canephora Espécie diplóide Polinização cruzada: Alógama. Alta variabilidade C. canephora é melhor adaptada ao clima equatorial úmido e quente Cultivada em baixas e médias altitudes Qualidade de bebida inferior Mais resistente a diversas condições do que Coffea arabica, em particular a doenças e pragas. Allopoliploide (tetraplóide) Autógama Baixa variabilidade Originada de um cruzamento recente (1mya) entre Coffea eugenoides e Coffea canephora Espécie mais cultivada. Ocupa 75% das plantações mundiais de café. Qualidade da bebida excelente. CAP3 para montagem dos EST QualitySNP KaKs_calculator Scripts PERL 95% similaridade por 100bp ◦ Previnir agrupamento de parálogos Remover clusters com menos de 4 ESTs Remover clusters com mais de 500 ESTs ◦ Evitar contigs mal formados Analisar informações do CAP3 (Arquivo ACE) Detecção de SNPs ◦ Filtros ◦ Reconstrução de haplótipos Detecção de polimorfismos sinônimos e não sinônimos com o FASTY Construir Banco de dados com os dados gerados. Detecta todos os SNPs bi, tri e tetra alélicos Cada alelo é representado com mais de uma sequencia. ◦ Excluindo SNPs singlets Classificação dos SNPs como intra ou inter espécies Agrupa sequências que representam um mesmo alelo Tem os mesmos nucleotídeos nos sítios polimorficos. Utiliza métodos matemáticos para minimizar falsas reconstruções de haplótipos Exclui haplótipos formados por apenas uma sequencia É calculado de acordo com a ocorrencia do SNP em cada alelo com relação às regiões de alta e baixa qualidade O score de confiabilidade é o menor valor Descartados valores abaixo de 2 Fasty ◦ Produz menores alinhamentos em sequencias de baixa qualidade Detecção da ORF Correção de frameshifts Detecção de sSNP/nsSNP e SNPs ou INDELs em regiões UTR Kaks Calculator Identificação dos ancestrais haplótipos Padrões diferentes de expressão dos homeologos Contribuição de cada ancestral de arabica no transcriptoma relacionando ao fenótipo Genes com maior pressão seletiva para mudança Genes com maior pressão seletiva para estabilização Artigo submetido e em revisão Genômica, Transcriptômica, Biologia Sintética, Biologia de Sistemas http://www.lge.ibi.unicamp.br