GenBank, BLAST e PriFi Almir R. Pepato Bases de Dados European Molecular Biology Laboratory http://www.ebi.ac.uk/cgi-bin/sva/sva.pl National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/genbank/ DNA Data Bank of Japan: http://www.ddbj.nig.ac.jp Bases de Dados GenBank GenBank GenBank GenBank BLAST BLAST = Basic Local Alignment Search Tool Idéia: Ao invés de alinhar as sequências inteiras, tornar o algoritmo mais rápido buscando palavras curtas e depois estendendo-as Altschul, S. F.; Gish, W.; Miller, W.; Myers, E. W.; Lipman, D. J. (1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403– 410. BLAST Passo a passo do BLAST: 1- Remove regiões de baixa complexidade da sequência de interesse (SEG e DUST). 2- Produz, a partir da sequência de interesse uma lista de palavras de tamanho pré-determinado (seeding, geralmente 3 aminoácidos ou 28 nucleotídeos) 3- Seguindo um esquema de pontuação, as palavras são combinadas com o conjunto de sequências da base de dados e apenas as palavras encontradas no conjunto de dados objeto da pesquisa com pontuação acima de um valor limite são mantidas BLAST BLOSSUM62: BLAST 4- O processo é repetido para todas as palavras da sequência de interesse. 5- A partir das palavras com pontuação mais alta, os trechos coincidentes são estendidos em ambas direções BLAST 6- As HSP são selecionadas tendo por base o valor S, definido empiricamente, que é indicativo de que o valor encontrado é maior que o esperado pela coincidência de nucleotídeos ao acaso. 7- As HSPs são avaliadas quanto a sua significância . 8- HSPs próximas são combinadas em um alinhamento maior. 9-São exibidos os alinhamentos locais acima de um dado número de E(), sendo esse valor relacionado ao número de coincidências entre as sequências localmente alinhadas esperado por puro acaso. Para interpretar esses valores: E()< 0,1 sequência pode ser aceita como homóloga com segurança 0,1< E()<10 zona de penumbra E()> 10 Homologia deve ser rejeitada BLAST BLAST BLAST BLAST PriFi PriFi Formatos de arquivo mais comuns O melhor amigo do bioinformata! O programa mais importante! Aquele que já salvou teses inteiras da catástrofe! Formatos de arquivo mais comuns Fasta Formatos de arquivo mais comuns Formato para TNT, NONA, PeeWee Poderia estar codificado com letras, mas um comando teria de ser invocado - no caso do TNT nstates dna; Formatos de arquivo mais comuns Nexus: Utilizado em programas como PAUP*, MrBayes, FigTree, Splitstree etc. Formatos de arquivo mais comuns Formatos de arquivo mais comuns Phylip: Além do próprio, PhyML e Tree-Puzzle Formatos de arquivo mais comuns MEGA: Molecular Evolutionary Genetics Analysis Biologia dos marcadores moleculares II Almir R. Pepato Mutação Vs Substituição Mutação é um fenômeno químico. Produz novas versões dos genes. Substituição é um fenômeno populacional. Mecanismos que levam à fixação de alelos Deriva gênica: No caso do aparecimento de uma nova mutação, m=1: Considerando uma taxa de mutação μ: Mecanismos que levam à fixação de alelos Seleção natural Kimura (1962) mostrou que: Caso Ne =N temos: Para s=0 Para valores de s pequenos temos: Coalescência Exemplo de um modelo simples: Em uma população em que todos os indivíduos apresentam o mesmo número médio de descendentes a probabilidade de um indivíduos compartilhar a mãe é de: Já a possibilidade de não compartilharem é de: Coalescência A probabilidade de dois indivíduos compartilharem um dos pais a T gerações atrás é de : Ou: O tempo para a coalescência nas nossas condições inverossímeis é 2N. Cenários para a evolução molecular Princípios da genética molecular Revelou um nível de polimorfismo insuspeito. – Hubby e Lewontin, 1966; Harris, 1966 Relógio molecular Dickerson, 1971 Proporcional ao tempo absoluto. Neutralismo Taxa de substituição sob deriva: k = 2Nμ * 1/2N = μ E sob seleção: k = 2N μ * 2s = 4N μ s Neutralismo Previsões da hipótese neutralista: 1- Relógio molecular proporcional ao tempo absoluto? (geracional) (pois proporcional à taxa de mutação). 2- Heterozigose alta, independente do tamanho populacional. 3- Divergência entre populações similar ao polimorfismo dentro das populações. Heterezigose A taxa de heterozigose tipicamente é ao redor de 0.1 Se H=0.1, como H= 4Nµ / (4Nµ+1) 4Nµ ~ 0.1 Usando µ=5x10-8 Podemos nos perguntar: qual N necessário? O valor obtido é 500,000 que é razoável. Heterozigose Substituição/polimorfismo Sob neutralidade: kN/kS = pN/pS kN/kS pN/pS Substituição/polimorfismo Sob seleção positiva kN/kS pN/pS kN/kS > pN/pS (Drosophila) = subst. não sinônima Substituição/polimorfismo Sob modelo com mutações fracamente deletérias kN/kS pN/pS kN/kS < pN/pS (Humanos) = polim. não sinônimo Exemplo de baixo coeficiente de seleção Hipótese quase-neutralista “A teoria quase neutra pode ser resumida da seguinte forma. Tanto a deriva genética como a seleção influenciam o comportamento de mutações fracamente selecionadas. A deriva predomina em populações pequenas, e a seleção em populações grandes. A maioria das novas mutações é deletéria, e a maioria das mutações de efeito pequeno devem ser muito fracamente deletérias. Há seleção contra essas mutações em populações grandes, mas se comportam como neutras e populações pequenas” Tomoko Ohta Heterozigose Estimativas de divergência A vida seria fácil com o relógio molecular... Estimativas de divergência Obtendo as sequências moleculares: Amplificação e sequenciamento Almir R. Pepato Reação da Polimerase em cadeia (PCR) Reação da Polimerase em cadeia (PCR) Otimizando as reações de PCR Extração Polimerase Mg++ Iniciadores (Primers) DNTP Tampão Substâncias facilitadoras Temperatura e tempo : -Denaturação -Anelamento -Extensão Extração Contaminação Deve- se usar um controle negativo. Autoclavar ponteiras, frascos etc. Aliquotar as soluções (isso restringe a contaminação) Planejar o espaço físico do laboratório. Degradação e quantidade: Ideal: 0.1-1 μg DNA /100 μl de solução para o PCR Muito DNA: Amplificações espúrias. O DNA degradado pode ser eventualmente “restaurado”. Substâncias que inibem o PCR: álcool, formol, fenol, detergentes polares, vários metais. Cloreto de Magnésio (Mg++) e DNTP O Mg++ forma complexos com dNTPs, primers e DNA, mas o efeito do dNTPs é mais pronunciado. Pouco Mg++, pouco produto de PCR/ Muito Mg++, baixa especificidade Iniciadores (Primers) Devem ter de 0-24 nucleotídeos de comprimento O conteúdo de GC deve estar em 40%-60% Não deve ser autocomplementar nem parear com o seu reverso O par de primers não devem ter Tm’s (veja abaixo) diferindo em mais de 5°C É uma boa idéia ter uma timina na extremidade 3’ para primers universais e GC para primers específicos 0,4 mM 0,2 mM Substâncias facilitadoras Substâncias como DMSO (2%-5%), glicerol (500-20%), detergentes apolares, formamida (5%) e BSA podem aumentar o produto das reações ou melhorar a especificidade . Algumas reações só funcionam com eles! Ciclo de temperaturas O número de ciclos, temperaturas e tempo de duração de cada etapa do ciclo também é objeto de otimização! Os principais parâmetros são a temperatura de anelameto, o número de ciclos e a duração do tempo de extensão. Para oligos com < 25nts, Tm ± 4 (G + C) + 2 (A + T). A diferença entre as temperaturas dos primers não deve ser maior que uns 5°C. A temperatura ideal de anelamento deve ser uns 5°C menor que Tm. Temperatura ótima esperada: 56,5°C. Inferida pelo gradiente: 63°C E quando mais nada funciona? Santa Rita de Cássia, santa das causas impossíveis. PCR Aninhados Consiste em amplificar um fragmento menor a partir de um produto inespecífico ou escasso de outro PCR. “Touchdown” e “Hot start” Touchdown: A cada ciclo a temperatura é reduzida, tornando o anelamento cada vez menos específico, mas mais eficiente Hotstart: A Taq polimerase só é adicionada quando a temperatura atingiu um valor mínimo. Sequenciamento: Método de Sanger Originalmente: Quatro reações diferentes com cada uma das quatro bases modificadas por vez (mais as versões normais de todas) Sequenciamento: Método de Sanger Sequenciamento de nova geração Sequenciamento de nova geração Sequenciamento de nova geração Sequenciamento de nova geração Sequenciamento de nova geração