GenBank, BLAST e PriFi
Almir R. Pepato
Bases de Dados
European Molecular Biology Laboratory
http://www.ebi.ac.uk/cgi-bin/sva/sva.pl
National Center for Biotechnology Information
http://www.ncbi.nlm.nih.gov/genbank/
DNA Data Bank of Japan:
http://www.ddbj.nig.ac.jp
Bases de Dados
GenBank
GenBank
GenBank
GenBank
BLAST
BLAST = Basic Local Alignment Search Tool
Idéia: Ao invés de alinhar as sequências inteiras, tornar o algoritmo
mais rápido buscando palavras curtas e depois estendendo-as
Altschul, S. F.; Gish, W.; Miller, W.; Myers, E. W.; Lipman, D. J.
(1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403–
410.
BLAST
Passo a passo do BLAST:
1- Remove regiões de baixa complexidade da sequência de interesse
(SEG e DUST).
2- Produz, a partir da sequência de interesse uma lista de palavras de
tamanho pré-determinado (seeding, geralmente 3 aminoácidos ou 28
nucleotídeos)
3- Seguindo um esquema de
pontuação, as palavras são
combinadas com o conjunto de
sequências da base de dados e
apenas as palavras encontradas
no conjunto de dados objeto da
pesquisa com pontuação acima
de um valor limite são mantidas
BLAST
BLOSSUM62:
BLAST
4- O processo é repetido para todas as palavras da sequência de
interesse.
5- A partir das palavras com pontuação mais alta, os trechos
coincidentes são estendidos em ambas direções
BLAST
6- As HSP são selecionadas tendo por base o valor S, definido empiricamente, que é
indicativo de que o valor encontrado é maior que o esperado pela coincidência de
nucleotídeos ao acaso.
7- As HSPs são avaliadas quanto a sua significância .
8- HSPs próximas são combinadas em um alinhamento maior.
9-São exibidos os alinhamentos locais acima de um dado número de E(), sendo
esse valor relacionado ao número de coincidências entre as sequências localmente
alinhadas esperado por puro acaso.
Para interpretar esses valores:
E()< 0,1 sequência pode ser aceita como homóloga com segurança
0,1< E()<10 zona de penumbra
E()> 10 Homologia deve ser rejeitada
BLAST
BLAST
BLAST
BLAST
PriFi
PriFi
Formatos de arquivo mais comuns
O melhor amigo do
bioinformata!
O programa mais importante!
Aquele que já salvou teses
inteiras da catástrofe!
Formatos de arquivo mais comuns
Fasta
Formatos de arquivo mais comuns
Formato para TNT, NONA, PeeWee
Poderia estar codificado com letras, mas um comando teria de ser
invocado - no caso do TNT nstates dna;
Formatos de arquivo mais comuns
Nexus:
Utilizado em programas como PAUP*, MrBayes, FigTree,
Splitstree etc.
Formatos de arquivo mais comuns
Formatos de arquivo mais comuns
Phylip: Além do próprio, PhyML e Tree-Puzzle
Formatos de arquivo mais comuns
MEGA: Molecular Evolutionary Genetics Analysis
Biologia dos marcadores
moleculares II
Almir R. Pepato
Mutação Vs Substituição
Mutação é um fenômeno químico.
Produz novas versões dos genes.
Substituição é um fenômeno
populacional.
Mecanismos que levam à fixação
de alelos
Deriva gênica:
No caso do aparecimento de uma nova mutação, m=1:
Considerando uma taxa de mutação μ:
Mecanismos que levam à fixação
de alelos
Seleção natural
Kimura (1962) mostrou que:
Caso Ne =N temos:
Para s=0
Para valores de s pequenos temos:
Coalescência
Exemplo de um modelo simples:
Em uma população em que todos
os indivíduos apresentam o mesmo
número médio de descendentes a
probabilidade de um indivíduos
compartilhar a mãe é de:
Já a possibilidade de não
compartilharem é de:
Coalescência
A probabilidade de dois indivíduos
compartilharem um dos pais a T
gerações atrás é de :
Ou:
O tempo para a coalescência nas
nossas condições inverossímeis é
2N.
Cenários para a evolução
molecular
Princípios da genética molecular
Revelou um nível
de polimorfismo
insuspeito.
– Hubby e Lewontin, 1966; Harris,
1966
Relógio molecular
Dickerson, 1971
Proporcional
ao tempo
absoluto.
Neutralismo
Taxa de substituição sob deriva:
k = 2Nμ * 1/2N = μ
E sob seleção:
k = 2N μ * 2s = 4N μ s
Neutralismo
Previsões da hipótese neutralista:
1- Relógio molecular proporcional ao tempo absoluto? (geracional)
(pois proporcional à taxa de mutação).
2- Heterozigose alta, independente do tamanho populacional.
3- Divergência entre populações similar ao polimorfismo dentro das
populações.
Heterezigose
A taxa de heterozigose tipicamente é ao redor de 0.1
Se H=0.1, como H= 4Nµ / (4Nµ+1)
4Nµ ~ 0.1
Usando µ=5x10-8
Podemos nos perguntar: qual N necessário?
O valor obtido é 500,000 que é razoável.
Heterozigose
Substituição/polimorfismo
Sob neutralidade:
kN/kS = pN/pS
kN/kS
pN/pS
Substituição/polimorfismo
Sob seleção
positiva
kN/kS
pN/pS
kN/kS > pN/pS
(Drosophila)
= subst. não sinônima
Substituição/polimorfismo
Sob modelo com
mutações
fracamente
deletérias
kN/kS
pN/pS
kN/kS < pN/pS
(Humanos)
= polim. não sinônimo
Exemplo de baixo coeficiente de
seleção
Hipótese quase-neutralista
“A teoria quase neutra pode ser resumida da
seguinte forma. Tanto a deriva genética como a
seleção influenciam o comportamento de
mutações fracamente selecionadas. A deriva
predomina em populações pequenas, e a
seleção em populações grandes. A maioria das
novas mutações é deletéria, e a maioria das
mutações de efeito pequeno devem ser muito
fracamente deletérias. Há seleção contra essas
mutações em populações grandes, mas se
comportam como neutras e populações
pequenas”
Tomoko Ohta
Heterozigose
Estimativas de divergência
A vida seria fácil com o relógio molecular...
Estimativas de divergência
Obtendo as sequências moleculares:
Amplificação e sequenciamento
Almir R. Pepato
Reação da Polimerase em cadeia (PCR)
Reação da Polimerase em cadeia (PCR)
Otimizando as reações de PCR
Extração
Polimerase
Mg++
Iniciadores (Primers)
DNTP
Tampão
Substâncias facilitadoras
Temperatura e tempo :
-Denaturação
-Anelamento
-Extensão
Extração
Contaminação
Deve- se usar um controle negativo.
Autoclavar ponteiras, frascos etc.
Aliquotar as soluções (isso restringe a
contaminação)
Planejar o espaço físico do laboratório.
Degradação e quantidade:
Ideal: 0.1-1 μg DNA /100 μl de solução
para o PCR
Muito DNA: Amplificações espúrias.
O DNA degradado pode ser
eventualmente “restaurado”.
Substâncias que inibem o PCR: álcool,
formol, fenol, detergentes polares, vários
metais.
Cloreto de Magnésio (Mg++) e DNTP
O Mg++ forma complexos com dNTPs,
primers e DNA, mas o efeito do dNTPs é
mais pronunciado.
Pouco Mg++, pouco produto de PCR/
Muito Mg++, baixa especificidade
Iniciadores (Primers)
Devem ter de 0-24
nucleotídeos de comprimento
O conteúdo de GC deve estar
em 40%-60%
Não deve ser autocomplementar nem parear com
o seu reverso
O par de primers não devem
ter Tm’s (veja abaixo) diferindo
em mais de 5°C
É uma boa idéia ter uma
timina na extremidade 3’ para
primers universais e GC para
primers específicos
0,4 mM
0,2 mM
Substâncias facilitadoras
Substâncias como DMSO (2%-5%),
glicerol (500-20%), detergentes
apolares, formamida (5%) e BSA
podem aumentar o produto das
reações ou melhorar a especificidade
.
Algumas reações só funcionam
com eles!
Ciclo de temperaturas
O número de ciclos, temperaturas e tempo de duração de cada etapa do
ciclo também é objeto de otimização! Os principais parâmetros são a
temperatura de anelameto, o número de ciclos e a duração do tempo de
extensão.
Para oligos com < 25nts,
Tm ± 4 (G + C) + 2 (A + T).
A diferença entre as
temperaturas dos primers não
deve ser maior que uns 5°C.
A temperatura ideal de
anelamento deve ser uns 5°C
menor que Tm.
Temperatura ótima esperada: 56,5°C.
Inferida pelo gradiente: 63°C
E quando mais nada funciona?
Santa Rita de Cássia, santa das causas impossíveis.
PCR Aninhados
Consiste em amplificar um fragmento menor a partir de um produto
inespecífico ou escasso de outro PCR.
“Touchdown” e “Hot start”
Touchdown: A cada ciclo a temperatura é reduzida, tornando o anelamento
cada vez menos específico, mas mais eficiente
Hotstart: A Taq polimerase só é adicionada quando a temperatura atingiu
um valor mínimo.
Sequenciamento: Método de Sanger
Originalmente:
Quatro reações diferentes com cada
uma das quatro bases modificadas por
vez (mais as versões normais de todas)
Sequenciamento: Método de
Sanger
Sequenciamento de nova geração
Sequenciamento de nova geração
Sequenciamento de nova geração
Sequenciamento de nova geração
Sequenciamento de nova geração
Download

PCR, sequenciamento Sanger, Sequenciamento de nova geração