Uma abordagem computacional para a
determinação de polimorfismos de
base única
Miguel Galves
Orientador: Zanoni Dias
IC - UNICAMP
01/12/2006
Roteiro







Conceitos Básicos
Motivação
Objetivos
Alinhamento de seqüências
Detecção de SNPs e confiabilidade
Correlação de SNPs
Conclusão
Processo básico
de tradução genética

A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos
 Bases

A, C, G e T
Proteínas são geradas a partir da leitura da
cadeia de nucleotídeos
 Processo


de tradução
Proteína = cadeia de aminoácidos
1 aminoácido = 3 nucleotídeos = 1 códon
Tradução
Polimorfismos e SNP
Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie
 Deve aparecer em pelo menos 1% da
população
 SNP: polimorfismo que ocorre em apenas
uma base da seqüência

SNP sinônimo: não modifica o aminoácido
 SNP não sinônimo: modifica o aminoácido

Porque estudar SNPs?



Correspondem a mais de 90% dos
polimorfismos nos seres humanos
Causa de grande parte das doenças com base
genética
Grande interesse das industrias farmacêuticas
 Criação

de terapias específicas
Marcadores para mapeamento fino do genoma
Objetivos do trabalho

Estudar 3 etapas distintas no processo de
detecção e análise de SNPs:
 Alinhamento de ESTs com DNA genômico
 Detecção de SNPs por análise de
cromatograma
 Correlação de SNPs
Alinhamento de DNA com ESTs
Alinhamento de sequências


Inserção de espaços em duas seqüências
de forma a que elas tenham o mesmo
tamanho e possam ser comparadas
Exemplo: AGCTCGTTTG e ACCTTCGTTTTG
AGC-TCGTTT-G
ACCTTCGTTTTG


Pontuação permite avaliar o alinhamento
Problema de otimização: obter o
alinhamento de melhor pontuação
Algoritmos clássicos de alinhamento

Estratégias de alinhamento
Global
 Semi-global
 Local


Sistemas de pontuação
Simples: match, mismatch, gap
 Linear: match, mismatch e
gap(k) = g + hk

Porque estudar alinhamento
de mRNA com DNA?
Objetivos desta etapa
Determinar uma estratégia clássica e um
conjunto de parâmetros que permitam
obter bons alinhamentos entre DNA
genômico e mRNA
Metodologia




Desenvolvimento de um alinhador em Java
usando algoritmo de Miller e Myers
Criação de uma base de testes
Definição de um conjunto de parâmetros de
alinhamento
Execução de alinhamentos de mRNAs com
genes de origem


Nosso alinhador, sim4, est_genome e Spidey
Definição de métricas para avaliação dos
alinhamentos obtidos
Conjunto de dados
1. 64 genes do cromossomo Y humano com
menos de 100.000 bases
2. 40 genes completos do cromossomo Y
humano com menos de 100.000 bases
3. 7376 genes completos do genoma humano
com menos de 10.000 bases
4. 4930 ESTs artificiais do cromossomo 6 com
erros aleatórios de 1% a 10%
Resultados obtidos - Conjunto 3
Extra Gap
Delta Exon
Similaridade
Mismatch
(1,-2,-1,0)
0.00
0.00
99.89%
0.00%
(1,-2,-10,0)
0.00
0.01
99.89%
0.00%
Sim4
1.03
-0.03
99.18%
0.21%
15.56
-0.17
58.00%
1.31%
0.12
-3.82
81.02%
0.17%
Est_genome
Spidey
Resultados obtidos - Conjunto 4
Resultados obtidos - Conjunto 4
Resultados obtidos



O alinhador semi-global com esquemas de
pontuação (1,-2,-1,0) e (1,-2,-10,0)
produzem resultados extremamente
satisfatórios
O esquema (1,-2,-10,0) tende a gerar
blocos de introns maiores
Sim4, est_genome e Spidey são mais
regulares com ESTs com erros
Detecção de SNPs
Base-calling e sequenciamento
Porque estudar base-calling?


Pacote phred ignora sinais secundários no
cromatograma
 Apenas uma base por posição
 SNPs podem gerar sinais secundários
PolyBayes e PolyPhred não produzem
resultados satisfatórios com HIV
Objetivos desta etapa


Detecção de SNPs em cromatogramas de
seqüências de HIV
Estudo de métodos para determinação de
confiabilidade dos resultados
Metodologia




Definir algoritmos para análise e correção
de cromatograma
Executar os algoritmos com diversos
parâmetros, para análise preliminar
Determinação de dois algoritmos para
tunning
Determinação do melhor algoritmo e do
melhor conjunto de parâmetros
Conjunto de dados

Sequências genéticas de HIV
1302 bp
 Região bem conservada


35 lotes de amostras de indivíduos
soropositivos



6 leituras
1 seqüência validada, com SNPs anotados
manualmente
Sequência de referência de HIV
Algoritmos de correção
Relação das Áreas
 Relação das Médias das Alturas
 Limite Variável
 Pico Único por Janela
 Eliminação de Picos Ruins
 Pico Mais Baixo

Relação das Áreas
Relação das Médias das Alturas
Resultados obtidos
Verdadeiro
Positivo
Falso
Negativo
Falso
Positivo
Área
75%
23%
394%
Média das
alturas
53%
42%
317%
PolyPhred
0%
100%
0%
PolyBayes
0%
100%
0%
Confiabilidade Estatística

Comparação de dois métodos de
confiablidade estatística para SNPs:
PolyBayes: estatística bayesiana
 MSASNP: qualidades das bases



Conjunto de teste: SNPs anotados do
SUCEST
MSASNP gera muitos falsos positivos e
acerta menos posições que o PolyBayes
Correlação de SNPs
Linkage Disequilibrium



Associação não aleatória entre alelos
Informações sobre um alelo fornece
informações sobre o outro
Medidas para quantificar LDs
D’ = 1, chamado de LD completo
 r2  1/3, chamado de LD útil


LD múltiplo: conjunto de SNPs em LD dois
a dois
Porque estudar LDs?


Doenças genéticas podem ser influenciadas
por vários SNPs correlacionados
LD permite efetuar mapeamento fino do
genoma humano
Técnica tradicional: definição de 1 a 2cM
 LD: definição de 0.1cM

Objetivos desta etapa
Estudar LDs múltiplos
 Analisar o efeito do uso das medidas D’ e r2

Metodologia


Pré-processamento do conjunto de dados
Definição de uma heurística para busca de
cliques em grafos


Problema NP-Difícil
Executar a busca por LDs múltiplos nos
dados utilizando medidas D’ e r2
LDs múltiplos
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
Conjunto de dados
ESTs clusterizados de cana-de-açúcar do
projeto SUCEST, com SNPs anotados
 Genes do genoma humano obtidos do NCBI:

HLA-A, HLA-B e HLA-DOB
 Genes do complexo MHC
 Região com alta densidade de SNPs anotados

Resultados


Bons resultados obtidos com tempo de
busca de 5 segundos por clique
D’ apresenta resultados melhores
Maior capacidade de agrupamento
 Menor tendência de isolamento de SNPs


r2 gera grafos com menos arestas
Considerações finais



Foram estudadas 3 etapas distintas
relacionadas a SNPs
Resultados bastante satisfatórios, tendo em
vista o tipo de problema analisado
Seria interessante implementar um fluxo de
trabalho único unindo estas etapas
Trabalhos publicados

Alinhamento

M. Galves e Z. Dias, "Comparison of genomic DNA to
cDNA alignment methods“. Lecture Notes on
Bioinformatics, 2005. Springer-Verlag Berlin
Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.

Detecção de SNPs

M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide
polymorphisms", Genetics and Molecular Research,
2006.
Apresentado no X-Meeting 2005, Caxambu - MG.
Relatórios técnicos

LDs múltiplos


A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo
para identificação de correlações múltiplas de
polimorfismos” (IC-06-14), Setembro 2006.
Confiabilidade Estatística

C. Baudet, M. Galves e Z. Dias,“Comparação de métodos
para determinação de SNPs com medidas de
confiabilidade” (IC-06-15), Setembro 2006.
Download

TeseMiguel