HapBlock
Rogério Rosa
Recife, Março de 2008
1
Introdução
 O genoma humano é composto por regiões
de alta LD intercaladas com regiões de baixa
LD;
 Áreas com alta LD apresentam altos índices
de conservação. E são essas regiões que
devem ser objeto de estudos na busca por
SNPs;
LD: sigla para Linkage Disequilibrium
2
Introdução
 Segundo o autor somente um pequeno
conjunto de SNPs são suficientes para
capturar a estrutura do haplotype;
 Sendo assim, o HapBlock foi desenvolvido
para particionar blocos de haplotypes e
selecionar SNPs. Minimizando a quantidade
de SNPs selecionados e com blocos de
menor tamanho possível (que possuam
sentido do ponto de vista biológico);
3
Primeira Característica do HapBlock
O HapBlock possui três características que
o diferencia dos demais programas
similares:
Primeira: o programa incorpora um conjunto
de algoritmos de programação dinâmica Zhang et
al. (2002; 2003; 2004a). Tais algoritmos dependem
de dois parâmetros principais: critérios para
selecionar um bloco (3 possibilidades) e critérios
para selecionar SNPs (mais de 5 possibilidades);
4
Segunda Característica do HapBlock
Segunda: o programa analisa dados de haplotypes ou
genotypes de indivíduos independentes ou de pedigrees.



Sabemos que é tecnologicamente difícil gerar em larga
escala haplotypes de indivíduos diplóides;
Existem dados de haplotypes gerados por projetos, como
o HapMap, por exemplo;
Quando temos apenas dados de genotypes o programa
infere os haplotypes empregando os algoritmos PL-EM
(Qin et al., 2002) e PL-EM (Zhang et al., 2004b);
5
Terceira Característica do HapBlock
 O usuário escolhe a abordagem para definir
Blocos e SNPs;
6
Primeira definição de bloco
Cobertura de Haplotypes Comuns: no
mínimo uma certa porcentagem de
haplotypes observados ou inferidos devem
ser comuns (Patil et. al.,2001).

Parâmetros: 1 α β
1 – id do algoritmo
α – porcentagem mínima de haplotypes comuns
β – número mínimo de vezes que o haplotype deve
aparecer para ser considerado comum
7
Segunda definição de bloco
Blocos baseados em medidas de LD: no
mínimo uma certa porcentagem de pares de
SNPs havendo alta LD (Gabriel et. al.,2002).

Parâmetros: 2 α β



2 – id do algoritmo
α – porcentagem mínima de pares de SNPs
β – threshold utilizado para classificar a LD
como alta
8
Terceira definição de bloco
Sem histórico de recombinação: um conjunto
consecutivo de SNPs é definido como um bloco
senão há histórico de ventos de recombinação
(baseado no teste four-gamete proposto e definido
por Wang et. al.,(2002).

Parâmetros: 3 β


3 – id do algoritmo
β – número mínimo de vezes que o haplotype
deve aparecer para ser considerado comum
9
Primeira definição para seleção de
SNPs
Fração de haplotypes comuns distinguíveis por
uma tag SNPs: conjunto mínimo de SNPs que
podem distinguir unicamente os haplotypes comuns
em no mínimo uma certa porcentagem.

Parâmetros: 1 α β



1 – id do algoritmo
α – porcentagem mínima haplotypes comuns
que serão unicamente distinguíveis
β – número mínimo de vezes que o haplotype
deve aparecer para ser considerado comum
10
Segunda definição para seleção de
SNPs
Todos os haplotypes comuns: conjunto mínimo
de SNPs que podem distinguir todos os haplotypes
comuns no bloco.

Parâmetros: 2 β


2 – id do algoritmo
β – número mínimo de vezes que o haplotype
deve aparecer para ser considerado comum
11
Terceira definição para seleção de
SNPs
Diversidade de haplotypes: conjunto
mínimo de SNPs que pode contar no
mínimo uma certa porcentagem da
diversidade de haplotypes geral do
conjunto.

Parâmetros: 3 α


3 – id do algoritmo
α – porcentagem mínima da diversidade de
haplotypes geral do conjunto
12
Quarta definição para seleção de SNPs

Entropia de haplotypes: sendo n o número de
haplotypes e p a freqüência do mesmo, calcula-se
a entropia. Seleciona-se o conjunto que pode
contar no mínimo uma certa porcentagem da
entropia geral do conjunto.

Parâmetros: 4 α

4 – id do algoritmo

α – porcentagem mínima da entropia geral que o
sub-conjunto deve possuir
13
Quinta definição para seleção de SNPs

Coeficiente de determinação de haplotype :
caracteriza a incerteza/certeza na predição de
haplotypes a partir de dados de genotypes (calculase apenas para haplotypes comuns). Seleciona-se
o menor conjunto de SNPs que exceder um dado
limiar.

Parâmetros: 5 α β

5 – id do algoritmo

α – limiar para seleção de SNPs

β – número mínimo de vezes que o haplotype deve
aparecer para ser considerado comum
14
Parâmetros
15
Referências
 Download da ferramenta e manual:
http://www-hto.usc.edu/msms/HapBlock/
 Artigo:
http://bioinformatics.oxfordjournals.org/cgi/rep
rint/bth482v1
16
Download

HapBlock