HapBlock Rogério Rosa Recife, Março de 2008 1 Introdução O genoma humano é composto por regiões de alta LD intercaladas com regiões de baixa LD; Áreas com alta LD apresentam altos índices de conservação. E são essas regiões que devem ser objeto de estudos na busca por SNPs; LD: sigla para Linkage Disequilibrium 2 Introdução Segundo o autor somente um pequeno conjunto de SNPs são suficientes para capturar a estrutura do haplotype; Sendo assim, o HapBlock foi desenvolvido para particionar blocos de haplotypes e selecionar SNPs. Minimizando a quantidade de SNPs selecionados e com blocos de menor tamanho possível (que possuam sentido do ponto de vista biológico); 3 Primeira Característica do HapBlock O HapBlock possui três características que o diferencia dos demais programas similares: Primeira: o programa incorpora um conjunto de algoritmos de programação dinâmica Zhang et al. (2002; 2003; 2004a). Tais algoritmos dependem de dois parâmetros principais: critérios para selecionar um bloco (3 possibilidades) e critérios para selecionar SNPs (mais de 5 possibilidades); 4 Segunda Característica do HapBlock Segunda: o programa analisa dados de haplotypes ou genotypes de indivíduos independentes ou de pedigrees. Sabemos que é tecnologicamente difícil gerar em larga escala haplotypes de indivíduos diplóides; Existem dados de haplotypes gerados por projetos, como o HapMap, por exemplo; Quando temos apenas dados de genotypes o programa infere os haplotypes empregando os algoritmos PL-EM (Qin et al., 2002) e PL-EM (Zhang et al., 2004b); 5 Terceira Característica do HapBlock O usuário escolhe a abordagem para definir Blocos e SNPs; 6 Primeira definição de bloco Cobertura de Haplotypes Comuns: no mínimo uma certa porcentagem de haplotypes observados ou inferidos devem ser comuns (Patil et. al.,2001). Parâmetros: 1 α β 1 – id do algoritmo α – porcentagem mínima de haplotypes comuns β – número mínimo de vezes que o haplotype deve aparecer para ser considerado comum 7 Segunda definição de bloco Blocos baseados em medidas de LD: no mínimo uma certa porcentagem de pares de SNPs havendo alta LD (Gabriel et. al.,2002). Parâmetros: 2 α β 2 – id do algoritmo α – porcentagem mínima de pares de SNPs β – threshold utilizado para classificar a LD como alta 8 Terceira definição de bloco Sem histórico de recombinação: um conjunto consecutivo de SNPs é definido como um bloco senão há histórico de ventos de recombinação (baseado no teste four-gamete proposto e definido por Wang et. al.,(2002). Parâmetros: 3 β 3 – id do algoritmo β – número mínimo de vezes que o haplotype deve aparecer para ser considerado comum 9 Primeira definição para seleção de SNPs Fração de haplotypes comuns distinguíveis por uma tag SNPs: conjunto mínimo de SNPs que podem distinguir unicamente os haplotypes comuns em no mínimo uma certa porcentagem. Parâmetros: 1 α β 1 – id do algoritmo α – porcentagem mínima haplotypes comuns que serão unicamente distinguíveis β – número mínimo de vezes que o haplotype deve aparecer para ser considerado comum 10 Segunda definição para seleção de SNPs Todos os haplotypes comuns: conjunto mínimo de SNPs que podem distinguir todos os haplotypes comuns no bloco. Parâmetros: 2 β 2 – id do algoritmo β – número mínimo de vezes que o haplotype deve aparecer para ser considerado comum 11 Terceira definição para seleção de SNPs Diversidade de haplotypes: conjunto mínimo de SNPs que pode contar no mínimo uma certa porcentagem da diversidade de haplotypes geral do conjunto. Parâmetros: 3 α 3 – id do algoritmo α – porcentagem mínima da diversidade de haplotypes geral do conjunto 12 Quarta definição para seleção de SNPs Entropia de haplotypes: sendo n o número de haplotypes e p a freqüência do mesmo, calcula-se a entropia. Seleciona-se o conjunto que pode contar no mínimo uma certa porcentagem da entropia geral do conjunto. Parâmetros: 4 α 4 – id do algoritmo α – porcentagem mínima da entropia geral que o sub-conjunto deve possuir 13 Quinta definição para seleção de SNPs Coeficiente de determinação de haplotype : caracteriza a incerteza/certeza na predição de haplotypes a partir de dados de genotypes (calculase apenas para haplotypes comuns). Seleciona-se o menor conjunto de SNPs que exceder um dado limiar. Parâmetros: 5 α β 5 – id do algoritmo α – limiar para seleção de SNPs β – número mínimo de vezes que o haplotype deve aparecer para ser considerado comum 14 Parâmetros 15 Referências Download da ferramenta e manual: http://www-hto.usc.edu/msms/HapBlock/ Artigo: http://bioinformatics.oxfordjournals.org/cgi/rep rint/bth482v1 16