Estudos de Associação ampla do genoma Dr. Fernando Baldi 1 Programa do dia Controle de Qualidade com painéis de alta densidade Estudos de associação ampla com um único marcador Estudos de associação ampla utilizando haplótipos Abordagem de genes idênticos por descendência (IBD) Associação com marcadores múltiplos Problemas nos estudos de associação ampla do genoma Métodos de seleção de SNPs para estudos de associação ampla 2 Estudos de associação com marcadores O objetivo de qualquer estudo de associação é identificar associações entre o fenótipo, e um ou mais marcadores genéticos. 3 Princípio da estimação do efeito marcador por LD Genótipo Produção média de proteína AA 20 AC 15 CC 10 Repetido para todos os marcadores Progênie de touros testados agrupados por seu genótipo para um SNP particular estimativa do efeito do SNP 4 Tipos de estudos populacionais de associação • Polimorfismo candidato – Apenas um marcador • Gene Candidato – 5-50 SNPs dentro do gene • Mapeamento fino – Estudos que são realizados em uma região candidata de talvez 1-10 Mb e pode envolver centenas de SNPs • Genome-wide studies ou Estudos de associação ampla – Procura identificar variantes causais comuns em todo o genoma, e exige milhares de marcadores (SNPs) 5 Balding, 2006 Estudos de Associação Ampla do Genoma (GWAS) • Estudos de Associação Ampla do Genoma: GWAS (Genome wide association) utiliza milhares de polimorfismos de base única (SNPs) como marcadores genéticos pois são abundantes e espalhados no genoma: – Estudos em humanos e plantas – http://www.genome.gov/ – Identificar genes de interesse (características monogênicas) – Predizer ou ajudar a predizer o valor genético dos animais 6 Estudos de Associação Ampla do Genoma (GWAS) • Identificação de regiões cromossômicas associadas com um determinado fenótipo, sem conhecimento da mutação causal da variação genética. – SNPs não têm efeito direto sobre uma característica em estudo. • GWA está baseada na suposição de que uma mutação causativa para um determinado fenótipo está em desequilíbrio de ligação com marcadores adjacentes nas diversas famílias de uma população. 7 •Mapeamento de QTL por LD explora as associações a nível da população entre marcadores e QTL. •Associações surgem devido a que pequenos segmentos do cromossomo na população atual são descendentes em comum do mesmo antepassado. •Estes segmentos de cromossomos, que provem de um antepassado em comum •No caso de existir um QTL dentro do segmento de cromossomo, dois indivíduos parentes vão compartilhar alelos do QTL idênticos 1 2Q 1 1 A maneira mais simples de explorar essas associações é através de um único SNP por meio de regressão 8 Análise Associação com Marcadores • Em uma amostra "aleatória" de (independente) indivíduos obter: – Fenótipo da característica quantitativa – Os genótipos para um ou vários marcadores • Realização da análise estatística de associação entre o genótipo de um marcador e o fenótipo (repetir o processo para cada marcador): Y = μ + genótipo do marcador + e Teste de significância - vários 9 Análise Associação com Marcadores • Testes de hipótese – Testando o efeito do SNP diferente de zero (H0) – O marcador afeta a característica (Ha), uma vez que esta em LD com o QTL • Existem dois tipos de erros que podem acontecer na detecção de QTL: Erro tipo I e tipo II – Tipo I: originado pela própria pesquisa (α) – Tipo II: número insuficiente de amostragem (efeito pequeno) 10 Regressão simples com um único marcador • Associação entre um marcador e uma determinada característica pode ser testada com o modelo: Aonde: - y é o vetor das observações (valores fenotípicos) - 1n é um vetor de 1s atribuído à média - X é a matriz relacionando cada valor fenotípico com o marcador (Genótipo) - g é o efeito do marcador 2 - e é o vetor do resíduo (~ N(0, e )) O pressuposto é que o marcador afetará a característica se estiver em LD com um QTL 11 Hayes, 09 Regressão simples com um único marcador Exemplo simples: 10 animais, 1 marcado SNP, efeito fixo da média O vetor 1n relaciona os fenótipos à média O vetor X relaciona os fenótipos aos genótipos Animal Fenótipo Alelo 1 Alelo 2 Reparametrização Animal 1n Genótipos (“X” número de 2) 12 Hayes, 09 Regressão simples com um único marcador Estimar o efeito do marcador e da média como: Least Square Equations As estimativas da média e do efeito do marcador são: 13 Regressão simples com um único marcador É o efeito marcador importante? • Estatística F: comparação entre as variâncias dentro e entre genótipos (ANOVA) Genótipo Produção média de proteína – 11, 12 ou 21, 22 AA 20 AC 15 CC 10 • Teste contra o valor tabelado para: F a, v1,v2 a= valor de significância v1= 1 (1 marcador para o efeito de regressão) v2= 9 (número de dados -1) 14 Regressão com um único marcador • No nosso exemplo : – Fdados= 4.56 (n 1) g X ' y 1 / ny' y F= ' y' y g X ' y u 1n y Não significativo!!! – F0.05,1,9= 5.12 15 Regressão simples com único SNP Modelo linear: Yijk= Touroi + SNPj + eijk Onde Yijk é o fenótipo ajustado, Touroi é o efeito fixo de touro, SNPj é o efeito fixo do SNP, eijk resíduo Modelo Animal: Yijk = µ+ SNPj +animali+ eijk Onde Y é o fenótipo ajustado, µ é a média, animal é o efeito aleatório (genético aditivo) do animal, SNPj é o efeito fixo do SNP, eijk resíduo 16 animal model ASReml (Gilmour et al., 2006) Genome-Wide Association Of The Ratio Of Saturated To Unsaturated Milk Fatty Acids In Dutch Dairy Cattle (Bouwman et al., WCGALP 2010) • Dados de 1.905 primeiras lactações de vacas da raça Holandesa • A relação AGS / AGI foi calculada como a soma do AGS dividido pela soma dos AGI • As vacas foram genotipadas usando o Infinium Assay 50 K(Illumina, EUA). • 43,516 SNPs yij* = μ + r + SNPi + eij onde yij* é o fenótipo ajustados para os efeitos sistemáticos do ambiente; r é o efeito fixo de touro; SNP é o efeito fixo do genótipo do SNP; eij foi o aleatório residual. 17 Gráfico de Manhattan para a associação de 43.516 SNPs com AGS/AGI. A linha tracejada corresponde a um nível mínimo de FDR = 0,05. Todos log10 (valores P)> 7 não são mostrados •A análise de associação do genoma (SNPassoc) detectou 209 SNPs significativos (P<0,05) localizados nos BTA 2, 3, 4, 5, 9, 12, 14, 19, 24 e 26 •Os dois SNPs mais significativos no BTA 14 estão localizados no gene da acylCoA:diacylglycerol acyltransferase (DGAT1) 18 Bouwman et al., 2010 Qual é o poder ou erro do teste? • O poder do teste é: a probabilidade de corretamente rejeitar a hipótese nula quando existe realmente um QTL na população (1- β). – H0 = não existe QTL – H1 = existe QTL • Erro tipo I – ocorre quando rejeitamos a hipótese nula, e na verdade, não há associação entre o polimorfismo e o fenótipo 19 Regressão simples com um único marcador O poder do teste é função de: 1. r2 entre os marcadores e o QTL O tamanho da amostra deve ser aumentada pelo fator 1/r2 para detectar uma QTL não genotipado, em comparação com o tamanho da amostra para testar o próprio QTL 2. Proporção da variância fenotípica total explicada pelo QTL (h2Q) 3. Número de observações fenotípicas 20 Regressão um único únicomarcador marcador Regressãosimples simples com com um O poder do teste é função de: 4. Frequência dos alelos do SNP (alelos raros) • • Determina o número mínimo de observações necessários para estimar o efeito do alelo. O poder torna-se especialmente sensível com frequências muitos baixas (<0,1) 5. O nível de significância a definido 21 Regressão simples com um único marcador Poder do teste Poder do teste • Poder para detectar um QTL explicando 5% e 2,5% da variação fenotípica e diferente tamanho da população r2 entre o marcado e QTL Valor-P:0,05 5% r2 entre o marcado e QTL 2,5% Valor-P:0,05 22 Hayes, 09 Regressão simples com um único marcador • Análise de associação depende da existência de forte LD entre o SNP e o DNA (causal variante) • A densidade de marcadores necessária para estudos de associação ampla do genoma (GWAS) depende do LD na população. r2>0,2 com <100kb (bovinos) r2>0,2 com <10-20kb (humanos) • Os trabalhos com populações animais (bovinos), requerem painéis de SNPs muito menos densos em comparação com estudos em humanos 23 Teste múltiplos • O nível de significância nominal é a taxa de erro tipo I (alpha), selecionados para testes de associação individuais. • O nível de significância nominal escolhido para um estudo determina a proporção de todos os testes que são significativos, mesmo quando nenhuma das hipóteses são verdadeiras. • Quando um grande número de hipóteses são testados, ajustar o nível de significância nominal para o número de testes, de forma não rejeitar muitas hipóteses falsas (Ho) 24 Teste múltiplos Que nível de significância utilizar nos estudos de associação? • Problema de testes múltiplos – Cada teste é avaliado ao 1% (α) – Se avaliamos 10.000 SNP (P <0,01), portanto esperar-se apenas por acaso 100 resultados significativos. • Testes múltiplos: nível de significância do experimento diferente do nível de significância “nominal” – Teste de Bonferroni: – α =1-(1-α’)n – α =5%, então se tenho 1:000.000 SNP por teste: α’=1x10-8 25 Regressão simples único marcador Regressão com com um um único marcador • Corrigir para o número de testes (Bonferoni α’ = α/n) – Mas é muito rigoroso, e ignora o fato de que os testes não são independentes (SNPs estão no mesmo cromossomo em LD) • Teste de permutação: – Os fenótipos são aleatorizados (remover relação entre genótipo e fenótipo) – Vários conjuntos de dados são gerados e análises de associação são realizadas para cada rodada – Uma distribuição empírica da estatística do teste é gerada – A distribuição empírica gerada é utilizada com os dados reais para fixar o nível de significância • Dificuldade com a estrutura pedigree • Alta demanda computacional 26 Controle de falsos positivos (FDR) em estudos de associação • Proporção de resultados significativos, que são realmente falsos positivos (Storey et al., 2003). • O método FDR tem sido utilizado na expressão diferencial do genes (ensaios com micro-arranjos de DNA) • Escolhendo um FDR médio de 5% – 5% dos marcadores significativos são realmente falsos positivos • Forma menos rigorosa (conservativa?) de ajuste 27 http://www.pnas.org/content/100/16/9440.full.pdf+html Controle de falsos positivos (FDR) em estudos de associação • FDR (False discovery rate): FDR=m*Pmax/n m = número de marcadores testados Pmax = nível de significância (ex. P=0,01) n = número de marcadores significativos (<0,01) Exemplo: – 9.918 marcadores testados (P<0,001), 56 marcadores significativos. Qual é FDR? – FDR=9.918*0,001/56 = 18% – 18% dos resultados significativos são falsos positivos 28 Controle de falsos positivos (FDR) em estudos de associação • Uma alternativa é escolher um nível de significância (pvalue) com uma taxa de detecção aceitável falsos positivos (FDR; q-value) • Taxa de falsos positivos (FPR): fração de falsos atribuídos como significativos 29 http://www.pnas.org/content/100/16/9440.full.pdf+html FDR Número de SNPs significativos Exemplo: taxa de falsos positivos em um experimento com 9.918 SNPs para a eficiência de conversão alimentar em 384 bovinos da raça Angus. Log (valor P) Log (valor P) A menor nível de significância maior número de SNPs significativos são encontrados, mas também aumenta a taxa de falsos positivos 30 Valor q-Storey • Uma medida de significância estatística chamada de valor de q está associado com cada teste – Valor de q: taxa de FDR esperado para um determinado teste • O valor q é semelhante ao valor de p, exceto que é uma medida de significância em termos de FDR – Proporção esperada de falsos positivos quando é detectado significativo o teste. • Testes com menores valores-p também devem ter menores valores associados FDR • O software QVALUE pode http://genomine./org/qvalue/. ser baixado em: 31 Storey and Tibshirani. PNAS. 2003 Problemas com mapeamento por LD utilizando regressão simples com um único marcador • Teste de significância - por exemplo, Teste F – Muitos testes - a necessidade de controle de falsos positivos (teste de permutação, FDR) • Falsos positivos por causa da estrutura da população – Um modelo simples assume que todos os animais sem parentesco = improvável – Presença de raças, linhagens, ou famílias, tudo isso cria estrutura na população • Por exemplo: presença de relações genéticas (matriz de parentesco) • Superestimação dos SNPs significativos – Ajustar o efeito dos SNPs como aleatório vs. fixo 32 Impacto das relações de parentesco O modelo anterior utilizado para testar a associação entre um marcador com o fenótipo assume que não há estrutura na população, ou seja, todos os animais são não relacionados Em populações de animais domésticos isso é pouco provável -Vários descendentes por touro (familias de meio irmãos), raças ou linhas dentro população A falta de consideração para a estrutura da população pode causar associações espúrias (falsos positivos) Exemplo: Um touro com alta EBV tem muitos descendentes na população um alelo raro em algum SNP é homozigoto no touro (aa) A progênie tem maior freqüência do alelo (a) que a população geral Como o touro tem alta EBV, a sua descendência terá também alto EBV Então, no estudo de associação ampla do genoma, se o número de progênies por touro não é contabilizado, o alelo raro parecerá ter um efeito (talvez significativo) positivo Remover o efeito da estrutura da população através de um modelo misto 33 Modelo 1-SNP ajustando o efeito poligênico u= vetor de efeito poligênico com uma estrutura de covariância u~N(0, A a ) A= matriz de parentesco genética aditiva 2 a2 = variância genética aditiva; X, Z = matriz de incidência que relacionam as observações aos efeitos fixos e aleatórios genéticos. Equações do Modelo Misto Henderson (1949) = e2 / a2 34 Efeito da inclusão ou omissão do pedigree sobre o número de QTL detectados Exemplo da importância de considerar a estrutura da população: 365 bovinos Angus genotipados para 10 mil SNPs (7.975) Efeitos poligênicos e de ambiente foram simulados para cada animal Nenhum QTL foi simulado! (todos os QTL detectados são FP) Efeito de cada SNP foi testado usando três modelos: 1. 2. 3. SNP apenas SNP e efeito do pai SNP e pedigree completo 35 MacLeod et al. J. Anim. Breed. Genet. 127 (2010) 133–142 Efeito da inclusão ou omissão do pedigree sobre o número de QTL detectados Número médio de erros do tipo I (QTL falso-positivos) em 50 conjuntos de dados com nenhum QTL simulado (três níveis de significância e erro padrão entre parênteses) 1Número esperado de erros de tipo I, dada a distribuição nula e o número de SNPs testados. (*p < 0.05, **p < 0.01). Aumento no número de falsos positivos quando a estrutura da população não foi considerada 36 MacLeod et al. J. Anim. Breed. Genet. 127 (2010) 133–142 Superestimação dos SNPs significativos • Tratar o efeito do SNP como um efeito fixo e uso de estimadores que são não viesados. – Quadrados Mínimos – Máxima Verossimilhança (ML) • Efeitos de SNPs em GWAS tem sido estimados por métodos que são não viesados – testar o mesmo marcador em diversas amostras e obter a média das estimativas sobre estas repetições( ) • Em GWAS centenas de milhares de SNPs são testados e frequentemente os efeitos estimados são indicados apenas para os marcadores significativos. 37 Superestimação Superestimação dos dos SNPs SNPs significativos significativos • Apenas são considerados efeitos dos marcadores significativos (de acordo com o nível de significância) • O GWAS é usado para selecionar os marcadores que têm maior efeito ou os mais significativos (vamos assumir b> 0, o sinal é arbitrário). • Os efeitos estimados tendem a ser maiores em magnitude do que os verdadeiros efeitos desses marcadores (“Beavis effect”) 38 Limite da significância b̂ b verdadeiro b̂ repetições significativas O valor médio de b̂ (aprox. 2,5) de repetições significativas quando b = 1,0 (o limite de significância é 2,0 e o SE de b̂ é 1,0) 39 Superestimação dos SNPs significativos • Com mínimos quadrados (efeito fixo) as estimativas dos efeitos SNP são iguais ao erro de estimativa + valor verdadeiro: • Alguns SNPs que são significativos tendem a ter maiores estimativa do erro - por exemplo: SNPs com alelos em baixas frequências. • Ajustando g como efeito aleatório levamos em conta a falta de informação para estimar o efeito do SNP. – regride as estimativas de g a média para considerar a falta de informação – g = (X' X λI) 1 X' y 2 – assumindo g ~ N (0, g ) •Diferenças entre efeito aleatório/fixos são pequenas, se a quantidade de dados é grande (erro pequeno), então = e2 / g2 é pequeno 40 Testes de associação múltiplos Regressão Multi-SNP: Análise de associação simples (regressão simples) -Cada teste não é independente -Melhorar as estimativas das análise de regressão simples -Reduzir o número de testes múltiplos (500k SNP com 5% de erro em cada teste; 25.000 SNP falsos positivos) Utilizar informações de LD entre os SNPs “Tag” SNPs podem reduzir o número de testes redundantes Interações entre os SNPs pode ser modeladas 42 Efeitos dos SNPs em análise de regressão simples e múltipla • Dados para idade à puberdade de 1.007 novilhas da raça Brahma • As fêmeas foram genotipadas usando o painel da Illumina SNPs 50k • Estimar os efeitos dos SNP regressão simples: • Efeitos dos SNP a partir de regressão múltipla: 43 Zhang et al. (2010) WCGALP Efeito do SNP (dias) Efeitos dos SNPs em análise de regressão simples e múltipla •Análises de associação superestimado efeitos SNP simples a. Posição no Genôma (MB) Efeito do SNP (dias) •Variância obtida a partir de análise de associação simples é superestimada b. Posição no Genôma (MB) Distribuição dos efeitos significativos SNPs (P <0,05) para a idade à puberdade a partir da análise de regressão simples (pontos vermelhos representam SNP com P <0,01) na figura a. Os correspondentes efeitos a partir de análises de regressão múltipla estão na figura b. 44 Zhang et al. (2010) WCGALP Testes de associação múltiplos Problemas: n<<<<p Análises de regressão simples (análises preliminares) Incluir os SNPs como efeito aleatório Métodos de redução e penalização de variáveis – – – – Método de stepwise e Componentes principais; Mínimos quadrados parciais; Escolher os SNPs nas regiões com maior LD Seleção de marcadores igualmente espaçados ao longo do genoma – Métodos Bayesianos de seleção de variáveis 45 Estudos de associação com haplótipos 46 Regressão com haplótipos • Usar haplótipos para tentar capturar a estrutura de correlação de SNPs em regiões de baixa recombinação – Número de efeitos a estimar? • Poder de estudo de associação depende de LD entre marcadores e QTL • Uma maneira de aumentar LD entre alelos marcadores e o QTL é a utilização de haplótipos ao invés de um único marcador 1_Q único marcador (1 é o alelo do marcador) 1_1_Q_2_1 Haplótipo 47 Regressão com haplótipos • O valor dos haplótipos depende LD entre haplótipos e QTL – Se encontramos dois haplótipos idênticos na população, qual é a probabilidade de que eles carregam o mesmo alelo do QTL? – Se a probabilidade é alta, nível elevado de LD entre haplótipos e QTL 48 Regressão com haplótipos • Se encontramos dois haplótipos idênticos na população, qual é a probabilidade de que eles carregam o mesmo alelo do QTL? • Haplótipos são idênticos porque os segmentos de cromossomos provem do mesmo antepassado comum (baixa recombinação) 49 Se encontramos dois haplótipos idênticos na população, qual é a probabilidade de que eles carregam o mesmo alelo do QTL?? ‘ 1. Segmentos provem do mesmo antepassado Haplótipo Q 50 Hayes, 2010 Regressão com haplótipos • Se encontramos dois haplótipos idênticos na população, qual é a probabilidade de que eles carregam o mesmo alelo do QTL? • Haplótipos são idênticos porque os segmentos de cromossomos provem do mesmo antepassado comum • Ou por causa da recombinação ... .... 51 Recombinação produz o mesmo haplótipo ...... 1111 q 1 2222 Q 2 1111 q 2 1111 q 2 Touro Formação de gametas Progênie Haplótipo da População 52 Regressão com haplótipos • Se encontramos dois haplótipos idênticos na população, qual é a probabilidade de que eles carregam o mesmo alelo do QTL? • Haplótipos são idênticos porque os segmentos de cromossomos provem do mesmo antepassado comum • Ou por causa da recombinação ... .... • Com mais marcadores no haplótipo, a chance de criar o mesmo haplótipo por recombinação torna-se menor 53 P ro p o rtio n o f Q T L varian ce exp lian ed b y Proporção da variância do QTL explicada pelos m arker h ap lo typ es marcadores haplótipos Proporção da variância do QTL explicada pelos marcadores entorno do mesmo 1 Mais marcadores no haplótipo, a chance de criar o mesmo haplótipo por recombinação torna-se baixa 0.8 0.6 11211Q211222 11211Q211222 0.4 1 Q 1 2 1 q 1 2 0.2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 Número cM N u m bde er marcadores o f m arkersem in 10 10cM Goddard (1991) 54 Regressão com haplótipos O modelo para testes de haplótipos em um estudo de associação poderia ser semelhante ao modelo descrito anteriormente: • Onde g agora é um vetor contendo os efeitos dos haplótipos (número de haplótipos observados) • X relaciona os haplótipos com as observações 55 Depois de usar fastPHASE para inferir os haplótipos Animal Haplótipo Paternal Haplótipo Maternal Haplótipos Animal 56 Hayes, 2010 Regressão com haplótipos • Existe a dificuldade de utilizar haplótipos com mais de um marcador, em vez de marcadores único (SNP) – Os haplótipos devem ser estimados – Fonte de erro • Maior número de efeitos a serem estimados quando são utilizados haplótipos (2n) – Menor número de observações por efeito, menor precisão da estimativa de cada efeito 57 Regressão com haplótipos Ajustar os haplótipos os efeitos aleatórios: 2 g ~ N ( 0 , • h) • Alguns haplótipos serão raros, muito poucas observações • Ajustar o haplótipo como aleatório considera essa falta de informação • Não considera a correlação entre haplótipos (em principio ....) 58 SAM-LD com haplótipos efeito QTL do effect predição de Acurácia QTL allele predicting Accuracy of • Comparar a acurácia da SAM utilizando marcadores simples (SNP) ou haplótipos • 379 bovinos da raça Angus (9.323 SNP) • r2= 0.2 a 200kb 0.6 0.5 0.4 Acurácia de predição do efeito do QTL com diferente número de marcadores por haplótipo e número de observações fenótipicas 0.3 0.2 Nearest marker Best marker Two marker haplotype Four marker haplotype Six marker haplotype 0.1 0 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Number of phenotypic records Número de observações fenotípicas 59 Hayes et al. (2007) Abordagem de genes idênticos por descendência (IBD) • Existência de LD na população implica que pequenos segmentos de cromossomos são descendentes do mesmo ancestral comum (IBD) • Se dois animais carregam cromossomos que são IBD em uma posição de QTL, seus fenótipos serão correlacionados. • Probabilidade de que alelos do QTL são IBD, esta probabilidade é capturada na matriz G (IBD) – Elementos gij é a probabilidade de que o alelo i e j são IBD – A probabilidade é inferida a partir dos haplótipos 60 Construindo a matriz IBD apartir dos haplótipos • Segmento de cromossomo que carrega 10 locos marcadores e um único locus QTL central • Três segmentos do cromossoma foram selecionados a partir da população de forma aleatória: 1. 11212Q11211 2. 22212Q11111 3. 21212Q11212 A probabilidade dos segmentos 1 e 3 ser IBD na posição do QTL(Q) é maior respeito à probabilidade dos segmentos 1 e 2, 2 e 3, uma vez que os segmentos 1 e 3 possuem os mesmos alelos marcadores 61 Construindo IBD matriz de haplótipos marcador 1. Informação necessária para construir G: – LD do genoma – comprimento dos haplótipos – Número marcadores nos haplótipos 2. Algoritmo de Meuwissen and Goddard (2001) – Construir a matriz IBD de coeficientes 62 Abordagem IBD O modelo: • Onde vpi e vmi são os efeitos dos alelos do QTL paternos e maternos, respectivamente • u~(0,A 2 a ), 2 2 v~(0,G v ), e~ (0,I e ) • Aplicar procedimentos de estimação de componentes de variância – Estimar 2 e 2 a 2 v • Maximizar a função de máxima verossimilhança dos dados Log (LogL) (ASREML program) 63 Abordagem IBD Para estimar a variância de QTL em uma suposta posição, utiliza-se o seguinte modelo linear: y = 1n μ Zu Wv e onde W é uma matriz que relaciona os registros fenotípicos com os alelos QTL, v é um vetor de efeitos aditivos QTL, e o vetor de resíduos, onde os v efeitos aleatórios tem uma distribuição v~(0,G v2) Estimar a variância do QTL via REML maximizando a verossimilhança dos dados dado o QTL e o efeito poligênico Mapeamento de QTL prossegue propondo uma suposta posição de QTL em intervalos ao longo do cromossomo Em cada ponto, a variância de QTL é estimada e a probabilidade dos dados dado o QTL e o efeito poligênico é calculado 64 Abordagem IBD A significância do QTL em determinada posição ou ponto pode ser testada utilizando a razão da máxima verossimilhança (comparar a máxima verossimilhança do modelo com ou sem QTL) LRT = 2( LogLikelihood no _ QTL _ fitted LogLikelihood QTL _ fitted ) Limite de significância O QTL é significativo ao nível de 5%, se LR> 3,84. Esta estatística tem distribuição 12 65 Comparações com os marcadores únicos O uso de haplótipos parece inicialmente atrativo, mas há uma série de fatores que potencialmente limitam sua utilização sobre os marcadores simples: •A exigência de que os genótipos devem ser classificados em haplótipos •O número de efeitos que devem ser estimados aumenta •Alguns resultados com dados reais mostram que o benefício da utilização de haplótipos é maior com baixa densidade de marcadores (r2<0,2) 66 Métodos bayesianas estatísticos para estudos de associação genômica • Proporcionar uma abordagem alternativa para avaliar as associações e aliviar as limitações de valores de os valores de p • Maior custo: maior número de pressuposições • Probabilidade posteriori de associação (PPA) pode ser pensado como o análogo Bayesiana de um valor de p – independentemente do poder do teste, do tamanho da amostra ou número de SNPs testados • Valor a prior (π) da proporção de SNPs que estão associados com o fenótipo • Bayesian Factor: a razão entre as probabilidades dos dados sob H1 e sob H0 67 Stephens and Balding, 2009 Métodos bayesianas estatísticos para estudos de associação genômica • O PPA combina a evidência dos dados observados (BF) com a probabilidade prévia (π) que um SNP é realmente associado com o fenótipo. • O BF e π podem ser utilizados para calcular as probabilidades posteriores (PO) em H1: PO = BF × π/(1 – π) • Isto pode ser utilizada para calcular o PPA: PPA = PO/(1 + PO) 68 Stephens and Balding, 2009 Probabilidades de cauda em várias distribuições a priori 69 Stephens and Balding, 2009 Validando estudos de GWAS Necessidade de validar os resultados significativos em outra população independente da população referência Limitações na validação: 1. Os efeitos estimados dos SNPs são pequenos 2. Fase de ligação entre o marcador e o QTL 3. Alto número de FDR 70 Softwares e pacotes para estudos de associação ampla 71 Pacotes estatísticos para estudos genéticos em R? Visitar: http://cran.r-project.org/web/views/Genetics.html Population Genetics : genetics (basic), Geneland (spatial structures of genetic data), rmetasim (population genetics simulations), hapsim (simulation), popgen (clustering SNP genotype data and SNP simulation), hierfstat (hierarchical F-statistics of genetic data), hwde (modeling genotypic disequilibria), Biodem (biodemographical analysis), kinship (pedigree analysis), adegenet (population structure), ape & apTreeshape (Phylogenetic and evolution analyses), ouch (Ornstein-Uhlenbeck models), PHYLOGR (simulation and GLS model), stepwise (recombination breakpoints) Linkage and Association : gap (both population and family data, sample size calculations, probability of familial disease aggregation, kinship calculation, linkage and association analyses, haplotype frequencies) tdthap (TDT for haplotypes, powerpkg (power analyses for the affected sib pair and the TDT design),hapassoc (likelihood inference of trait associations with haplotypes in GLMs), haplo.ccs (haplotype and covariate relative risks in case-control data by weighted logistic regression), haplo.stats (haplotype analysis for unrelated subjects), tdthap (haplotype transmission/disequilibrium tests), ldDesign (experiment design for association and LD studies), LDheatmap (heatmap of pairwise LD),. mapLD (LD and haplotype blocks), pbatR (R version of PBAT), GenABEL & SNPassoc for GWAS QTL mapping for the data from experimental crosses: bqtl (inbred crosses and recombinant inbred lines), qtl (genome-wide scans), qtlDesign (designing QTL experiments & power computations), qtlbim (Bayesian Interval QTL Mapping) Sequence & Array Data Processing : seqinr, BioConductor packages 72 Zhang, 2008 GenABEL Aulchenko Y.S., Ripke S., Isaacs A., van Duijn C.M. GenABEL: an R package for genomewide association analysis. Bioinformatics. 2007, 23(10):1294-6. GenABEL: genome-wide SNP association analysis a package for genome-wide association analysis between quantitative or binary traits and single-nucleotides polymorphisms (SNPs). Version: 1.3-5 Depends: R (≥ 2.4.0), methods, genetics, haplo.stats, qvalue, MASS Date: 2008-02-17 Author: Yurii Aulchenko, with contributions from Maksim Struchalin, Stephan Ripke and Toby Johnson Maintainer: Yurii Aulchenko <i.aoultchenko at erasmusmc.nl> License: GPL (≥ 2) In views: Genetics CRAN checks: GenABEL results 73 GenABEL: Data Manipulation snp.subset(): subset data by snp names or by QC criteria add.phdata(): merge extra phenotypic data to the gwaa.data-class. ztransform(): standard normalization of phenotypes rntransform(): rank-normalization of phenotypes npsubtreated(): non-parametric adjustment of phenotypes for medicated subjects 75 GenABEL: QC & Summarization summary.snp.data(): summary of snp data (Number of observed genotypes, call rate, allelic frequency, genotypic distribution, P-value of HWE test check.trait(): summary of phenotypic data and outlier check based on a specified p/FDR cut-off check.marker(): SNP selection based on call rate, allele frequency and deviation from HWE HWE.show(): showing HWE tables, Chi2 and exact HWE P-values perid.summary(): call rate and heterozygosity per person ibs(): matrix of average IBS for a group of people & a given set of SNPs hom(): average homozygosity (inbreeding) for a set of people, across multiple markers 76 GenABEL: SNP Association Scans scan.glm(): snp association test using GLM in R library scan.glm((“y~x1+x2+…+CRSNP", family = gaussian(), data, snpsubset, idsubset) scan.glm((“y~x1+x2+…+CRSNP", family = binomial (), data, snpsubset, idsubset) scan.glm.2D(): 2-snp interaction scan Fast Scan (call C language) ccfast(): case-control association analysis by computing chi-square test from 2x2 (allelic) or 2x3 (genotypic) tables emp.ccfast(): Genome-wide significance (permutation) for ccfast() scan qtscore(): association test (GLM) for a trait (quantitative or categorical) emp.qtscore(): Genome-wide significance (permutation) for qscaore() scan mmscore(): score test for association between a trait and genetic polymorphism, in samples of related individuals (needs stratification variable, scores are computed within strata and then added up) egscore(): association test, adjusted for possible stratification by principal components of genomic kinship matrix(snp correlation matrix) 77 GenABEL: Haplotype Association Scans scan.haplo(): haplotype association test using GLM in R library scan.haplo.2D(): 2-haplotype interaction scan (haplo.stats package required) Sliding window strategy Posterior prob. of Haplotypes via EM algorithm GLM-based score test for haplotype-trait association (Schaid DJ, Rowland CM, Tines DE, Jacobson RM, Poland GA. 2002. Score tests for association of traits with haplotypes when linkage phase is ambiguous Am J Hum Genet 70: 425-434. ) 78 GenABEL: Table & Graphic Functions descriptives.marker(): descriptives.trait(): descriptives.scan(): table of marker info. table of trait info. table of scan results plot.scan.gwaa(): plot of scan results plot.check.marker(): plot of marker data (QC etc.) 79 SNPassoc An R package to perform whole genome association studies, Juan R. González 1, et al. Bioinformatics, 2007 23(5):654-655 SNPassoc: SNPs-based whole genome association studies This package carries out most common analysis when performing whole genome association studies. These analyses include descriptive statistics and exploratory analysis of missing values, calculation of Hardy-Weinberg equilibrium, analysis of association based on generalized linear models (either for quantitative or binary traits), and analysis of multiple SNPs (haplotype and epistasis analysis). Permutation test and related tests (sum statistic and truncated product) are also implemented. Version:1.4-9 Depends:R (≥ 2.4.0), haplo.stats, survival, mvtnorm Date:2007-Oct-16 Author:Juan R González, Lluís Armengol, Elisabet Guinó, Xavier Solé, and Víctor MorenoMaintainer:Juan R González <jrgonzalez at imim.es> License:GPL version 2 or newerURL:http://www.r-project.org and http://davinci.crg.es/estivill_lab/snpassoc; In views:Genetics CRAN checks:SNPassoc results 80 SNPassoc: Data & Summary setupSNP(data=snp-pheno.table, info=map.table, colSNPs=, sep = "/", ...) summary() allele frequencies percentage of missing values HWE test 81 SNPassoc: Association Tests WGassociation(y~x1+x2, data=, model = (codominant, dominant, recessive, overdominant, log-additive or all),quantitative = , level = 0.95) scanWGassociation(): only p values association(): only for selected snps, can do stratified, GxE interaction analyses Results Summary: a summary table by genes/chromosomes Wgstats: detailed output(case-control numbers, percentages, odds ratios/ mean differences, 95% confidence intervals, P-value for the likelihood ratio test of association, and AIC, etc.) Pvalues: a table of p-values for each genetic model for each SNP Plot: p values in the -log scale for plot.Wgassociation() Labels: returns the names of the SNPs analyzed 82 SNPassoc: Multiple-SNP Analysis SNP–SNP Interaction interactionPval(): epistasis analysis between all pairs of SNPs (and covariates). Haplotype Analysis haplo.glm(): using the R package haplo.stats: association analysis of haplotypes with a response via GLM haplo.interaction(): interactions between haplotypes (and covariates) 83 Results of WGassociation for the HapMap dataset. The logP values for a whole genome analysis assuming a log-additive genetic model are shown for each chromosome. The statistically significant associations at level 10 10 are plotted in red, while the other associations are in gray. Blue lines indicate the centromeres. 84 Um locus As freqüências alélicas e genotípicas Teste para equilíbrio de Hardy-Weinberg Análise de associação com uma variável resposta com base na regressão linear ou logística Modelos de herança múltipla: co-dominante, dominante, recessiva, mais dominante e aditivo Análise de interações (gene-gene ou ambiente gene) Análise de Haplótipos estatísticas de desequilíbrio ligação Estimação da freqüência de haplótipos Análise de associação de haplótipos Analysis of interactions (haplotypes-covariate) 85 Outros softwares fora do ambiente R • SNP Snappy: – Os efeitos dos SNPs são considerados como covariáveis (SNP-wise analysis) – Todos os gentipos devem ser conhecidos – Resolver um sistema de equações do modelo misto (MME) – Considera efeito animal, além de outros efeitos • Implementado no pacote WOMBAT (Meyer, 2007) http://didgeridoo.une.edu.au/km/wmbdownloads.php. • Dados Fenotípicos, Pedigree e SNPs 86 Outros softwares for do ambiente R • SNPTEST v2: é um programa para a análise de um único SNP associação em estudos genômicos. Os testes implementados incluem: – Fenótipos Binários (caso-controle) e quantitativos múltiplos – Testes bayesianos e frequentistas – Vários métodos diferentes para lidar com a incerteza de SNPs imputados. • Programa projetado para funcionar perfeitamente com a saída de outros programas (IMPUTE) • Mais informação: https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html 87 Outros softwares for do ambiente R • PLINK: Whole genome association analysis toolset Teste basico comparar as frequências alelicas entre dois grupos de individuos (controle vs tratado Diferentes modelos genéticos (dominante, recessivo e geral) Vários testes (Cochran-Armitage trend test, Fisher's exact test) Testes de permutação Quantitative trait interaction (GxE) diferença entre dois coeficientes de regressão em dois ambientes http://pngu.mgh.harvard.edu/~purcell/plink/anal.shtml 88 Mais softwares? 89 http://linkage.rockefeller.edu/soft/new.html 90