Estudos de Associação ampla
do genoma
Dr. Fernando Baldi
1
Programa do dia
 Controle de Qualidade com painéis de alta densidade
 Estudos de associação ampla com um único marcador
 Estudos de associação ampla utilizando haplótipos
 Abordagem de genes idênticos por descendência (IBD)
 Associação com marcadores múltiplos
 Problemas nos estudos de associação ampla do genoma
 Métodos de seleção de SNPs para estudos de associação ampla
2
Estudos de associação com marcadores
O objetivo de qualquer estudo de associação é
identificar associações entre o fenótipo, e um
ou mais marcadores genéticos.
3
Princípio da estimação do efeito marcador por LD
Genótipo
Produção média de
proteína
AA
20
AC
15
CC
10
Repetido para todos os marcadores
Progênie de touros testados agrupados por seu genótipo para um SNP
particular
estimativa do efeito do SNP
4
Tipos de estudos populacionais de associação
• Polimorfismo candidato
– Apenas um marcador
• Gene Candidato
– 5-50 SNPs dentro do gene
• Mapeamento fino
– Estudos que são realizados em uma região candidata de
talvez 1-10 Mb e pode envolver centenas de SNPs
• Genome-wide studies ou Estudos de associação ampla
– Procura identificar variantes causais comuns em todo o
genoma, e exige milhares de marcadores (SNPs)
5
Balding, 2006
Estudos de Associação Ampla do Genoma (GWAS)
• Estudos de Associação Ampla do Genoma: GWAS
(Genome wide association) utiliza milhares de
polimorfismos de base única (SNPs) como marcadores
genéticos pois são abundantes e espalhados no
genoma:
– Estudos em humanos e plantas
– http://www.genome.gov/
– Identificar
genes
de
interesse
(características
monogênicas)
– Predizer ou ajudar a predizer o valor genético dos
animais
6
Estudos de Associação Ampla do Genoma (GWAS)
• Identificação de regiões cromossômicas associadas com um
determinado fenótipo, sem conhecimento da mutação
causal da variação genética.
– SNPs não têm efeito direto sobre uma característica em
estudo.
• GWA está baseada na suposição de que uma mutação
causativa para um determinado fenótipo está em
desequilíbrio de ligação com marcadores adjacentes nas
diversas famílias de uma população.
7
•Mapeamento de QTL por LD explora as
associações a nível da população entre
marcadores e QTL.
•Associações surgem devido a que
pequenos segmentos do cromossomo na
população atual são descendentes em
comum do mesmo antepassado.
•Estes segmentos de cromossomos, que
provem de um antepassado em comum
•No caso de existir um QTL dentro do
segmento de cromossomo, dois indivíduos
parentes vão compartilhar alelos do QTL
idênticos
1 2Q 1 1
A maneira mais simples de
explorar essas associações é
através de um único SNP por
meio de regressão
8
Análise Associação com Marcadores
• Em uma amostra "aleatória" de (independente)
indivíduos obter:
– Fenótipo da característica quantitativa
– Os genótipos para um ou vários marcadores
• Realização da análise estatística de associação entre
o genótipo de um marcador e o fenótipo (repetir o
processo para cada marcador):
Y = μ + genótipo do marcador + e
Teste de significância - vários
9
Análise Associação com Marcadores
• Testes de hipótese
– Testando o efeito do SNP diferente de zero (H0)
– O marcador afeta a característica (Ha), uma vez que esta em
LD com o QTL
• Existem dois tipos de erros que podem acontecer
na detecção de QTL:
Erro tipo I e tipo II
– Tipo I: originado pela própria pesquisa (α)
– Tipo II: número insuficiente de amostragem (efeito pequeno)
10
Regressão simples com um único marcador
• Associação entre um marcador e uma determinada característica
pode ser testada com o modelo:
Aonde:
- y é o vetor das observações (valores fenotípicos)
- 1n é um vetor de 1s atribuído à média
- X é a matriz relacionando cada valor fenotípico com o marcador (Genótipo)
- g é o efeito do marcador
2

- e é o vetor do resíduo (~ N(0, e ))
O pressuposto é que o marcador afetará a característica se estiver
em LD com um QTL
11
Hayes, 09
Regressão simples com um único marcador
Exemplo simples: 10 animais, 1 marcado SNP, efeito fixo da média
O vetor 1n relaciona os fenótipos à média
O vetor X relaciona os fenótipos aos genótipos
Animal
Fenótipo
Alelo 1
Alelo 2
Reparametrização
Animal
1n
Genótipos
(“X” número de 2)
12
Hayes, 09
Regressão simples com um único marcador
Estimar o efeito do marcador e da média como:
Least Square Equations
As estimativas da média e do efeito do marcador são:
13
Regressão simples com um único marcador
É o efeito marcador importante?
• Estatística F: comparação entre as variâncias dentro e entre
genótipos (ANOVA)
Genótipo
Produção média de proteína
– 11, 12 ou 21, 22
AA
20
AC
15
CC
10
• Teste contra o valor tabelado para:
F a, v1,v2
a= valor de significância
v1= 1 (1 marcador para o efeito de regressão)
v2= 9 (número de dados -1)
14
Regressão com um único marcador
• No nosso exemplo :
– Fdados= 4.56


(n  1) g X ' y  1 / ny' y 


F=


'
y' y  g X ' y  u 1n y
Não significativo!!!
– F0.05,1,9= 5.12
15
Regressão simples com único SNP
Modelo linear:
Yijk= Touroi + SNPj + eijk
Onde Yijk é o fenótipo ajustado, Touroi é o efeito fixo de touro, SNPj é o
efeito fixo do SNP, eijk resíduo
Modelo Animal:
Yijk = µ+ SNPj +animali+ eijk
Onde Y é o fenótipo ajustado, µ é a média, animal é o efeito aleatório
(genético aditivo) do animal, SNPj é o efeito fixo do SNP, eijk resíduo
16
animal model ASReml (Gilmour et al., 2006)
Genome-Wide Association Of The Ratio Of Saturated To Unsaturated
Milk Fatty Acids In Dutch Dairy Cattle (Bouwman et al., WCGALP 2010)
• Dados de 1.905 primeiras lactações de vacas da raça Holandesa
• A relação AGS / AGI foi calculada como a soma do AGS dividido pela
soma dos AGI
• As vacas foram genotipadas usando o Infinium Assay 50 K(Illumina,
EUA).
• 43,516 SNPs
yij* = μ + r + SNPi + eij
onde yij* é o fenótipo ajustados para os efeitos sistemáticos do ambiente; r é o efeito fixo de
touro; SNP é o efeito fixo do genótipo do SNP; eij foi o aleatório residual.
17
Gráfico de Manhattan para a associação de 43.516 SNPs com AGS/AGI. A linha tracejada
corresponde a um nível mínimo de FDR = 0,05. Todos log10 (valores P)> 7 não são mostrados
•A análise de associação do genoma (SNPassoc) detectou 209 SNPs significativos
(P<0,05) localizados nos BTA 2, 3, 4, 5, 9, 12, 14, 19, 24 e 26
•Os dois SNPs mais significativos no BTA 14 estão localizados no gene da
acylCoA:diacylglycerol acyltransferase (DGAT1)
18
Bouwman et al., 2010
Qual é o poder ou erro do teste?
• O poder do teste é: a probabilidade de
corretamente rejeitar a hipótese nula quando
existe realmente um QTL na população (1- β).
– H0 = não existe QTL
– H1 = existe QTL
• Erro tipo I
– ocorre quando rejeitamos a hipótese nula, e na verdade,
não há associação entre o polimorfismo e o fenótipo
19
Regressão simples com um único marcador
O poder do teste é função de:
1. r2 entre os marcadores e o QTL
 O tamanho da amostra deve ser aumentada pelo fator 1/r2
para detectar uma QTL não genotipado, em comparação com
o tamanho da amostra para testar o próprio QTL
2. Proporção da variância fenotípica total explicada
pelo QTL (h2Q)
3. Número de observações fenotípicas
20
Regressão
um único
únicomarcador
marcador
Regressãosimples
simples com
com um
O poder do teste é função de:
4. Frequência dos alelos do SNP (alelos raros)
•
•
Determina o número mínimo de observações
necessários para estimar o efeito do alelo.
O poder torna-se especialmente sensível com
frequências muitos baixas (<0,1)
5. O nível de significância a definido
21
Regressão simples com um único marcador
Poder do teste
Poder do teste
• Poder para detectar um QTL explicando 5% e 2,5% da
variação fenotípica e diferente tamanho da população
r2 entre o marcado e QTL
Valor-P:0,05
5%
r2 entre o marcado e QTL
2,5%
Valor-P:0,05
22
Hayes, 09
Regressão simples com um único marcador
• Análise de associação depende da existência de forte
LD entre o SNP e o DNA (causal variante)
• A densidade de marcadores necessária para estudos
de associação ampla do genoma (GWAS) depende do
LD na população.
 r2>0,2 com <100kb (bovinos)
 r2>0,2 com <10-20kb (humanos)
• Os trabalhos com populações animais (bovinos),
requerem painéis de SNPs muito menos densos em
comparação com estudos em humanos
23
Teste múltiplos
• O nível de significância nominal é a taxa de erro tipo I
(alpha), selecionados para testes de associação
individuais.
• O nível de significância nominal escolhido para um
estudo determina a proporção de todos os testes que são
significativos, mesmo quando nenhuma das hipóteses
são verdadeiras.
• Quando um grande número de hipóteses são testados,
ajustar o nível de significância nominal para o número de
testes, de forma não rejeitar muitas hipóteses falsas (Ho)
24
Teste múltiplos
Que nível de significância utilizar nos estudos de associação?
• Problema de testes múltiplos
– Cada teste é avaliado ao 1% (α)
– Se avaliamos 10.000 SNP (P <0,01), portanto esperar-se apenas
por acaso 100 resultados significativos.
• Testes múltiplos: nível de significância do experimento diferente
do nível de significância “nominal”
– Teste de Bonferroni:
– α =1-(1-α’)n
– α =5%, então se tenho 1:000.000 SNP por teste: α’=1x10-8
25
Regressão
simples
único
marcador
Regressão
com com
um um
único
marcador
• Corrigir para o número de testes (Bonferoni α’ = α/n)
– Mas é muito rigoroso, e ignora o fato de que os testes não são
independentes (SNPs estão no mesmo cromossomo em LD)
• Teste de permutação:
– Os fenótipos são aleatorizados (remover relação entre genótipo e fenótipo)
– Vários conjuntos de dados são gerados e análises de associação são
realizadas para cada rodada
– Uma distribuição empírica da estatística do teste é gerada
– A distribuição empírica gerada é utilizada com os dados reais para fixar o
nível de significância
• Dificuldade com a estrutura pedigree
• Alta demanda computacional
26
Controle de falsos positivos (FDR) em estudos de
associação
• Proporção de resultados significativos, que são
realmente falsos positivos (Storey et al., 2003).
• O método FDR tem sido utilizado na expressão
diferencial do genes (ensaios com micro-arranjos de
DNA)
• Escolhendo um FDR médio de 5%
– 5% dos marcadores significativos são realmente falsos
positivos
• Forma menos rigorosa (conservativa?) de ajuste
27
http://www.pnas.org/content/100/16/9440.full.pdf+html
Controle de falsos positivos (FDR) em estudos de
associação
• FDR (False discovery rate):
FDR=m*Pmax/n
m = número de marcadores testados
Pmax = nível de significância (ex. P=0,01)
n = número de marcadores significativos (<0,01)
Exemplo:
– 9.918 marcadores testados (P<0,001), 56 marcadores significativos.
Qual é FDR?
– FDR=9.918*0,001/56 = 18%
– 18% dos resultados significativos são falsos positivos
28
Controle de falsos positivos (FDR) em estudos de
associação
• Uma alternativa é escolher um nível de significância (pvalue) com uma taxa de detecção aceitável falsos
positivos (FDR; q-value)
• Taxa de falsos positivos (FPR): fração de falsos
atribuídos como significativos
29
http://www.pnas.org/content/100/16/9440.full.pdf+html
FDR
Número de SNPs significativos
Exemplo: taxa de falsos positivos em um experimento com 9.918 SNPs para a
eficiência de conversão alimentar em 384 bovinos da raça Angus.
Log (valor P)
Log (valor P)
A menor nível de significância maior número de SNPs significativos são
encontrados, mas também aumenta a taxa de falsos positivos
30
Valor q-Storey
• Uma medida de significância estatística chamada de valor
de q está associado com cada teste
– Valor de q: taxa de FDR esperado para um determinado
teste
• O valor q é semelhante ao valor de p, exceto que é uma
medida de significância em termos de FDR
– Proporção esperada de falsos positivos quando é detectado
significativo o teste.
• Testes com menores valores-p também devem ter
menores valores associados FDR
• O software QVALUE pode
http://genomine./org/qvalue/.
ser
baixado
em:
31
Storey and Tibshirani. PNAS. 2003
Problemas com mapeamento por LD utilizando regressão
simples com um único marcador
• Teste de significância - por exemplo, Teste F
– Muitos testes - a necessidade de controle de falsos positivos (teste de
permutação, FDR)
• Falsos positivos por causa da estrutura da população
– Um modelo simples assume que todos os animais sem parentesco =
improvável
– Presença de raças, linhagens, ou famílias, tudo isso cria estrutura na
população
• Por exemplo: presença de relações genéticas (matriz de
parentesco)
• Superestimação dos SNPs significativos
– Ajustar o efeito dos SNPs como aleatório vs. fixo
32
Impacto das relações de parentesco
 O modelo anterior utilizado para testar a associação entre um marcador com o
fenótipo assume que não há estrutura na população, ou seja, todos os animais
são não relacionados
 Em populações de animais domésticos isso é pouco provável
-Vários descendentes por touro (familias de meio irmãos), raças ou linhas dentro
população
 A falta de consideração para a estrutura da população pode causar
associações espúrias (falsos positivos)
Exemplo:
Um touro com alta EBV tem muitos descendentes na população
um alelo raro em algum SNP é homozigoto no touro (aa)
A progênie tem maior freqüência do alelo (a) que a população geral
Como o touro tem alta EBV, a sua descendência terá também alto EBV
Então, no estudo de associação ampla do genoma, se o número de progênies por touro não é
contabilizado, o alelo raro parecerá ter um efeito (talvez significativo) positivo
Remover o efeito da estrutura da população através de um modelo misto
33
Modelo 1-SNP ajustando o efeito poligênico
u= vetor de efeito poligênico com uma estrutura de covariância u~N(0, A  a )
A= matriz de parentesco genética aditiva
2
 a2
= variância genética aditiva; X, Z = matriz de incidência que
relacionam as observações aos efeitos fixos e aleatórios genéticos.
Equações do Modelo Misto Henderson (1949)
 =  e2 /  a2
34
Efeito da inclusão ou omissão do pedigree sobre o número
de QTL detectados
Exemplo da importância de considerar a estrutura da população:
365 bovinos Angus genotipados para 10 mil SNPs (7.975)
Efeitos poligênicos e de ambiente foram simulados para cada animal
Nenhum QTL foi simulado! (todos os QTL detectados são FP)
Efeito de cada SNP foi testado usando três modelos:
1.
2.
3.
SNP apenas
SNP e efeito do pai
SNP e pedigree completo
35
MacLeod et al. J. Anim. Breed. Genet. 127 (2010) 133–142
Efeito da inclusão ou omissão do pedigree sobre o número
de QTL detectados
Número médio de erros do tipo I (QTL falso-positivos) em 50 conjuntos
de dados com nenhum QTL simulado (três níveis de significância e erro
padrão entre parênteses)
1Número
esperado de erros de tipo I, dada a distribuição nula e o número de SNPs testados.
(*p < 0.05, **p < 0.01).
Aumento no número de falsos positivos quando a estrutura da
população não foi considerada
36
MacLeod et al. J. Anim. Breed. Genet. 127 (2010) 133–142
Superestimação dos SNPs significativos
• Tratar o efeito do SNP como um efeito fixo e uso de
estimadores que são não viesados.
– Quadrados Mínimos
– Máxima Verossimilhança (ML)
• Efeitos de SNPs em GWAS tem sido estimados por métodos
que são não viesados
– testar o mesmo marcador em diversas amostras e obter a média das
estimativas sobre estas repetições(
)
• Em GWAS centenas de milhares de SNPs são testados e
frequentemente os efeitos estimados são indicados apenas
para os marcadores significativos.
37
Superestimação
Superestimação dos
dos SNPs
SNPs significativos
significativos
• Apenas são considerados efeitos dos marcadores
significativos (de acordo com o nível de significância)
• O GWAS é usado para selecionar os marcadores que têm
maior efeito ou os mais significativos (vamos assumir b>
0, o sinal é arbitrário).
• Os efeitos estimados tendem a ser maiores em
magnitude do que os verdadeiros efeitos desses
marcadores (“Beavis effect”)
38
Limite da significância
b̂
b verdadeiro
b̂
repetições significativas
O valor médio de b̂ (aprox. 2,5) de repetições significativas
quando b = 1,0 (o limite de significância é 2,0 e o SE de b̂ é 1,0)
39
Superestimação dos SNPs significativos
• Com mínimos quadrados (efeito fixo) as estimativas dos efeitos SNP
são iguais ao erro de estimativa + valor verdadeiro:
• Alguns SNPs que são significativos tendem a ter maiores estimativa do
erro - por exemplo: SNPs com alelos em baixas frequências.
• Ajustando g como efeito aleatório levamos em conta a falta de
informação para estimar o efeito do SNP.
– regride as estimativas de g a média para considerar a falta de
informação

– g = (X' X  λI)  1 X' y
2
– assumindo g ~ N (0,  g )
•Diferenças entre efeito aleatório/fixos são pequenas, se a quantidade de
dados é grande (erro pequeno), então  =  e2 /  g2 é pequeno
40
Testes de associação múltiplos
 Regressão Multi-SNP:
 Análise de associação simples (regressão simples)
-Cada teste não é independente
-Melhorar as estimativas das análise de regressão simples
-Reduzir o número de testes múltiplos (500k SNP com 5% de erro em cada
teste; 25.000 SNP falsos positivos)
 Utilizar informações de LD entre os SNPs
 “Tag” SNPs podem reduzir o número de testes redundantes
 Interações entre os SNPs pode ser modeladas
42
Efeitos dos SNPs em análise de regressão simples e múltipla
• Dados para idade à puberdade de 1.007 novilhas da raça
Brahma
• As fêmeas foram genotipadas usando o painel da
Illumina SNPs 50k
• Estimar os efeitos dos SNP regressão simples:
• Efeitos dos SNP a partir de regressão múltipla:
43
Zhang et al. (2010) WCGALP
Efeito do SNP (dias)
Efeitos dos SNPs em análise de regressão simples e múltipla
•Análises de associação
superestimado efeitos SNP
simples
a. Posição no Genôma (MB)
Efeito do SNP (dias)
•Variância obtida a partir de análise de
associação simples é superestimada
b. Posição no Genôma (MB)
Distribuição dos efeitos significativos SNPs (P <0,05) para a idade à
puberdade a partir da análise de regressão simples (pontos vermelhos
representam SNP com P <0,01) na figura a. Os correspondentes
efeitos a partir de análises de regressão múltipla estão na figura b.
44
Zhang et al. (2010) WCGALP
Testes de associação múltiplos
Problemas:
 n<<<<p
 Análises de regressão simples (análises preliminares)
 Incluir os SNPs como efeito aleatório
 Métodos de redução e penalização de variáveis
–
–
–
–
Método de stepwise e Componentes principais;
Mínimos quadrados parciais;
Escolher os SNPs nas regiões com maior LD
Seleção de marcadores igualmente espaçados ao longo do
genoma
– Métodos Bayesianos de seleção de variáveis
45
Estudos de associação com haplótipos
46
Regressão com haplótipos
• Usar haplótipos para tentar capturar a estrutura de
correlação de SNPs em regiões de baixa recombinação
– Número de efeitos a estimar?
• Poder de estudo de associação depende de LD entre
marcadores e QTL
• Uma maneira de aumentar LD entre alelos marcadores
e o QTL é a utilização de haplótipos ao invés de um
único marcador
1_Q
único marcador (1 é o alelo do marcador)
1_1_Q_2_1
Haplótipo
47
Regressão com haplótipos
• O valor dos haplótipos depende LD entre
haplótipos e QTL
– Se encontramos dois haplótipos idênticos na
população, qual é a probabilidade de que eles
carregam o mesmo alelo do QTL?
– Se a probabilidade é alta, nível elevado de LD
entre haplótipos e QTL
48
Regressão com haplótipos
• Se encontramos dois haplótipos idênticos na
população, qual é a probabilidade de que eles
carregam o mesmo alelo do QTL?
• Haplótipos são idênticos porque os segmentos
de cromossomos provem do mesmo
antepassado comum (baixa recombinação)
49
Se encontramos dois haplótipos idênticos na população, qual é a
probabilidade de que eles carregam o mesmo alelo do QTL??
‘
1. Segmentos provem do mesmo antepassado
Haplótipo
Q
50
Hayes, 2010
Regressão com haplótipos
• Se encontramos dois haplótipos idênticos na
população, qual é a probabilidade de que eles
carregam o mesmo alelo do QTL?
• Haplótipos são idênticos porque os segmentos de
cromossomos provem do mesmo antepassado
comum
• Ou por causa da recombinação ... ....
51
Recombinação produz o mesmo haplótipo ......
1111 q 1
2222 Q 2
1111 q 2
1111 q 2
Touro
Formação de gametas
Progênie
Haplótipo da População
52
Regressão com haplótipos
• Se encontramos dois haplótipos idênticos na população,
qual é a probabilidade de que eles carregam o mesmo
alelo do QTL?
• Haplótipos são idênticos porque os segmentos de
cromossomos provem do mesmo antepassado comum
• Ou por causa da recombinação ... ....
• Com mais marcadores no haplótipo, a chance de criar o
mesmo haplótipo por recombinação torna-se menor
53
P ro p o rtio n o f Q T L varian ce exp lian ed b y
Proporção da variância do QTL explicada pelos
m arker h ap lo typ es
marcadores haplótipos
Proporção da variância do QTL explicada pelos marcadores
entorno do mesmo
1
Mais marcadores no haplótipo, a
chance de criar o mesmo haplótipo
por recombinação torna-se baixa
0.8
0.6
11211Q211222
11211Q211222
0.4
1
Q
1
2
1
q
1
2
0.2
0
0
1
2
3
4
5
6
7
8
9
10
11
12
Número
cM
N u m bde
er marcadores
o f m arkersem
in 10
10cM
Goddard (1991)
54
Regressão com haplótipos
O modelo para testes de haplótipos em um estudo de
associação poderia ser semelhante ao modelo descrito
anteriormente:
• Onde
g agora é um vetor contendo os efeitos dos haplótipos (número de haplótipos observados)
• X relaciona os haplótipos com as observações
55
Depois de usar fastPHASE para inferir os haplótipos
Animal
Haplótipo Paternal
Haplótipo Maternal
Haplótipos
Animal
56
Hayes, 2010
Regressão com haplótipos
• Existe a dificuldade de utilizar haplótipos com mais
de um marcador, em vez de marcadores único (SNP)
– Os haplótipos devem ser estimados
– Fonte de erro
• Maior número de efeitos a serem estimados quando
são utilizados haplótipos (2n)
– Menor número de observações por efeito, menor precisão
da estimativa de cada efeito
57
Regressão com haplótipos
Ajustar os haplótipos os efeitos aleatórios:
2
g
~
N
(
0
,

•
h)
• Alguns haplótipos serão raros, muito poucas
observações
• Ajustar o haplótipo como aleatório considera
essa falta de informação
• Não considera a correlação entre haplótipos
(em principio ....)
58
SAM-LD com haplótipos
efeito QTL
do effect
predição
de
Acurácia
QTL allele
predicting
Accuracy of
• Comparar a acurácia da SAM utilizando marcadores simples (SNP)
ou haplótipos
• 379 bovinos da raça Angus (9.323 SNP)
• r2= 0.2 a 200kb
0.6
0.5
0.4
Acurácia de predição do efeito
do QTL com diferente número de
marcadores por haplótipo e
número
de
observações
fenótipicas
0.3
0.2
Nearest marker
Best marker
Two marker haplotype
Four marker haplotype
Six marker haplotype
0.1
0
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Number of phenotypic records
Número de
observações fenotípicas
59
Hayes et al. (2007)
Abordagem de genes idênticos por descendência (IBD)
• Existência de LD na população implica que pequenos
segmentos de cromossomos são descendentes do
mesmo ancestral comum (IBD)
• Se dois animais carregam cromossomos que são IBD em
uma posição de QTL, seus fenótipos serão
correlacionados.
• Probabilidade de que alelos do QTL são IBD, esta
probabilidade é capturada na matriz G (IBD)
– Elementos gij é a probabilidade de que o alelo i e j são IBD
– A probabilidade é inferida a partir dos haplótipos
60
Construindo a matriz IBD apartir dos haplótipos
• Segmento de cromossomo que carrega 10 locos marcadores e
um único locus QTL central
• Três segmentos do cromossoma foram selecionados a partir da
população de forma aleatória:
1. 11212Q11211
2. 22212Q11111
3. 21212Q11212
A probabilidade dos segmentos 1 e 3 ser IBD
na posição do QTL(Q) é maior respeito à
probabilidade dos segmentos 1 e 2, 2 e 3, uma
vez que os segmentos 1 e 3 possuem os
mesmos alelos marcadores
61
Construindo IBD matriz de haplótipos marcador
1. Informação necessária para construir G:
– LD do genoma
– comprimento dos haplótipos
– Número marcadores nos haplótipos
2. Algoritmo de Meuwissen and Goddard (2001)
– Construir a matriz IBD de coeficientes
62
Abordagem IBD
O modelo:
• Onde vpi e vmi são os efeitos dos alelos do QTL paternos e
maternos, respectivamente
• u~(0,A 
2
a ),
2
2


v~(0,G v ), e~ (0,I e )
• Aplicar procedimentos de estimação de componentes de
variância
– Estimar
2

 
e
2
a
2
v
• Maximizar a função de máxima verossimilhança dos dados Log
(LogL) (ASREML program)
63
Abordagem IBD
Para estimar a variância de QTL em uma suposta posição,
utiliza-se o seguinte modelo linear:
y = 1n μ  Zu  Wv  e
onde W é uma matriz que relaciona os registros fenotípicos com os alelos QTL, v é
um vetor de efeitos aditivos QTL, e o vetor de resíduos, onde os v efeitos aleatórios
tem uma distribuição v~(0,G  v2)
Estimar a variância do QTL via REML maximizando a verossimilhança dos dados
dado o QTL e o efeito poligênico
Mapeamento de QTL prossegue propondo uma suposta posição de QTL em
intervalos ao longo do cromossomo
Em cada ponto, a variância de QTL é estimada e a probabilidade dos dados dado o
QTL e o efeito poligênico é calculado
64
Abordagem IBD
A significância do QTL em determinada posição ou ponto pode ser testada
utilizando a razão da máxima verossimilhança (comparar a máxima
verossimilhança do modelo com ou sem QTL)
LRT = 2( LogLikelihood no _ QTL _ fitted  LogLikelihood QTL _ fitted )
Limite de significância
O QTL é significativo ao nível de 5%, se LR> 3,84.
Esta estatística tem distribuição
12
65
Comparações com os marcadores únicos
O uso de haplótipos parece inicialmente atrativo, mas há
uma série de fatores que potencialmente limitam sua
utilização sobre os marcadores simples:
•A exigência de que os genótipos devem ser classificados
em haplótipos
•O número de efeitos que devem ser estimados aumenta
•Alguns resultados com dados reais mostram que o
benefício da utilização de haplótipos é maior com baixa
densidade de marcadores (r2<0,2)
66
Métodos bayesianas estatísticos para estudos
de associação genômica
• Proporcionar uma abordagem alternativa para avaliar as
associações e aliviar as limitações de valores de os valores de p
• Maior custo: maior número de pressuposições
• Probabilidade posteriori de associação (PPA) pode ser pensado
como o análogo Bayesiana de um valor de p
– independentemente do poder do teste, do tamanho da amostra ou
número de SNPs testados
• Valor a prior (π) da proporção de SNPs que estão associados
com o fenótipo
• Bayesian Factor: a razão entre as probabilidades dos dados sob
H1 e sob H0
67
Stephens and Balding, 2009
Métodos bayesianas estatísticos para estudos
de associação genômica
• O PPA combina a evidência dos dados observados
(BF) com a probabilidade prévia (π) que um SNP é
realmente associado com o fenótipo.
• O BF e π podem ser utilizados para calcular as
probabilidades posteriores (PO) em H1:
PO = BF × π/(1 – π)
• Isto pode ser utilizada para calcular o PPA:
PPA = PO/(1 + PO)
68
Stephens and Balding, 2009
Probabilidades de cauda em várias distribuições a priori
69
Stephens and Balding, 2009
Validando estudos de GWAS

Necessidade de validar os resultados
significativos
em
outra
população
independente da população referência
 Limitações na validação:
1. Os efeitos estimados dos SNPs são pequenos
2. Fase de ligação entre o marcador e o QTL
3. Alto número de FDR
70
Softwares e pacotes para estudos
de associação ampla
71
Pacotes estatísticos para estudos genéticos em R?
Visitar: http://cran.r-project.org/web/views/Genetics.html
Population Genetics : genetics (basic), Geneland (spatial structures of genetic data),
rmetasim (population genetics simulations), hapsim (simulation), popgen (clustering SNP
genotype data and SNP simulation), hierfstat (hierarchical F-statistics of genetic data), hwde
(modeling genotypic disequilibria), Biodem (biodemographical analysis), kinship (pedigree
analysis), adegenet (population structure), ape & apTreeshape (Phylogenetic and evolution
analyses), ouch (Ornstein-Uhlenbeck models), PHYLOGR (simulation and GLS model),
stepwise (recombination breakpoints)
Linkage and Association : gap (both population and family data, sample size calculations,
probability of familial disease aggregation, kinship calculation, linkage and association
analyses, haplotype frequencies) tdthap (TDT for haplotypes, powerpkg (power analyses for
the affected sib pair and the TDT design),hapassoc (likelihood inference of trait associations
with haplotypes in GLMs), haplo.ccs (haplotype and covariate relative risks in case-control
data by weighted logistic regression), haplo.stats (haplotype analysis for unrelated subjects),
tdthap (haplotype transmission/disequilibrium tests), ldDesign (experiment design for
association and LD studies), LDheatmap (heatmap of pairwise LD),. mapLD (LD and
haplotype blocks), pbatR (R version of PBAT), GenABEL & SNPassoc for GWAS
QTL mapping for the data from experimental crosses: bqtl (inbred crosses and recombinant
inbred lines), qtl (genome-wide scans), qtlDesign (designing QTL experiments & power
computations), qtlbim (Bayesian Interval QTL Mapping)
Sequence & Array Data Processing : seqinr, BioConductor packages
72
Zhang, 2008
GenABEL
Aulchenko Y.S., Ripke S., Isaacs A., van Duijn C.M. GenABEL: an R package for genomewide association analysis. Bioinformatics. 2007, 23(10):1294-6.
GenABEL: genome-wide SNP association analysis
a package for genome-wide association analysis between quantitative or binary traits
and single-nucleotides polymorphisms (SNPs).
Version: 1.3-5
Depends: R (≥ 2.4.0), methods, genetics, haplo.stats, qvalue, MASS
Date: 2008-02-17
Author: Yurii Aulchenko, with contributions from Maksim Struchalin, Stephan Ripke
and Toby Johnson
Maintainer: Yurii Aulchenko <i.aoultchenko at erasmusmc.nl>
License: GPL (≥ 2)
In views: Genetics
CRAN checks: GenABEL results
73
GenABEL: Data Manipulation
snp.subset(): subset data by snp names or by QC criteria
add.phdata(): merge extra phenotypic data to the gwaa.data-class.
ztransform(): standard normalization of phenotypes
rntransform(): rank-normalization of phenotypes
npsubtreated(): non-parametric adjustment of phenotypes for
medicated subjects
75
GenABEL: QC & Summarization
summary.snp.data(): summary of snp data (Number of observed genotypes,
call rate, allelic frequency, genotypic distribution, P-value of HWE test
check.trait(): summary of phenotypic data and outlier check based on a
specified p/FDR cut-off
check.marker(): SNP selection based on call rate, allele frequency and
deviation from HWE
HWE.show(): showing HWE tables, Chi2 and exact HWE P-values
perid.summary(): call rate and heterozygosity per person
ibs(): matrix of average IBS for a group of people & a given set of SNPs
hom(): average homozygosity (inbreeding) for a set of people, across
multiple markers
76
GenABEL: SNP Association Scans
scan.glm(): snp association test using GLM in R library
scan.glm((“y~x1+x2+…+CRSNP", family = gaussian(), data, snpsubset, idsubset)
scan.glm((“y~x1+x2+…+CRSNP", family = binomial (), data, snpsubset, idsubset)
scan.glm.2D(): 2-snp interaction scan
Fast Scan (call C language)
ccfast(): case-control association analysis by computing chi-square test from 2x2 (allelic) or 2x3
(genotypic) tables
emp.ccfast(): Genome-wide significance (permutation) for ccfast() scan
qtscore(): association test (GLM) for a trait (quantitative or categorical)
emp.qtscore(): Genome-wide significance (permutation) for qscaore() scan
mmscore(): score test for association between a trait and genetic polymorphism, in samples of
related individuals (needs stratification variable, scores are computed within strata and then added
up)
egscore(): association test, adjusted for possible stratification by principal components of
genomic kinship matrix(snp correlation matrix)
77
GenABEL: Haplotype Association Scans
scan.haplo(): haplotype association test using GLM in R library
scan.haplo.2D(): 2-haplotype interaction scan
(haplo.stats package required)
Sliding window strategy
Posterior prob. of Haplotypes via EM algorithm
GLM-based score test for haplotype-trait association (Schaid DJ, Rowland CM, Tines DE,
Jacobson RM, Poland GA. 2002. Score tests for association of traits with haplotypes when linkage phase is
ambiguous Am J Hum Genet 70: 425-434. )
78
GenABEL: Table & Graphic Functions
descriptives.marker():
descriptives.trait():
descriptives.scan():
table of marker info.
table of trait info.
table of scan results
plot.scan.gwaa(): plot of scan results
plot.check.marker(): plot of marker data (QC etc.)
79
SNPassoc
An R package to perform whole genome association studies, Juan R. González 1, et al. Bioinformatics,
2007 23(5):654-655
SNPassoc: SNPs-based whole genome association studies
This package carries out most common analysis when performing whole genome association
studies. These analyses include descriptive statistics and exploratory analysis of missing values,
calculation of Hardy-Weinberg equilibrium, analysis of association based on generalized linear
models (either for quantitative or binary traits), and analysis of multiple SNPs (haplotype and
epistasis analysis). Permutation test and related tests (sum statistic and truncated product) are
also implemented.
Version:1.4-9
Depends:R (≥ 2.4.0), haplo.stats, survival, mvtnorm
Date:2007-Oct-16
Author:Juan R González, Lluís Armengol, Elisabet Guinó, Xavier Solé, and Víctor
MorenoMaintainer:Juan R González <jrgonzalez at imim.es>
License:GPL version 2 or newerURL:http://www.r-project.org and
http://davinci.crg.es/estivill_lab/snpassoc;
In views:Genetics
CRAN checks:SNPassoc results
80
SNPassoc: Data & Summary
setupSNP(data=snp-pheno.table, info=map.table,
colSNPs=, sep = "/", ...)
summary()
allele frequencies
percentage of missing values
HWE test
81
SNPassoc: Association Tests
WGassociation(y~x1+x2, data=, model = (codominant, dominant, recessive,
overdominant, log-additive or all),quantitative = , level = 0.95)
scanWGassociation(): only p values
association(): only for selected snps, can do stratified, GxE interaction analyses
Results
Summary: a summary table by genes/chromosomes
Wgstats: detailed output(case-control numbers, percentages, odds ratios/ mean
differences, 95% confidence intervals, P-value for the likelihood ratio test of
association, and AIC, etc.)
Pvalues: a table of p-values for each genetic model for each SNP
Plot: p values in the -log scale for plot.Wgassociation()
Labels: returns the names of the SNPs analyzed
82
SNPassoc: Multiple-SNP Analysis
SNP–SNP Interaction
interactionPval():
epistasis analysis between all pairs of SNPs (and covariates).
Haplotype Analysis
haplo.glm(): using the R package haplo.stats:
association analysis of haplotypes with a response via GLM
haplo.interaction(): interactions between haplotypes (and covariates)
83
Results of WGassociation for the HapMap dataset. The logP values for a
whole genome analysis assuming a log-additive genetic model are shown for
each chromosome. The statistically significant associations at level 10 10 are
plotted in red, while the other associations are in gray. Blue lines indicate the
centromeres.
84
Um locus
 As freqüências alélicas e genotípicas
 Teste para equilíbrio de Hardy-Weinberg
 Análise de associação com uma variável resposta com base na
regressão linear ou logística
 Modelos de herança múltipla: co-dominante, dominante,
recessiva, mais dominante e aditivo
 Análise de interações (gene-gene ou ambiente gene)
Análise de Haplótipos
 estatísticas de desequilíbrio ligação
 Estimação da freqüência de haplótipos
 Análise de associação de haplótipos
 Analysis of interactions (haplotypes-covariate)
85
Outros softwares fora do ambiente R
• SNP Snappy:
– Os efeitos dos SNPs são considerados como covariáveis
(SNP-wise analysis)
– Todos os gentipos devem ser conhecidos
– Resolver um sistema de equações do modelo misto
(MME)
– Considera efeito animal, além de outros efeitos
• Implementado no pacote WOMBAT (Meyer, 2007)
http://didgeridoo.une.edu.au/km/wmbdownloads.php.
• Dados Fenotípicos, Pedigree e SNPs
86
Outros softwares for do ambiente R
• SNPTEST v2: é um programa para a análise de um único SNP
associação em estudos genômicos. Os testes implementados
incluem:
– Fenótipos Binários (caso-controle) e quantitativos múltiplos
– Testes bayesianos e frequentistas
– Vários métodos diferentes para lidar com a incerteza de SNPs
imputados.
• Programa projetado para funcionar perfeitamente com a
saída de outros programas (IMPUTE)
• Mais informação:
https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html
87
Outros softwares for do ambiente R
• PLINK: Whole genome association analysis toolset
 Teste basico comparar as frequências alelicas entre dois
grupos de individuos (controle vs tratado
 Diferentes modelos genéticos (dominante, recessivo e
geral)
 Vários testes (Cochran-Armitage trend test, Fisher's exact
test)
 Testes de permutação
 Quantitative trait interaction (GxE)
 diferença entre dois coeficientes de regressão em dois ambientes
 http://pngu.mgh.harvard.edu/~purcell/plink/anal.shtml
88
Mais softwares?
89
http://linkage.rockefeller.edu/soft/new.html
90
Download

Estudos da associação ampla do genôma