Rede nacional para o desenvolvimento e adaptação de
estratégias genômicas inovadoras aplicadas ao melhoramento,
conservação e produção animal
PC 3 - Estratégias de Seleção Genômica nos Programas de Melhoramento
Animal
Marcos Vinicius Barbosa da Silva
Objetivos Gerais do Projeto Componente 3
✓Gerar e analisar dados moleculares para viabilizar a
implementação da seleção genômica em programas de
melhoramento de bovinos, suínos, ovinos e caprinos;
✓Avaliar e disponibilizar diferentes estratégias de
implementação da seleção genômica em bovinos, suínos, ovinos
e caprinos, em cenários distintos;
Objetivos Específicos do Projeto
Componente 3
- Estimar o desequilíbrio de ligação em cada raça, dentro de cada espécie
estudada, e associá-lo à distância entre os locos;
- Testar diferentes distribuições (Weibull, lognormal, exponencial etc) para
caracterizar o desequilíbrio de ligação dentro de cada raça/espécie estudada;
- Fazer inferência sobre blocos de haplótipos dentro de cada espécie;
- Adequar, avaliar e/ou comparar diferentes métodos estatísticos para
implementar a seleção genômica e integração de dados genômicos nos sistemas
de avaliação genética e testes de progênie conduzidos pela Embrapa;
Objetivos Específicos do Projeto
Componente 3
- Desenvolver chips de baixa densidade para cada espécie, de modo a permitir a
redução de custos na seleção de fêmeas;
- Identificar genes de efeito maior relacionados às características de
importância econômica dentro de cada espécie;
- Identificação de SNPs relacionados a genes candidatos posicionais.
Estrutura do Projeto Componente 3
Plano Gerencial
Responsável: Marcos Vinicius Barbosa da Silva
PA 3.1 - Seleção genômica em raças zebuinas leiteiras e sintética no Brasil
Responsável: Marcos Vinicius Barbosa da Silva
PA 3.2 -Seleção genômica para resistência ao carrapato bovino (Rhipicephalus
microplus) nas raças Hereford e Braford
Responsável: Fernando Flores Cardoso
PA 3.3 - Seleção genômica de ovinos deslanados do Brasil
Responsável: Concepta Margaret McManus Pimentel
PA 3.4 - Seleção genômica em caprinos leiteiros
Responsável: Ana Maria Bezerra Oliveira Lobo
PA 3.5 - Seleção genômica na raça Holandesa
Responsável: Claúdio Nápolis Costa
Atividades do PA 3.1
Seleção genômica em raças zebuinas leiteiras e sintética
no Brasil
•Coleta de amostras biológicas e extração de DNA;
•Genotipagem (50K e HD) e sequenciamento;
•Caracterização do desequilíbrio de ligação e dos blocos de
haplótipos;
•Análises de imputação;
•Formação do chip de baixa densidade com base no desequilíbrio de
ligação;
•Montagem do genoma dos touros Gir, Guzerá e Girolando;
•Análises para obtenção dos valores genômicos.
Atividades do PA 3.2
Seleção genômica para resistência ao carrapato bovino
(Rhipicephalus microplus) nas raças Hereford e Braford
•Extração de DNA e envio das amostras para genotipagem;
•Contratação dos serviços de genotipagem;
•Desenvolvimento de um painel de haplótipos e rotinas para imputação de
genótipos;
•Atualização do banco de dados de fenótipos e pedigree e estimação de
parâmetros genéticos;
•Estimação dos parâmetros de seleção genômica;
•Análise, interpretação e publicação de resultados em artigos e publicações
técnicas.
Atividades do PA 3.2
Seleção genômica para resistência ao carrapato bovino
(Rhipicephalus microplus) nas raças Hereford e Braford
•Foram efetuadas 10.647 contagens de carrapatos entre 2010 e 2013:
• 4.348 animais genotipados
- 3.500 indivíduos com 50K
- 128 touros em HD.
Atividades do PA 3.3
Seleção genômica de ovinos deslanados do Brasil
•Fenotipagem dos animais da população de referência;
•Genotipagem de animais Santa Inês usando Ovine 50k e HD chips;
•Combinação de informações fenotipicos, pedigree e genotipos;
•Análises para obtenção dos valores genômicos.
Atividades do PA 3.3
Seleção genômica de ovinos deslanados do Brasil
✦
Genotipagem 100 animais chip 700K;
✦
Coleta de tecido biológico será finalizada na próxima semana;
✦
Locais:
- EMBRAPA Tabuleiros Costeiros (Hymerson Azevedo)
- CENA/USP (Helder Louvandini)
- IZ/SP (Mauro Bueno)
- UFBA (Fernando Brito)
✦
Serviço de genotipagem com o chip de 700K está em fase de
contratação pelo CENARGEN
Atividades do PA 3.4
Seleção genômica em caprinos leiteiros
•Coleta de sangue, extração de DNA e genotipagem;
•Avaliações genética e estimativas de parâmetros;
•Incorporação de dados e manutenção do sistema de
gerenciamento de rebanhos do Capragene;
•Análise de predição dos valores genômicos (GEBVs);
Atividades do PA 3.5
Seleção genômica na raça Holandesa
•Análise da estrutura genética da raça Holandesa no Brasil;
•Coleta de Material Biológico e Extração de DNA;
•Genotipagem das Amostras com Chips de DNA;
•Controle de Qualidade dos Dados;
•Articulação institucional para ampliação da população referência por meio
de cooperação/participação consórcio internacional;
•Reconstrução de blocos haplotípicos;
•Estimação dos efeitos de marcadores/avaliação genômica.
Metas do Projeto Componente 3
‣Genotipar 1.300 ovinos em teste de progênie e/ou avaliação genética;
‣Genotipar 796 caprinos do Programa de Melhoramento Genético de
Caprinos Leiteiros;
‣Sequenciar todo o genoma de nove reprodutores de raças leiteiras;
‣Genotipar 200 reprodutores Hereford e Braford com chip de alta
densidade e 200 com chip de 50K;
‣Predizer os valores genômicos de 10 reprodutores jovens da raça Guzerá;
‣Predizer os valores genômicos de 15 reprodutores jovens da raça Girolando
Metas do Projeto Componente 3
‣Predizer os valores genômicos de 25 reprodutores jovens da raça Gir Leiteiro;
‣Predizer os valores genômicos de 40 reprodutores jovens da espécie caprina;
‣Predizer os valores genômicos de 15 reprodutores jovens da raça ovina Santa
Inês;
‣Predizer os valores genômicos de 20 reprodutores jovens das raças Braford e
Hereford.
Resultados Esperados do Projeto
Componente 3
✓Obtenção das provas genômicas de reprodutores da raça Gir Leiteiro (25);
✓Artigos técnico-científicos (4);
✓Metodologia para implantação da seleção genômica (1);
✓Obtenção das provas genômicas de reprodutores da raça Guzerá (10);
✓Obtenção as provas genômicas de reprodutores da raça Girolando (15);
✓Obtenção das provas genômicas de touros das raças Hereford e Braford (20);
✓Obtenção dos valores genômicos de reprodutores da raça Santa Inês (15);
✓Obtenção das provas genômicas de reprodutores da espécie caprina de
diferentes raças (40)
Equipe do Projeto Componente 3
- Embrapa Recursos Genéticos e Biotecnologia
- Embrapa Gado de Leite
- Embrapa Gado de Corte
- Embrapa Caprinos e Ovinos
- Embrapa Pecuária Sul
- Embrapa Informática Agropecuária
- Embrapa Pecuária Sudeste
- Embrapa Suínos e Aves
- Embrapa Tabuleiro Costeiros
- UnB
- UFV
- UFRGS
- USP
- UNESP
- Associações de Criadores
Resultados Obtidos no Projeto
Componente 3
Desenvolvimento de Ferramentas:
GS3 - CV
Um dos principais desafios da GWS é a estimação de um grande número de efeitos a

partir de um número limitado de observações.
Existem alguns programas para estimar os GBVs: GS3, GEBV e GenSel.


GS3:
−
Disponibiliza os modelos BLUP Genômico (ou
G-BLUP), Bayesian Lasso e Bayes Cpi.
−
Distribuído sob a licença GNU - Windows e
Linux
−
Executado por linha de comando, informando
o caminho do arquivo de parâmetros.
G: matriz de vari‚ncia ñ covari‚ncia dos efeitos aleatÛrios;
0:
0:vetor
vetornulo.
nulo.


R: matriz de conhecidos
vari‚ncia ñGcovari‚ncia
dos erros
aleatÛrios;
Assumindo
eGR,e aR,simult‚nea
estimaÁ„o
dos efeitos
Assumindocomo
como conhecidos
a simult‚nea
estimaÁ„o
dos efeitos
fixos
e
prediÁ„o
dos
efeitos
aleatÛrios
pode
ser
obtida
pelas
equaÁıes
de
modelo
0:
vetor
nulo.
fixos e prediÁ„o
dos efeitos aleatÛrios
pode ser obtida pelas equaÁıes de modelo
Desenvolvimento
de Ferramentas:
misto
mistodadas
dadaspor:
por:
GS3
- CV
Assumindo
como
conhecidos G e R, a simult‚nea estimaÁ„o dos efeitos
−1
−1
−1
Questão:
GS3
não
fornece
as
acurácias
dos
valores
genômicos!! pode ser obtida pelas equaÁıes de modelo
ˆ
&&Z ' R −1X fixos
# & #dos&efeitos
XX' ReRprediÁ„o
R Ry−#aleatÛrios
' Z−1Z ! #$b&!bˆ=# $ X&' X
' !1 y #
$ Z ' R−1 X misto
! aˆ$ ! =Z$' R −1 y !
Equações
G −1 por:
+Mistos
' R −1X dosZ Modelos
' R −1Zdadas
%$ZZ
' R X Z ' R −1Z + G"−1 % "aˆ % Z ' R −"1 y
"
" % " %
& Z ' R −1deste
X
X ' R −1Zpara# b̂&bˆe# â &conduz
X ' R −1 ya# resultados idênticos aos
A soluÁ„o
sistema
=
A soluÁ„o
para
a resultados idênticos aos
$
! $ ! e$ â conduz
−1 deste sistema
−1 !
De maneira genÈrica,
as vari‚ncia
Z +estimaÁ„o
G −1 " %aˆ "eb̂ prediÁ„o
' R −1de
obtidos por:
%Z'R y "
% Z ' R Xdos Zerros
%
obtidos por:
&bˆ − b #
1
−
1
:Var
estimador
de
mÌnimos generalizados (GLS)
$
! =quadrados
bˆ = ( X 'V −s„o
X )dadas
X 'VA−por
y
dos efeitos fixos e aleatÛrios
C-1 , parapara
um
soluÁ„o
deste
sistema
e â conduz
a resultados
idênticos aos
ˆ
−1
−
−1
a
a
−
b̂mÌnimos
ˆ
%
"
Soluções
BLUE
para efeitos fixos;
estimador
de
quadrados
generalizados
(GLS)
b = ( X 'V X ) X 'V y :ou
melhor estimador
linear
n„o
viciado
(BLUE)
de
b;
modelo incluindo os efeitos fixosobtidos
(b) e aleatÛrios
que C-1 È a inversa da
por: (a),
ouem
melhor
estimador linear n„o viciado (BLUE) de b;
matriz dos coeficientes das equaÁıes
de
modelo
misto.
−1
−1
ˆ
ˆ
: melhor
n„o
viciado (BLUP)
Soluçõespreditor
BLUP para linear
os efeitos
aleatórios;
aˆ = GZ 'V ( y − Xb ) =−CV
1
−(y − X
−1b )
de a; em que C = GZí = matriz de covari‚ncia entre
1/ 2
ou melhor
estimador
n„o viciadoentre
(BLUE) de b;
acur·cia È dada por raˆa = [1 − PEVi / σ a2 ] .
a edey.a; em que
C = GZí
= matrizlinear
de covari‚ncia
a e ˆy.
−1
lineara n„o
aˆ = GZ
V n„o
( y s„o
− Xbconhecidas,
) = CV −1 ( y −osXcomponentes
bˆ) : melhor preditor
Quando
G e'R
de vari‚ncia
eles viciado (BLUP)
3. Programas computacionais
associados
podem
eficientemente
empregando-se
ode
procedimento
de a; emosque
C = GZí =
matriz
de covari‚ncia
entre
Quando
G ser
e Restimados
n„o s„o conhecidas,
componentes
vari‚ncia
a eles
REML
(Patterson
&
Thompson,
1971;
Searle
et
al.,
1992).
Exceto
por
uma
a
e
y.
A implementaÁ„o
computacional
metodologia
modelos mistos empregando-se o procedimento
associados
podemdaser
estimadosdeeficientemente
constante,
a
funÁ„o
de
verossimilhanÁa
restrita
a ser
È dada por:
baseia-se fortemente
em mÈtodos
numÈricos,
notadamente
em ·lgebra
linear
REML (Patterson & Thompson, 1971;
Searle
et maximizada,
al., 1992). Exceto
por uma
numÈrica visando a obtenÁ„o da soluÁ„o
iterativaGdas
equaÁıes
deconhecidas,
modelo
Quando
e
R
n„o
s„o
os
componentes
de vari‚ncia
a eles
constante,
a
funÁ„o
de
verossimilhanÁa
restrita
a
ser
maximizada,
È
dada
por:
misto (obtenÁ„o do BLUP) e no c·lculo numÈrico para a maximizaÁ„o/
associados podem ser estimados eficientemente empregando-se o procedimento
minimizaÁ„o de funÁıes de v·rias vari·veis visando a obtenÁ„o das estimativas
REML (Patterson & Thompson, 1971; Searle et al., 1992). Exceto por uma
REML.
constante, a funÁ„o de verossimilhanÁa restrita a ser maximizada, È dada por:
: estimador
dea quadrados
mÌnimos
generalizados
(GLS)
1ˆ =
−b
−1 ' V
XX'bVˆ) =XCV
( prediÁ„o
) X
A partir da vari‚ncia
(PEV)
genÈticos
preditor
linear n„o
viciado
(BLUP)
aˆ = GZdo'Verro
( de
y−
( dos
y − yvalores
Xbˆ) : melhor
i
Os algoritmos para obtenÁ„o de estimativas REML podem ser agrupados
Documentos,
47 usadas. Assim, tem-se (i) n„o derivativo
de acordo com a ordem
das derivadas
(DF-REML), baseado em procura direta; (ii) baseado em derivadas parciais de
Documentos,
47 em derivadas parciais de primeira e
primeira ordem (EM-REML);
(iii) basedo
segunda ordens (AI-REML). O algoritmo AI È um procedimento derivativo
melhorado, o qual fundamenta-se no uso dos mÈtodos de Newton, que usam as
Documentos,
47
derivadas primeira e segunda da
funÁ„o de verossimilhanÁa.
Tal algoritmo
fundamenta-se na utilizaÁ„o da informaÁ„o advinda da mÈdia das derivadas
segundas observadas e esperadas da funÁ„o de verossimilhanÁa, de forma que
o termo que contÈm os traÁos dos produtos da matriz inversa È cancelado,
restando uma express„o mais simples para computaÁ„o. TÈcnicas de matrizes
esparsas s„o empregadas no c·lculo dos elementos da inversa da matriz dos
coeficientes, os quais s„o necess·rios para as derivadas primeiras da funÁ„o
de verossimilhanÁa. Este algoritmo È tambÈm denominado Quasi-Newton
(Gilmour et al., 1995), o qual aproxima a matriz Hessiano (matriz de derivadas
segundas) pela mÈdia das informaÁıes observadas e esperadas. A informaÁ„o
observada È uma medida da curvatura da funÁ„o (ou do seu log) de
verossimilhanÁa e a informaÁ„o esperada È a prÛpria informaÁ„o de Fisher.
Os algoritmos DF ganharam popularidade devido as suas flexibilidades
9
9
9
Desenvolvimento de Ferramentas:
GS3 - CV

Uma versão bayesiana da acurácia pode ser obtida por:

Sqrt[1-var(ui|y)/E(var(a)|y)], onde var(ui|y) é a variância a posteriori ui (valor
genético do animal i), e E[var(a)|y] é a esperança a posteriori da variância genética;
De maneira genÈrica, as vari‚ncia dos erros de estimaÁ„o e prediÁ„o

Com o intuito de obter uma distribuição empírica e, possivelmente, próxima da
&bˆ −GS3b #Cross- validation
normalidade dos valores genômicos, foi desenvolvido oVar
aplicativo
$
! = C-1 , GS3
dos
efeitos
fixos
e
aleatÛrios
s„o
dadas
por
paraeum
(GS3-CV) que implementa a técnica de validação cruzada aˆsobre
% − oaprograma
"
calcula a acurácia com base na versão bayesiana.
modelo incluindo os efeitos fixos (b) e aleatÛrios (a), em que C-1 È a inversa da


Variância
da coeficientes
distribuição dos
valores
genômicos
=> PEV misto.
matriz dos
das
equaÁıes
de modelo
Média das
variâncias
genéticas do
aditivas
as iterações
fornece
o denominador
A partir
da vari‚ncia
erro de
detodas
prediÁ„o
(PEV) dos
valores
genÈticos a
da acurácia:
[
acur·cia È dada por raˆai = 1 − PEVi / σ a2
]
1/ 2
.
3. Programas computacionais
A implementaÁ„o computacional da metodologia de modelos mistos
baseia-se fortemente em mÈtodos numÈricos, notadamente em ·lgebra linear
numÈrica visando a obtenÁ„o da soluÁ„o iterativa das equaÁıes de modelo
misto (obtenÁ„o do BLUP) e no c·lculo numÈrico para a maximizaÁ„o/
minimizaÁ„o de funÁıes de v·rias vari·veis visando a obtenÁ„o das estimativas
REML.
Os algoritmos para obtenÁ„o de estimativas REML podem ser agrupados
de acordo com a ordem das derivadas usadas. Assim, tem-se (i) n„o derivativo
(DF-REML), baseado em procura direta; (ii) baseado em derivadas parciais de
primeira ordem (EM-REML); (iii) basedo em derivadas parciais de primeira e
segunda ordens (AI-REML). O algoritmo AI È um procedimento derivativo
melhorado, o qual fundamenta-se no uso dos mÈtodos de Newton, que usam as
derivadas primeira e segunda da funÁ„o de verossimilhanÁa. Tal algoritmo
fundamenta-se na utilizaÁ„o da informaÁ„o advinda da mÈdia das derivadas
segundas observadas e esperadas da funÁ„o de verossimilhanÁa, de forma que
o termo que contÈm os traÁos dos produtos da matriz inversa È cancelado,
restando uma express„o mais simples para computaÁ„o. TÈcnicas de matrizes
esparsas s„o empregadas no c·lculo dos elementos da inversa da matriz dos
coeficientes, os quais s„o necess·rios para as derivadas primeiras da funÁ„o
de verossimilhanÁa. Este algoritmo È tambÈm denominado Quasi-Newton
(Gilmour et al., 1995), o qual aproxima a matriz Hessiano (matriz de derivadas
segundas) pela mÈdia das informaÁıes observadas e esperadas. A informaÁ„o
observada È uma medida da curvatura da funÁ„o (ou do seu log) de
verossimilhanÁa e a informaÁ„o esperada È a prÛpria informaÁ„o de Fisher.

Técnica de validação cruzada

Seu princípio básico consiste em treinar um modelo de GWS em um conjunto de
dados, denominado população de treinamento ou teste, na qual são verificados os
marcadores que explicam os locos que controlam as características, bem como são
estimados os seus efeitos.

Após esse passo, é avaliada a adequação dos resultados obtidos em uma população
distinta, chamada população de validação, a qual, por não ter sido envolvida na
predição dos efeitos dos marcadores, possui independência entre os erros dos
valores genéticos genômicos e dos valores fenotípicos.
GS3-CV:


−
Aplicativo multiplataforma.
−
Script desenvolvido em Perl.
−
Front-end desktop em Java.
−
Pré-requisitos:
−
Interpretador Perl
−
Java Runtime Environment
Parâmetros do GS3-CV:
−
o arquivo de parâmetros definido pelo GS3;
−
o número de iterações/rodadas;
−
o número de observações nos arquivos de teste;
−
e um flag binário (0-não; 1-sim) indicando a criação dos arquivos com as observações
excluídas.


Base de dados e o arquivo de parâmetros (modelo Bayesian Lasso-VCE) disponibilizados com o
código-fonte do GS3.
Ambiente computacional: microcomputador com processador de quatro núcleos de 2.27GHz; 4
GB de RAM e sistema operacional Ubuntu 12.04 LTS 64 bits.


O GS3-CV apresentou um menor valor para a variância total estimada, o que tende a representar
uma maior aproximação dos valores genéticos preditos dos valores reais.
Mostrou-se eficiente no processamento, obtendo, em seu uptime, o tempo de resposta de 2,26s
para a definição de vinte conjuntos de treinamento e teste

Próximos passos:

Customização dos grupos de validação e treinamento;

Traduzir o código para Java e deixar todo para uma linguagem;

Disponibilizar como software livre.
Desenvolvimento de Ferramentas:
GWAS no Galaxy
O ambiente do LBGA já está configurado para se comunicar com o LMB:

➡
SVN => controle de versão do workflow de GWAS
➡
Galaxy está rodando local, mas a solução pode ser migrada para outros locais
➡
Pipeline:
➡
Final Report (entrada) => QC (Roberto Higa) => Formatação para ITSNBN =>
GWAS (Measured Genotype) => Obtenção dos efeitos dos marcadores =>
Manhattan Plot
Desenvolvimento de Metodologias:
Correção de Misplaced SNPs
Efeito de SNPs em posições equívocas sobre o
decaimento do desequilíbrio de ligação
Problema: A montagem de um genoma de
referência é complexa e pode incorrer em alguns
equívocos quanto ao posicionamento de algumas
sequências, o que pode afetar a determinação da
posição de alguns SNPs.
Objetivo: Detectar estes possíveis misplaced SNPs
e verificar seus efeitos sobre o decaimento do
desequilíbrio de ligação
Material e Métodos

Animais genotipados com o Illumina®
BovineSNP50K BeadChip utilizando as
coordenadas genômicas dos SNPs
baseadas na montagem UMD v3.1
−
973 Nelore
−
1997 Gir
−
1023 Guzerá
−
117 Sindi
Material e Métodos


Controle de qualidade das amostras (excluídos)
−
Call rate < 0.90
−
Heterosigosidade ±3 desvios-padrão da
média
Controle de qualidade dos marcadores
−
Call rate < 0.98
−
MAF < 0.02
−
HWE < 1e-06
−
SNPs coincidentes e com r2 > 0.998
Material e Métodos


Após o controle de qualidade os dados foram duplicados e um
controle adicional para detecção de SNPs em posições
equívocas foi executado em um dos conjuntos
As correlações entre todos os possíveis pares de SNPs foram
calculadas (r2) e ordenadas de forma decrescente em 21
janelas, de acordo com a distância física entre eles. Para cada
uma das janelas foi obtida uma média que foi comparada por um
teste t entre os dados com e sem SNPs equívocos
Correlações
entre os SNPsCorrelações
dentro bloco entre os SNPs
equivocado do bloco
equivocado e
todos os outros
Padrão de desequilíbrio de ligação
quando um conjunto de SNPs
(fisicamente muito próximos) está na
posição equivocada
Padrão de desequilíbrio de ligação
quando um único SNP está na posição
equivocada
Resultados
Médias subestimadas a curtas
distâncias
Médias superestimadas a longas
distâncias
Pipeline
Manipulação de dados:
Linux/Unix/awk
PLINK
QC
PLINK
snpStatis
Scripts R (Higa)
Construção de Haplótipos e imputação de
missing
fastPhase
LD
PLINK
snpStatis
Scripts R
Montagem de Blocos Haplótipos
Plink
haploview
GWAS
SVS
GenABEL
Scripts
R
GS
Script Perl
Script Linux
Scripts R
GS3 e GenSel
Equilíbrio e Desequilíbrio de ligação
 Importância do DL
• Informações sobre eventos evolutivos de uma população:
– o sistema de acasalamento;
– padrões de subdivisão geográfica;
– seleção, mutação e a ação de outras forças que
podem atuar na mudança das frequências alélicas e
genotípicas
• O conhecimento do DL é importante no mapeamento de
genes relacionados às características de interesse
econômico.
Equilíbrio e Desequilíbrio de ligação
Tecnologia:
- Illumina® BovineSNP50 e HD
Raças:
- Nelore, Guzerá, Gir Leiteiro, Sindi e F2
Próxima etapa:
- Indubrasil, Tabapuã, Brahman, Caracú Caldeano,
Curraleiro, Pantaneiro, Criolo Lageano, Franqueiro,
Holandês, Pardo-Suiço, Jersey, Girolando, Angus e
raças Africanas.
Desequilíbrio de ligação nas raças Gir Leiteiro e
Girolando
Raça Gir Leiteiro
Raça Girolando
Desequilíbrio de ligação nas raças Gir Leiteiro e
Girolando - Chr 14
Raça Gir Leiteiro
Raça Girolando
Desequilíbrio de ligação nas raças Gir Leiteiro e
Girolando - Chr 14
Raça Gir Leiteiro
Raça Girolando
Descrição do número de animais, SNPs e comparações para a
estimativa de r2, para cada raça.
Raça
Número de Animais
Número de SNPs
Número de comparações
Nelore
863
26.347
13396899
Gir
1.959
15.951
4950008
Guzerá
1.005
25.024
12237188
Sindi
116
23.095
10226637
F2
349
31.780
19167526
Resultados - DL
F2 0,18
Gir 0,17
Sindi 0,17
Guzerá 0,15
Nelore 0,15
F2
Sindi
Guzerá
Gir
Nelore
100 kb
Bohamanova et. al,
(2011): 0,22
Holandesa
McKay et al. (2007) : 0,15 a 0,20 - 6 raças
taurinas e duas zebuínas
Aplicação de Testes de Igualdade de
Parâmetros e Identidade de Modelos
Maior distância entre os marcadores => maior
taxa crossing-over => menor DL
Curva DL X Distância física
passível de
modelagem
Funções Utilizadas
1. Log-exponencial (Log):
2. Sved (1971):
2 parâmetros
3. Hill and Weir (HW) (1988): considera baixo nível de mutação
1 parâmetro
Aplicação de Testes de Igualdade de
Parâmetros e Identidade de Modelos

Considerando o ajustamento de diferentes funções, pode-se testar as seguintes hipóteses:
✓ As funções são idênticas, ou seja, uma equação comum pode ser usada como
estimativas das funções envolvidas;
✓ Um subconjunto de parâmetros é igual para as funções;

Testar igualdade de parâmetros e identidade de modelos => Teste de razão de máxima
verossimilhança: possui distribuição qui-quadrado (grandes amostras), com v graus de
liberdade.
Máxima verossimilhança da variância do modelo completo
Máxima verossimilhança da variância do modelo reduzido
SQRR do modelo completo
SQRR do modelo reduzido
SQRR do modelo reduzido
Rejeitar
Silhueta (formato fixo) = curva média
Magnitude dos valores iniciais da F2
superetimados
Subestimação inicial (zebuínos)
Assintótico em Y: super-estimação
do LD a curtas distâncias,
próximas a 1
Substimação
Silhueta diferenciada para o F2:
Mesmo nível de LD inicial (0,45,
como esperado em densidade
maiores), porém evidenciação da
diferença no decaimento do LD
Parâmetros estimados para as funções e respectivos
coeficientes de determinação.
Raça
Nelore
Log
A
Sved
B
R2
B
0.16
R2
C
2.126e-05a
0.17
5.236e-05a
0.21
0.15
3.585e-05
0.19
0.12
3.383e-05
0.12
1.688e-05
0.18
2.446e-06
-0.00757 0.133933a
9a
-0.00956 0.171089b
2b
-0.01047c 0.18816c
0.17
1.656e-05
0.19
1.693e-05
Sindi
-0.01617
0.26
9.642e-06
F2
-0.0281
0.35
2.887e-06
Gir
Guzerá
d
e
0.29585
0.5229
Resultado
razoável: 2
parâmetros
d
e
HW
b
c
d
e
Piores R2
R2
b
c
0.17
d
0.22
e
0.41
Melhor
resultado: 1
parâmetro
Tamanho Efetivo das Populações
-
Wright (1938): número de indivíduos capazes de se reproduzir
que mostrariam a mesma dispersão das frequências alélicas que
uma população idealizada sob deriva genética aleatória, ou a
mesma quantidade de endogamia que esta população.
-
Hayes et al. (2003): o LD em distâncias curtas é dependente do
tamanho efetivo da história antiga da população, enquanto o LD
à longa distância depende do tamanho efetivo recente da
população.
Ancestralidade
comum / mesma
população?
Possivelmente
impacto da
importação dec. 60
Nelore
Gir
Guzerá
Sindi
Considerar F nos
acasalamentos=
margem para as
avaliações
genômicas
(BLUP=Família;
BLUPGen= Ind.)
Persistência de Fase (PS)
 Quanto um segmento cromossômico permanece inalterado
ao longo de uma determinada distância física, em
diferentes subpopulações ou espécies
 Mede do grau de concordância de fase do DL para os pares
de SNPs entre duas populações;
 Pela PS é possível inferir sobre a história das espécies e as
relações entre raças dentro destas espécies;
 Implicações : a acurácia do GWAS e a predição GEBV
entre populações.
Maiores
correlações
Correlações
baixas com F2
inclusive com o
Gir
Persistência/
correlação
inadequada para
avaliações
multirraciais??
História/Divergência da
População
Gir
Nelore
Sindi
Guzerá
202
231
254
Gir
203
295
Nelore
245
Sugere:
Grupamento
indiano
moderno: ± 230
anos passados
Angus e Holandês de 325 gerações passadas e Jersey e Holandês de
191 gerações passadas (De Roos et. al., 2008).
Diversidade Haplotípica
Extensão dos BH
Raças
Tamanho
médio dos
BH
Total de
BH
Quantidade de BH por nº de SNPs
etiquetados
Min.
Máx.
2
3
4
5
6
7
Sindi
0,179
196,600
79,790
113
54
2
42
13
2
-
Guzerá
0,085
199,400
70,630
208
117
4
60
26
1
-
Gir
0,024
198,600
79,620
92
44
1
38
8
1
-
Nelore
0,024
199,500
74,880
181
98
2
58
21
2
-
F2
0,085
200,000
116,300
660
166
5
368
112
7
2
Uso de Pseudo-fenótipos
• Fenótipo: EBV deregressado Garrick et al.
(2009);
Deregressão com a remoção do
efeito médio de parentesco
(ancestral)
•Características:
• produção de leite (PL)
• produção de gordura(PG)
• produção de proteína(PP)
GWAS na Raça Guzerá
Poucos SNPs e
distantes da
região do DGAT1.
GWAS na Raça Guzerá
GWAS na Raça Gir Leiteiro
Subestrutura na população
Identificação de linhagens
na raça Gir Leiteiro
GWAS na Raça Gir Leiteiro
BTA1:
PTX3
VEPH1
BTA4:
SEMA3E
PCLO
BTA6: FAM13A
HERC3
LOC100847719
LOC10084769
BTA9:
UBE3D
Distribuição dos efeitos dos marcadores para produção
de proteína, lactose e sólidos totais na raça Gir Leiteiro
58
Característica
Produção de
Leite
Produção de
Gordura
Produção de
Proteína
BTA
Genes
SNP
Posição
10
DIO2
21
CRTC3
Hapmap48373-BTA-51706
22520337
6.77e-06
15
NCAM1
ARS-BFGL-NGS-23028
23970148
1.39e-05
1
EPHB1
ARS-BFGL-NGS-2595
5
SYT1
BTB-00219231
10
DIO2
1
NCAM2
ARS-BFGL-NGS-102441
1
EPHB1
ARS-BFGL-NGS-2595
14
LOC100139328
ARS-BFGL-NGS-116233
1
TOPBP1
BTB-00040439
10
DIO2
21
CRTC3
19
GLOD4
22
ITIH4
14
LOC782102
Hapmap32392-BTA-162780 92440993
P-value
4.40e-07
135444745 2.13e-05
8978484
Hapmap32392-BTA-162780 92440993
15071831
2.13e-05
2.57e-06
4.61e-05
135444745 6.56e-05
19316702
6.78e-05
136868487 8.01e-05
Hapmap32392-BTA-162780 92440993
1.84e-07
Hapmap48373-BTA-51706
22520337
1.47e-05
ARS-BFGL-NGS-84530
22650660
7.58e-05
Hapmap26665-BTA-136771 48628872
7.61e-05
UA-IFASA-5275
55954337
1.30e-04
•
Os 5 SNPs para cada caracterísitica se encontraram
dentro dos genes ou bem próximos a eles com a
excessão LOC782102 para PP e o DIO2 (menor <150
kb).
• DIO2 (todas as carcterísticas)
• Deiodinase tipo 2, principal enzima tetraiodotiroxina
(T4) em triodotiroxina (T3) (forma ativa) .
• T3=> hormômio lactogênico.
• Mecanismo adaptativo materno à restrição protêica
na alimentação durante o período de lactação
• CTRC3 (PL)
•Gene ligado ao ganho de peso.
Seleção Genômica na Raça
Guzerá
✓ QC
✓ 45 touros e 856 vacas
✓ SNPs: 25.024
✓ Missing => software fastPHASE
Seleção Genômica na Raça Guzerá
✓ Modelos:GBLUP e BayesCπ
✓ Software GS3
y = µ+Xg+Zu+e
marcador poligênico residual
Heterogeneidade de variância residual=> devido a
diferença de acurácia na avaliação genética.
Ponderação (2/ wi) => wi= ri2/(1-ri2)
GBLUP
Caracterísitica
PL
PG
PP
BayesCπ
Caracterísitica
PL
PG
PP
GBLUP
Caracterísitica
PL
PG
PP
BayesCπ
Caracterísitica
PL
PG
PP
GEBVtotal
Min.
0,71
0,68
0,69
Mediana
0,78
0,75
0,75
Média
0,78
0,75 a
0,75 a
Máxima
0,85
0,81
0,80
Média
0,79
0,76 b
0,76b
Máxima
0,84
0,82
0,81
Média
0,33a
0,44a
0,40 a
Máxima
0,54
0,57
0,57
Média
0,34b
0,42b
0,35b
Máxima
0,54
0,54
0,54
GEBVtotal
Min.
0,73
0,67
0,68
Mediana
0,79
0,76
0,77
GEBVmarcador
Min.
0,21
0,34
0,27
Mediana
0,33
0,44
0,40
GEBVmarcador
Min.
0,20
0,28
0,18
Mediana
0,35
0,42
0,36
Seleção Genômica na Raça Guzerá Resultados
✓ Habilidade de predição:
 Grande dispersão mas proximas com os modelos

Para GEBVtotal=> diferença em nível de 5 % PP e PG, à 1%
somente PP. (BayesCπ maior média)
 Para GEBVmarcador => Diferença em todas as carcterísticas.
(BayesCπ maior média)
 BayesCπ tendeu apresentar maior dispersão e média dos
coeficientes de regressão o que resulta em maior viés de
predição.
Admixture population
Admixture population
Admixture population
Árvore filogenética
Neighbor-joining tree method
(Saitou e Nei, 1987)
Próximos Passos...

Implementação da Imputação (tradicional
e explorando a semelhança entre raças);

Formação do chip de baixa densidade com
base no desequilíbrio de ligação (em
andamento);

Análises para obtenção dos valores
genômicos por outras metodologias.
Equipe do LBGA/LGM
- Marcos Vinicius Barbosa da Silva
- Wagner Antonio Arbex
- Katia Lage dos Santos
- Daniel Jordan
- Adam Taiti Yutsonomia
- Marta Martins
- Marco Antonio Machado
- Prof. Fabyano Fonseca
Sequenciamento de Animais de Raças
Zebuínas Leiteiras!!
Motivação: a ferramenta existente para implementação da seleção
genômica foi produzida com informações provenientes do genoma de
taurinos.
Plataformas de sequenciamento
SOLiD v4
PacBio
Bibliotecas mate-paired plataforma SOLiD SystemsTM (Fiocruz-Minas)
Bibliotecas standard sequencing plataforma PacBio (GATC/Alemanha)
Duas plataformas de sequenciamento foram utilizadas: SOLiD que tem
como característica a geração de
PacBio que gara longas reads mas com grande taxa de erros.
Dados gerados para as duas raças
Solid e PacBio
Montagem dos genomas
1: Usar genoma próximo como referência realizando um mapeamento
Referência raça Hereford
Sequências
Zebu
Existem duas estratégias de montagem. Uma delas é utilizando um
genoma de referência como régua. Mapeamento.
Mapeamento
Guzerá
Programa
Nº sequencias utilizadas
Lifescope
1.789.490.658
Nº de sequências
mapeadas
1.526.822.262
Resultado do mapeamento. A média de cobertura observada em
profundidade (depth) para cada cromossomo foi 26X, sendo que 90%
de cada cromossomo foi coberto por pelo menos uma read.
Com o objetivo de resolvermos os problemas de variações entre
taurinos e zebuinos e para fechar essas regiões não montadas, novas
estratégias de montagens foram utilizadas. Nessa estratégia nós
unimos os resultados do mapeamento, da montagem de novo e as
sequências oriundas de sequenciamento de terceira geração.
Montagem dos genomas
2: Montagem sem referência baseada na sobreposição das sequências
Sequências
Zebu
Consenso
Um alternativa além do mapeamento é a montagem ab initio (de novo)
que, como o próprio nome diz, não utiliza um genoma como
referência. Nesse caso existem algoritmos que levam em consideração
a sobreposição entre as sequências para conseguir montar.
Montagem de novo híbrida cromossoma 18
86% dos Ns e 2.673 lacunas (>= 4Ns) foram fechados.
Considerando apenas os dados contendo sequências PacBio, 91%
dos Ns foram fechados.
Como resultado da montagem híbrida, de um total de 400.045 contigs submetidos, 18.843 foram montados em novos e maiores 2.000 supercontigs. Comparando a sequência desses contigs
com suas respectivas regiões na etapa do consenso do mapeamento contra a referência, foi possível observar que 86% dos “Ns” e 2.673 lacunas (99%) (≥ 4Ns) foram fechados pela estratégia de
montagem híbrida. Considerando apenas os supercontigs contendo dados originados pela plataforma PacBio, 91% dos “Ns” e 481 lacunas (99%) foram fechados. A figura a seguir evidencia uma
região de lacunas na montagem inicial que foi melhorada através da montagem híbrida.
Equipe do Projeto
-
Marcos Vinicius Barbosa da Silva
Rui da Silva Verneque
Marco Antonio Machado
Maria Gabriela Campolina D. Peixoto
Marta Martins
Wagner Antonio Arbex
-
Maria Raquel Santos Carvalho
Izinara Rosse da Cruz
Raphael Steinberg da Silva
Pablo Augusto de Souza Fonseca
Marlene de Miranda
- Adhemar Zerlotini Neto
- Michel Eduardo B. Yamagishi
Equipe do Projeto
- Geraldo Alvim Dusi
- Airdem Gonçalves de Assis
- Marcos Brandão
- Beatriz C. Lopes
-
Guilherme Corrêa de Oliveira
Juliana Assis
Izinara Rosse (UFMG)
Flávio Marcos Gomes Araújo
Anna Salim
Angela Cristina Volpini
“Carpe diem…”
Marcos Vinicius Barbosa da Silva
[email protected]
Download

Estratégias de seleção genômica nos programas de melhoramento