Rede nacional para o desenvolvimento e adaptação de estratégias genômicas inovadoras aplicadas ao melhoramento, conservação e produção animal PC 3 - Estratégias de Seleção Genômica nos Programas de Melhoramento Animal Marcos Vinicius Barbosa da Silva Objetivos Gerais do Projeto Componente 3 ✓Gerar e analisar dados moleculares para viabilizar a implementação da seleção genômica em programas de melhoramento de bovinos, suínos, ovinos e caprinos; ✓Avaliar e disponibilizar diferentes estratégias de implementação da seleção genômica em bovinos, suínos, ovinos e caprinos, em cenários distintos; Objetivos Específicos do Projeto Componente 3 - Estimar o desequilíbrio de ligação em cada raça, dentro de cada espécie estudada, e associá-lo à distância entre os locos; - Testar diferentes distribuições (Weibull, lognormal, exponencial etc) para caracterizar o desequilíbrio de ligação dentro de cada raça/espécie estudada; - Fazer inferência sobre blocos de haplótipos dentro de cada espécie; - Adequar, avaliar e/ou comparar diferentes métodos estatísticos para implementar a seleção genômica e integração de dados genômicos nos sistemas de avaliação genética e testes de progênie conduzidos pela Embrapa; Objetivos Específicos do Projeto Componente 3 - Desenvolver chips de baixa densidade para cada espécie, de modo a permitir a redução de custos na seleção de fêmeas; - Identificar genes de efeito maior relacionados às características de importância econômica dentro de cada espécie; - Identificação de SNPs relacionados a genes candidatos posicionais. Estrutura do Projeto Componente 3 Plano Gerencial Responsável: Marcos Vinicius Barbosa da Silva PA 3.1 - Seleção genômica em raças zebuinas leiteiras e sintética no Brasil Responsável: Marcos Vinicius Barbosa da Silva PA 3.2 -Seleção genômica para resistência ao carrapato bovino (Rhipicephalus microplus) nas raças Hereford e Braford Responsável: Fernando Flores Cardoso PA 3.3 - Seleção genômica de ovinos deslanados do Brasil Responsável: Concepta Margaret McManus Pimentel PA 3.4 - Seleção genômica em caprinos leiteiros Responsável: Ana Maria Bezerra Oliveira Lobo PA 3.5 - Seleção genômica na raça Holandesa Responsável: Claúdio Nápolis Costa Atividades do PA 3.1 Seleção genômica em raças zebuinas leiteiras e sintética no Brasil •Coleta de amostras biológicas e extração de DNA; •Genotipagem (50K e HD) e sequenciamento; •Caracterização do desequilíbrio de ligação e dos blocos de haplótipos; •Análises de imputação; •Formação do chip de baixa densidade com base no desequilíbrio de ligação; •Montagem do genoma dos touros Gir, Guzerá e Girolando; •Análises para obtenção dos valores genômicos. Atividades do PA 3.2 Seleção genômica para resistência ao carrapato bovino (Rhipicephalus microplus) nas raças Hereford e Braford •Extração de DNA e envio das amostras para genotipagem; •Contratação dos serviços de genotipagem; •Desenvolvimento de um painel de haplótipos e rotinas para imputação de genótipos; •Atualização do banco de dados de fenótipos e pedigree e estimação de parâmetros genéticos; •Estimação dos parâmetros de seleção genômica; •Análise, interpretação e publicação de resultados em artigos e publicações técnicas. Atividades do PA 3.2 Seleção genômica para resistência ao carrapato bovino (Rhipicephalus microplus) nas raças Hereford e Braford •Foram efetuadas 10.647 contagens de carrapatos entre 2010 e 2013: • 4.348 animais genotipados - 3.500 indivíduos com 50K - 128 touros em HD. Atividades do PA 3.3 Seleção genômica de ovinos deslanados do Brasil •Fenotipagem dos animais da população de referência; •Genotipagem de animais Santa Inês usando Ovine 50k e HD chips; •Combinação de informações fenotipicos, pedigree e genotipos; •Análises para obtenção dos valores genômicos. Atividades do PA 3.3 Seleção genômica de ovinos deslanados do Brasil ✦ Genotipagem 100 animais chip 700K; ✦ Coleta de tecido biológico será finalizada na próxima semana; ✦ Locais: - EMBRAPA Tabuleiros Costeiros (Hymerson Azevedo) - CENA/USP (Helder Louvandini) - IZ/SP (Mauro Bueno) - UFBA (Fernando Brito) ✦ Serviço de genotipagem com o chip de 700K está em fase de contratação pelo CENARGEN Atividades do PA 3.4 Seleção genômica em caprinos leiteiros •Coleta de sangue, extração de DNA e genotipagem; •Avaliações genética e estimativas de parâmetros; •Incorporação de dados e manutenção do sistema de gerenciamento de rebanhos do Capragene; •Análise de predição dos valores genômicos (GEBVs); Atividades do PA 3.5 Seleção genômica na raça Holandesa •Análise da estrutura genética da raça Holandesa no Brasil; •Coleta de Material Biológico e Extração de DNA; •Genotipagem das Amostras com Chips de DNA; •Controle de Qualidade dos Dados; •Articulação institucional para ampliação da população referência por meio de cooperação/participação consórcio internacional; •Reconstrução de blocos haplotípicos; •Estimação dos efeitos de marcadores/avaliação genômica. Metas do Projeto Componente 3 ‣Genotipar 1.300 ovinos em teste de progênie e/ou avaliação genética; ‣Genotipar 796 caprinos do Programa de Melhoramento Genético de Caprinos Leiteiros; ‣Sequenciar todo o genoma de nove reprodutores de raças leiteiras; ‣Genotipar 200 reprodutores Hereford e Braford com chip de alta densidade e 200 com chip de 50K; ‣Predizer os valores genômicos de 10 reprodutores jovens da raça Guzerá; ‣Predizer os valores genômicos de 15 reprodutores jovens da raça Girolando Metas do Projeto Componente 3 ‣Predizer os valores genômicos de 25 reprodutores jovens da raça Gir Leiteiro; ‣Predizer os valores genômicos de 40 reprodutores jovens da espécie caprina; ‣Predizer os valores genômicos de 15 reprodutores jovens da raça ovina Santa Inês; ‣Predizer os valores genômicos de 20 reprodutores jovens das raças Braford e Hereford. Resultados Esperados do Projeto Componente 3 ✓Obtenção das provas genômicas de reprodutores da raça Gir Leiteiro (25); ✓Artigos técnico-científicos (4); ✓Metodologia para implantação da seleção genômica (1); ✓Obtenção das provas genômicas de reprodutores da raça Guzerá (10); ✓Obtenção as provas genômicas de reprodutores da raça Girolando (15); ✓Obtenção das provas genômicas de touros das raças Hereford e Braford (20); ✓Obtenção dos valores genômicos de reprodutores da raça Santa Inês (15); ✓Obtenção das provas genômicas de reprodutores da espécie caprina de diferentes raças (40) Equipe do Projeto Componente 3 - Embrapa Recursos Genéticos e Biotecnologia - Embrapa Gado de Leite - Embrapa Gado de Corte - Embrapa Caprinos e Ovinos - Embrapa Pecuária Sul - Embrapa Informática Agropecuária - Embrapa Pecuária Sudeste - Embrapa Suínos e Aves - Embrapa Tabuleiro Costeiros - UnB - UFV - UFRGS - USP - UNESP - Associações de Criadores Resultados Obtidos no Projeto Componente 3 Desenvolvimento de Ferramentas: GS3 - CV Um dos principais desafios da GWS é a estimação de um grande número de efeitos a partir de um número limitado de observações. Existem alguns programas para estimar os GBVs: GS3, GEBV e GenSel. GS3: − Disponibiliza os modelos BLUP Genômico (ou G-BLUP), Bayesian Lasso e Bayes Cpi. − Distribuído sob a licença GNU - Windows e Linux − Executado por linha de comando, informando o caminho do arquivo de parâmetros. G: matriz de vari‚ncia ñ covari‚ncia dos efeitos aleatÛrios; 0: 0:vetor vetornulo. nulo. R: matriz de conhecidos vari‚ncia ñGcovari‚ncia dos erros aleatÛrios; Assumindo eGR,e aR,simult‚nea estimaÁ„o dos efeitos Assumindocomo como conhecidos a simult‚nea estimaÁ„o dos efeitos fixos e prediÁ„o dos efeitos aleatÛrios pode ser obtida pelas equaÁıes de modelo 0: vetor nulo. fixos e prediÁ„o dos efeitos aleatÛrios pode ser obtida pelas equaÁıes de modelo Desenvolvimento de Ferramentas: misto mistodadas dadaspor: por: GS3 - CV Assumindo como conhecidos G e R, a simult‚nea estimaÁ„o dos efeitos −1 −1 −1 Questão: GS3 não fornece as acurácias dos valores genômicos!! pode ser obtida pelas equaÁıes de modelo ˆ &&Z ' R −1X fixos # & #dos&efeitos XX' ReRprediÁ„o R Ry−#aleatÛrios ' Z−1Z ! #$b&!bˆ=# $ X&' X ' !1 y # $ Z ' R−1 X misto ! aˆ$ ! =Z$' R −1 y ! Equações G −1 por: +Mistos ' R −1X dosZ Modelos ' R −1Zdadas %$ZZ ' R X Z ' R −1Z + G"−1 % "aˆ % Z ' R −"1 y " " % " % & Z ' R −1deste X X ' R −1Zpara# b̂&bˆe# â &conduz X ' R −1 ya# resultados idênticos aos A soluÁ„o sistema = A soluÁ„o para a resultados idênticos aos $ ! $ ! e$ â conduz −1 deste sistema −1 ! De maneira genÈrica, as vari‚ncia Z +estimaÁ„o G −1 " %aˆ "eb̂ prediÁ„o ' R −1de obtidos por: %Z'R y " % Z ' R Xdos Zerros % obtidos por: &bˆ − b # 1 − 1 :Var estimador de mÌnimos generalizados (GLS) $ ! =quadrados bˆ = ( X 'V −s„o X )dadas X 'VA−por y dos efeitos fixos e aleatÛrios C-1 , parapara um soluÁ„o deste sistema e â conduz a resultados idênticos aos ˆ −1 − −1 a a − b̂mÌnimos ˆ % " Soluções BLUE para efeitos fixos; estimador de quadrados generalizados (GLS) b = ( X 'V X ) X 'V y :ou melhor estimador linear n„o viciado (BLUE) de b; modelo incluindo os efeitos fixosobtidos (b) e aleatÛrios que C-1 È a inversa da por: (a), ouem melhor estimador linear n„o viciado (BLUE) de b; matriz dos coeficientes das equaÁıes de modelo misto. −1 −1 ˆ ˆ : melhor n„o viciado (BLUP) Soluçõespreditor BLUP para linear os efeitos aleatórios; aˆ = GZ 'V ( y − Xb ) =−CV 1 −(y − X −1b ) de a; em que C = GZí = matriz de covari‚ncia entre 1/ 2 ou melhor estimador n„o viciadoentre (BLUE) de b; acur·cia È dada por raˆa = [1 − PEVi / σ a2 ] . a edey.a; em que C = GZí = matrizlinear de covari‚ncia a e ˆy. −1 lineara n„o aˆ = GZ V n„o ( y s„o − Xbconhecidas, ) = CV −1 ( y −osXcomponentes bˆ) : melhor preditor Quando G e'R de vari‚ncia eles viciado (BLUP) 3. Programas computacionais associados podem eficientemente empregando-se ode procedimento de a; emosque C = GZí = matriz de covari‚ncia entre Quando G ser e Restimados n„o s„o conhecidas, componentes vari‚ncia a eles REML (Patterson & Thompson, 1971; Searle et al., 1992). Exceto por uma a e y. A implementaÁ„o computacional metodologia modelos mistos empregando-se o procedimento associados podemdaser estimadosdeeficientemente constante, a funÁ„o de verossimilhanÁa restrita a ser È dada por: baseia-se fortemente em mÈtodos numÈricos, notadamente em ·lgebra linear REML (Patterson & Thompson, 1971; Searle et maximizada, al., 1992). Exceto por uma numÈrica visando a obtenÁ„o da soluÁ„o iterativaGdas equaÁıes deconhecidas, modelo Quando e R n„o s„o os componentes de vari‚ncia a eles constante, a funÁ„o de verossimilhanÁa restrita a ser maximizada, È dada por: misto (obtenÁ„o do BLUP) e no c·lculo numÈrico para a maximizaÁ„o/ associados podem ser estimados eficientemente empregando-se o procedimento minimizaÁ„o de funÁıes de v·rias vari·veis visando a obtenÁ„o das estimativas REML (Patterson & Thompson, 1971; Searle et al., 1992). Exceto por uma REML. constante, a funÁ„o de verossimilhanÁa restrita a ser maximizada, È dada por: : estimador dea quadrados mÌnimos generalizados (GLS) 1ˆ = −b −1 ' V XX'bVˆ) =XCV ( prediÁ„o ) X A partir da vari‚ncia (PEV) genÈticos preditor linear n„o viciado (BLUP) aˆ = GZdo'Verro ( de y− ( dos y − yvalores Xbˆ) : melhor i Os algoritmos para obtenÁ„o de estimativas REML podem ser agrupados Documentos, 47 usadas. Assim, tem-se (i) n„o derivativo de acordo com a ordem das derivadas (DF-REML), baseado em procura direta; (ii) baseado em derivadas parciais de Documentos, 47 em derivadas parciais de primeira e primeira ordem (EM-REML); (iii) basedo segunda ordens (AI-REML). O algoritmo AI È um procedimento derivativo melhorado, o qual fundamenta-se no uso dos mÈtodos de Newton, que usam as Documentos, 47 derivadas primeira e segunda da funÁ„o de verossimilhanÁa. Tal algoritmo fundamenta-se na utilizaÁ„o da informaÁ„o advinda da mÈdia das derivadas segundas observadas e esperadas da funÁ„o de verossimilhanÁa, de forma que o termo que contÈm os traÁos dos produtos da matriz inversa È cancelado, restando uma express„o mais simples para computaÁ„o. TÈcnicas de matrizes esparsas s„o empregadas no c·lculo dos elementos da inversa da matriz dos coeficientes, os quais s„o necess·rios para as derivadas primeiras da funÁ„o de verossimilhanÁa. Este algoritmo È tambÈm denominado Quasi-Newton (Gilmour et al., 1995), o qual aproxima a matriz Hessiano (matriz de derivadas segundas) pela mÈdia das informaÁıes observadas e esperadas. A informaÁ„o observada È uma medida da curvatura da funÁ„o (ou do seu log) de verossimilhanÁa e a informaÁ„o esperada È a prÛpria informaÁ„o de Fisher. Os algoritmos DF ganharam popularidade devido as suas flexibilidades 9 9 9 Desenvolvimento de Ferramentas: GS3 - CV Uma versão bayesiana da acurácia pode ser obtida por: Sqrt[1-var(ui|y)/E(var(a)|y)], onde var(ui|y) é a variância a posteriori ui (valor genético do animal i), e E[var(a)|y] é a esperança a posteriori da variância genética; De maneira genÈrica, as vari‚ncia dos erros de estimaÁ„o e prediÁ„o Com o intuito de obter uma distribuição empírica e, possivelmente, próxima da &bˆ −GS3b #Cross- validation normalidade dos valores genômicos, foi desenvolvido oVar aplicativo $ ! = C-1 , GS3 dos efeitos fixos e aleatÛrios s„o dadas por paraeum (GS3-CV) que implementa a técnica de validação cruzada aˆsobre % − oaprograma " calcula a acurácia com base na versão bayesiana. modelo incluindo os efeitos fixos (b) e aleatÛrios (a), em que C-1 È a inversa da Variância da coeficientes distribuição dos valores genômicos => PEV misto. matriz dos das equaÁıes de modelo Média das variâncias genéticas do aditivas as iterações fornece o denominador A partir da vari‚ncia erro de detodas prediÁ„o (PEV) dos valores genÈticos a da acurácia: [ acur·cia È dada por raˆai = 1 − PEVi / σ a2 ] 1/ 2 . 3. Programas computacionais A implementaÁ„o computacional da metodologia de modelos mistos baseia-se fortemente em mÈtodos numÈricos, notadamente em ·lgebra linear numÈrica visando a obtenÁ„o da soluÁ„o iterativa das equaÁıes de modelo misto (obtenÁ„o do BLUP) e no c·lculo numÈrico para a maximizaÁ„o/ minimizaÁ„o de funÁıes de v·rias vari·veis visando a obtenÁ„o das estimativas REML. Os algoritmos para obtenÁ„o de estimativas REML podem ser agrupados de acordo com a ordem das derivadas usadas. Assim, tem-se (i) n„o derivativo (DF-REML), baseado em procura direta; (ii) baseado em derivadas parciais de primeira ordem (EM-REML); (iii) basedo em derivadas parciais de primeira e segunda ordens (AI-REML). O algoritmo AI È um procedimento derivativo melhorado, o qual fundamenta-se no uso dos mÈtodos de Newton, que usam as derivadas primeira e segunda da funÁ„o de verossimilhanÁa. Tal algoritmo fundamenta-se na utilizaÁ„o da informaÁ„o advinda da mÈdia das derivadas segundas observadas e esperadas da funÁ„o de verossimilhanÁa, de forma que o termo que contÈm os traÁos dos produtos da matriz inversa È cancelado, restando uma express„o mais simples para computaÁ„o. TÈcnicas de matrizes esparsas s„o empregadas no c·lculo dos elementos da inversa da matriz dos coeficientes, os quais s„o necess·rios para as derivadas primeiras da funÁ„o de verossimilhanÁa. Este algoritmo È tambÈm denominado Quasi-Newton (Gilmour et al., 1995), o qual aproxima a matriz Hessiano (matriz de derivadas segundas) pela mÈdia das informaÁıes observadas e esperadas. A informaÁ„o observada È uma medida da curvatura da funÁ„o (ou do seu log) de verossimilhanÁa e a informaÁ„o esperada È a prÛpria informaÁ„o de Fisher. Técnica de validação cruzada Seu princípio básico consiste em treinar um modelo de GWS em um conjunto de dados, denominado população de treinamento ou teste, na qual são verificados os marcadores que explicam os locos que controlam as características, bem como são estimados os seus efeitos. Após esse passo, é avaliada a adequação dos resultados obtidos em uma população distinta, chamada população de validação, a qual, por não ter sido envolvida na predição dos efeitos dos marcadores, possui independência entre os erros dos valores genéticos genômicos e dos valores fenotípicos. GS3-CV: − Aplicativo multiplataforma. − Script desenvolvido em Perl. − Front-end desktop em Java. − Pré-requisitos: − Interpretador Perl − Java Runtime Environment Parâmetros do GS3-CV: − o arquivo de parâmetros definido pelo GS3; − o número de iterações/rodadas; − o número de observações nos arquivos de teste; − e um flag binário (0-não; 1-sim) indicando a criação dos arquivos com as observações excluídas. Base de dados e o arquivo de parâmetros (modelo Bayesian Lasso-VCE) disponibilizados com o código-fonte do GS3. Ambiente computacional: microcomputador com processador de quatro núcleos de 2.27GHz; 4 GB de RAM e sistema operacional Ubuntu 12.04 LTS 64 bits. O GS3-CV apresentou um menor valor para a variância total estimada, o que tende a representar uma maior aproximação dos valores genéticos preditos dos valores reais. Mostrou-se eficiente no processamento, obtendo, em seu uptime, o tempo de resposta de 2,26s para a definição de vinte conjuntos de treinamento e teste Próximos passos: Customização dos grupos de validação e treinamento; Traduzir o código para Java e deixar todo para uma linguagem; Disponibilizar como software livre. Desenvolvimento de Ferramentas: GWAS no Galaxy O ambiente do LBGA já está configurado para se comunicar com o LMB: ➡ SVN => controle de versão do workflow de GWAS ➡ Galaxy está rodando local, mas a solução pode ser migrada para outros locais ➡ Pipeline: ➡ Final Report (entrada) => QC (Roberto Higa) => Formatação para ITSNBN => GWAS (Measured Genotype) => Obtenção dos efeitos dos marcadores => Manhattan Plot Desenvolvimento de Metodologias: Correção de Misplaced SNPs Efeito de SNPs em posições equívocas sobre o decaimento do desequilíbrio de ligação Problema: A montagem de um genoma de referência é complexa e pode incorrer em alguns equívocos quanto ao posicionamento de algumas sequências, o que pode afetar a determinação da posição de alguns SNPs. Objetivo: Detectar estes possíveis misplaced SNPs e verificar seus efeitos sobre o decaimento do desequilíbrio de ligação Material e Métodos Animais genotipados com o Illumina® BovineSNP50K BeadChip utilizando as coordenadas genômicas dos SNPs baseadas na montagem UMD v3.1 − 973 Nelore − 1997 Gir − 1023 Guzerá − 117 Sindi Material e Métodos Controle de qualidade das amostras (excluídos) − Call rate < 0.90 − Heterosigosidade ±3 desvios-padrão da média Controle de qualidade dos marcadores − Call rate < 0.98 − MAF < 0.02 − HWE < 1e-06 − SNPs coincidentes e com r2 > 0.998 Material e Métodos Após o controle de qualidade os dados foram duplicados e um controle adicional para detecção de SNPs em posições equívocas foi executado em um dos conjuntos As correlações entre todos os possíveis pares de SNPs foram calculadas (r2) e ordenadas de forma decrescente em 21 janelas, de acordo com a distância física entre eles. Para cada uma das janelas foi obtida uma média que foi comparada por um teste t entre os dados com e sem SNPs equívocos Correlações entre os SNPsCorrelações dentro bloco entre os SNPs equivocado do bloco equivocado e todos os outros Padrão de desequilíbrio de ligação quando um conjunto de SNPs (fisicamente muito próximos) está na posição equivocada Padrão de desequilíbrio de ligação quando um único SNP está na posição equivocada Resultados Médias subestimadas a curtas distâncias Médias superestimadas a longas distâncias Pipeline Manipulação de dados: Linux/Unix/awk PLINK QC PLINK snpStatis Scripts R (Higa) Construção de Haplótipos e imputação de missing fastPhase LD PLINK snpStatis Scripts R Montagem de Blocos Haplótipos Plink haploview GWAS SVS GenABEL Scripts R GS Script Perl Script Linux Scripts R GS3 e GenSel Equilíbrio e Desequilíbrio de ligação Importância do DL • Informações sobre eventos evolutivos de uma população: – o sistema de acasalamento; – padrões de subdivisão geográfica; – seleção, mutação e a ação de outras forças que podem atuar na mudança das frequências alélicas e genotípicas • O conhecimento do DL é importante no mapeamento de genes relacionados às características de interesse econômico. Equilíbrio e Desequilíbrio de ligação Tecnologia: - Illumina® BovineSNP50 e HD Raças: - Nelore, Guzerá, Gir Leiteiro, Sindi e F2 Próxima etapa: - Indubrasil, Tabapuã, Brahman, Caracú Caldeano, Curraleiro, Pantaneiro, Criolo Lageano, Franqueiro, Holandês, Pardo-Suiço, Jersey, Girolando, Angus e raças Africanas. Desequilíbrio de ligação nas raças Gir Leiteiro e Girolando Raça Gir Leiteiro Raça Girolando Desequilíbrio de ligação nas raças Gir Leiteiro e Girolando - Chr 14 Raça Gir Leiteiro Raça Girolando Desequilíbrio de ligação nas raças Gir Leiteiro e Girolando - Chr 14 Raça Gir Leiteiro Raça Girolando Descrição do número de animais, SNPs e comparações para a estimativa de r2, para cada raça. Raça Número de Animais Número de SNPs Número de comparações Nelore 863 26.347 13396899 Gir 1.959 15.951 4950008 Guzerá 1.005 25.024 12237188 Sindi 116 23.095 10226637 F2 349 31.780 19167526 Resultados - DL F2 0,18 Gir 0,17 Sindi 0,17 Guzerá 0,15 Nelore 0,15 F2 Sindi Guzerá Gir Nelore 100 kb Bohamanova et. al, (2011): 0,22 Holandesa McKay et al. (2007) : 0,15 a 0,20 - 6 raças taurinas e duas zebuínas Aplicação de Testes de Igualdade de Parâmetros e Identidade de Modelos Maior distância entre os marcadores => maior taxa crossing-over => menor DL Curva DL X Distância física passível de modelagem Funções Utilizadas 1. Log-exponencial (Log): 2. Sved (1971): 2 parâmetros 3. Hill and Weir (HW) (1988): considera baixo nível de mutação 1 parâmetro Aplicação de Testes de Igualdade de Parâmetros e Identidade de Modelos Considerando o ajustamento de diferentes funções, pode-se testar as seguintes hipóteses: ✓ As funções são idênticas, ou seja, uma equação comum pode ser usada como estimativas das funções envolvidas; ✓ Um subconjunto de parâmetros é igual para as funções; Testar igualdade de parâmetros e identidade de modelos => Teste de razão de máxima verossimilhança: possui distribuição qui-quadrado (grandes amostras), com v graus de liberdade. Máxima verossimilhança da variância do modelo completo Máxima verossimilhança da variância do modelo reduzido SQRR do modelo completo SQRR do modelo reduzido SQRR do modelo reduzido Rejeitar Silhueta (formato fixo) = curva média Magnitude dos valores iniciais da F2 superetimados Subestimação inicial (zebuínos) Assintótico em Y: super-estimação do LD a curtas distâncias, próximas a 1 Substimação Silhueta diferenciada para o F2: Mesmo nível de LD inicial (0,45, como esperado em densidade maiores), porém evidenciação da diferença no decaimento do LD Parâmetros estimados para as funções e respectivos coeficientes de determinação. Raça Nelore Log A Sved B R2 B 0.16 R2 C 2.126e-05a 0.17 5.236e-05a 0.21 0.15 3.585e-05 0.19 0.12 3.383e-05 0.12 1.688e-05 0.18 2.446e-06 -0.00757 0.133933a 9a -0.00956 0.171089b 2b -0.01047c 0.18816c 0.17 1.656e-05 0.19 1.693e-05 Sindi -0.01617 0.26 9.642e-06 F2 -0.0281 0.35 2.887e-06 Gir Guzerá d e 0.29585 0.5229 Resultado razoável: 2 parâmetros d e HW b c d e Piores R2 R2 b c 0.17 d 0.22 e 0.41 Melhor resultado: 1 parâmetro Tamanho Efetivo das Populações - Wright (1938): número de indivíduos capazes de se reproduzir que mostrariam a mesma dispersão das frequências alélicas que uma população idealizada sob deriva genética aleatória, ou a mesma quantidade de endogamia que esta população. - Hayes et al. (2003): o LD em distâncias curtas é dependente do tamanho efetivo da história antiga da população, enquanto o LD à longa distância depende do tamanho efetivo recente da população. Ancestralidade comum / mesma população? Possivelmente impacto da importação dec. 60 Nelore Gir Guzerá Sindi Considerar F nos acasalamentos= margem para as avaliações genômicas (BLUP=Família; BLUPGen= Ind.) Persistência de Fase (PS) Quanto um segmento cromossômico permanece inalterado ao longo de uma determinada distância física, em diferentes subpopulações ou espécies Mede do grau de concordância de fase do DL para os pares de SNPs entre duas populações; Pela PS é possível inferir sobre a história das espécies e as relações entre raças dentro destas espécies; Implicações : a acurácia do GWAS e a predição GEBV entre populações. Maiores correlações Correlações baixas com F2 inclusive com o Gir Persistência/ correlação inadequada para avaliações multirraciais?? História/Divergência da População Gir Nelore Sindi Guzerá 202 231 254 Gir 203 295 Nelore 245 Sugere: Grupamento indiano moderno: ± 230 anos passados Angus e Holandês de 325 gerações passadas e Jersey e Holandês de 191 gerações passadas (De Roos et. al., 2008). Diversidade Haplotípica Extensão dos BH Raças Tamanho médio dos BH Total de BH Quantidade de BH por nº de SNPs etiquetados Min. Máx. 2 3 4 5 6 7 Sindi 0,179 196,600 79,790 113 54 2 42 13 2 - Guzerá 0,085 199,400 70,630 208 117 4 60 26 1 - Gir 0,024 198,600 79,620 92 44 1 38 8 1 - Nelore 0,024 199,500 74,880 181 98 2 58 21 2 - F2 0,085 200,000 116,300 660 166 5 368 112 7 2 Uso de Pseudo-fenótipos • Fenótipo: EBV deregressado Garrick et al. (2009); Deregressão com a remoção do efeito médio de parentesco (ancestral) •Características: • produção de leite (PL) • produção de gordura(PG) • produção de proteína(PP) GWAS na Raça Guzerá Poucos SNPs e distantes da região do DGAT1. GWAS na Raça Guzerá GWAS na Raça Gir Leiteiro Subestrutura na população Identificação de linhagens na raça Gir Leiteiro GWAS na Raça Gir Leiteiro BTA1: PTX3 VEPH1 BTA4: SEMA3E PCLO BTA6: FAM13A HERC3 LOC100847719 LOC10084769 BTA9: UBE3D Distribuição dos efeitos dos marcadores para produção de proteína, lactose e sólidos totais na raça Gir Leiteiro 58 Característica Produção de Leite Produção de Gordura Produção de Proteína BTA Genes SNP Posição 10 DIO2 21 CRTC3 Hapmap48373-BTA-51706 22520337 6.77e-06 15 NCAM1 ARS-BFGL-NGS-23028 23970148 1.39e-05 1 EPHB1 ARS-BFGL-NGS-2595 5 SYT1 BTB-00219231 10 DIO2 1 NCAM2 ARS-BFGL-NGS-102441 1 EPHB1 ARS-BFGL-NGS-2595 14 LOC100139328 ARS-BFGL-NGS-116233 1 TOPBP1 BTB-00040439 10 DIO2 21 CRTC3 19 GLOD4 22 ITIH4 14 LOC782102 Hapmap32392-BTA-162780 92440993 P-value 4.40e-07 135444745 2.13e-05 8978484 Hapmap32392-BTA-162780 92440993 15071831 2.13e-05 2.57e-06 4.61e-05 135444745 6.56e-05 19316702 6.78e-05 136868487 8.01e-05 Hapmap32392-BTA-162780 92440993 1.84e-07 Hapmap48373-BTA-51706 22520337 1.47e-05 ARS-BFGL-NGS-84530 22650660 7.58e-05 Hapmap26665-BTA-136771 48628872 7.61e-05 UA-IFASA-5275 55954337 1.30e-04 • Os 5 SNPs para cada caracterísitica se encontraram dentro dos genes ou bem próximos a eles com a excessão LOC782102 para PP e o DIO2 (menor <150 kb). • DIO2 (todas as carcterísticas) • Deiodinase tipo 2, principal enzima tetraiodotiroxina (T4) em triodotiroxina (T3) (forma ativa) . • T3=> hormômio lactogênico. • Mecanismo adaptativo materno à restrição protêica na alimentação durante o período de lactação • CTRC3 (PL) •Gene ligado ao ganho de peso. Seleção Genômica na Raça Guzerá ✓ QC ✓ 45 touros e 856 vacas ✓ SNPs: 25.024 ✓ Missing => software fastPHASE Seleção Genômica na Raça Guzerá ✓ Modelos:GBLUP e BayesCπ ✓ Software GS3 y = µ+Xg+Zu+e marcador poligênico residual Heterogeneidade de variância residual=> devido a diferença de acurácia na avaliação genética. Ponderação (2/ wi) => wi= ri2/(1-ri2) GBLUP Caracterísitica PL PG PP BayesCπ Caracterísitica PL PG PP GBLUP Caracterísitica PL PG PP BayesCπ Caracterísitica PL PG PP GEBVtotal Min. 0,71 0,68 0,69 Mediana 0,78 0,75 0,75 Média 0,78 0,75 a 0,75 a Máxima 0,85 0,81 0,80 Média 0,79 0,76 b 0,76b Máxima 0,84 0,82 0,81 Média 0,33a 0,44a 0,40 a Máxima 0,54 0,57 0,57 Média 0,34b 0,42b 0,35b Máxima 0,54 0,54 0,54 GEBVtotal Min. 0,73 0,67 0,68 Mediana 0,79 0,76 0,77 GEBVmarcador Min. 0,21 0,34 0,27 Mediana 0,33 0,44 0,40 GEBVmarcador Min. 0,20 0,28 0,18 Mediana 0,35 0,42 0,36 Seleção Genômica na Raça Guzerá Resultados ✓ Habilidade de predição: Grande dispersão mas proximas com os modelos Para GEBVtotal=> diferença em nível de 5 % PP e PG, à 1% somente PP. (BayesCπ maior média) Para GEBVmarcador => Diferença em todas as carcterísticas. (BayesCπ maior média) BayesCπ tendeu apresentar maior dispersão e média dos coeficientes de regressão o que resulta em maior viés de predição. Admixture population Admixture population Admixture population Árvore filogenética Neighbor-joining tree method (Saitou e Nei, 1987) Próximos Passos... Implementação da Imputação (tradicional e explorando a semelhança entre raças); Formação do chip de baixa densidade com base no desequilíbrio de ligação (em andamento); Análises para obtenção dos valores genômicos por outras metodologias. Equipe do LBGA/LGM - Marcos Vinicius Barbosa da Silva - Wagner Antonio Arbex - Katia Lage dos Santos - Daniel Jordan - Adam Taiti Yutsonomia - Marta Martins - Marco Antonio Machado - Prof. Fabyano Fonseca Sequenciamento de Animais de Raças Zebuínas Leiteiras!! Motivação: a ferramenta existente para implementação da seleção genômica foi produzida com informações provenientes do genoma de taurinos. Plataformas de sequenciamento SOLiD v4 PacBio Bibliotecas mate-paired plataforma SOLiD SystemsTM (Fiocruz-Minas) Bibliotecas standard sequencing plataforma PacBio (GATC/Alemanha) Duas plataformas de sequenciamento foram utilizadas: SOLiD que tem como característica a geração de PacBio que gara longas reads mas com grande taxa de erros. Dados gerados para as duas raças Solid e PacBio Montagem dos genomas 1: Usar genoma próximo como referência realizando um mapeamento Referência raça Hereford Sequências Zebu Existem duas estratégias de montagem. Uma delas é utilizando um genoma de referência como régua. Mapeamento. Mapeamento Guzerá Programa Nº sequencias utilizadas Lifescope 1.789.490.658 Nº de sequências mapeadas 1.526.822.262 Resultado do mapeamento. A média de cobertura observada em profundidade (depth) para cada cromossomo foi 26X, sendo que 90% de cada cromossomo foi coberto por pelo menos uma read. Com o objetivo de resolvermos os problemas de variações entre taurinos e zebuinos e para fechar essas regiões não montadas, novas estratégias de montagens foram utilizadas. Nessa estratégia nós unimos os resultados do mapeamento, da montagem de novo e as sequências oriundas de sequenciamento de terceira geração. Montagem dos genomas 2: Montagem sem referência baseada na sobreposição das sequências Sequências Zebu Consenso Um alternativa além do mapeamento é a montagem ab initio (de novo) que, como o próprio nome diz, não utiliza um genoma como referência. Nesse caso existem algoritmos que levam em consideração a sobreposição entre as sequências para conseguir montar. Montagem de novo híbrida cromossoma 18 86% dos Ns e 2.673 lacunas (>= 4Ns) foram fechados. Considerando apenas os dados contendo sequências PacBio, 91% dos Ns foram fechados. Como resultado da montagem híbrida, de um total de 400.045 contigs submetidos, 18.843 foram montados em novos e maiores 2.000 supercontigs. Comparando a sequência desses contigs com suas respectivas regiões na etapa do consenso do mapeamento contra a referência, foi possível observar que 86% dos “Ns” e 2.673 lacunas (99%) (≥ 4Ns) foram fechados pela estratégia de montagem híbrida. Considerando apenas os supercontigs contendo dados originados pela plataforma PacBio, 91% dos “Ns” e 481 lacunas (99%) foram fechados. A figura a seguir evidencia uma região de lacunas na montagem inicial que foi melhorada através da montagem híbrida. Equipe do Projeto - Marcos Vinicius Barbosa da Silva Rui da Silva Verneque Marco Antonio Machado Maria Gabriela Campolina D. Peixoto Marta Martins Wagner Antonio Arbex - Maria Raquel Santos Carvalho Izinara Rosse da Cruz Raphael Steinberg da Silva Pablo Augusto de Souza Fonseca Marlene de Miranda - Adhemar Zerlotini Neto - Michel Eduardo B. Yamagishi Equipe do Projeto - Geraldo Alvim Dusi - Airdem Gonçalves de Assis - Marcos Brandão - Beatriz C. Lopes - Guilherme Corrêa de Oliveira Juliana Assis Izinara Rosse (UFMG) Flávio Marcos Gomes Araújo Anna Salim Angela Cristina Volpini “Carpe diem…” Marcos Vinicius Barbosa da Silva [email protected]