Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas Introdução Motivação Regulação Gênica Introdução Fatores de Transcrição Locais de amarração dos fatores de transcrição (TFBS’s) Elementos regulatórios Auxílio da Computação no estudo da regulação gênica Introdução Figura 1 – Elemento Regulatório Objetivo Identificação de elementos regulatórios Sequência Promotora Objetivo Figura 2 – Definindo uma sequência promotora, onde serão procurados os elementos regulatórios. Phylogenetic Footprinting “impressões de pegadas filogenéticas” Hipótese Conservação de elementos regulatórios em espécies próximas Phylogenetic Footprinting Genes Ortólogos Procedimento baseia-se na comparação de sequências genômicas 2 etapas: Phylogenetic Footprinting 1) Identificar genes ortólogos e obter sequências promotoras de cada um 2) Comparar sequências promotoras e extrair sub-sequências bem conservadas (motifs). Estes motifs serão excelente candidatos a elementos regulatórios Genômica Comparativa Alinhamento Múltiplo Agrupamento Comparação com TRANSFAC Algoritmo Entrada: Lista de genes Conjunto de espécies Algoritmo ALGORITMO: Para cada gene na lista de entrada: – – Pesquise em HomoloGene para identificar os genes ortólogos a este gene. Se este gene possui ortólogos para todas as espécies consideradas no conjunto de espécies da entrada: Para cada gene ortólogo: – – Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência genômica de sua espécie. Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene. Compute o Alinhamento Múltiplo das sequências promotoras. Extraia do alinhamento os motifs bem conservados. Compute o agrupamento dos motifs. Compare com a base de dados TRANSFAC. Algoritmo Saída: Lista de Motifs Lista de Grupos Lista de casamentos com TRANSFAC Casos de Estudo Humano / Chimpanzé / Camundongo / Rato Humano / Chimpanzé / Camundongo / Rato / Cachorro Humano / Chimpanzé / Camundongo / Rato / Galinha Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Humano / Chimpanzé / Camundongo / Rato / Mosca Dados Biológicos NCBI http://www.ncbi.nlm.nih.gov/ Consistência dos dados Figura 3 - NCBI Dados Biológicos HomoloGene – Genes Ortólogos http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?D B=homologene Restrição das espécies Figura 4 - HomoloGene Dados Biológicos Exemplo de Pesquisa no HomoloGene ING5 (id 84289) Humano / chimpanzé / camundongo / rato Figura 5 – Pesquisa no HomoloGene Dados Biológicos Entrez Gene http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=ge ne Objetivo: localização do gene Figura 6 – Entrez Gene Dados Biológicos Exemplo: ING5 Cromossomo: NC_000002.10 Início: 242290129 Fim: 242317569 Figura 7 – Pesquisa no Entrez Gene Dados Biológicos Nucleotide – Sequências Promotoras Entrez promoter_start = gene_start – 1000 promoter_end = gene_start + 200 Figura 8 - Entrez Nucleotide - contém sequências de nucleotídeos de diversos genomas. Dados Biológicos Exemplo: Região promotora do gene ING5 Cromossomo: NC_000002.10 promoter_start: 242289129 promoter_end: 242290329 Formato: FASTA Figura 9 – Pesquisa no Entrez Nucleotide Alinhamento Múltiplo Problema NP-Hard Needleman e Wunsch Programação Dinâmica Idéia do Algoritmo Alinhamento Múltiplo Ferramentas computacionais para alinhamento múltiplo CLUSTALW Heurística x Programação Dinâmica Figura 10 – Exemplo de Alinhamento Múltiplo Alinhamento Múltiplo Identificação dos Motifs Tamanho do motif = 10 b.p. Casamento perfeito entre todas as espécies em pelo menos 9 dos 10 nucleotídeos. Figura 11 – Motif com 10 casamentos perfeitos Figura 12 – Motif com 9 casamentos perfeitos Figura 13 – Sub-sequência com 9 casamentos perfeitos e 2 imperfeitos – não é um motif Alinhamento Múltiplo Casamentos imperfeitos completados por gaps (-) Exemplo: motifs do estudo : humano / chimpanzé / camundongo / rato / mosca Sequência do motif, id do gene, espécie, id do cromossomo, posição de início do gene, posição de término do gene e posição de início do motif. Alinhamento Múltiplo Figura 14 – Motifs encontrados no estudo humano/chimpanzé/camundongo/rato/mosca Agrupamento Introdução Fim da estratégia de Phylogenetic Footprinting Objetivo do Agrupamento Método restritivo Apenas grupos com mais de 1 motif serão mais detalhadamente analisados Agrupamento Algoritmo K-Means Um dos mais populares algoritmos iterativos de agrupamento. Este algoritmo é aleatório e baseia-se na heurística de Loyd. O número de grupos (K) deve ser definido previamente. Agrupamento Algoritmo 1) Os motifs são designados aleatoriamente para os K grupos. 2) Um vetor de expressão média (ou centróide) de cada grupo é computado. 3) Cada motif é movido para o grupo mais próximo (do qual mais se assemelha ao centróide). 4) Repete 2 e 3 até que nenhum motif possa ser movido para outro grupo. Agrupamento Evitando não-convergência Evitando mínimos locais Vários valores de K foram testados Agrupamento Número “K” de grupos Duas considerações: 1) Estamos interessados em grupos com alta similaridade entre os seus elementos, mesmo que tenhamos muitos grupos unitários. Solução: foi definido que seriam testados 100 valores diferentes de K entre 70% e 90% do número de motifs. Agrupamento 2) Conceito estatístico W = within-cluster sum of distances Quanto maior K, menor será o W. Existe um K’ tal que: K < K’ => Wi+5 >>> Wi K > K’ => Wi+5 > Wi 500 - 2567.29833333 501 - 2320.36666667 503 - 2632.32833333 504 - 2493.36666667 506 - 2424.73666667 507 - 2623.43 509 - 2337.16583333 510 - 2367.40880952 511 - 2456.52166667 513 - 2407.99833333 514 - 2297.01333333 516 - 2435.60833333 517 - 2289.1 519 - 2092.85666667 520 - 2500.10166667 521 - 2296.41666667 523 - 2297.80333333 524 - 2170.43833333 526 - 2156.93833333 527 - 1908.535 529 - 2179.25 530 - 1986.35833333 531 - 1919.5 533 - 1830.58666667 534 - 1894.125 536 - 2128.43333333 537 - 1936.9 539 - 1929.86333333 540 - 1870.675 541 - 1919.23 543 - 1871.20166667 544 - 1843.55333333 546 - 1756.30333333 547 - 1623.95 549 - 1788.83833333 550 - 1738.21666667 551 - 1799.64642857 553 - 1679.4 554 - 1758.215 556 - 1643.48 557 - 1622.35333333 559 - 1727.74166667 560 - 1746.45 561 - 1759.0 563 - 1526.36666667 564 - 1466.25833333 566 - 1565.76333333 567 - 1527.86833333 569 - 1545.51833333 570 - 1452.1 572 - 1559.96833333 573 - 1243.94166667 574 - 1489.82166667 576 - 1463.59166667 577 - 1374.70833333 579 - 1382.34333333 580 - 1462.59166667 582 - 1374.045 583 - 1394.11666667 584 - 1334.05 586 - 1371.36833333 587 - 1211.65 589 - 1268.01666667 590 - 1236.69166667 592 - 1216.375 593 - 1173.65 594 - 1105.06666667 596 - 1113.3 597 - 1155.88333333 599 - 1148.95833333 600 - 1050.44166667 602 - 1065.525 603 - 970.8 604 - 1021.13 606 - 985.383333333 607 - 933.033333333 609 - 988.533333333 610 - 917.241666667 612 - 1062.25 613 - 992.441666667 614 - 979.941666667 616 - 887.083333333 617 - 1041.15 619 - 823.758333333 620 - 863.6 622 - 864.541666667 623 - 904.158333333 624 - 905.575 626 - 817.416666667 627 - 846.625 629 - 795.25 630 - 858.133333333 632 - 689.358333333 633 - 812.8 634 - 704.7 636 - 706.116666667 637 - 593.266666667 639 - 724.2 640 - 626.766666667 642 - 701.35 Agrupamento K W 1 2 3 4 5 6 7 8 9 10 11 12 13 1790.73846154 1459.11666667 1296.95 1034.98333333 818.425 627.166666667 683.875 446.733333333 404.433333333 417.9 11 - 76.3333333333 12 - 168.85 13 - 0.0 Figura 15 – Exemplo de Agrupamento TRANSFAC Figura 16 - TRANSFAC TRANSFAC 1388 elementos regulatórios humanos anotados Objetivos da comparação com TRANSFAC TRANSFAC Sequência de Consenso de um Grupo Um grupo do estudo humano/chimpanzé/camundongo/rato: CLUSTER 13576: CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310 AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728 AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424 AAAGACACT => Sequência de Consenso do grupo 13576 TRANSFAC Casamentos relevantes Alinhamento local sem gaps de tamanho pelo menos 5. Exemplo de outro grupo do estudo humano / chimpanzé / camundongo / rato : TRANSFAC CLUSTER 13534: ATCCCTCCTC 1956 H.sapiens NC_000007.12 55054219 55242525 55054235 CTCCCTCCTC 339287 H.sapiens NC_000017.9 35531749 35548144 35531706 - TCCCTCCTC => Sequência de Consenso do grupo 13534 Casamento relevante com TRANSFAC : -TCCCTCCTC ATCCCTCCTC TCCCTCCTC (sequência de consenso do grupo 13534) (motif do transfac com id R00377) (casamento) Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377) TRANSFAC Figura 18 – Gene do grupo 13534 (id 1956) TRANSFAC A seguir temos mais exemplos do estudo humano / chimpanzé / camundongo / rato: GENE MOTIF EGFR (epidermal growth factor receptor); G000251 ATCCCTCCTC (R00377) EGFR epidermal growth factor receptor (erythroblastic leukemia viral (v-erb-b) oncogene homolog, avian) (id 1956) ATCCCTCCTC (Cluster 13534) LOC339287 - hypothetical protein LOC339287 (id 339287) CTCCCTCCTC (Cluster 13534) GENE MOTIF DBH (dopamine beta hydroxylase); G002007 GTCCATGTGT (R09521) DBH dopamine beta-hydroxylase (id 1621) GA-GTCCATG (Cluster 17159) OR52K2 olfactory receptor, family 52, subfamily K, member 2 (id 119774) GC-CTCCATG (Cluster 17159) GENE MOTIF G-CSF (granulocyte colonystimulating factor); G000260 GAGATTCCAC (R02683) G-CSF (or CSF3) colony stimulating factor 3 (granulocyte) (id 1440) TTCCCAGCTA (Cluster 21242) AMHR2 anti-Mullerian hormone receptor, type II (id 269) TTCCAAGGTC (Cluster 21242) C9orf58 chromosome 9 open reading frame 58 (id 83543) TTCCAAGGTA (Cluster 21242) GENE MOTIF SI (sucrase-isomaltase); G000385 GGTGCAATAAAACTTTATGAGTA (R04239) SI sucrase-isomaltase (alphaglucosidase) (id 6476) TTTATT-TCT (Cluster 22280) CPA2 carboxypeptidase A2 (pancreatic) (id 1358) TTTGTT-TCT (Cluster 22280) ITGB1BP2 integrin beta 1 binding protein (melusin) 2 (id 26548) TTTAGT-TAT (Cluster 22280) GENE MOTIF H4 (histone 4 pHu4A gene); G000295 GGTTTTCAATCTGGTCCG(R00687) H4 (or HRH4) histamine receptor H4 (id 59340) TGTTTTGAGT (Cluster 41063) NR1D1 nuclear receptor subfamily 1, group D, member 1 (id 9572) TGTTTTGGGT (Cluster 41063) TRANSFAC Observações Motifs agrupados diferentes do motif anotado no TRANSFAC que teve casamento relevante. Comparando nomes de genes entre NCBI e TRANSFAC Resultados Humano / Chimpanzé / Camundongo / Rato Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 10738 genes Número de motifs identificados: 66903 motifs Número de grupos: K = 57536 grupos 57536 - 9738.37333333 57670 - 9795.11666667 57804 - 9765.19166667 57937 - 9533.13833333 58071 - 9449.37833333 Wmax – Wmin <= 400 Número de grupos com pelo menos 2 motifs: 8329 grupos Número de grupos com casamento relevante com TRANSFAC: 4498 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 9494 genes Número de motifs identificados: 11002 motifs Número de grupos: K = 7921 grupos 7921 - 10681.4533333 7943 - 10608.805 7965 - 10619.7461905 7987 - 10602.74 8009 - 10498.6733333 Wmax – Wmin <= 200 Número de grupos com pelo menos 2 motifs: 2329 grupos Número de grupos com casamento relevante com TRANSFAC: 867 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Galinha Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 6974 genes Número de motifs identificados: 1268 motifs Número de grupos: K = 968 grupos 968 - 2565.98333333 971 - 2542.30333333 973 - 2521.27666667 976 - 2564.505 978 - 2554.04833333 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 238 grupos Número de grupos com casamento relevante com TRANSFAC: 56 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 6382 genes Número de motifs identificados: 715 motifs Número de grupos: K = 537 grupos 537 - 1936.9 539 - 1929.86333333 540 - 1870.675 541 - 1919.23 543 - 1871.20166667 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 141 grupos Número de grupos com casamento relevante com TRANSFAC: 26 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 3444 genes Número de motifs identificados: 13 motifs Número de grupos: K = 8 grupos 8 - 446.733333333 9 - 404.433333333 10 - 417.9 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 4 grupos Número de grupos com casamento relevante com TRANSFAC: 1 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Neste estudo, o grupo que possui um casamento relevante com TRANSFAC foi o grupo 0. CLUSTER 0: ATTTATT-TG 1506 H.sapiens NC_000016.8 66520974 66523266 66521109 GTGTGTG-GT 5459 H.sapiens NC_000005.8 145698869 145700200 145698417 GGTTATG-AA 8834 H.sapiens NC_000017.9 21041855 21058297 21042121 GTTTATG--- => Sequência de consenso A tabela a seguir lista os genes de cada um desses motifs e também o de alguns dos motifs do TRANSFAC com casamento relevante. GENE MOTIF CTRL chymotrypsin-like (id 1506) ATTTATT-TG (Cluster 0) POU4F3 POU domain, class 4, transcription factor 3 (id 5459) GTGTGTG-GT (Cluster 0) TMEM11 transmembrane protein 11 (id 8834) GGTTATG-AA (Cluster 0) B-ACT (beta-actin); G000214 CCTTTTATGG (R00040) TCR-delta (T-cell receptor delta); G000395. AAATAAACAAGGAGATAGGGTGTT TATTT (R01429) apoB (apolipoprotein B); G000205 GCATTTATGAGCTG (R04012) GCC (guanylyl cyclase C); G001742 GTTTATAGCTCTGACCT (R08886) Conclusões ESTUDO Genes com ortólogos Motifs Grupos Grupos com mais de 1 motif Grupos com casamento relevante no TRANSFAC Humano/Chimpanzé/ Camundongo/Rato 10738 66903 57536 8329 4498 Humano/Chimpanzé/ Camundongo/Rato/ Cachorro 9494 11002 7921 2329 867 Humano/Chimpanzé/ Camundongo/Rato/ Galinha 6974 1268 968 238 56 Humano/Chimpanzé/ Camundongo/Rato/ Cachorro/Galinha 6382 715 537 141 26 Humano/Chimpanzé/ Camundongo/Rato/Mosca 3444 13 8 4 1 Conclusões Objetivo alcançado Motifs conhecidos / motifs novos Resultados (lista de motifs, grupos e casamentos com Transfac) para cada um dos 5 estudos conduzidos nesta pesquisa estarão disponíveis na web. Trabalhos Futuros Conhecimento sobre genes ortólogos Filtro de locais de início da transcrição ortólogos. Vários elementos regulatórios para um mesmo gene. Apêndice I - Programação Python BioPython CLUSTALW The C Clustering Library Esta apresentação foi parte do Projeto Final de Graduação de Raonne Barbosa Vargas, para obtenção do grau de Bacharel em Ciência da Computação Departamento de Informática Universidade Federal do Espírito Santo