Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas Introdução Motivação O ser humano possui uma sequência de DNA única, presente em todas as células de seu organismo. Nos últimos anos, após esta sequência de nucleotídeos ter sido completamente descoberta e os genes definidos nelas serem anotados, a comunidade que estuda a Biologia Molecular passou a enfrentar um novo desafio: como esta mesma sequência de genes pode definir todos os diferentes tipos de células que temos? A resposta está nos fatores que controlam a expressão desses genes, o estudo de um processo chamado de regulação gênica. Introdução Proteínas chamadas de fatores de transcrição ligam-se à sequência de DNA em posições específicas chamadas de locais de amarração dos fatores de transcrição (TFBS’s), para regular a expressão de um determinado gene, ativando ou inibindo os mecanismos da transcrição. Os locais de amarração funcionais são por isso chamados de elementos regulatórios. A regulação gênica ainda é uma área de estudo muito complexa e seu completo entendimento ainda é considerado uma esperança distante, que irá requerer muitos esforços, inclusive com uma imprescindível ajuda da Computação, tanto pela capacidade de processamento de enormes quantidades de dados, mas também pela necessidade de avançados Algoritmos indispensáveis na solução de alguns problemas. Introdução Figura 1 – Elemento Regulatório Objetivo O objetivo desta pesquisa é tentar identificar elementos regulatórios de genes humanos. Utilizando métodos computacionais podemos tentar predizer a localização exata de elementos regulatórios de genes humanos, o que representa um enorme avanço no entendimento da regulação gênica e facilita incrivelmente o trabalho de biólogos na anotação experimental dos elementos regulatórios. Os elementos regulatórios podem ser geralmente encontrados na região imediatamente anterior ao início de um gene, ou até nos primeiros pares de base do mesmo. A sequência de nucleotídeos nesta região será chamada de sequência promotora. Objetivo Figura 2 – Definindo uma sequência promotora, onde serão procurados os elementos regulatórios. Phylogenetic Footprinting Para conseguir encontrar estes elementos regulatórios esta pesquisa baseia-se em uma teoria chamada de Phylogenetic Footprinting, cuja tradução seria “impressão de pegadas filogenéticas”. Esta teoria considera que mutações em regiões funcionais de genes se acumulariam mais lentamente do que em regiões não-funcionais, pois estariam sob pressão evolutiva. Desta forma, elementos regulatórios evoluem a uma taxa mais baixa do que as demais sequências não-funcionais ao seu redor. Por isso, é esperado que elementos regulatórios estejam mais conservados nas sequências de DNA de espécies consideradas próximas na árvore de evolução filogenética. Phylogenetic Footprinting Desta forma Phylogenetic Footprinting propõe um processo para se identificar possíveis elementos regulatórios, que baseia-se na comparação de sequências genômicas. Primeiro é necessário definir que genes ortólogos são genes similares em espécies distintas que descendem de um antecessor comum. Se um gene humano possui um gene ortólogo no chimpanzé, por exemplo, então é de se esperar que os elementos regulatórios destes genes estejam bem conservados em ambas as espécies. Assim podemos definir o processo em 2 etapas: Phylogenetic Footprinting No primeiro passo é necessário identificar se o gene a ser estudado possui ortólogos nas espécies sendo consideradas. Então obtém-se as sequências promotoras de cada gene ortólogo. No segundo passo as sequências promotoras devem ser analisadas em busca de pequenas sub-sequências que estejam bem conservadas em todas elas. Estas sub-sequências bem conservadas são chamadas de motifs. Esses motifs representarão excelentes candidatos a elementos regulatórios. Genômica Comparativa Para analisar as sequências promotoras e extrair delas os motifs, utiliza-se um algoritmo de alinhamento múltiplo. Após a obtenção dos motifs, será utilizado também um algoritmo de agrupamento para agrupar motifs semelhantes, que podem ser variações de um mesmo elemento regulatório. Os grupos obtidos são finalmente comparados a TFBS’s anotados na base de dados TRANSFAC, na última etapa desta pesquisa. Algoritmo Aqui procuramos resumir a solução proposta nesta pesquisa em um simples algoritmo que resume cada etapa do processo, que serão uma por uma analisadas em detalhes em seguida. Entrada: • Lista de genes a serem analisados. Em todos os casos de estudo desta pesquisa teremos os 23516 genes humanos anotados no genoma humano no NCBI* e incluídos na base de dados HomoloGene*. • Conjunto de espécies a serem consideradas na comparação genômica proposta por Phylogenetic Footprinting. * NCBI e HomoloGene serão apresentados em detalhes posteriormente. Algoritmo ALGORITMO: Para cada gene na lista de entrada: – – Pesquise em HomoloGene para identificar os genes ortólogos a este gene. Se este gene possui ortólogos para todas as espécies consideradas no conjunto de espécies da entrada: Para cada gene ortólogo: – – Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência genômica de sua espécie. Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene. Compute o Alinhamento Múltiplo das sequências promotoras. Extraia do alinhamento os motifs bem conservados. Compute o agrupamento dos motifs. Compare com a base de dados TRANSFAC. Algoritmo Saída: • Lista de motifs encontrados, especificando sua localização exata no cromossomo e o gene que ele regula. • Lista dos Grupos, com os motifs de cada um deles. • Lista de casamentos relevantes encontrados com TFBS’s anotados no TRANSFAC. Casos de Estudo Humano / Chimpanzé / Camundongo / Rato Humano / Chimpanzé / Camundongo / Rato / Cachorro Humano / Chimpanzé / Camundongo / Rato / Galinha Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Humano / Chimpanzé / Camundongo / Rato / Mosca Dados Biológicos NCBI O National Center for Biotechnology Information (NCBI) é uma fonte de informação para biologia molecular que inclui a criação de bancos de dados públicos, condução de pesquisas em biologia computacional, desenvolvimento de ferramentas para analisar dados genômicos, e a disseminação de informações biomédicas. NCBI: http://www.ncbi.nlm.nih.gov/ Para manter a consistência de todas as informações e das relações entre elas, todos os dados biológicos requeridos para o desenvolvimento da solução desta pesquisa foram extraídos de bancos de dados do NCBI. Figura 3 - NCBI Dados Biológicos HomoloGene – Genes Ortólogos Para identificação de genes ortólogos esta pesquisa utiliza o banco de dados chamado HomoloGene, um sistema de detecção automática de homólogos entre genes anotados em diversos genomas eucarióticos completamente sequenciados. HomoloGene: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=homologene Os conjuntos de espécies utilizados nesta pesquisa foram restringidos principalmente por essa base de dados, como pode ser visto na tabela na página inicial do HomoloGene (figura 4). Figura 4 - HomoloGene Dados Biológicos Exemplo de pesquisa no HomoloGene: Consideremos então o gene ING5, que tem a função de inibidor de crescimento, e possui um número de identificação no NCBI (id) igual a 84289. Se estivermos interessados em verificar se este gene possui ortólogos para por exemplo humano, chimpanzé, camundongo e rato, podemos pesquisá-lo no HomoloGene e obter essa infomação. Podemos verificar na Figura 5 que o ING5 possui sim ortólogos para as espécies consideradas nesse exemplo. Desta forma, obtemos do HomoloGene os id’s dos genes ortólogos e partimos para investigar cada um desses genes para obter suas sequências promotoras. Figura 5 – Pesquisa no HomoloGene Dados Biológicos Entrez Gene – Informação sobre os genes Entrez Gene é um banco de dados para busca de genes que contém diversas informações sobre eles, como tipo, nome, descrição, organismo, e muito mais. Entre Gene: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene Nesta pesquisa Entrez Gene será utilizado para identificação da localização de cada gene ortólogo, para que o posicionamento de sua sequência promotora seja estipulado. Figura 6 – Entrez Gene Dados Biológicos Continuando o exemplo com ING5, a figura 7 mostra o resultado da busca deste gene no Entrez Gene, com todas as informações deste gene. A localização do gene é exibida na seção “Genomic Regions”, contendo o id de seu cromosomo (NC_000002.10) e a sua localização no mesmo, tendo início na posição 242290129 e terminando em 242317569. Figura 7 – Pesquisa no Entrez Gene Dados Biológicos Entrez Nucleotide – Sequências Promotoras Como foi mostrado anteriormente, nesta pesquisa as sequências promotoras são definidas com sendo a partir de 1000 pares de base antes da posição de início do gene, até 200 pares de base após o início do gene. promoter_start = gene_start – 1000 promoter_end = gene_start + 200 Possuindo então o id do cromosomo e as posições de início e fim da sequência, basta realizar uma simples busca na base de dados Entrez Nucleotide para obter a sequência de nucleotídeos desejada. Figura 8 - Entrez Nucleotide - contém sequências de nucleotídeos de diversos genomas. Dados Biológicos Para exemplificar um busca no Entrez Nucleotide, vamos novamente considerar o gene ING5, o qual já sabemos está situado no cromosomo de id NC_000002.10 e possui posicição de início igual a 242290129. Desta forma sabemos que a sequência promotora se inicia na posição 242289129 e vai até 242290329. A figura 9 mostra o resultado da busca dessa sequência no Entrez Nucleotide, no formato FASTA. Figura 9 – Pesquisa no Entrez Nucleotide Alinhamento Múltiplo Alinhamento Múltiplo de strings é um problema NP-Hard e por isso seu processamento pode demandar um quantidade de tempo a cima do aceitável. O algoritmo utilizado para realizar o alinhamento múltiplo consiste em uma extensão do alinhamento global dois a dois proposto por Needleman e Wunsch, que segue uma estratégia de programação dinâmica. Todos os pares de sequência são alinhados separadamente, uma matriz de distâncias é calculada e utilizada na montagem progressiva do alinhamento múltiplo. Alinhamento Múltiplo Existem hoje diversas ferramentas computacionais para a computação de um alinhamento múltiplo, como por exemplo: CLUSTALW, MAVID, MLAGAN, DIALIGN, TBA e FootPrinter. A ferramenta escolhida para nos auxiliar nesta tarefa foi o CLUSTALW, por ser uma das mais famosas e mais comumente utilizadas. Além disso, CLUSTALW é uma versão de linha de comando de CLUSTALX para UNIX, e é totalmente integrada à biblioteca BioPython. Detalhes sobre programação virão posteriormente. CLUSTALW oferece uma alternativa para o alinhamento 2 a 2, permitindo que seja utilizada um heurística mais rápida porém menos precisa. Entretanto, nesta pesquisa esta alternativa não foi utilizada, sendo mantido o processo de programação dinâmica visando resultados de melhor qualidade. Figura 10 – Exemplo de Alinhamento Múltiplo Alinhamento Múltiplo Identificação de Motifs Uma vez que foi processado o alinhamento múltiplo, é necessário extrair deles os motifs bem conservados. Seguindo várias referências na literatura científica, foi definido que procuraríamos motifs de tamanho 10. Requere-se então que uma sub-sequência de tamanho 10 possua um casamento perfeito entre todas as espécies em pelo menos 9 dos 10 nucleotídeos. Veja os exemplos a seguir. Figura 11 – Motif com 10 casamentos perfeitos Figura 12 – Motif com 9 casamentos perfeitos Figura 13 – Sub-sequência com 9 casamentos perfeitos e 2 imperfeitos – não é um motif Alinhamento Múltiplo Os motifs identificados são anotados e salvos em arquivo. As posições onde ocorre casamento imperfeito são completadas com gaps (-). A figura 14 mostra o arquivo contendo os motifs encontrados no estudo que incluia as espécies humano / chimpanzé / camundongo / rato / mosca. Para cada motif é indicado sua sequência, id do gene, espécie, id do cromosomo, posição de início do gene, posição de término do gene e posição de início do motif. Alinhamento Múltiplo Figura 14 – Motifs encontrados no estudo humano/chimpanzé/camundongo/rato/mosca Agrupamento Introdução Uma vez terminada a estratégia de Phylogenetic Footprinting e tendo sido encontrados os motifs que representam excelentes candidatos a elementos regulatórios, agora nós passamos a analisar esses motifs. O objetivo de agrupar os motifs é poder juntar aqueles motifs que possuem alto grau de similaridade, pois estes podem ser variações de um mesmo elemento regulatório, ou serem alvo de um mesmo fator de transcrição, ou compartilhar alguma outra similaridade funcional. O método de agrupamento utilizado foi bem restritivo, de forma a manter um alto grau de similaridade entre os motifs de um mesmo grupo, mesmo que obtendo um grande número de grupos com apenas 1 elemento. Posteriormente serão levados em consideração apenas os grupos com mais de 1 motif, e estes serão comparados com TRANSFAC. Agrupamento Algoritmo K-Means O algoritmo de agrupamento utilizado foi o K-Means, um dos mais populares algoritmos iterativos de agrupamento. Este algoritmo é aleatório e baseia-se na heurística de Loyd. O número de grupos (K) deve ser definido previamente. Os motifs são designados aleatoriamente para os K grupos. Um vetor de expressão média (ou centróide) de cada grupo é computado. Cada motif é movido para o grupo mais próximo (do qual mais se assemelha ao centróide) e os centróides são recalculados. O processo se repete até que nenhum motif possa ser movido para outro grupo. Agrupamento Algoritmo K-Means Dependendo do posicionamento inicial que é aleatório, o K-Means pode converter para um mínimo local ou às vezes até não converter. Para evitar um loop infinito, a programação finaliza o processo quando detecta o mesmo agrupamento aparecendo novamente periodicamente. Além disso, para cada valor de K testado o algoritmo foi executado 3 vezes, com mudança na semente aleatória, e o melhor agrupamento foi escolhido, tentando assim fugir de mínimos locais. Na busca pelo melhor agrupamento, vários valores para o número de grupos K foram testados de acordo com a estratégia apresentada a seguir. Agrupamento Número “K” de grupos Para definir o número de grupos foram levadas em consideração duas ponderações. A primeira diz respeito ao fato de que estamos interessados em grupos com alta similaridade entre os seus elementos, mesmo que tenhamos muitos grupos unitários. Desta forma foi definido que seriam testados 100 valores diferentes de K entre 70% e 90% do número de motifs. Por exemplo, no estudo humano/chimpanzé/camundongo/rato/cachorro/galinha tínhamos 715 motifs. Testamos valores de K entre 500 e 642. No estudo incluindo humano/chimpanzé/camundongo/rato/mosca nós tínhamos apenas 13 motifs para agrupar, o que nos possibilitava testar todos os 13 diferentes valores de K sem problemas. Agrupamento Número “K” de grupos A segunda ponderação baseia-se num conceito estatístico que afirma o seguinte: • O índice W que buscamos minimizar, no nosso caso a soma das distâncias dos elementos dentro dos grupos (within-cluster sum of distances), vai diminuindo ao passo que aumentamos o número de grupos K. Para um número de grupos igual ao número de motifs, teremos W=0 e um motif em cada grupo. • Enquanto aumentamos o valor de K, a diminuição do valor de W torna-se cada vez mais lenta. Desta forma, o valor ideal de K pode ser determinado quando a variação do valor de W para valores diferentes de K se tornar menor que um determinado limite desejado. Veja o exemplo da tabela a seguir, com os valores de K e W computados para o estudo humano/chimpanzé/camundongo/rato/cachorro/galinha. 500 - 2567.29833333 501 - 2320.36666667 503 - 2632.32833333 504 - 2493.36666667 506 - 2424.73666667 507 - 2623.43 509 - 2337.16583333 510 - 2367.40880952 511 - 2456.52166667 513 - 2407.99833333 514 - 2297.01333333 516 - 2435.60833333 517 - 2289.1 519 - 2092.85666667 520 - 2500.10166667 521 - 2296.41666667 523 - 2297.80333333 524 - 2170.43833333 526 - 2156.93833333 527 - 1908.535 529 - 2179.25 530 - 1986.35833333 531 - 1919.5 533 - 1830.58666667 534 - 1894.125 536 - 2128.43333333 537 - 1936.9 539 - 1929.86333333 540 - 1870.675 541 - 1919.23 543 - 1871.20166667 544 - 1843.55333333 546 - 1756.30333333 547 - 1623.95 549 - 1788.83833333 550 - 1738.21666667 551 - 1799.64642857 553 - 1679.4 554 - 1758.215 556 - 1643.48 557 - 1622.35333333 559 - 1727.74166667 560 - 1746.45 561 - 1759.0 563 - 1526.36666667 564 - 1466.25833333 566 - 1565.76333333 567 - 1527.86833333 569 - 1545.51833333 570 - 1452.1 572 - 1559.96833333 573 - 1243.94166667 574 - 1489.82166667 576 - 1463.59166667 577 - 1374.70833333 579 - 1382.34333333 580 - 1462.59166667 582 - 1374.045 583 - 1394.11666667 584 - 1334.05 586 - 1371.36833333 587 - 1211.65 589 - 1268.01666667 590 - 1236.69166667 592 - 1216.375 593 - 1173.65 594 - 1105.06666667 596 - 1113.3 597 - 1155.88333333 599 - 1148.95833333 600 - 1050.44166667 602 - 1065.525 603 - 970.8 604 - 1021.13 606 - 985.383333333 607 - 933.033333333 609 - 988.533333333 610 - 917.241666667 612 - 1062.25 613 - 992.441666667 614 - 979.941666667 616 - 887.083333333 617 - 1041.15 619 - 823.758333333 620 - 863.6 622 - 864.541666667 623 - 904.158333333 624 - 905.575 626 - 817.416666667 627 - 846.625 629 - 795.25 630 - 858.133333333 632 - 689.358333333 633 - 812.8 634 - 704.7 636 - 706.116666667 637 - 593.266666667 639 - 724.2 640 - 626.766666667 642 - 701.35 Agrupamento Número “K” de grupos A estratégia adotada então foi verificar a variação do valor de W entre cada 5 agrupamentos consecutivos. Quando esta variação fosse menor que um determinado limite, o valor de K era escolhido. Este limite da variação era diferente de acordo com o número de motifs e grupos em cada estudo. Na tabela anterior o limite era de uma diferença de no máximo 100 unidades entre cada 5 agrupamentos. A tabela a seguir mostra a mesma análise para os 13 agrupamentos de humano/chimpanzé/camundongo/rato/mosca, porém neste caso o limite da variação de W foi imposto para cada 3 agrupamentos. Agrupamento K W 1 2 3 4 5 6 7 8 9 10 11 12 13 1790.73846154 1459.11666667 1296.95 1034.98333333 818.425 627.166666667 683.875 446.733333333 404.433333333 417.9 11 - 76.3333333333 12 - 168.85 13 - 0.0 Agrupamento Desta forma o agrupamento foi computado, e para cada caso de estudo foi gravado em arquivo, contendo os motifs de cada grupo com todas as informações de cada um: a sequência do motif, o id do gene, a espécie, o id do cromosomo, a posição de início e fim do gene e a posição de início do motif. A figura a seguir mostra parte do arquivo com o agrupamento para o estudo humano/chimpanzé/camundongo/rato/cachorro/galinha, com as informações de alguns dos grupos. Figura 15 – Exemplo de Agrupamento TRANSFAC Figura 16 - TRANSFAC TRANSFAC Os TFBS’s anotados em TRANSFAC serão usados para que possamos identificar motifs descobertos que são elementos regulatórios já conhecidos, determinar outros motifs que possam ter semelhanças a algum elemento regulatório conhecido, e também isolar motifs encontrados que podem ser elementos regulatórios novos, ainda não descobertos. Desta forma calculamos a sequência de consenso para cada grupo, e comparamos cada uma a todos os 1388 elementos regulatórios de humanos anotados no TRANSFAC, em busca de casamentos (matches) relevantes. TRANSFAC Sequência de Consenso de um Grupo Alinhados os motifs de um grupo, para cada coluna é assinalado um nucleotídeo se este estivesse presente naquela coluna em mais de 50% dos motifs e aparecesse um número de vezes maior ou igual a duas vezes todos os outros nucleotídeos somados. Se nenhum nucleotídeo cumprisse esse pré-requisito a coluna era completada com um gap(-). Veja um exemplo de um grupo do estudo humano/chimpanzé/camundongo/rato: CLUSTER 13576: CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310 AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728 AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424 AAAGACACT => Sequência de Consenso do grupo 13576 TRANSFAC Casamentos relevantes Para determinar os casamentos relevantes entre grupos e motifs do TRANSFAC, a sequência de consenso de cada grupo era alinhada a cada motif deste banco de dados. Um casamento entre um grupo e um motif anotado era considerado se houvesse entre estes um alinhamento local sem gaps de tamanho pelo menos 5. Vamos seguir o exemplo de outro grupo do estudo humano / chimpanzé / camundongo / rato : TRANSFAC CLUSTER 13534: ATCCCTCCTC 1956 H.sapiens NC_000007.12 55054219 55242525 55054235 CTCCCTCCTC 339287 H.sapiens NC_000017.9 35531749 35548144 35531706 - TCCCTCCTC => Sequência de Consenso do grupo 13534 Após a comparação com TRANSFAC, foi detectado um casamento relevante da sequência de consenso deste grupo 13534 com o motif anotado no TRANSFAC que possui número de identificação (accession number) R00377. -TCCCTCCTC ATCCCTCCTC TCCCTCCTC (sequência de consenso do grupo 13534) (motif do transfac com id R00377) (casamento) Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377) TRANSFAC Figura 18 – Gene do grupo 13534 (id 1956) TRANSFAC Assim podemos perceber que o motif identificado pelo nosso sistema é exatamente o mesmo anotado no TRANSFAC. Exemplos como este mostram que a solução é capaz de alcançar seu objetivo, predizendo elementos regulatórios que já foram realmente comprovados experimentalmente. A seguir temos mais exemplos do estudo humano / chimpanzé / camundongo / rato. GENE MOTIF EGFR (epidermal growth factor receptor); G000251 ATCCCTCCTC (R00377) EGFR epidermal growth factor receptor (erythroblastic leukemia viral (v-erb-b) oncogene homolog, avian) (id 1956) ATCCCTCCTC (Cluster 13534) LOC339287 - hypothetical protein LOC339287 (id 339287) CTCCCTCCTC (Cluster 13534) GENE MOTIF DBH (dopamine beta hydroxylase); G002007 GTCCATGTGT (R09521) DBH dopamine beta-hydroxylase (id 1621) GA-GTCCATG (Cluster 17159) OR52K2 olfactory receptor, family 52, subfamily K, member 2 (id 119774) GC-CTCCATG (Cluster 17159) GENE MOTIF G-CSF (granulocyte colonystimulating factor); G000260 GAGATTCCAC (R02683) G-CSF (or CSF3) colony stimulating factor 3 (granulocyte) (id 1440) TTCCCAGCTA (Cluster 21242) AMHR2 anti-Mullerian hormone receptor, type II (id 269) TTCCAAGGTC (Cluster 21242) C9orf58 chromosome 9 open reading frame 58 (id 83543) TTCCAAGGTA (Cluster 21242) GENE MOTIF SI (sucrase-isomaltase); G000385 GGTGCAATAAAACTTTATGAGTA (R04239) SI sucrase-isomaltase (alphaglucosidase) (id 6476) TTTATT-TCT (Cluster 22280) CPA2 carboxypeptidase A2 (pancreatic) (id 1358) TTTGTT-TCT (Cluster 22280) ITGB1BP2 integrin beta 1 binding protein (melusin) 2 (id 26548) TTTAGT-TAT (Cluster 22280) GENE MOTIF H4 (histone 4 pHu4A gene); G000295 GGTTTTCAATCTGGTCCG(R00687) H4 (or HRH4) histamine receptor H4 (id 59340) TGTTTTGAGT (Cluster 41063) NR1D1 nuclear receptor subfamily 1, group D, member 1 (id 9572) TGTTTTGGGT (Cluster 41063) TRANSFAC Obervações Como dito anteriormente, os motifs diferentes do motif de TRANSFAC com o qual seu grupo se casa podem possuir semelhanças com o mesmo, como ser variação de um mesmo elemento regulatório, compartilhar um mesmo fator de transcrição ou alguma outra similaridade funcional. Isso vale tanto para grupos que continham o mesmo motif do TRANSFAC ao qual se casaram quanto para aqueles que não o contém. Identificar se o gene do motif descoberto é o mesmo gene do motif anotado no TRANSFAC é uma tarefa impossível de se automatizar, tendo em vista que além de id’s obviamente diferentes, os genes também muitas vezes possuem nomes e ‘alias’ diferentes nas duas bases de dados (TRANSFAC x NCBI). Resultados Humano / Chimpanzé / Camundongo / Rato Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 10738 genes Número de motifs identificados: 66903 motifs Número de grupos: K = 57536 grupos 57536 - 9738.37333333 57670 - 9795.11666667 57804 - 9765.19166667 57937 - 9533.13833333 58071 - 9449.37833333 Wmax – Wmin <= 400 Número de grupos com pelo menos 2 motifs: 8329 grupos Número de grupos com casamento relevante com TRANSFAC: 4498 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 9494 genes Número de motifs identificados: 11002 motifs Número de grupos: K = 7921 grupos 7921 - 10681.4533333 7943 - 10608.805 7965 - 10619.7461905 7987 - 10602.74 8009 - 10498.6733333 Wmax – Wmin <= 200 Número de grupos com pelo menos 2 motifs: 2329 grupos Número de grupos com casamento relevante com TRANSFAC: 867 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Galinha Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 6974 genes Número de motifs identificados: 1268 motifs Número de grupos: K = 968 grupos 968 - 2565.98333333 971 - 2542.30333333 973 - 2521.27666667 976 - 2564.505 978 - 2554.04833333 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 238 grupos Número de grupos com casamento relevante com TRANSFAC: 56 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 6382 genes Número de motifs identificados: 715 motifs Número de grupos: K = 537 grupos 537 - 1936.9 539 - 1929.86333333 540 - 1870.675 541 - 1919.23 543 - 1871.20166667 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 141 grupos Número de grupos com casamento relevante com TRANSFAC: 26 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 3444 genes Número de motifs identificados: 13 motifs Número de grupos: K = 8 grupos 8 - 446.733333333 9 - 404.433333333 10 - 417.9 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 4 grupos Número de grupos com casamento relevante com TRANSFAC: 1 grupos Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Neste estudo, o grupo que possui um casamento relevante com TRANSFAC foi o grupo 0. CLUSTER 0: ATTTATT-TG 1506 H.sapiens NC_000016.8 66520974 66523266 66521109 GTGTGTG-GT 5459 H.sapiens NC_000005.8 145698869 145700200 145698417 GGTTATG-AA 8834 H.sapiens NC_000017.9 21041855 21058297 21042121 GTTTATG--- => Sequência de consenso A tabela a seguir lista os genes de cada um desses motifs e também o de alguns dos motifs do TRANSFAC com casamento relevante. GENE MOTIF CTRL chymotrypsin-like (id 1506) ATTTATT-TG (Cluster 0) POU4F3 POU domain, class 4, transcription factor 3 (id 5459) GTGTGTG-GT (Cluster 0) TMEM11 transmembrane protein 11 (id 8834) GGTTATG-AA (Cluster 0) B-ACT (beta-actin); G000214 CCTTTTATGG (R00040) TCR-delta (T-cell receptor delta); G000395. AAATAAACAAGGAGATAGGGTGTT TATTT (R01429) apoB (apolipoprotein B); G000205 GCATTTATGAGCTG (R04012) GCC (guanylyl cyclase C); G001742 GTTTATAGCTCTGACCT (R08886) Conclusões ESTUDO Genes com ortólogos Motifs Grupos Grupos com mais de 1 motif Grupos com casamento relevante no TRANSFAC Humano/Chimpanzé/ Camundongo/Rato 10738 66903 57536 8329 4498 Humano/Chimpanzé/ Camundongo/Rato/ Cachorro 9494 11002 7921 2329 867 Humano/Chimpanzé/ Camundongo/Rato/ Galinha 6974 1268 968 238 56 Humano/Chimpanzé/ Camundongo/Rato/ Cachorro/Galinha 6382 715 537 141 26 Humano/Chimpanzé/ Camundongo/Rato/Mosca 3444 13 8 4 1 Conclusões Nesta pesquisa desenvolveu-se uma solução que baseou-se em Phylogenetic Footprinting para identificar elementos regulatórios de genes humanos, considerando a conservação evolucionária dos mesmos e seus posicionamentos na região próxima ao início dos genes. Alguns motifs identificados representam elementos regulatórios já conhecidos, enquanto outros podem ser novos ainda não descobertos experimentalmente. Todos os resultados obtidos (lista de motifs, grupos e casamentos com Transfac) para cada um dos 5 estudos conduzidos nesta pesquisa estarão disponíveis na web. Conclusões Um aprimoramento no conhecimento de homologia entre genes, como por exemplo a inclusão de mais espécies na base de dados HomoloGene, permitirá um aperfeiçoamento na qualidade dos resultados de pesquisas como esta, aumentando as capacidades das técnicas de genômica comparativa. Futuramente esta pesquisa pode ser melhorada com a inclusão de um filtro deixando passar apenas os genes ortólogos que possuírem locais de início da transcrição também ortólogos. Outro contexto que pode ser explorado é o de que genes geralmente possuem vários elementos regulatórios em sua região promotora. Desta forma poderíamos analisar os motifs identificados e separar aqueles que aparecem em conjunto com outros para o mesmo gene, e eliminar aqueles que aparecem isolados para um determinado gene. Apêndice I - Programação A solução proposta nesta pesquisa foi inteiramente automatizada, sendo utilizada a linguagem de programação Python. A biblioteca BioPython foi utilizada para permitir ao sistema o acesso aos bancos de dados do NCBI. A ferramenta CLUSTALW, versão de linha de comando para UNIX do CLUSTALX, foi utilizada no processamento do alinhamento múltiplo. Esta ferramenta é totalmente integrada à biblioteca BioPython. A biblioteca “The C Clustering Library” foi utilizada para auxiliar o processamento dos agrupamentos se aproveitando da eficiência da linguagem C. Esta apresentação foi parte do Projeto Final de Graduação de Raonne Barbosa Vargas, para obtenção do grau de Bacharel em Ciência da Computação Departamento de Informática Universidade Federal do Espírito Santo