Identificação de elementos
regulatórios usando Genômica
Comparativa e Phylogenetic
Footprinting
Raonne Barbosa Vargas
Introdução

Motivação
O ser humano possui uma sequência de DNA única, presente em
todas as células de seu organismo. Nos últimos anos, após esta
sequência de nucleotídeos ter sido completamente descoberta e os
genes definidos nelas serem anotados, a comunidade que estuda a
Biologia Molecular passou a enfrentar um novo desafio: como esta
mesma sequência de genes pode definir todos os diferentes tipos de
células que temos? A resposta está nos fatores que controlam a
expressão desses genes, o estudo de um processo chamado de
regulação gênica.
Introdução
Proteínas chamadas de fatores de transcrição ligam-se à sequência
de DNA em posições específicas chamadas de locais de amarração
dos fatores de transcrição (TFBS’s), para regular a expressão de
um determinado gene, ativando ou inibindo os mecanismos da
transcrição. Os locais de amarração funcionais são por isso chamados
de elementos regulatórios.
A regulação gênica ainda é uma área de estudo muito complexa e seu
completo entendimento ainda é considerado uma esperança distante,
que irá requerer muitos esforços, inclusive com uma imprescindível
ajuda da Computação, tanto pela capacidade de processamento de
enormes quantidades de dados, mas também pela necessidade de
avançados Algoritmos indispensáveis na solução de alguns
problemas.
Introdução
Figura 1 – Elemento Regulatório
Objetivo
O objetivo desta pesquisa é tentar identificar elementos regulatórios
de genes humanos. Utilizando métodos computacionais podemos
tentar predizer a localização exata de elementos regulatórios de
genes humanos, o que representa um enorme avanço no
entendimento da regulação gênica e facilita incrivelmente o trabalho
de biólogos na anotação experimental dos elementos regulatórios.
Os elementos regulatórios podem ser geralmente encontrados na
região imediatamente anterior ao início de um gene, ou até nos
primeiros pares de base do mesmo. A sequência de nucleotídeos
nesta região será chamada de sequência promotora.
Objetivo
Figura 2 – Definindo uma sequência promotora, onde serão procurados
os elementos regulatórios.
Phylogenetic Footprinting
Para conseguir encontrar estes elementos regulatórios esta pesquisa
baseia-se em uma teoria chamada de Phylogenetic Footprinting,
cuja tradução seria “impressão de pegadas filogenéticas”.
Esta teoria considera que mutações em regiões funcionais de genes
se acumulariam mais lentamente do que em regiões não-funcionais,
pois estariam sob pressão evolutiva. Desta forma, elementos
regulatórios evoluem a uma taxa mais baixa do que as demais
sequências não-funcionais ao seu redor.
Por isso, é esperado que elementos regulatórios estejam mais
conservados nas sequências de DNA de espécies consideradas
próximas na árvore de evolução filogenética.
Phylogenetic Footprinting
Desta forma Phylogenetic Footprinting propõe um processo para se
identificar possíveis elementos regulatórios, que baseia-se na
comparação de sequências genômicas.
Primeiro é necessário definir que genes ortólogos são genes
similares em espécies distintas que descendem de um antecessor
comum.
Se um gene humano possui um gene ortólogo no chimpanzé, por
exemplo, então é de se esperar que os elementos regulatórios destes
genes estejam bem conservados em ambas as espécies.
Assim podemos definir o processo em 2 etapas:
Phylogenetic Footprinting
No primeiro passo é necessário identificar se o gene a ser estudado
possui ortólogos nas espécies sendo consideradas. Então obtém-se
as sequências promotoras de cada gene ortólogo.
No segundo passo as sequências promotoras devem ser analisadas
em busca de pequenas sub-sequências que estejam bem
conservadas em todas elas. Estas sub-sequências bem conservadas
são chamadas de motifs.
Esses motifs representarão excelentes candidatos a elementos
regulatórios.
Genômica Comparativa
Para analisar as sequências promotoras e extrair delas os motifs,
utiliza-se um algoritmo de alinhamento múltiplo.
Após a obtenção dos motifs, será utilizado também um algoritmo de
agrupamento para agrupar motifs semelhantes, que podem ser
variações de um mesmo elemento regulatório.
Os grupos obtidos são finalmente comparados a TFBS’s anotados na
base de dados TRANSFAC, na última etapa desta pesquisa.
Algoritmo
Aqui procuramos resumir a solução proposta nesta pesquisa em um
simples algoritmo que resume cada etapa do processo, que serão uma
por uma analisadas em detalhes em seguida.
Entrada:
•
Lista de genes a serem analisados. Em todos os casos de estudo
desta pesquisa teremos os 23516 genes humanos anotados no
genoma humano no NCBI* e incluídos na base de dados
HomoloGene*.
•
Conjunto de espécies a serem consideradas na comparação genômica
proposta por Phylogenetic Footprinting.
* NCBI e HomoloGene serão apresentados em detalhes posteriormente.
Algoritmo
ALGORITMO:

Para cada gene na lista de entrada:
–
–
Pesquise em HomoloGene para identificar os genes ortólogos a
este gene.
Se este gene possui ortólogos para todas as espécies consideradas
no conjunto de espécies da entrada:

Para cada gene ortólogo:
–
–




Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência
genômica de sua espécie.
Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene.
Compute o Alinhamento Múltiplo das sequências promotoras.
Extraia do alinhamento os motifs bem conservados.
Compute o agrupamento dos motifs.
Compare com a base de dados TRANSFAC.
Algoritmo
Saída:
•
Lista de motifs encontrados, especificando sua localização exata no
cromossomo e o gene que ele regula.
•
Lista dos Grupos, com os motifs de cada um deles.
•
Lista de casamentos relevantes encontrados com TFBS’s anotados no
TRANSFAC.
Casos de Estudo

Humano / Chimpanzé / Camundongo / Rato

Humano / Chimpanzé / Camundongo / Rato / Cachorro

Humano / Chimpanzé / Camundongo / Rato / Galinha

Humano / Chimpanzé / Camundongo / Rato / Cachorro /
Galinha

Humano / Chimpanzé / Camundongo / Rato / Mosca
Dados Biológicos

NCBI
O National Center for Biotechnology Information (NCBI) é uma fonte de
informação para biologia molecular que inclui a criação de bancos de dados
públicos, condução de pesquisas em biologia computacional, desenvolvimento
de ferramentas para analisar dados genômicos, e a disseminação de
informações biomédicas.
NCBI: http://www.ncbi.nlm.nih.gov/
Para manter a consistência de todas as informações e das relações entre elas,
todos os dados biológicos requeridos para o desenvolvimento da solução desta
pesquisa foram extraídos de bancos de dados do NCBI.
Figura 3 - NCBI
Dados Biológicos

HomoloGene – Genes Ortólogos
Para identificação de genes ortólogos esta pesquisa utiliza o banco
de dados chamado HomoloGene, um sistema de detecção
automática de homólogos entre genes anotados em diversos
genomas eucarióticos completamente sequenciados.
HomoloGene:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=homologene
Os conjuntos de espécies utilizados nesta pesquisa foram restringidos
principalmente por essa base de dados, como pode ser visto na tabela
na página inicial do HomoloGene (figura 4).
Figura 4 - HomoloGene
Dados Biológicos
Exemplo de pesquisa no HomoloGene:
Consideremos então o gene ING5, que tem a função de inibidor de
crescimento, e possui um número de identificação no NCBI (id) igual a 84289.
Se estivermos interessados em verificar se este gene possui ortólogos para
por exemplo humano, chimpanzé, camundongo e rato, podemos pesquisá-lo
no HomoloGene e obter essa infomação.
Podemos verificar na Figura 5 que o ING5 possui sim ortólogos para as
espécies consideradas nesse exemplo. Desta forma, obtemos do HomoloGene
os id’s dos genes ortólogos e partimos para investigar cada um desses genes
para obter suas sequências promotoras.
Figura 5 – Pesquisa no HomoloGene
Dados Biológicos

Entrez Gene – Informação sobre os genes
Entrez Gene é um banco de dados para busca de genes que contém
diversas informações sobre eles, como tipo, nome, descrição,
organismo, e muito mais.
Entre Gene:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene
Nesta pesquisa Entrez Gene será utilizado para identificação da
localização de cada gene ortólogo, para que o posicionamento de sua
sequência promotora seja estipulado.
Figura 6 – Entrez Gene
Dados Biológicos
Continuando o exemplo com ING5, a figura 7 mostra o resultado da
busca deste gene no Entrez Gene, com todas as informações deste
gene.
A localização do gene é exibida na seção “Genomic Regions”,
contendo o id de seu cromosomo (NC_000002.10) e a sua localização
no mesmo, tendo início na posição 242290129 e terminando em
242317569.
Figura 7 – Pesquisa no Entrez Gene
Dados Biológicos

Entrez Nucleotide – Sequências Promotoras
Como foi mostrado anteriormente, nesta pesquisa as sequências
promotoras são definidas com sendo a partir de 1000 pares de base
antes da posição de início do gene, até 200 pares de base após o
início do gene.
promoter_start = gene_start – 1000
promoter_end = gene_start + 200
Possuindo então o id do cromosomo e as posições de início e fim da
sequência, basta realizar uma simples busca na base de dados
Entrez Nucleotide para obter a sequência de nucleotídeos desejada.
Figura 8 - Entrez Nucleotide - contém sequências de
nucleotídeos de diversos genomas.
Dados Biológicos
Para exemplificar um busca no Entrez Nucleotide, vamos novamente
considerar o gene ING5, o qual já sabemos está situado no
cromosomo de id NC_000002.10 e possui posicição de início igual a
242290129.
Desta forma sabemos que a sequência promotora se inicia na
posição 242289129 e vai até 242290329.
A figura 9 mostra o resultado da busca dessa sequência no Entrez
Nucleotide, no formato FASTA.
Figura 9 – Pesquisa no Entrez Nucleotide
Alinhamento Múltiplo
Alinhamento Múltiplo de strings é um problema NP-Hard e por isso seu
processamento pode demandar um quantidade de tempo a cima do
aceitável.
O algoritmo utilizado para realizar o alinhamento múltiplo consiste em
uma extensão do alinhamento global dois a dois proposto por
Needleman e Wunsch, que segue uma estratégia de programação
dinâmica.
Todos os pares de sequência são alinhados separadamente, uma
matriz de distâncias é calculada e utilizada na montagem progressiva
do alinhamento múltiplo.
Alinhamento Múltiplo
Existem hoje diversas ferramentas computacionais para a computação de um
alinhamento múltiplo, como por exemplo: CLUSTALW, MAVID, MLAGAN,
DIALIGN, TBA e FootPrinter.
A ferramenta escolhida para nos auxiliar nesta tarefa foi o CLUSTALW, por ser
uma das mais famosas e mais comumente utilizadas. Além disso, CLUSTALW
é uma versão de linha de comando de CLUSTALX para UNIX, e é totalmente
integrada à biblioteca BioPython. Detalhes sobre programação virão
posteriormente.
CLUSTALW oferece uma alternativa para o alinhamento 2 a 2, permitindo que
seja utilizada um heurística mais rápida porém menos precisa. Entretanto,
nesta pesquisa esta alternativa não foi utilizada, sendo mantido o processo de
programação dinâmica visando resultados de melhor qualidade.
Figura 10 – Exemplo de Alinhamento Múltiplo
Alinhamento Múltiplo

Identificação de Motifs
Uma vez que foi processado o alinhamento múltiplo, é necessário
extrair deles os motifs bem conservados.
Seguindo várias referências na literatura científica, foi definido que
procuraríamos motifs de tamanho 10.
Requere-se então que uma sub-sequência de tamanho 10 possua um
casamento perfeito entre todas as espécies em pelo menos 9 dos 10
nucleotídeos. Veja os exemplos a seguir.
Figura 11 – Motif com 10 casamentos perfeitos
Figura 12 – Motif com 9 casamentos perfeitos
Figura 13 – Sub-sequência com 9 casamentos
perfeitos e 2 imperfeitos – não é um motif
Alinhamento Múltiplo
Os motifs identificados são anotados e salvos em arquivo. As
posições onde ocorre casamento imperfeito são completadas com
gaps (-).
A figura 14 mostra o arquivo contendo os motifs encontrados no
estudo que incluia as espécies humano / chimpanzé / camundongo /
rato / mosca.
Para cada motif é indicado sua sequência, id do gene, espécie, id do
cromosomo, posição de início do gene, posição de término do gene e
posição de início do motif.
Alinhamento Múltiplo
Figura 14 – Motifs encontrados no estudo
humano/chimpanzé/camundongo/rato/mosca
Agrupamento

Introdução
Uma vez terminada a estratégia de Phylogenetic Footprinting e tendo
sido encontrados os motifs que representam excelentes candidatos a
elementos regulatórios, agora nós passamos a analisar esses motifs.
O objetivo de agrupar os motifs é poder juntar aqueles motifs que
possuem alto grau de similaridade, pois estes podem ser variações de
um mesmo elemento regulatório, ou serem alvo de um mesmo fator
de transcrição, ou compartilhar alguma outra similaridade funcional.
O método de agrupamento utilizado foi bem restritivo, de forma a
manter um alto grau de similaridade entre os motifs de um mesmo
grupo, mesmo que obtendo um grande número de grupos com
apenas 1 elemento. Posteriormente serão levados em consideração
apenas os grupos com mais de 1 motif, e estes serão comparados
com TRANSFAC.
Agrupamento

Algoritmo K-Means
O algoritmo de agrupamento utilizado foi o K-Means, um dos mais
populares algoritmos iterativos de agrupamento. Este algoritmo é
aleatório e baseia-se na heurística de Loyd.
O número de grupos (K) deve ser definido previamente.
Os motifs são designados aleatoriamente para os K grupos. Um vetor
de expressão média (ou centróide) de cada grupo é computado. Cada
motif é movido para o grupo mais próximo (do qual mais se
assemelha ao centróide) e os centróides são recalculados. O
processo se repete até que nenhum motif possa ser movido para
outro grupo.
Agrupamento

Algoritmo K-Means
Dependendo do posicionamento inicial que é aleatório, o K-Means
pode converter para um mínimo local ou às vezes até não converter.
Para evitar um loop infinito, a programação finaliza o processo quando
detecta
o
mesmo
agrupamento
aparecendo
novamente
periodicamente.
Além disso, para cada valor de K testado o algoritmo foi executado 3
vezes, com mudança na semente aleatória, e o melhor agrupamento
foi escolhido, tentando assim fugir de mínimos locais.
Na busca pelo melhor agrupamento, vários valores para o número de
grupos K foram testados de acordo com a estratégia apresentada a
seguir.
Agrupamento

Número “K” de grupos
Para definir o número de grupos foram levadas em consideração
duas ponderações. A primeira diz respeito ao fato de que estamos
interessados em grupos com alta similaridade entre os seus
elementos, mesmo que tenhamos muitos grupos unitários.
Desta forma foi definido que seriam testados 100 valores diferentes
de K entre 70% e 90% do número de motifs. Por exemplo, no estudo
humano/chimpanzé/camundongo/rato/cachorro/galinha tínhamos 715
motifs. Testamos valores de K entre 500 e 642.
No estudo incluindo humano/chimpanzé/camundongo/rato/mosca nós
tínhamos apenas 13 motifs para agrupar, o que nos possibilitava
testar todos os 13 diferentes valores de K sem problemas.
Agrupamento

Número “K” de grupos
A segunda ponderação baseia-se num conceito estatístico que afirma o
seguinte:
•
O índice W que buscamos minimizar, no nosso caso a soma das
distâncias dos elementos dentro dos grupos (within-cluster sum of
distances), vai diminuindo ao passo que aumentamos o número de
grupos K. Para um número de grupos igual ao número de motifs,
teremos W=0 e um motif em cada grupo.
•
Enquanto aumentamos o valor de K, a diminuição do valor de W
torna-se cada vez mais lenta. Desta forma, o valor ideal de K pode ser
determinado quando a variação do valor de W para valores diferentes
de K se tornar menor que um determinado limite desejado.
Veja o exemplo da tabela a seguir, com os valores de K e W computados
para o estudo humano/chimpanzé/camundongo/rato/cachorro/galinha.
500 - 2567.29833333
501 - 2320.36666667
503 - 2632.32833333
504 - 2493.36666667
506 - 2424.73666667
507 - 2623.43
509 - 2337.16583333
510 - 2367.40880952
511 - 2456.52166667
513 - 2407.99833333
514 - 2297.01333333
516 - 2435.60833333
517 - 2289.1
519 - 2092.85666667
520 - 2500.10166667
521 - 2296.41666667
523 - 2297.80333333
524 - 2170.43833333
526 - 2156.93833333
527 - 1908.535
529 - 2179.25
530 - 1986.35833333
531 - 1919.5
533 - 1830.58666667
534 - 1894.125
536 - 2128.43333333
537 - 1936.9
539 - 1929.86333333
540 - 1870.675
541 - 1919.23
543 - 1871.20166667
544 - 1843.55333333
546 - 1756.30333333
547 - 1623.95
549 - 1788.83833333
550 - 1738.21666667
551 - 1799.64642857
553 - 1679.4
554 - 1758.215
556 - 1643.48
557 - 1622.35333333
559 - 1727.74166667
560 - 1746.45
561 - 1759.0
563 - 1526.36666667
564 - 1466.25833333
566 - 1565.76333333
567 - 1527.86833333
569 - 1545.51833333
570 - 1452.1
572 - 1559.96833333
573 - 1243.94166667
574 - 1489.82166667
576 - 1463.59166667
577 - 1374.70833333
579 - 1382.34333333
580 - 1462.59166667
582 - 1374.045
583 - 1394.11666667
584 - 1334.05
586 - 1371.36833333
587 - 1211.65
589 - 1268.01666667
590 - 1236.69166667
592 - 1216.375
593 - 1173.65
594 - 1105.06666667
596 - 1113.3
597 - 1155.88333333
599 - 1148.95833333
600 - 1050.44166667
602 - 1065.525
603 - 970.8
604 - 1021.13
606 - 985.383333333
607 - 933.033333333
609 - 988.533333333
610 - 917.241666667
612 - 1062.25
613 - 992.441666667
614 - 979.941666667
616 - 887.083333333
617 - 1041.15
619 - 823.758333333
620 - 863.6
622 - 864.541666667
623 - 904.158333333
624 - 905.575
626 - 817.416666667
627 - 846.625
629 - 795.25
630 - 858.133333333
632 - 689.358333333
633 - 812.8
634 - 704.7
636 - 706.116666667
637 - 593.266666667
639 - 724.2
640 - 626.766666667
642 - 701.35
Agrupamento

Número “K” de grupos
A estratégia adotada então foi verificar a variação do valor de W entre
cada 5 agrupamentos consecutivos. Quando esta variação fosse
menor que um determinado limite, o valor de K era escolhido.
Este limite da variação era diferente de acordo com o número de
motifs e grupos em cada estudo. Na tabela anterior o limite era de
uma diferença de no máximo 100 unidades entre cada 5
agrupamentos.
A tabela a seguir mostra a mesma análise para os 13 agrupamentos
de humano/chimpanzé/camundongo/rato/mosca, porém neste caso o
limite da variação de W foi imposto para cada 3 agrupamentos.
Agrupamento
K
W
1
2
3
4
5
6
7
8
9
10
11
12
13
1790.73846154
1459.11666667
1296.95
1034.98333333
818.425
627.166666667
683.875
446.733333333
404.433333333
417.9
11 - 76.3333333333
12 - 168.85
13 - 0.0
Agrupamento
Desta forma o agrupamento foi computado, e para cada caso de
estudo foi gravado em arquivo, contendo os motifs de cada grupo com
todas as informações de cada um: a sequência do motif, o id do gene,
a espécie, o id do cromosomo, a posição de início e fim do gene e a
posição de início do motif.
A figura a seguir mostra parte do arquivo com o agrupamento para o
estudo humano/chimpanzé/camundongo/rato/cachorro/galinha, com
as informações de alguns dos grupos.
Figura 15 – Exemplo de Agrupamento
TRANSFAC
Figura 16 - TRANSFAC
TRANSFAC
Os TFBS’s anotados em TRANSFAC serão usados para que
possamos identificar motifs descobertos que são elementos
regulatórios já conhecidos, determinar outros motifs que possam ter
semelhanças a algum elemento regulatório conhecido, e também
isolar motifs encontrados que podem ser elementos regulatórios
novos, ainda não descobertos.
Desta forma calculamos a sequência de consenso para cada grupo, e
comparamos cada uma a todos os 1388 elementos regulatórios de
humanos anotados no TRANSFAC, em busca de casamentos
(matches) relevantes.
TRANSFAC

Sequência de Consenso de um Grupo
Alinhados os motifs de um grupo, para cada coluna é assinalado um
nucleotídeo se este estivesse presente naquela coluna em mais de 50%
dos motifs e aparecesse um número de vezes maior ou igual a duas vezes
todos os outros nucleotídeos somados. Se nenhum nucleotídeo cumprisse
esse pré-requisito a coluna era completada com um gap(-). Veja um
exemplo de um grupo do estudo humano/chimpanzé/camundongo/rato:
CLUSTER 13576:
CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310
AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728
AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424
AAAGACACT => Sequência de Consenso do grupo 13576
TRANSFAC

Casamentos relevantes
Para determinar os casamentos relevantes entre grupos e motifs do
TRANSFAC, a sequência de consenso de cada grupo era alinhada a
cada motif deste banco de dados.
Um casamento entre um grupo e um motif anotado era considerado
se houvesse entre estes um alinhamento local sem gaps de tamanho
pelo menos 5.
Vamos seguir o exemplo de outro grupo do estudo humano /
chimpanzé / camundongo / rato :
TRANSFAC
CLUSTER 13534:
ATCCCTCCTC 1956 H.sapiens NC_000007.12 55054219 55242525 55054235
CTCCCTCCTC 339287 H.sapiens NC_000017.9 35531749 35548144 35531706
- TCCCTCCTC => Sequência de Consenso do grupo 13534
Após a comparação com TRANSFAC, foi detectado um casamento
relevante da sequência de consenso deste grupo 13534 com o motif
anotado no TRANSFAC que possui número de identificação
(accession number) R00377.
-TCCCTCCTC
ATCCCTCCTC
TCCCTCCTC
(sequência de consenso do grupo 13534)
(motif do transfac com id R00377)
(casamento)
Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377)
TRANSFAC
Figura 18 – Gene do grupo 13534 (id 1956)
TRANSFAC
Assim podemos perceber que o motif identificado pelo nosso sistema
é exatamente o mesmo anotado no TRANSFAC. Exemplos como este
mostram que a solução é capaz de alcançar seu objetivo, predizendo
elementos regulatórios que já foram realmente comprovados
experimentalmente.
A seguir temos mais exemplos do estudo humano / chimpanzé /
camundongo / rato.
GENE
MOTIF
EGFR (epidermal growth factor
receptor); G000251
ATCCCTCCTC (R00377)
EGFR epidermal growth factor
receptor (erythroblastic leukemia viral
(v-erb-b) oncogene homolog, avian)
(id 1956)
ATCCCTCCTC (Cluster 13534)
LOC339287 - hypothetical protein
LOC339287 (id 339287)
CTCCCTCCTC (Cluster 13534)
GENE
MOTIF
DBH (dopamine beta hydroxylase);
G002007
GTCCATGTGT (R09521)
DBH dopamine beta-hydroxylase (id
1621)
GA-GTCCATG (Cluster 17159)
OR52K2 olfactory receptor, family 52,
subfamily K,
member 2
(id 119774)
GC-CTCCATG (Cluster 17159)
GENE
MOTIF
G-CSF (granulocyte colonystimulating factor); G000260
GAGATTCCAC (R02683)
G-CSF (or CSF3) colony stimulating
factor 3 (granulocyte) (id 1440)
TTCCCAGCTA (Cluster 21242)
AMHR2 anti-Mullerian hormone
receptor, type II (id 269)
TTCCAAGGTC (Cluster 21242)
C9orf58 chromosome 9 open reading
frame 58 (id 83543)
TTCCAAGGTA (Cluster 21242)
GENE
MOTIF
SI (sucrase-isomaltase); G000385
GGTGCAATAAAACTTTATGAGTA
(R04239)
SI sucrase-isomaltase (alphaglucosidase) (id 6476)
TTTATT-TCT (Cluster 22280)
CPA2 carboxypeptidase A2
(pancreatic) (id 1358)
TTTGTT-TCT (Cluster 22280)
ITGB1BP2 integrin beta 1 binding
protein (melusin) 2 (id 26548)
TTTAGT-TAT (Cluster 22280)
GENE
MOTIF
H4 (histone 4 pHu4A gene);
G000295
GGTTTTCAATCTGGTCCG(R00687)
H4 (or HRH4) histamine receptor
H4 (id 59340)
TGTTTTGAGT (Cluster 41063)
NR1D1 nuclear receptor subfamily 1,
group D, member 1 (id 9572)
TGTTTTGGGT (Cluster 41063)
TRANSFAC

Obervações
Como dito anteriormente, os motifs diferentes do motif de TRANSFAC
com o qual seu grupo se casa podem possuir semelhanças com o
mesmo, como ser variação de um mesmo elemento regulatório,
compartilhar um mesmo fator de transcrição ou alguma outra
similaridade funcional. Isso vale tanto para grupos que continham o
mesmo motif do TRANSFAC ao qual se casaram quanto para aqueles
que não o contém.
Identificar se o gene do motif descoberto é o mesmo gene do motif
anotado no TRANSFAC é uma tarefa impossível de se automatizar,
tendo em vista que além de id’s obviamente diferentes, os genes
também muitas vezes possuem nomes e ‘alias’ diferentes nas duas
bases de dados (TRANSFAC x NCBI).
Resultados

Humano / Chimpanzé / Camundongo / Rato
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 10738 genes
Número de motifs identificados: 66903 motifs
Número de grupos: K = 57536 grupos
57536 - 9738.37333333
57670 - 9795.11666667
57804 - 9765.19166667
57937 - 9533.13833333
58071 - 9449.37833333
Wmax – Wmin <= 400
Número de grupos com pelo menos 2 motifs: 8329 grupos
Número de grupos com casamento relevante com TRANSFAC: 4498 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Cachorro
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 9494 genes
Número de motifs identificados: 11002 motifs
Número de grupos: K = 7921 grupos
7921 - 10681.4533333
7943 - 10608.805
7965 - 10619.7461905
7987 - 10602.74
8009 - 10498.6733333
Wmax – Wmin <= 200
Número de grupos com pelo menos 2 motifs: 2329 grupos
Número de grupos com casamento relevante com TRANSFAC: 867 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Galinha
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 6974 genes
Número de motifs identificados: 1268 motifs
Número de grupos: K = 968 grupos
968 - 2565.98333333
971 - 2542.30333333
973 - 2521.27666667
976 - 2564.505
978 - 2554.04833333
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 238 grupos
Número de grupos com casamento relevante com TRANSFAC: 56 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 6382 genes
Número de motifs identificados: 715 motifs
Número de grupos: K = 537 grupos
537 - 1936.9
539 - 1929.86333333
540 - 1870.675
541 - 1919.23
543 - 1871.20166667
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 141 grupos
Número de grupos com casamento relevante com TRANSFAC: 26 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Mosca
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 3444 genes
Número de motifs identificados: 13 motifs
Número de grupos: K = 8 grupos
8 - 446.733333333
9 - 404.433333333
10 - 417.9
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 4 grupos
Número de grupos com casamento relevante com TRANSFAC: 1 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Mosca
Neste estudo, o grupo que possui um casamento relevante com
TRANSFAC foi o grupo 0.
CLUSTER 0:
ATTTATT-TG 1506 H.sapiens NC_000016.8 66520974 66523266 66521109
GTGTGTG-GT 5459 H.sapiens NC_000005.8 145698869 145700200 145698417
GGTTATG-AA 8834 H.sapiens NC_000017.9 21041855 21058297 21042121
GTTTATG---
=> Sequência de consenso
A tabela a seguir lista os genes de cada um desses motifs e também o
de alguns dos motifs do TRANSFAC com casamento relevante.
GENE
MOTIF
CTRL chymotrypsin-like (id 1506)
ATTTATT-TG (Cluster 0)
POU4F3 POU domain, class 4,
transcription factor 3 (id 5459)
GTGTGTG-GT (Cluster 0)
TMEM11 transmembrane protein
11 (id 8834)
GGTTATG-AA (Cluster 0)
B-ACT (beta-actin); G000214
CCTTTTATGG (R00040)
TCR-delta (T-cell receptor delta);
G000395.
AAATAAACAAGGAGATAGGGTGTT
TATTT (R01429)
apoB (apolipoprotein B); G000205
GCATTTATGAGCTG (R04012)
GCC (guanylyl cyclase C); G001742
GTTTATAGCTCTGACCT (R08886)
Conclusões
ESTUDO
Genes com
ortólogos
Motifs
Grupos
Grupos com
mais de 1
motif
Grupos com
casamento
relevante no
TRANSFAC
Humano/Chimpanzé/
Camundongo/Rato
10738
66903
57536
8329
4498
Humano/Chimpanzé/
Camundongo/Rato/
Cachorro
9494
11002
7921
2329
867
Humano/Chimpanzé/
Camundongo/Rato/
Galinha
6974
1268
968
238
56
Humano/Chimpanzé/
Camundongo/Rato/
Cachorro/Galinha
6382
715
537
141
26
Humano/Chimpanzé/
Camundongo/Rato/Mosca
3444
13
8
4
1
Conclusões
Nesta pesquisa desenvolveu-se uma solução que baseou-se em
Phylogenetic Footprinting para identificar elementos regulatórios de
genes humanos, considerando a conservação evolucionária dos
mesmos e seus posicionamentos na região próxima ao início dos
genes.
Alguns motifs identificados representam elementos regulatórios já
conhecidos, enquanto outros podem ser novos ainda não descobertos
experimentalmente.
Todos os resultados obtidos (lista de motifs, grupos e casamentos
com Transfac) para cada um dos 5 estudos conduzidos nesta
pesquisa estarão disponíveis na web.
Conclusões
Um aprimoramento no conhecimento de homologia entre genes, como por
exemplo a inclusão de mais espécies na base de dados HomoloGene,
permitirá um aperfeiçoamento na qualidade dos resultados de pesquisas como
esta, aumentando as capacidades das técnicas de genômica comparativa.
Futuramente esta pesquisa pode ser melhorada com a inclusão de um filtro
deixando passar apenas os genes ortólogos que possuírem locais de início da
transcrição também ortólogos.
Outro contexto que pode ser explorado é o de que genes geralmente possuem
vários elementos regulatórios em sua região promotora. Desta forma
poderíamos analisar os motifs identificados e separar aqueles que aparecem
em conjunto com outros para o mesmo gene, e eliminar aqueles que aparecem
isolados para um determinado gene.
Apêndice I - Programação
A solução proposta nesta pesquisa foi inteiramente automatizada,
sendo utilizada a linguagem de programação Python.
A biblioteca BioPython foi utilizada para permitir ao sistema o acesso
aos bancos de dados do NCBI.
A ferramenta CLUSTALW, versão de linha de comando para UNIX do
CLUSTALX, foi utilizada no processamento do alinhamento múltiplo.
Esta ferramenta é totalmente integrada à biblioteca BioPython.
A biblioteca “The C Clustering Library” foi utilizada para auxiliar o
processamento dos agrupamentos se aproveitando da eficiência da
linguagem C.
Esta apresentação foi parte do Projeto Final de Graduação de
Raonne Barbosa Vargas, para obtenção do grau de
Bacharel em Ciência da Computação
Departamento de Informática
Universidade Federal do Espírito Santo
Download

Identificação de elementos regulatórios usando Genômica