Identificação de elementos
regulatórios usando Genômica
Comparativa e Phylogenetic
Footprinting
Raonne Barbosa Vargas
Introdução
 Motivação
 Regulação
Gênica
Introdução

Fatores de Transcrição

Locais de amarração dos fatores de transcrição
(TFBS’s)

Elementos regulatórios

Auxílio da Computação no estudo da regulação
gênica
Introdução
Figura 1 – Elemento Regulatório
Objetivo
 Identificação
de elementos
regulatórios
 Sequência
Promotora
Objetivo
Figura 2 – Definindo uma sequência promotora, onde serão procurados
os elementos regulatórios.
Phylogenetic Footprinting

“impressões de pegadas filogenéticas”

Hipótese

Conservação de elementos regulatórios em
espécies próximas
Phylogenetic Footprinting

Genes Ortólogos

Procedimento baseia-se na comparação de
sequências genômicas

2 etapas:
Phylogenetic Footprinting
1) Identificar genes ortólogos e obter
sequências promotoras de cada um
2) Comparar sequências promotoras e extrair
sub-sequências bem conservadas (motifs).

Estes motifs serão excelente candidatos a
elementos regulatórios
Genômica Comparativa

Alinhamento Múltiplo

Agrupamento

Comparação com TRANSFAC
Algoritmo
Entrada:

Lista de genes

Conjunto de espécies
Algoritmo
ALGORITMO:

Para cada gene na lista de entrada:
–
–
Pesquise em HomoloGene para identificar os genes ortólogos a
este gene.
Se este gene possui ortólogos para todas as espécies consideradas
no conjunto de espécies da entrada:

Para cada gene ortólogo:
–
–




Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência
genômica de sua espécie.
Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene.
Compute o Alinhamento Múltiplo das sequências promotoras.
Extraia do alinhamento os motifs bem conservados.
Compute o agrupamento dos motifs.
Compare com a base de dados TRANSFAC.
Algoritmo
Saída:



Lista de Motifs
Lista de Grupos
Lista de casamentos com TRANSFAC
Casos de Estudo

Humano / Chimpanzé / Camundongo / Rato

Humano / Chimpanzé / Camundongo / Rato / Cachorro

Humano / Chimpanzé / Camundongo / Rato / Galinha

Humano / Chimpanzé / Camundongo / Rato / Cachorro /
Galinha

Humano / Chimpanzé / Camundongo / Rato / Mosca
Dados Biológicos
NCBI

http://www.ncbi.nlm.nih.gov/

Consistência dos dados
Figura 3 - NCBI
Dados Biológicos
HomoloGene – Genes Ortólogos


http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?D
B=homologene
Restrição das espécies
Figura 4 - HomoloGene
Dados Biológicos
Exemplo de Pesquisa no HomoloGene

ING5 (id 84289)

Humano / chimpanzé / camundongo / rato
Figura 5 – Pesquisa no HomoloGene
Dados Biológicos
 Entrez
Gene

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=ge
ne

Objetivo: localização do gene
Figura 6 – Entrez Gene
Dados Biológicos
Exemplo:
ING5
 Cromossomo: NC_000002.10
 Início: 242290129
 Fim: 242317569
Figura 7 – Pesquisa no Entrez Gene
Dados Biológicos
Nucleotide –
Sequências Promotoras
 Entrez
promoter_start = gene_start – 1000
promoter_end = gene_start + 200
Figura 8 - Entrez Nucleotide - contém sequências de
nucleotídeos de diversos genomas.
Dados Biológicos
Exemplo:
Região promotora do gene ING5




Cromossomo: NC_000002.10
promoter_start: 242289129
promoter_end: 242290329
Formato: FASTA
Figura 9 – Pesquisa no Entrez Nucleotide
Alinhamento Múltiplo

Problema NP-Hard

Needleman e Wunsch

Programação Dinâmica

Idéia do Algoritmo
Alinhamento Múltiplo

Ferramentas computacionais para
alinhamento múltiplo

CLUSTALW

Heurística x Programação Dinâmica
Figura 10 – Exemplo de Alinhamento Múltiplo
Alinhamento Múltiplo

Identificação dos Motifs

Tamanho do motif = 10 b.p.

Casamento perfeito entre todas as espécies
em pelo menos 9 dos 10 nucleotídeos.
Figura 11 – Motif com 10 casamentos perfeitos
Figura 12 – Motif com 9 casamentos perfeitos
Figura 13 – Sub-sequência com 9 casamentos
perfeitos e 2 imperfeitos – não é um motif
Alinhamento Múltiplo

Casamentos imperfeitos completados por gaps (-)

Exemplo: motifs do estudo : humano / chimpanzé /
camundongo / rato / mosca

Sequência do motif, id do gene, espécie, id do
cromossomo, posição de início do gene, posição de
término do gene e posição de início do motif.
Alinhamento Múltiplo
Figura 14 – Motifs encontrados no estudo
humano/chimpanzé/camundongo/rato/mosca
Agrupamento

Introdução

Fim da estratégia de Phylogenetic Footprinting

Objetivo do Agrupamento

Método restritivo

Apenas grupos com mais de 1 motif serão mais
detalhadamente analisados
Agrupamento
 Algoritmo
K-Means

Um dos mais populares algoritmos iterativos de
agrupamento.

Este algoritmo é aleatório e baseia-se na heurística
de Loyd.

O número de grupos (K) deve ser definido
previamente.
Agrupamento

Algoritmo
1) Os motifs são designados aleatoriamente para os K grupos.
2) Um vetor de expressão média (ou centróide) de cada grupo é
computado.
3) Cada motif é movido para o grupo mais próximo (do qual mais
se assemelha ao centróide).
4) Repete 2 e 3 até que nenhum motif possa ser movido para outro
grupo.
Agrupamento

Evitando não-convergência

Evitando mínimos locais

Vários valores de K foram testados
Agrupamento
Número “K” de grupos

Duas considerações:
1) Estamos interessados em grupos com alta
similaridade entre os seus elementos, mesmo que
tenhamos muitos grupos unitários.
Solução: foi definido que seriam testados 100
valores diferentes de K entre 70% e 90% do
número de motifs.
Agrupamento
2) Conceito estatístico
 W = within-cluster sum of distances
 Quanto maior K, menor será o W.
 Existe um K’ tal que:
K < K’ => Wi+5 >>> Wi
K > K’ => Wi+5 > Wi
500 - 2567.29833333
501 - 2320.36666667
503 - 2632.32833333
504 - 2493.36666667
506 - 2424.73666667
507 - 2623.43
509 - 2337.16583333
510 - 2367.40880952
511 - 2456.52166667
513 - 2407.99833333
514 - 2297.01333333
516 - 2435.60833333
517 - 2289.1
519 - 2092.85666667
520 - 2500.10166667
521 - 2296.41666667
523 - 2297.80333333
524 - 2170.43833333
526 - 2156.93833333
527 - 1908.535
529 - 2179.25
530 - 1986.35833333
531 - 1919.5
533 - 1830.58666667
534 - 1894.125
536 - 2128.43333333
537 - 1936.9
539 - 1929.86333333
540 - 1870.675
541 - 1919.23
543 - 1871.20166667
544 - 1843.55333333
546 - 1756.30333333
547 - 1623.95
549 - 1788.83833333
550 - 1738.21666667
551 - 1799.64642857
553 - 1679.4
554 - 1758.215
556 - 1643.48
557 - 1622.35333333
559 - 1727.74166667
560 - 1746.45
561 - 1759.0
563 - 1526.36666667
564 - 1466.25833333
566 - 1565.76333333
567 - 1527.86833333
569 - 1545.51833333
570 - 1452.1
572 - 1559.96833333
573 - 1243.94166667
574 - 1489.82166667
576 - 1463.59166667
577 - 1374.70833333
579 - 1382.34333333
580 - 1462.59166667
582 - 1374.045
583 - 1394.11666667
584 - 1334.05
586 - 1371.36833333
587 - 1211.65
589 - 1268.01666667
590 - 1236.69166667
592 - 1216.375
593 - 1173.65
594 - 1105.06666667
596 - 1113.3
597 - 1155.88333333
599 - 1148.95833333
600 - 1050.44166667
602 - 1065.525
603 - 970.8
604 - 1021.13
606 - 985.383333333
607 - 933.033333333
609 - 988.533333333
610 - 917.241666667
612 - 1062.25
613 - 992.441666667
614 - 979.941666667
616 - 887.083333333
617 - 1041.15
619 - 823.758333333
620 - 863.6
622 - 864.541666667
623 - 904.158333333
624 - 905.575
626 - 817.416666667
627 - 846.625
629 - 795.25
630 - 858.133333333
632 - 689.358333333
633 - 812.8
634 - 704.7
636 - 706.116666667
637 - 593.266666667
639 - 724.2
640 - 626.766666667
642 - 701.35
Agrupamento
K
W
1
2
3
4
5
6
7
8
9
10
11
12
13
1790.73846154
1459.11666667
1296.95
1034.98333333
818.425
627.166666667
683.875
446.733333333
404.433333333
417.9
11 - 76.3333333333
12 - 168.85
13 - 0.0
Figura 15 – Exemplo de Agrupamento
TRANSFAC
Figura 16 - TRANSFAC
TRANSFAC

1388 elementos regulatórios humanos
anotados

Objetivos da comparação com TRANSFAC
TRANSFAC

Sequência de Consenso de um Grupo
Um grupo do estudo
humano/chimpanzé/camundongo/rato:
CLUSTER 13576:
CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310
AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728
AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424
AAAGACACT => Sequência de Consenso do grupo 13576
TRANSFAC
 Casamentos
relevantes
Alinhamento local sem gaps de tamanho pelo
menos 5.
Exemplo de outro grupo do estudo humano /
chimpanzé / camundongo / rato :
TRANSFAC
CLUSTER 13534:
ATCCCTCCTC 1956 H.sapiens NC_000007.12 55054219 55242525 55054235
CTCCCTCCTC 339287 H.sapiens NC_000017.9 35531749 35548144 35531706
- TCCCTCCTC => Sequência de Consenso do grupo 13534
Casamento relevante com TRANSFAC :
-TCCCTCCTC
ATCCCTCCTC
TCCCTCCTC
(sequência de consenso do grupo 13534)
(motif do transfac com id R00377)
(casamento)
Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377)
TRANSFAC
Figura 18 – Gene do grupo 13534 (id 1956)
TRANSFAC
A seguir temos mais exemplos do estudo humano /
chimpanzé / camundongo / rato:
GENE
MOTIF
EGFR (epidermal growth factor
receptor); G000251
ATCCCTCCTC (R00377)
EGFR epidermal growth factor
receptor (erythroblastic leukemia viral
(v-erb-b) oncogene homolog, avian)
(id 1956)
ATCCCTCCTC (Cluster 13534)
LOC339287 - hypothetical protein
LOC339287 (id 339287)
CTCCCTCCTC (Cluster 13534)
GENE
MOTIF
DBH (dopamine beta hydroxylase);
G002007
GTCCATGTGT (R09521)
DBH dopamine beta-hydroxylase (id
1621)
GA-GTCCATG (Cluster 17159)
OR52K2 olfactory receptor, family 52,
subfamily K,
member 2
(id 119774)
GC-CTCCATG (Cluster 17159)
GENE
MOTIF
G-CSF (granulocyte colonystimulating factor); G000260
GAGATTCCAC (R02683)
G-CSF (or CSF3) colony stimulating
factor 3 (granulocyte) (id 1440)
TTCCCAGCTA (Cluster 21242)
AMHR2 anti-Mullerian hormone
receptor, type II (id 269)
TTCCAAGGTC (Cluster 21242)
C9orf58 chromosome 9 open reading
frame 58 (id 83543)
TTCCAAGGTA (Cluster 21242)
GENE
MOTIF
SI (sucrase-isomaltase); G000385
GGTGCAATAAAACTTTATGAGTA
(R04239)
SI sucrase-isomaltase (alphaglucosidase) (id 6476)
TTTATT-TCT (Cluster 22280)
CPA2 carboxypeptidase A2
(pancreatic) (id 1358)
TTTGTT-TCT (Cluster 22280)
ITGB1BP2 integrin beta 1 binding
protein (melusin) 2 (id 26548)
TTTAGT-TAT (Cluster 22280)
GENE
MOTIF
H4 (histone 4 pHu4A gene);
G000295
GGTTTTCAATCTGGTCCG(R00687)
H4 (or HRH4) histamine receptor
H4 (id 59340)
TGTTTTGAGT (Cluster 41063)
NR1D1 nuclear receptor subfamily 1,
group D, member 1 (id 9572)
TGTTTTGGGT (Cluster 41063)
TRANSFAC
Observações


Motifs agrupados diferentes do motif anotado
no TRANSFAC que teve casamento
relevante.
Comparando nomes de genes entre NCBI e
TRANSFAC
Resultados

Humano / Chimpanzé / Camundongo / Rato
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 10738 genes
Número de motifs identificados: 66903 motifs
Número de grupos: K = 57536 grupos
57536 - 9738.37333333
57670 - 9795.11666667
57804 - 9765.19166667
57937 - 9533.13833333
58071 - 9449.37833333
Wmax – Wmin <= 400
Número de grupos com pelo menos 2 motifs: 8329 grupos
Número de grupos com casamento relevante com TRANSFAC: 4498 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Cachorro
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 9494 genes
Número de motifs identificados: 11002 motifs
Número de grupos: K = 7921 grupos
7921 - 10681.4533333
7943 - 10608.805
7965 - 10619.7461905
7987 - 10602.74
8009 - 10498.6733333
Wmax – Wmin <= 200
Número de grupos com pelo menos 2 motifs: 2329 grupos
Número de grupos com casamento relevante com TRANSFAC: 867 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Galinha
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 6974 genes
Número de motifs identificados: 1268 motifs
Número de grupos: K = 968 grupos
968 - 2565.98333333
971 - 2542.30333333
973 - 2521.27666667
976 - 2564.505
978 - 2554.04833333
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 238 grupos
Número de grupos com casamento relevante com TRANSFAC: 56 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 6382 genes
Número de motifs identificados: 715 motifs
Número de grupos: K = 537 grupos
537 - 1936.9
539 - 1929.86333333
540 - 1870.675
541 - 1919.23
543 - 1871.20166667
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 141 grupos
Número de grupos com casamento relevante com TRANSFAC: 26 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Mosca
Número inicial de genes humanos: 23516 genes
Número de genes com ortólogos nas 4 espécies: 3444 genes
Número de motifs identificados: 13 motifs
Número de grupos: K = 8 grupos
8 - 446.733333333
9 - 404.433333333
10 - 417.9
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 4 grupos
Número de grupos com casamento relevante com TRANSFAC: 1 grupos
Resultados

Humano / Chimpanzé / Camundongo / Rato / Mosca
Neste estudo, o grupo que possui um casamento relevante com
TRANSFAC foi o grupo 0.
CLUSTER 0:
ATTTATT-TG 1506 H.sapiens NC_000016.8 66520974 66523266 66521109
GTGTGTG-GT 5459 H.sapiens NC_000005.8 145698869 145700200 145698417
GGTTATG-AA 8834 H.sapiens NC_000017.9 21041855 21058297 21042121
GTTTATG---
=> Sequência de consenso
A tabela a seguir lista os genes de cada um desses motifs e também o
de alguns dos motifs do TRANSFAC com casamento relevante.
GENE
MOTIF
CTRL chymotrypsin-like (id 1506)
ATTTATT-TG (Cluster 0)
POU4F3 POU domain, class 4,
transcription factor 3 (id 5459)
GTGTGTG-GT (Cluster 0)
TMEM11 transmembrane protein
11 (id 8834)
GGTTATG-AA (Cluster 0)
B-ACT (beta-actin); G000214
CCTTTTATGG (R00040)
TCR-delta (T-cell receptor delta);
G000395.
AAATAAACAAGGAGATAGGGTGTT
TATTT (R01429)
apoB (apolipoprotein B); G000205
GCATTTATGAGCTG (R04012)
GCC (guanylyl cyclase C); G001742
GTTTATAGCTCTGACCT (R08886)
Conclusões
ESTUDO
Genes com
ortólogos
Motifs
Grupos
Grupos com
mais de 1
motif
Grupos com
casamento
relevante no
TRANSFAC
Humano/Chimpanzé/
Camundongo/Rato
10738
66903
57536
8329
4498
Humano/Chimpanzé/
Camundongo/Rato/
Cachorro
9494
11002
7921
2329
867
Humano/Chimpanzé/
Camundongo/Rato/
Galinha
6974
1268
968
238
56
Humano/Chimpanzé/
Camundongo/Rato/
Cachorro/Galinha
6382
715
537
141
26
Humano/Chimpanzé/
Camundongo/Rato/Mosca
3444
13
8
4
1
Conclusões

Objetivo alcançado

Motifs conhecidos / motifs novos

Resultados (lista de motifs, grupos e
casamentos com Transfac) para cada um
dos 5 estudos conduzidos nesta pesquisa
estarão disponíveis na web.
Trabalhos Futuros

Conhecimento sobre genes ortólogos

Filtro de locais de início da transcrição
ortólogos.

Vários elementos regulatórios para um
mesmo gene.
Apêndice I - Programação

Python

BioPython

CLUSTALW

The C Clustering Library
Esta apresentação foi parte do Projeto Final de Graduação de
Raonne Barbosa Vargas, para obtenção do grau de
Bacharel em Ciência da Computação
Departamento de Informática
Universidade Federal do Espírito Santo
Download

Humano/Chimpanzé/ Camundongo/Rato