Introdução a
bioinformática e a
biologia
computacional
Universidade Federal de Juiz de Fora
Instituto de Ciências Exatas
Departamento de Ciência da Computação
Itamar Leite de Oliveira
O QUE É BIOINFORMÁTICA?
Bioinformática é uma das áreas de pesquisa que
mais cresce em Ciência da Computação.
Ela surgiu a partir de um boom no processo de
seqüenciamento de DNA, que gerou um enorme
volume de dados que agora precisam ser analisados
para gerar informações úteis.
Características principais da
Bioinformática
Interdisciplinaridade - Área associada a:
- Biologia
- Química
- Bio-física
- Estatística
- Matemática
- Computação
Cooperação - Open source / open code
Áreas da computação em que se pode
atuar na BIOINFORMÁTICA
- Bancos de Dados
- Data Mining
- Redes Neurais
- Aprendizagem de Máquina
- Processos Estocásticos
- Algoritmos e Combinatória
- Visualização / Realidade Virtual
Estrutura do DNA
DNA
Dógma Central da Biologia Molecular
Gene (DNA)
mRNA
Proteína
Século 21
Genoma
Transcriptoma
Proteoma
Estrutura 3-D do DNA
Tipos RNAs
Transcrição do DNA
• A síntese dos diferentes tipos de RNA, a partir de um
molde de DNA, usando as regras da
complementaridade, é um processo denominado
Transcrição do DNA
– A informação genética contida num segmento do DNA, é
reescrita em uma fita simples de RNA
– Esta fita apresenta uma seqüência de ribonucleotídios
complementar a uma das fitas da dupla hélice de DNA (fita
molde) e idêntica àidêntica à seqüência da outra fita (fita
codificadora), com substituição de T por U
A Unidade de Transcrição
Diz-se que as seqüências que antecedem o ponto de início localizam-se à
montante (upstream) e as que o sucedem localizam-se à jusante
(downstream)
A posição das bases é numerada nos dois sentidos, a partir do ponto de início,
ao qual se atribui o valor +1. Os valores aumentam (valor positivo) à jusante
e diminuem (valor negativo) à montante
Processamento Pós-Transcricional
Sítios de splicing
DNA
doador receptor
exon
intron
Transcrição
Splicing
mRNA
Expressão Gênica – Transcrição
DNA
RNA Polimerase
TGCAGCTCCGGACTC
CAT...T
promotor
Transcrição
A
mRNA
Expressão Gênica – Transcrição
DNA
RNA Polimerase
TGCAGCTCCGGACTC
CAT...
promotor
Transcrição
mRNA
AC G UC G A G G C C U G A G G U A . . .
Código Genético
• Código Genético  mapeamento dos
códons nos aminoácidos
– 64 códons
– 20 aminoácidos aminoácidos mapeados por mais
de um códon
Degeneração do código genético
– 3 códons de parada
Código Genético
T
C
A
G
T
Phe
Phe
Leu
Leu
Ser
Ser
Ser
Ser
Tyr
Tyr
Parada
Parada
Cys
Cys
Parada
Trp
T
C
A
G
C
Leu
Leu
Leu
Leu
Pro
Pro
Pro
Pro
His
His
Gln
Gln
Arg
Arg
Arg
Arg
T
C
A
G
A
Ile
Ile
Ile
Met
Thr
Thr
Thr
Thr
Asn
Asn
Lys
Lys
Ser
Ser
Arg
Arg
T
C
A
G
G
Val
Val
Val
Val
Ala
Ala
Ala
Ala
Asp
Asp
Glu
Glu
Gly
Gly
Gly
Gly
T
C
A
G
3a base no códon
1a base no códon
2a base no códon
Expressão Gênica – Tradução
DNA
RNA Polimerase
TGCAGCTCCGGACTC
CAT...
promotor
Transcrição
Ribossomo
mRNA
ACG
GUCGAGGCCUGAGGUA...
códon
Tradução
His
Expressão Gênica – Tradução
DNA
RNA Polimerase
TGCAGCTCCGGACTC
CAT...
promotor
Transcrição
mRNA
ACGUCGAGGCCUGAGGUA...
Tradução
Ser
Cis
His
Ser
Gli
Leu
Ribossomo
Tamanho de Genomas
Organismo
Genoma
Data
Genes Est.
H.influenzae
1.8 Mb
1995
1.740
S.cerevisiae
12.1 Mb
1996
6.034
C.elegans
97 Mb
1998
19.099
A.thaliana
100 Mb
2000
25.000
D.melanogaster 180 Mb
2000
13.061
H.sapiens
2003
25.000
3000 Mb
Genoma
Conjunto de genes de um organismo
Transcriptoma
• Coleção completa de todos os possíveis
mRNAs de um organismo.
• Regiões de um genoma de um organismo
que são transcritas em RNA mensageiro.
Proteoma
• A coleção completa de proteínas que
podem ser produzidas por um organismo.
• Podem ser estudadas estaticamente
(soma de todas as proteínas possíveis) ou
dinamicamente (todas proteínas
encontradas num determinado momento)
Do DNA ao Genoma
Watson e Crick
modelo do DNA
primeira
sequencia de
proteína
1955
1960
Primeira estrutura
de uma proteína
1965
1970
1975
1980
1985
1990
Primeiro genoma
bacterial
1995
Hemophilus Influenzae
Genoma da
levedura
2000
Primeiro rascunho
do genoma
humano
O Projeto Genoma Humano
Iniciado em 1986
Terminado em 2003
Objetivos eram:
• Identificar todos os genes no DNA humano,
• Determinar as 3 bilhões de sequencias de pares
de bases que formam o DNA humano
• Melhorar as ferramentas de análise de dados e
desenvolver novas
A era “pós-genômica”
Anotação
Genômica
Comparativa
Genômica
estrutural
Genômica
funcional
Objetivo: compreender as redes funcionais de um célula viva
Open reading frames
Anotação
Sítios Funcionais
Estrutura, funções
CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATG
CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA
CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC
AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA
AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA
TAT GGA CAA TTG GTT TCT TCT CTG AAT ......
.............. TGAAAAACGTA
Sítio de ligação TF
CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATG
CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA
CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC
AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA
AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA
TAT GGA CAA TTG GTT TCT TCT CTG AAT .................................
.............. TGAAAAACGTA
Transcription
Start Site
promotor
ORF=Open Reading Frame Ribosome binding Site
CDS=Coding Sequence
Comparação do genoma inteiro
Conclusões sobre as redes
reguladoras
Genômica
Comparativa
Perfis, considerando o
todo o genoma, dos:
• Níveis de mRNA
• Níveis de proteínas
Genômica
Funcional
Co-expressão de genes
e/ou proteínas
Compreensão das funções dos genes e outras partes do genoma
Perfis, considerando o
todo o genoma, de:
• Níveis de mRNA
• Níveis de proteínas
Genômica
Funcional
Co-expressão de genes
e/ou proteínas
Identificação de iterações
proteína-proteína
Redes de interações
Uma rede de iterações pode ser construída
para todas as proteínas num organismo
A large network of 8184 interactions among 4140 S. Cerevisiae
proteins
Genômica
Estrutural
Descobrir a estrutura de
todas as proteínas
codificadas num genoma
Estrutura de Proteína
Bioinformática no DCC
FIOCRUZ - BH
• Núcleo de Bioinformática (NuBio) – ICE
–
–
–
–
–
–
–
Helio F. Dos Santos (D. Química)
Carlos Cristiano (DCC)
Itamar L. Oliveira (DCC)
Ilaim C. Jr (DCC)
Kelle Bellozzi (DCC)
Wagner Arbex (EMPRABA GL)
Lobosco (DCC)
• Financiado pela FAPEMIG
Reações Bioquímicas
Rede
metabólica
Enzimas (proteínas)
Enzimas
Lei de ação de das massas
• A velocidade de uma reação química
é proporcional a probabilidade de
colisões das moléculas
S1 + S2  2P
A velocidade da reação:
dP/dt = v = v+ - v- = k+S1S2 – k-P2
k+ e k-: constantes da reação (fator de
proporcionalidade)
Cinética de Reações
Enzimáticas
Cinética de Reações
Enzimáticas
Cinética de Reações
Enzimáticas
Cinética de Reações
Enzimáticas
Cinética de Reações
Enzimáticas
Cinética de Reações
Enzimáticas
Cinética de Reações
Enzimáticas
Equação de Michaelis-Menten:
Vmáx  k3 [ ET ]
Influência do Substrato
 [E] = cte
  [S] = V0  linear
  [S] = V0 
V0 = Vmáx
Gráfico substrato e produto
Parâmetros Cinéticos
Parâmetros Cinéticos
Lineweaver-Burk
Equação Michaelis-Menten
 Curva: possui a
mesma forma para a
maioria
das
enzimas;
 Expressa
pela
Equação
de
Michaelis e Menten;
 Hipótese: limitante: quebra de ES  E + P.
Inibidores Competitivos
 Forma estrutural = substrato  competição;
 Porcentual de inibição  concentrações e
afinidade pela enzima.
Inibidores Competitivos
 Equação de Michaelis e
Menten
V  Vmáx 
Km
S 
1  I 

  S 
K I 

Lineweaver-Burk
K 1  I  
1
1


V Vmáx
m


K I 
Vmáx

1
S 
Inibidores Não-Competitivos
 Ocupa outro sítio 
ES, EI e EIS;
 [S]  = não leva
todas as E 
produtiva;
 Vmáx  e Km normal.
Inibidores Não-Competitivos
 Equação da
velocidade:
V  Vmáx 
S 

I    S 1  I  
K m 1 

 K 
I 
 KI 

 Lineweaver-Burk
1 Km

V Vmáx

I   1  1
1 

 K I  S  Vmáx

I  
1 

 KI 
Biologia Computacional
Matriz Estequiométrica
Elementos básicos:
• compostos ou espécies
bioquímicas
• concentrações dos compostos
• reações ou processos de
transporte
Matriz Estequiométrica
Matriz estequiométrica
total
v
S:
xi
bl
Matriz estequiométrica
dos metabólitos
internos



0
0

N:
xi
v
k






0
0
v






j
j
v
k






Parte superior da glicólise da
Saccharomyces cerevisiae
ADP
ADP
ATP
Glic-6-P
v6
ATP
ATP
v3
v7
v1:Glicose + ATP
v2:Glic-6-P + ATP
v3:Glic-6-P
v4:Fruc-6-P + ATP
v5:Fruc-1,6-P2
v6:ADP
v7:ATP
v8:ATP + AMP_i
Fruc-6-P
ADP
7 metabólitos
ADP
ATP
ATP
v1
Glicose
ADP
v2
v4
ATP + AMP
v5
8 reações
Fruc-1,6-P2
v8
2ADP
-> ADP + Glic-6-P
-> ADP
<-> Fruc-6-P
-> Fruc-1,6-P2 + ADP
-> null
-> ATP
-> ADP
<-> 2ADP
-1
-1
1
1
0
0
0
0
-1
1
-1
0
0
0
0
0
0
-1
1
0
0
0 0 0
-1 0 1
1 0 -1
0 0 0
-1 0 0
1 -1 0
0 0 0
0 0
-1 -1
1 2
0 0
0 0
0 0
0 -1
Simulação Dinâmica
Balanço para os metabólitos
internos:
n
dxi
   ij v j
dt j 1
Matricial
dx
 Nv
dt
• ij é o coeficiente estequiométrico do
metabólito interno i na reação j
• velocidade da reação:
v j  f x, p
Simulação Dinâmica
Simulação
5
4.5
4
ATP
ADP
3.5
Gluc-6-P
3
mM
Fruc-6-P
Fruc-1,6-P2
AMPi
2.5
2
1.5
1
0.5
0
0
0.05
0.1
0.15
0.2
0.25
time (min)
0.3
0.35
0.4
0.45
0.5
Análise de Fluxo Metabólico
(AFM)
Determina os fluxos desconhecidos (internos) dados alguns fluxos
conhecidos (medidos). Particionando a equação abaixo segundo
esta classificação (conhecidosdesconhecidos)
Nv  0
obtém-se
N x   v x 
N   v   0
 c  c 
rearranjando
N x v x  N c v c
Análise de Fluxo Metabólico
(AFM)
Solução:
vx  Nx  Nc vc 
Repetindo a eq. da AFM:
#
N x v x  N c v c
Resíduo:
r  Nx v x  Nc vc
 determinado (solução única):
r 0
 sobredeterminado (solução única):
r é mínima
 indeterminado (várias soluções):
r  0 com vx
mínima
Análise de Balanço de Fluxo
(ABF)
Restrições de balanço
Nv  0
n
Z   j v j
Restrições de capacidade
j 1
vmin, j  v j  vmax, j
Restrições Termodinâmicas
Reações irreversíveis:
Reações reversíveis:
vmin  0
vmax  
e
vmin  
e
vmax  
Análise de Balanço de Fluxo
(ABF)
ADP
v1
Glicose
LactatoExt
v18
2ATP
2ADP
NAD+
NADH
Lactato
v2
(2)
GDH-3-P
v3
v7
CoA
NADH
AcetatoExt
Acetato
v9
CoA
v11
NADH
v5
CoA
v20
ButiratoExt
Acetil-CoA
ATP
ADP
11 internos
14 externos
2NAD+
Etanol
v10
(2)
CoA
CoA
29,7ATP
2Glicose
v13
Butyril-CoA
v16
3Biomassa
1,75NADH
CoA
2NAD+
v14
Butirato
25 metabólitos
FdRed
2NADH
v12
H2
NAD+
2NADH
v8
v6
AcAcetil-CoA
Acetona
20 reações
FdOx
ADP
ATP
Rede metabólica da
C. acetobutylicum
Glicerol
NAD+
PIR
v4
v19
ATP
v15
2NADH
ATP
Butanol
2NAD+
v17
ADP
Análise de Balanço de Fluxo
(ABF)
Maximizar H2
maxZ
H2
min
v2 = 0
max
v1 = 8.72
v2 = 0
8,72
v1 = 8.72
v2 = 0
v3 = 17.44
v4 = 17.44
v5 = 17.44
v6 = 34.88
v7 = 0
v8 = 8.72
v9 = 0
v10 = 0
v11 = 0
v12 = 8.72
v13 = 0
v14 = 8.72
v15 = 0
v16 = 0
v17 = 26.16
v18 = 0
v19 = 0
v20 = 0
0
17,44
0
0
17,44
17,44
0
34,88
0
0
0
8,72
0
7,72
0
26,16
0
8,72
0
Biologia Computacional no DCC
• Projetos de Pesquisa: Ferramentas Computacionais
Aplicadas a Modelos Complexos da Fisiologia de
Células Cardíacas
–
–
–
–
–
–
Carlos Cristiano
Itamar L. Oliveira
Marcelo Lobosco
Rodrigo Weber
Ciro Barbosa
Ana Paula C. Silva
• Financiado pela FAPEMIG
• Outros 2 submetidos ao CNpQ
Download

Plant systems biology comes of age