Identificación de Genes Mediante la Transformada
Modificada de Morlet
Jesús P. Mena-Chalco
Roberto Marcondes Cesar Junior
http://www.vision.ime.usp.br/∼jmena/DSPgenomics/
Departamento de Ciência da Computação - IME - USP
13/01/2006
Introducción: Genoma
El genoma de un organismo es
un modelo para que este pueda
auto construirse y mantenerse.
Casi todas las células de los organismos tienen un genoma.
Diferentes tipos de eucariotos
tienen diferentes números de
cromosomas:
Café (88), perros (78), Humanos (46), ratones (40), Manzana
(34), Drosofila (8).
“National Human Genome Research Institute” (NHGRI).
1
Introducción: DNA
Todo organismo vivo almacena su
información hereditária en la forma de
moléculas doblemente enlazadas de DNA.
Tipos de monómeros:
Adenina: A
Citosina: C
Guanina: G
Timina: T
Alberts et al, Molecular Biology of the Cell 2002.
2
Introducción: Genes
Replicação
Un gen es una región que expresa o
controla una proteı́na.
5’
3’
Inter-génica
gene
DNA
Transcrição
Sub-regiones:
éxon
1.
2.
3.
4.
5.
6.
7.
8.
9.
De reconocimiento (promotora);
De inicio de transcripción;
Región no-traducida 50 ;
De inı́cio de traducción (start codon);
Región para la codificación de proteı́na (CDS);
De traducción (stop codon);
Región no-traducida 30 ;
De poliadenilación (polyA, eucariotos);
De fin de transcripción.
íntron
Pre-mRNA
Retirada dos íntrons
mRNA
Tradução
...
Ser
Ala
Val
...
Proteína
3
Introducción: Proteı́nas
Las células en un organismo poseen el mismo DNA: el mismo conjunto de genes.
Pero diferentes genes son expresos (funcionalmente) en las diferentes células.
Células foto-receptor: conos
Célula neuronal
Célula de la sangre
Cuando un gen es expreso da las instrucciones a la célula para producir una
proteı́na particular.
4
Ejemplo de una proteı́na: Mioglobina
Representación de la estrutura 3D (135 Amino ácidos). Posiblemente causante de la falla renal aguda.
5
Tópicos
El problema de la identificación de genes.
Métodos de DSP para la identificación de CDSs.
Transformada modificada de Morlet.
Método propuesto.
Resultados.
Conclusiones.
6
El Problema: Identificación de Genes
Un tópico importante en el análisis de secuencias biológicas es la busqueda de genes (identificación de regiones codificantes de proteı́na).
Metodologias computacionales para identificar genes e otras regiones funcionales fueron desarrolladas en los últimos 20 años.
Los métodos de procesamiento digital de señales (DSP) tiene un papel
importante en ese contexto.
Los métodos de DSP brindan una base robusta para la identificación de
regiones codificantes de proteı́na (CDSs).
7
El Problema: Identificación de Genes
Categorias que agrupan abordages para su solución:
1. Métodos basados en reconocimento de patrones:
Busqueda por sı́tios: se busca la presencia o ausencia de una secuencia
especı́fica, patrón o consenso asociado a la expresión genica;
Busca por contenido: se busca segmentos con propiedades especı́ficas.
2. Métodos basados en comparaciones por homologia con proteı́nas.
3. Métodos basados en el uso de expressed sequence tags (ESTs).
8
Periodicidades en las Regiones Codificantes
Las CDSs, tipicamente exhiben una organización periódica de tres bases
(TBP, three-base periodicity) no uniforme (latente) que no es encontrada en
otras regioes [EEKR04].
Esa propiedade ha sido analisada para explicar su causa y cuantificarla [SL86].
Las frecuencias no uniformes del codon usage determinan la periodicidad.
El código genético es responsáble por el tamaño del perı́odo [EEKR04].
9
Mapeamiento Numérico de Nucleotı́deos
Análisis de los datos simbólicos de secuencias de DNA para ser tratados como
secuencias numéricas.
Mapeamiento fijo.
Regla
A
1
2
3
4
5
6
7
Enlaces de hidrogenio
Purina/pirimidina
Hibrida
Base A
Base C
Base G
Base T
0
1
1
1
0
0
0
Atribución
C
G
1
0
1
0
1
0
0
1
1
0
0
0
1
0
T
0
0
0
0
0
0
1
Mapeamiento basado en critérios de optimización.
10
Mapeamiento Fijo Binário
Sea a, c, g e t valores numéricos arbitrários correspondientes a las bases de
una secuencia de DNA A, C, G e T .
Una secuencia s de DNA de tamaño N puede ser representada como
s[b] = a.uA[b] + c.uC [b] + g.uG[b] + t.uT [b],
b = 0, 1, . . . , N − 1
donde uX [n] representa la secuencia binária asociada a la secuencia s.
Esta representación permite que uA[b] + uC [b] + uG[b] + uT [b] = 1
11
Análisis de Fourier
La transformada de Fourier posibilita decomponer una señal en componentes
que representen frecuencias.
Dada una señal f (t) la transformada de Fourier es definida como
Z ∞
f (t)e−jωtdt
F (ω) =
−∞
La transformada de Fourier de tiempo reducido es definida como
Z ∞
ST F T (b, ω) =
g ∗(t − b)f (t)e−jωtdt
−∞
12
Espectro de Frecuencia de DNA
La Transformada Discreta de Fourier de s es definida como [Ana01]
S[k] =
N
−1
X
s[b]e−2πjkb/N ,
k = 0, 1, . . . , N − 1
b=0
s[b] = a.uA[b] + c.uC [b] + g.uG[b] + t.uT [b]
S[k] = a.UA[k] + c.UC [k] + g.UG[k] + t.UT [k]
El espectro de frecuencia total es representado por
E[k] = |UA[k]|2 + |UC [k]|2 + |UG[k]|2 + |UT [k]|2
13
Espectro de Frecuencia
Arabidopsis thaliana
4
7
x 10
7000
6
6000
5
5000
4
Energía
Energía
4000
3
3000
2
2000
1
1000
0
10 9 8
7
6
5
4
Freqüência
3
Región codificante (CDS)
2
0
10 9 8
7
6
5
4
Freqüência
3
2
Región inter-genica
14
Métodos de Fourier y DNA
En [TRB+97] se define 4 coeficientes normalizados en la frecuencia tres ( N3 ),
como
A=
G=
1
UA
N
1
UG
N
N
,
3
N
,
3
C=
T =
1
UC
N
1
UT
N
N
,
3
N
,
3
y el identificador de CDSs como
W = |A|2 + |C|2 + |G|2 + |T |2,
15
Métodos de Fourier y DNA
0.016
Basado en el trabajo [TRB+97]
0.014
0.012
Coeficiente
0.01
Gen F56F11.4 de C. elegans
0.008
Posición relativa
0.006
928-1039
2528-2857
4114-4377
5465-5644
7255-7605
0.004
0.002
0
0
1000
2000
3000
4000
Posição
5000
6000
7000
Tamaño
112
330
264
180
351
8000
16
Métodos de Fourier y DNA
En [Ana01] se define
W = |a.A + c.C + g.G + t.T |2
donde a, c, g e t son números complejos arbitrários tal que A + C + G + T = 0.
E{|a.A + t.T + g.G|} − E{|a.AR + t.TR + g.GR|}
p(a, g, t) =
std(|a.A + t.T + g.G|) + std(|a.AR + t.TR + g.GR|)
Para los genes del cromosoma XVI de S. cerevisiae
a = 0,10 + 0,12j
c=0
g = 0,45 − 0,19j
t = −0,30 − 0,20j
17
Métodos de Fourier y DNA
−3
5
x 10
Basado en el trabajo [Ana01]
4
Gen F56F11.4 de C. elegans
Coeficiente
3
Posición relativa
2
928-1039
2528-2857
4114-4377
5465-5644
7255-7605
1
0
0
1000
2000
3000
4000
Posição
5000
6000
7000
Tamaño
112
330
264
180
351
8000
18
Filtros Digitais y DNA
C. Elegans
Filtro pasa banda
Filtro multistage
[VY04]
19
Análise en Wavelets
La transformada en wavelets permite un análisis tiempo-escala de una señal
en terminos de señales simples (wavelet).
Para una señal u a transformada en wavelets contı́nua es dada por:
1
U (b, a) = √
a
a>0
b
ψ(t)
√1
a
Z
∞
u(t)ψ ∗
−∞
t−b
dt
a
coeficiente de escala.
coeficiente de traslación (tiempo o posición).
función de análisis wavelet.
factor de normalización de la energia.
20
Función de Análise de Morlet
Apropiada para el análisis de patrones periódicos locales, pues es bien localizada en el domı́nio del tiempo y de la frecuencia.
2
ψM (t) =
t
ejω0te− 2
1
Real
Imaginária
0.8
0.6
0.4
Amplitude
0.2
0
−0.2
−0.4
−0.6
−0.8
−1
−10
−8
−6
−4
−2
0
Tempo
2
4
6
8
10
21
Diferencias entre las Funciones de Análisis
1
1
0.8
0.8
0.6
0.6
0.4
0.4
Amplitude
amplitude
0.2
0
0.2
0
−0.2
−0.2
−0.4
−0.4
−0.6
−0.6
−0.8
−8
−6
−4
−2
0
tempo
2
4
6
8
−0.8
−10
10
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
Amplitude
amplitude
−1
−10
0
−0.2
−0.4
−0.4
−0.6
−0.6
−4
−2
0
Tempo
2
4
6
8
10
−8
−6
−4
−2
0
Tempo
2
4
6
8
10
−8
−6
−4
−2
0
Tempo
2
4
6
8
10
−0.8
−1
−10
−8
−6
−4
−2
0
tempo
2
4
6
8
−1
−10
10
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
Amplitude
amplitude
−6
0
−0.2
−0.8
−8
0
0
−0.2
−0.2
−0.4
−0.4
−0.6
−0.6
−0.8
−0.8
−1
−10
−8
−6
−4
−2
0
tempo
2
4
6
8
Morlet
ψM (t) =
2
jω0 t − t2
e
e
10
−1
−10
“Gaborettes”
G(t, a) =
2
jat − t2
e e
22
Transformada Modificada de Morlet (MMT)
De la función de análisis de Morlet tenemos que
ψ
t−b
a
1
U (b, a) = √
a
2
t−b
(
a )
t−b
jω0 ( a ) −
2
e
=e
∞
Z
2
jω0 ( t−b
a ) −
u(t)e
e
( t−b
a )
2
dt
−∞
Usamos el parametro de escala a para mantener constante la frecuencia
1
U (b, a) = √
a
Z
∞
(t−b)2
−
u(t)ejω0(t−b)e 2a2
dt
−∞
23
Función de Análisis da MMT
Apropiada para el análisis de patrones periódicos locales de frecuencia fija, y
de escala variable.
t2
−
ejω0te 2a2
ψM M (t, a) =
1
Real
Imaginária
0.8
0.6
0.4
Amplitude
0.2
0
−0.2
−0.4
−0.6
−0.8
−1
−10
−8
−6
−4
−2
0
2
4
6
8
10
Tempo
24
Diferencias entre las Funciones de Análisis
1
1
1
0.8
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.6
0
Amplitude
amplitude
amplitude
0.4
0
−0.2
−0.2
−0.4
−0.4
−0.6
−0.6
−0.8
−0.8
0.2
0
−0.2
−6
−4
−2
0
tempo
2
4
6
8
−0.6
−1
−10
10
−8
−6
−4
−2
0
tempo
2
4
6
8
−0.8
−10
10
1
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
Amplitude
1
0.8
amplitude
1
0.8
0
−0.2
−0.2
−0.4
−0.4
−0.4
−0.6
−0.6
−0.6
−0.8
−0.8
−8
−6
−4
−2
0
tempo
2
4
6
8
−8
−6
−4
−2
0
tempo
2
4
6
8
−1
−10
10
1
1
0.8
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
Amplitude
1
0
0
−0.2
−0.2
−0.4
−0.4
−0.4
−0.6
−0.6
−0.6
−0.8
−0.8
−8
−6
−4
−2
0
tempo
2
4
6
8
10
Morlet modificado
ψM M (t, a) =
t2
jω0 t − 2a2
e
e
−4
−2
0
Tempo
2
4
6
8
10
−8
−6
−4
−2
0
Tempo
2
4
6
8
10
−8
−6
−4
−2
0
Tempo
2
4
6
8
10
0
−0.2
−1
−10
−6
−0.8
−1
−10
10
−8
0
−0.2
−1
−10
amplitude
−8
amplitude
amplitude
−1
−10
−0.4
−0.8
−1
−10
−8
−6
−4
−2
0
tempo
2
4
6
8
Morlet
ψM (t) =
2
jω0 t − t2
e
e
10
−1
−10
“Gaborettes”
G(t, a) =
2
jat − t2
e e
25
Nuevo Método para Identificación de CDSs
Seqüência
de DNA
Mapeamento
fixo
Seqüências
binárias
MMT
Coeficientes
da transformação
normalizados
CDSs com
TBP latente
Limiarização
Coeficientes
da Projeção
Projeção no
eixo das posições
26
Mapeamiento de Bases
Se utiliza 4 reglas del mapeamiento fijo binário (uA, uC , uG, e uT ).
A
C
1000101...0110000
0010000...0000101
ATCGACA...TAAGCTC
G
Seqüência de DNA
T
0001000...0001000
0100000...1000010
Seqüências binárias
27
Aplicación de la MMT
Se calcula la MMT de las secuencias binárias, para un tamaño N arbitrário de
ψM M con ω0 = N3 y diferentes escalas.
1
UA(b, a) = √
a
1
UC (b, a) = √
a
∞
Z
∗
uA(t)ψM
M (t − b, a)dt
−∞
Z ∞
∗
uC (t)ψM
M (t − b, a)dt
−∞
∞
1
UG(b, a) = √
a
Z
1
UT (b, a) = √
a
Z
∗
uG(t)ψM
M (t − b, a)dt
−∞
∞
∗
uT (t)ψM
M (t − b, a)dt
−∞
28
Normalización de los Coeficientes
Los coeficiente son normalizados a fin de mantener una medida comparable
en todas las escalas.
2
mA(b, a) = a |UA(b, a)|
2
mC (b, a) = a |UC (b, a)|
2
mG(b, a) = a |UG(b, a)|
2
mT (b, a) = a |UT (b, a)|
La medida normalizada total de la secuencia de DNA es dada por:
M (b, a) = mA(b, a) + mC (b, a) + mG(b, a) + mT (b, a)
29
Proyección de los Coeficientes
Los coeficientes de la MMT son proyectados en el eje de las posiciones, a fin
de representar las posibles CDSs.
X
Mp(b) =
M (b, a), 1 ≤ b ≤ N
a
Las proyecciones en el eje de las escalas revelan cual de ellas mantiene mayor energia através de las posiciones
Ms(a) =
N
X
M (b, a),
∀a
b=1
30
Limiarización de los Coeficientes de Proyección
El proceso de la limiarización corresponde a una tentativa de establecer las
fronteras entre las CDSs.
Una de las formas es mediante Wavelet shrinkage, en el cual coeficientes abajo de um limite (“error máximo”) son substituı́dos por cero.
Es considerado un limiar porcentual en las magnitudes de los coeficientes de
proyección.
31
La Importancia de la Escala
Con 20 escalas a exponencialmente separadas en el intervalo [0,25, 0,5]
Coeficientes de la Transformación
Coeficientes de Proyección
Posición
Posición
T
G
C
A
Unión
Gen BTU02285 (Bos taurus) de 6396bp con 6 CDSs.
32
La Importancia de la Escala
Con 20 escalas a exponencialmente separadas en el intervalo [0,025, 0,5]
Coeficientes de la Transformación
Coeficientes de Proyección
Posición
Posición
T
G
C
A
Unión
Gen BTU02285 (Bos taurus) de 6396bp con 6 CDSs.
33
La Importancia de la Escala
Con 20 escalas a exponencialmente separadas en el intervalo [0,001, 0,5]
Coeficientes de la Transformación
Coeficientes de Proyección
Posición
Posición
T
G
C
A
Unión
Gen BTU02285 (Bos taurus) de 6396bp con 6 CDSs.
33
La Importancia de la Escala
Con 20 escalas a exponencialmente separadas en el intervalo [0,05, 0,5]
Coeficientes de la Transformación
Coeficientes de Proyección
Posición
Posición
T
G
C
A
Unión
Gen BTU02285 (Bos taurus) de 6396bp con 6 CDSs.
33
La Importancia de la Proyección
Para 20 escalas a exponencialmente separadas en el intervalo [0,05, 0,5]
Coeficientes de Proyección
T
0.89
G
1.39
C
3.46
A
3.17
União
7.99
0
3663
Posição
4221
4779
5285
34
La Importancia de la Limiarización
Para 20 escalas a exponencialmente separadas en el intervalo [0,05, 0,5]
Coeficientes de Proyección de la Unión
35
La Importancia de la Limiarización
Para 20 escalas a exponencialmente separadas en el intervalo [0,05, 0,5]
Coeficientes de Proyección de la Unión
Limiarización arbitrária
35
La Importancia de la Limiarización
Para 20 escalas a exponencialmente separadas en el intervalo [0,05, 0,5]
Coeficientes de Proyección de la Unión
Limiarización arbitrária
Posibles CDSs
35
Secuencias de Prueba
Secuencias sintéticas.
Secuencias reales.
Conjunto
Región
Cantidad
Bases
Tamaño
Média Desvio
A
(570 secs.)
Éxons
Íntrons
Inter-genicas
2649
2079
1132
444498 (15.4 %)
1310452 (45.3 %)
1137199 (39.3 %)
168
630
1004
222
909
1464
B
(195 secs.)
Éxons
Íntrons
Inter-genicas
948
753
390
199176 (14.4 %)
642788 (46.4 %)
544044 (39.2 %)
210
854
1395
271
130
2261
36
Pruebas Preliminares
Coeficientes de la STFT gen BTU02285
1.05
T
T
1.03
1.90
G
G
1.38
3.85
C
C
3.19
2.73
União
6.54
7.45
União
A
A
2.68
0
3663
4221
4779
Posição
Ventana de 200bp
5285
3663
4221
4779
5285
Posição
Ventana de 400bp
37
Pruebas Preliminares
Gen BTU02285
T
T
0.89
G
G
1.39
C
C
3.46
A
A
3.17
0.05
União
União
7.99
0.5
3663
4221
4779
5285
Posição
Coeficientes MMT normalizados
0
3663
Posição
4221
4779
5285
Coeficientes de proyección
38
Medidas de Exactitud
Las medidas de exactitud en el nı́vel de los nucleotı́deos [BG96], proponen
una forma de comparación de regiones identificadas con CDSs conocidas
biologicamente.
La medición de regiones identificadas contra CDSs conocidas es realizada
mediante conteo de nucleotı́deos.
TN
FN
TP
FN
TN
FP
TP
TN
CDSs
conhecidas
Regiões
identificadas
39
Medidas de Exactitud
Sensibilidad (Sn), proporción de nucleotı́deos codificantes correctamente
identificados como codificantes.
Sn =
TP
T P +F N
Especificidad (Sp), proporción de nucleotı́deos identificados como codificantes que son realmente codificantes.
Sp =
TP
T P +F P
Coeficiente de correlación (CC), medida que combina a Sn y Sp.
CC = √
T P.T N −F N.F P
(T P +F N )(T N +F P )(T P +F P )(T N +F N )
40
Resultados Preliminares
Desempeño de la MMT y de la STFT para el gen BTU02285
1
0.9
0.8
0.7
Sn
0.6
0.5
0.4
0.3
0.2
0.1
0
MMT
STFT (200)
STFT (400)
0
0.1
0.2
0.3
0.4
0.5
Sp
0.6
0.7
0.8
0.9
1
41
Resultados Preliminares
Desempeño de la MMT y de la STFT para el gen BTU02285
1
MMT
STFT (200)
STFT (400)
0.9
0.8
0.7
CC
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
Limiar
0.6
0.7
0.8
0.9
1
42
Resultados Preliminares
Desempeño de la MMT y de la STFT para el conjunto A
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
CC
Sn
1
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0
0.1
MMT
STFT (200)
STFT (400)
0
0.1
0.2
MMT
STFT (200)
STFT (400)
0.3
0.4
0.5
Sp
0.6
0.7
0.8
0.9
1
0
0
0.1
0.2
0.3
0.4
0.5
Limiar
0.6
0.7
0.8
0.9
1
570 secuencias
43
Resultados Preliminares
Desempeño de la MMT y de la STFT para el conjunto Am30
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
CC
Sn
1
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0
0.1
MMT
STFT (200)
STFT (400)
0
0.1
0.2
MMT
STFT (200)
STFT (400)
0.3
0.4
0.5
Sp
0.6
0.7
0.8
0.9
1
0
0
0.1
0.2
0.3
0.4
0.5
Limiar
0.6
0.7
0.8
0.9
1
469 secuencias. Tamaño de los éxons mayores a 30bp.
44
Resultados Preliminares
Desempeño de la MMT y de la STFT para el conjunto Am100
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
CC
Sn
1
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0
0.1
MMT
STFT (200)
STFT (400)
0
0.1
0.2
MMT
STFT (200)
STFT (400)
0.3
0.4
0.5
Sp
0.6
0.7
0.8
0.9
1
0
0
0.1
0.2
0.3
0.4
0.5
Limiar
0.6
0.7
0.8
0.9
1
103 secuencias. Tamaño de los éxons mayores a 100bp.
45
Conclusiones
La MMT tiene un desempeño superior a la STFT. Un nivel de exactitud mayor es alcanzado cuando los tamaños de las CDSs son mayores a 100bp.
El método se basa unicamente en la TBP existente en las CDSs. No es
usada ninguna otra outra información adicional.
Este nuevo método es mas robusto a la variación de escalas.
46
Referencias
[Ana01]
D. Anastassiou. Genomic signal processing. IEEE Signal Processing Magazine,
8(4):8–20, 2001.
[BG96]
M. Burset and R. Guigó. Evaluation of gene structure prediction programs. Genomics, 34(3):353–367, 1996.
[EEKR04] S. T. Eskesen, F.Ñ. Eskesen, B. Kinghorn, and A. Ruvinsky. Periodicity of DNA in
exons. Journal Molecular Biology, 5(12):1–11, 2004.
[SL86]
B. D. Silverman and R. Linsker. A measure of DNA periodicity. Journal of Theoretical Biology, 118(3):295–300, 1986.
[TRB+97] S. Tiwari, S. Ramachandran, A. Bhattacharya, S. Bhattacharya, and R. Ramaswamy. Prediction of probable genes by Fourier analysis of genomic sequences.
Bioinformatics, 13(3):263–270, 1997.
[VY04]
P. P. Vaidyanathan and B. Yoon. The role of signal-processing concepts in genomics
and proteomics. Journal of the Franklin Institute, 341(1-2):111–135, 2004.
47
Download

Transformada Modificada de Morlet