Técnicas de Aprendizado de Máquina
e Dados de Expressão Gênica
Marcílio C. P. de Souto
DIMAp/UFRN
Dados de Expressão Gênica
AM e Dados de Expressão Gênica (1/2)

Algoritmos não supervisionados – descoberta de
classes (e.g., grupos de genes co-regulados)




Algoritmos de agrupamento hierárquico
k-médias
Mapas auto-organizáveis
Algoritmos supervisionados – previsão de classes
(e.g., classificação de funções dos genes)


Redes neurais artificiais
Mapas de vetores suporte
AM e Dados de Expressão Gênica (2/2)

Desafios para os algoritmos de AM

Centenas de Amostras (exemplos) x Milhares de genes
(características)


Poucas Replicações & Alto Grau de Ruído




Overfitting (super-ajustamento aos dados)
Alta variância
Valores faltosos
Exemplos de treinamento rotulados incorretamente
Bases de dados não balaceadas
Agrupamento de Dados de Expressão
Gênica

Agrupamento de genes




Identificação de genes co-expressos/co-regulados
Identificação de padrões temporais de expressão
Redução de redundância
Agrupamento de amostras

Identificação de novas classes de amostras biológicas



Novas classes de tumores
Novos tipos de células
Detecção de artefatos nos experimentos
Agrupamento de Genes
Agrupamento de genes baseado nas suas
expressões
Dado: um conjunto de genes de um organismo, em que
cada gene é um padrão
Faça: Agrupe os genes baseado na similaridade de seus
valores de expressão
Genes: Agrupamento Hierárquico
(1/2)

Eisen et al. (1998)


Trabalho pioneiro
Dados

6621 genes da levedura submetidos a quatro situações
distintas





Divisão celular e respostas a diferentes estresses ambientais
Quatro séries temporais com 79 instantes de tempo
Para o agrupamento foram usados apenas 2467 genes
Dados coletados por meio de microarrays de cDNA
Técnica utilizada

Agrupamento hierárquico
Genes: Agrupamento Hierárquico
(2/2)


Eisen et al. (1998) usam o agrupamento
hierárquico com a ligação média
Similaridade entre genes é medida usando uma
modificação do coeficiente de Pearson



Consegue detectar relacionamento inversos
Leva em consideração o deslocamento entre as curvas
Técnica antiga, também chamada UPGMA em
análise filogenética
Matriz de Expressão
Eisen et al. (1998)
genes
experimentos
A
B
C
D
Correlação de Pearson
Eisen et al. (1998)
r  X ,Y  
X Y 
i i
i
 X Y
i
i
i
i
n
2
2









  X i  
  Yi  

2
 i
  Y 2   i  
X


i


 i

n
n
i
i






Matriz de Correlação
Eisen et al. (1998)
genes
A
B
C
D
genes
genes
experimentos
Encontrar a Correlação Máxima
Eisen et al. (1998)
genes
A
B
C
D
0.756
genes
genes
experimentos
Combine e Calcule as Correlações
Eisen et al. (1998)
genes
A
B
CD
A B C D
genes
genes
experimentos
Como um efeito colateral, o
algoritmo produz um
dendograma
Análise Posterior
Eisen et al. (1998)




Seleção de aglomerados
Seleção de um ordenamento dos genes para
visualização
Determinação dos rótulos do aglomerados
Determinação da significância dos aglomerados
Resultados
(F) mitochondrial ribosome
(G) ATP synthesis
(H) chromatin structure
Verificada a tendência de genes com
seqüências
similaresand
ou com
um mesmo
(I) ribosome
translation
papel em processos se encontrarem em
regiões próximas no dendograma
(J) DNA replication
Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide
expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868
Genes: SOMs (1/2)
Tamayo et al. (1999)

Tamayo et al. (1999)


SOMs aplicados a dados sobre a diferenciação de células sanguíneas
Entradas:


Para validar o programa (GENECLUSTER)
Dados sobre o ciclo celular da levedura




Mesmos dados que Cho et al. (1998)
Dados coletados por meio de microarrays de oligonucleotídeos
828 genes usados após filtro
 Padrões normalizados
SOM: uma grade 5 x 6, i.e., 30 aglomerados

Distância euclidiana
visual,
que os aglomerados
encontrados
AObservou-se,
periodicidadepor
do inspeção
ciclo celular
foi automaticamente
recuperada
comoeram
um
similares
aqueles
encontrado por
Cho etoalcrescimento
.
dos
padrões
mais proeminentes
durante
da levedura
Genes: SOMs (1/2)
Tamayo et al. (1999)

Entradas:

Dados sobre a diferenciação de células sanguíneas
 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat,
NB4)



Dados coletados por meio de microarrays de oligonucleotídeos
1036 genes usados após filtro
 Padrões normalizados
SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados

Distância euclidiana
Foram identificados genes e vias já conhecidas no processo de
diferenciação dos tipos de células estudadas
Genes: k-médias
Tavazoie et al. (1999)

Tavazoie et al. (1999)

Entradas:


Expressão relativa de 6220 genes da levedura em dois ciclos
célulares - 15 experimentos

Dados coletados por meio de microarrays de oligonucleotídeos

Utilzados apenas os 3000 genes que apresentaram maior variância
Foi utilizado o k-médias com a distância euclidiana para encontrar 10,
30 e 60 aglomerados

Para a análise foi escolhido o resultado do k-médias com k=30
Observou-se que a metade dos aglomerados encontrados eram
formados por genes funcionalmente relacionados
Agrupamento de Amostras
Descoberta de novas classes de doenças
Dado: um conjunto de experimentos de microarray, cada um realizado com
células de pacientes diferentes, com um determinado grupo de doenças.
Os níveis de expressão de cada paciente representam as características e
as amostras os padrões.
Faça: Agrupe as amostras para encontrar células que não se ajustam bem as
classes atuais. Assumir que essas pertencem a novas classificações de
doenças.
Amostras: SOMs (1/2)

Golub et al. (1999)


Trabalho pioneiro
Dados

38 amostras de medula óssea





11 - Leucemia Mielóide Aguda (AML)
27 - Leucemia Aguda Limfoblástica (ALL)
6817 genes humanos
Dados coletados com arrays de oligonucleotídeos
Técnica utilizada

Mapas Auto-Organizáveis (SOMs)
Amostras: SOMs (2/2)

Golub et al. (1999)




Inicialmente usam um SOM 2x1, i.e., 2 aglomerados
Depois usam um SOM 4x1, i.e., 4 aglomerados
Diferentemente do trabalho de Tamayo et al. (1999),
os mapas são uni-dimensionais
Similaridade entre genes é medida usando a
distância euclidiana

Os dados são padronizados
Descoberta: Dados AML-ALL com 2 Aglomerados
Golub et al. (1999)
Classe A1: maioria ALL (24/25 amostras)
Classe A2: maioria AML (10/13 amostras)
A2
A2
Resultados mostram que a distinção AMLALL poderia ter sido descoberta sem um
conhecimento biológico a priori!
Descoberta: Dados AML-ALL com 4 Aglomerados
Golub et al. (1999)
B1
B2
B3
B4
Classe B1: AML
Classe B2: ALL Linhagem-T
Classe B3: ALL Linhagem-B
Classe B4: ALL Linhagem-B
Resultados mostram que não só a distinção
AML-ALL poderia ter sido descoberta sem um
conhecimento biológico a priori, como também
entre as células ALL dos tipos B e T!
Amostras: Agrupamento Hierárquico

Alizadeh et al. (2000)



Entrada
 Dados de 96 experimentos com 4026 genes humanos
Os 96 experimentos foram realizados com biopsias de pacientes
com linfoma difuso de grandes células B (DLBCL)
Foi usado a técnica de agrupamento hierárquico UPGMA, com a
mesma versão do coeficiente de Pearson em (Eisen et al., 1998).
Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Subtipos correspondem aos prognósticos:
“GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes
“Activated B-like” -> 16% sobrevivência dos pacientes

Outros Trabalhos




Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative
study on proximity indices for cluster analysis of gene expression time series.
Journal of Inteligent and Fuzzy Systems, A ser publicado.

Agrupamento dinâmico
Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene
expression data. Journal Immunol. Methods, 250(1/2):93--12.

Self-Organizing Tree Algorithm
Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components
analysis to summarize microarray experiments: Application to sporulation time
series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.

Análise de componentes principais
Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications
to gene expression analysis. In Proc. of Intelligent Systems for Molecular
Biology}, pp. 307--316.
Previsão de Classes

Predição de classes de doenças



Muitas doenças não podem ser distinguidas de forma
confiável por meio de técnicas tradicionais
Diagnóstico de tecidos cancerosos e normais
Classificação de tipos diferentes de cânceres



Vários tumores diferentes têm a mesma aparência em exames
histológicos
Diagnóstico é fundamental para o sucesso do tratamento
Predição da função biológica de um gene
Previsão de Classes de Doenças
Predição de classes de doenças existentes
Dado: um conjunto de experimentos de microarray, cada um realizado com
células de pacientes diferentes, com um determinado grupo de doenças.
Os níveis de expressão de cada paciente representam as características e
as amostras os padrões.
Faça: aprenda um modelo que possa classificar de maneira precisa uma
nova célula na categoria da doença apropriada.
Previsão de Classes de Funções: Redes Neurais


Khan et al. (2001)
Problema


SRBCTs
 Neuroblastoma (NB)
 Rhabdomyosarcoma (RMS)
 Non Hodgkin lymphoma (NHL)
 The Ewing family of tumors (EWS)
 Todos têm aparência similar em exames histológico
 Diagnóstico acurante é essencial
Abordagem

Redes Neurais Artificiais (RNs)
Previsão de Classes de Funções: Redes Neurais
Khan et al. (2001)

Microarray de cDNA com 6567 genes

63 exemplos de treinamento



Filtro para um número mínimo de expressão


Material da biopsia de tumores
Linhagens celulares
2308 genes
Redução da dimensionalidade com PCA

10 componentes dominantes do PCA foram usadas (63% da variância)

Três-fold cross-validation

3750 redes neurais foram construídas (vote médio)
Visão Esquemática do Processo
Khan et al. (2001)
Análise dos Dados

Arquitetura e parâmetros

Perceptron Linear (PL)




Khan et al. (2001)
10 entradas representando componentes do PCA
4 nodos de saída – um para cada classe de tumor (EWS, BL,
NB e RMS)
44 parâmetros livres, incluindo quatro unidades de threshold
Treinamento realizado com o JETNET





=0.7; momentum=0.3
Taxa de aprendizado decrementada a cada iteração (0.99)
Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F)
Pesos atualizados a cada 10 épocas
No máximo 100 épocas
Observações





Khan et al. (2001)
Técnicas de diagnóstico de tumores são em geral baseadas
em histologia (morfologia) e imuno-histoquímica (expressão
de proteínas)
Alternativa:
 Redes Neurais artificiais com dados de expressão gênica
Um dos primeiros trabalho a testar rigorosamente uma
técnica de classificação, com dados de expressão gênica, para
o diagnósticos de mais de duas categorias
Não houve overfitting e o erro de classificação no conjunto de
treinamento foi igual a zero
Dados
 Tumores e linhagem celulares
 Linhagens celulares para trinar RNs
Previsão de Classes de Funções
Predição da função biológica de um gene
Dado: um conjunto de genes cuja classificação funcional é conhecida, junto
com a expressão desses genes em diferentes condições.
Faça: aprenda a predizer a categoria funcional de genes adicionais (não
vistos durante o treinamento) baseado em um vetor de níveis de
expressão formado de acordo com o conjunto de condições experimentais
especificadas.
Previsão de Classes de Funções: Máquinas de Vetores
Suporte (SVMs)
Conhecimento a priori
sobre a função do gene
G1 G2
Exp 1
Exp 2
Exp 3
Exp i
Exp E
+
GN-1GN
SVMs (1/2)
Conhecimento a priori da função do gene
Genes que codificam
proteínas ribomosais
Padrões de Treino
Grupo A
{gene 1, 1}, {gene 2, 1},
… , {gene N-1, 1}, {gene N, 1}
Grupo A
Não Grupo A
{gene a, -1}, {gene b, -1}, …
SVMs (2/2)
Padrões de Treino
Grupo A
{gene 1, 1}, {gene 2, 1},
… , {gene N-1, 1}, {gene N, 1}
SVM treino
e1, e2,
… , eN-1, eN
SVM teste
{gene a, -1}, {gene b, -1}, …
ea, eb, …
Perfil de expressão
de um gene desconhecido
ex
Não Grupo A
?
Baseado nos
dados de expressão
SVMs: Treinamento
Membros
xi
 ( xi )
Não membros
Não separável c/ um hiperplano
no espaço de entradas
w1 x1  w2 x2  c
Separável com um hiperplano
no espaço de características
w1 ( x1 )  w2 ( x2 )  w3 ( x3 )  c
Previsão de Classes de Funções: SVMs
Brown et al. (2000)
2467 genes da levedura
Dados de Microarray
Exemplos de Treino
79 experimentos
6 classes funcionais do MYGD:
ciclo TCA, respiração, ribossomos citoplasmáticos,
proteasomos, histonas and protéinas hélice-volta-hélice
Previsão de Classes de Funções: SVMs
Brown et al. (2000)
Resultados mostraram baixo número de falsospositivos e falsos-negativos quando comparado com
outras técnicas de aprendizado supervisionado, tais
como janelas de Parzen, discriminate linear de Fisher e
árvores de decisão.
Outros Trabalhos

Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide
expression pattern. In Proc. of National Academy of Sciences USA,
volume 95, pp. 14863--14868.


Votação ponderada
Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome
prediction by gene-expression profiling and supervised machine
learning. Nature Medicine}, 8(1):68--74.

k vizinhos mais próximos
Análise de Dados de Expressão
Gênica:Observação

Algoritmos de agrupamentos diferentes geram
resultados diferentes

“Each clustering criterion imposes a certain structure on
the data, and if the data happens to conform to the
requirements of a particular criterion, the true clusters
are recovered.” (P. D’haeseleer)

Em geral, não se pode afirmar que há uma técnica
melhor do que a outra

Combinar resultados de diferentes técnicas
Análise de Dados de Expressão
Gênica: Novas Direções


Combinar resultados de diferentes técnicas
Combinar dados de expressão com outras fontes
de informação





Artigos publicados
Banco de dados de DNA & proteína
Perfis filogenéticos
Funções metabólicas
Anotações funcionais de estudos experimentais
Referências

Expressão Gênica:



Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes
Médicas, terceira edição
Casley, D. (1992). Primer on Molecular Biology. Technical Report,
U. S. Department of Energy, Office of Health and Environmental
Research
Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc
Graw Hill, quarta edição
Referências

Redes Neurais Artificiais:

Haykin, S. (1999). Neural Networks: A Comprehensive Foundation.
Prentice Hall
Referências

Máquinas de Vetores Suporte:



Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support
Vector Machines and other kernel-based learning methods.
Cambridge University Press
Hearst, M. A. et al. (1998). Trends and controversies - support
vector machines. IEEE Intelligent Systems, 13(4):18–28
Vapnik, V. N. (1995). The Nature of Statistical Learning Theory.
Springer-Verlag
Referências

Algoritmos de Agrupamento:






Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data.
Prentice Hall.
Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a
review. ACM Computing Surveys, 3(31):264--323.
Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H.
Freeman.
Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag.
Quackenbush, J. (2001). Computational analysis of cDNA
microarray data. Nature Reviews, 6(2):418--428.
Slonim, D. (2002). From patterns to pathways: gene expression
data analysis comes of age. Nature Genetics, 32:502--508.
Referências

Descoberta de Padrões:


Eisen, M. B. et al. (1998). Cluster analysis and display of genomewide expression pattern. In Proc. of National Academy of
Sciences USA, volume 95, pp. 14863--14868.
Tamayo, P. et al. (1999). Interpreting patterns of gene expression
with self-organizing maps: methods and application to
hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA,


96:2907--2912.
Tavazoie, S. et al. (1999). Systematic determination of genetic
network architecture. Nature Genetics, 22:281--285.
Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS
Letters, 480(1):17--24.
Referências

Descoberta de Padrões:


Golub, T. et al. (1999). Molecular classification of cancer: class
discovery and class prediction by gene expression monitoring.
Science, 5439(286):531--537.
Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell
lymphoma identified by gene expression profiling. Nature,
403:503--511.
Referências

Descoberta de Classes:


Khan, J. et al. (2001). Classification and diagnostic prediction of
cancers using gene expression profiling and artificial neural
networks. Nature Medicine, 7:673--679.
Brown, M. P. et al. (2000). Knowledge-based analysis of microarray
gene expression data by using support vector machines. In Proc. of
National Academy of Sciences {USA}}, volume 97, pp. 262--267.
Download

BIO-aula-14-15-descoberta