Centro de Estatística e Aplicações da
Universidade de Lisboa
Metodologias de Classificação
Supervisionada para Análise de
Dados de Microarrays
Sílvia Pedro Rebouças
[email protected]
20/02/2010
Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL)
Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)
Sumário
1.
2.
3.
4.
5.
Introdução
Objectivos
Estado da arte
Aplicação
Referências bibliográficas
CEAUL
Sílvia Pedro Rebouças
20/02/2010
2
1. Introdução

Monitorização do nível de expressão de
milhares de genes em simultâneo, através
de

Biologia
microarrays.
Necessidade de tratar conjuntos de dados
complexos, com um número muito elevado de
variáveis (p) para um número geralmente reduzido
de observações (n).
Estatística
CEAUL
Sílvia Pedro Rebouças
Aprendizagem Automática
20/02/2010
3

Os estudos desenvolvidos na área da análise de
dados de microarrays tentam dar resposta a 3
questões fundamentais (Stekel, 2003):
◦ Quais os genes com expressão diferencial num
conjunto de dados relativamente a outro?
◦ Quais as relações presentes entre os genes ou
entre os indivíduos em estudo?
◦ Como classificar indivíduos tendo por base as
suas medidas de expressão genética?
Classificação
Supervisionada
CEAUL
Sílvia Pedro Rebouças
Não supervisionada
20/02/2010
4

Classificação Supervisionada:
◦ X é uma matriz contendo a informação referente à
quantificação da expressão de p genes para n indivíduos.
◦ xij representa o nível de expressão do j-ésimo gene
(variável) para o i-ésimo indivíduo (observação).
◦ yi identifica o grupo a que pertence o indivíduo.
◦ Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi.
◦ Pretende-se treinar classificadores numa amostra de
modelação (learning set)
L = {(x1, y1), …, (xnL, ynL)}
e
utilizá-los
para
classificar
novas
amostras,
denominadas amostras de validação ou teste (test set)
T = {x1, …, xnT}
CEAUL
Sílvia Pedro Rebouças
20/02/2010
5
2. Objectivos

Objectivo geral:
Implementar, testar e comparar técnicas de classificação
supervisionada aplicadas à análise de dados de microarrays.

Objectivos específicos:
◦ Implementar, testar e comparar técnicas de:
 Pré-processamento
 Normalização
 Imputação de valores omissos
 Redução de dimensionalidade
 Classificação supervisionada
 2 grupos ou mais
 Séries temporais
 Avaliação da qualidade do ajustamento e da capacidade preditiva
CEAUL
Sílvia Pedro Rebouças
20/02/2010
6
◦ Desenvolver aplicações em R: A Language and Environment
for Statistical Computing (http://www.R-project.org)
capazes de implementar os métodos propostos;
◦ Contribuir para a definição de linhas orientadoras no que
diz respeito à escolha da(s) técnica(s) mais adequada(s) de
classificação supervisionada de dados de microarrays;
◦ Aplicar as várias técnicas de Data Mining a conjuntos de
dados reais de microarrays, na área da saúde, contribuindo
para o avanço da investigação nesta área.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
7
3. Estado da arte

Métodos de classificação supervisionada
aplicados a dados de microarrays:
◦ Análise discriminante linear de Fisher, linear
diagonalizada e quadrática (Lee et al., 2005);
◦ Regressão logística penalizada (Liao & Chin, 2007);
◦ Árvores de classificação (Boulesteix & Tutz, 2006);
◦ Modelos Bayesianos (Roth & Lange, 2004);
◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006);
◦ Médias difusas (Asyali et al., 2005);
◦ Modelos factoriais de misturas (Martella, 2006);
◦ Redes neuronais artificiais (O’Neill & Song, 2003);
◦ Máquinas de suporte vectorial (Pirooznia & Deng,
2006).
CEAUL
Sílvia Pedro Rebouças
20/02/2010
8






Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005)
Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007)
Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix &
Tutz (2006) e Kim et al. (2006)
A elevada dimensionalidade dos dados de microarrays tornam a
aplicação dos métodos de classificação morosa e por vezes inviável,
requerendo uma redução prévia de dimensionalidade.
Métodos de selecção de genes:
◦ Selecção de genes com expressão diferencial
 teste t, teste de Mann-Whitney, Análise de Variância ou teste de
Kruskall-Wallis;
 False Discovery Rate (Benjamini & Hochberg, 1995);
 Métodos bayesianos (Antunes & Sousa, 2008).
◦ Algoritmos moleculares (Ooi & Tan, 2003)
Métodos de redução de dimensionalidade:
◦ Análise de componentes principais;
◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004);
◦ Padrões de interacção (Boulesteix & Tutz, 2006).
CEAUL
Sílvia Pedro Rebouças
20/02/2010
9




A aplicação de metodologias de classificação
supervisionada a dados temporais de microarrays é
uma área emergente na genómica funcional, que
constitui uma importante fonte de informação para o
conhecimento dos processos biológicos e para o
desenvolvimento de fármacos e terapêuticas eficientes.
Classificação
supervisionada
aplicada
a
dados
temporais de microarrays:
Laegreid et al. (2003), Liang and Kelemen (2004), Liang
and Kelemen (2005) e Tucker et al. (2005)
Pré-processamento de dados temporais de microarrays:
Liang et al. (2005)
Esta é uma área pouco estudada e um desafio do ponto
de vista estatístico!
CEAUL
Sílvia Pedro Rebouças
20/02/2010
10
4. Aplicação

Aplicação realizada no Curso de Formação Avançada:
◦ Bases de dados:
 Leucemia (Golub et al., 1999)
 Cancro do cólon (Alon et al., 1999)
◦ Métodos de classificação aplicados (biblioteca do R):




Regressão logística penalizada (GeneLogit)
Àrvores de classificação (tree)
Redes neuronais (nnet)
Classificador dos vizinhos mais próximos (class)
◦ Pré-processamento:
 Método 1: thresholding, filtragem e transformação
logarítmica de base 10 (Dudoit et al., 2002)
 Método 2: Selecção dos genes com expressão diferencial
(teste t)
CEAUL
Sílvia Pedro Rebouças
20/02/2010
11
◦ Resultados:
 Leucemia (modelação: 38 ind., validação: 34 ind. )
Pré-processamento
Número de
genes
Proporção
de erros na
amostra de
modelação
Mét. 1
3571 (q = 20)
0,0000
0,0294
Méts. 1 e 2
471 (q = 20)
0,0526
0,0588
Mét. 1
3571
0,0000
0,0882
Méts. 1 e 2
471
0,0526
0,2647
Mét. 1 e 2
471
0,0000
0,2059
Mét. 1
1
0,0000
0,0882
Mét. 1
2
0,1053
0,0882
Mét. 1
2
0,0000
0,2059
k=1
Mét. 1 e 2
471
0,0000
0,0882
k=4
Mét. 1 e 2
471
0,0526
0,0000
k=3
Mét. 1
3571
0,0000
0,0294
Método de classificação
Regressão logística penalizada
Árvore de classificação
Rede neuronal (Perceptrão
simples)
Rede neuronal (5un)
Classificador
vizinhos mais
próximos
CEAUL
Sílvia Pedro Rebouças
Proporção
de erros na
amostra de
validação
20/02/2010
12
 Cancro do cólon (modelação: 31 ind., validação: 31 ind. )
Método de classificação
Regressão logística penalizada
Árvore de classificação
Rede neuronal (Perceptrão
simples)
Rede neuronal com 5 unidades na
camada escondida
Classificador
vizinhos mais
Próximos
CEAUL
Sílvia Pedro Rebouças
k=1
k=1
k=1
k=1
Pré-processamento
Número de
genes
Nenhum
Mét. 1
Mét. 2
Méts. 1 e 2
Nenhum
Mét. 1
Mét. 2
Méts. 1 e 2
Mét. 1
Mét. 2
Méts. 1 e 2
Mét. 1
Mét. 2
Méts. 1 e 2
Nenhum
Mét. 1
Mét. 2
Mét. 1 e 2
2000 (q = 2)
1224 (q = 2)
60 (q = 2)
43 (q = 2)
2000
1224
60
43
2
60
43
2
60
43
2000
1224
60
43
Proporção
de erros na
amostra de
modelação
0,0645
0,3226
0,0645
0,3226
0,0526
0,0645
0,0645
0,0645
0,0968
0,1935
0,0000
0,0000
0,1290
0,0323
0,0000
0,0000
0,0000
0,0000
Proporção
de erros na
amostra de
validação
0,1935
0,3871
0,2581
0,3871
0,3226
0,3226
0,3226
0,3226
0,1613
0,3226
0,3871
0,2903
0,3871
0,3548
0,1481
0,1935
0,2258
0,2258
20/02/2010
13
 Cancro do cólon (modelação: 40 ind., validação: 22 ind. )
Método de classificação
Regressão logística penalizada
Árvore de classificação
Rede neuronal (Perceptrão
simples)
Rede neuronal com 5 unidades na
camada escondida
Classificador
vizinhos mais
Próximos
CEAUL
Sílvia Pedro Rebouças
k=1
k=1
k=1
k=1
Pré-processamento
Número de
genes
Nenhum
Mét. 1
Mét. 2
Méts. 1 e 2
Nenhum
Mét. 1
Mét. 2
Méts. 1 e 2
Mét. 1
Mét. 2
Méts. 1 e 2
Mét. 1
Mét. 2
Méts. 1 e 2
Nenhum
Mét. 1
Mét. 2
Mét. 1 e 2
2000 (q = 2)
1224 (q = 2)
86 (q = 2)
64 (q = 2)
2000
1224
86
64
3
86
64
3
86
64
2000
1224
86
64
Proporção
de erros na
amostra de
modelação
0,1000
0,0750
0,1250
0,3750
0,0750
0,0750
0,0750
0,0750
0,0750
0,0000
0,0250
0,0500
0,0250
0,0500
0,0000
0,0000
0,0000
0,0000
Proporção
de erros na
amostra de
validação
0,3636
0,6818
0,1364
0,6818
0,4091
0,4091
0,4091
0,4091
0,4091
0,5909
0,3636
0,3636
0,3636
0,3636
0,2273
0,1818
0,2727
0,1818
20/02/2010
14
◦ Conclusões:
 A regressão logística penalizada é suportada por uma
teoria
matemática
sólida
e
apresenta
bom
desempenho, contudo, o algoritmo proposto por Liao
& Chin (2007) e implementado na biblioteca GeneLogit
revelou-se computacionalmente muito intenso e
moroso.
 As árvores de classificação apresentam boas
capacidades de ajustamento recorrendo a poucas
variáveis. Têm como principal atractivo a facilidade de
interpretação.
 As redes neuronais são um método emergente e com
bom desempenho, contudo, o uso de camadas
escondidas conduziu geralmente a problemas de
sobreaprendizagem. O número de pesos a estimar nos
dados de microarrays ultrapassam as capacidades
computacionais da biblioteca nnet.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
15
 O classificador dos vizinhos mais próximos, apesar de
muito simples, revelou-se um método com excelente
desempenho.
 Alguns dos genes com maior poder explicativo não
apresentam expressão diferencial. A selecção de genes
com expressão diferencial pode não ser a melhor forma
de lidar com a elevada dimensionalidade dos dados.
 Como continuação deste trabalho, está planeado ensaiar
e avaliar a aplicação de técnicas multivariadas de
redução de dimensionalidade, entre as quais, a análise
de componentes principais robusta.
 Os resultados diferem consoante a divisão efectuada nas
bases de dados em amostra de modelação e amostra de
validação, pelo que, pretende-se aplicar em trabalhos
futuros o método da validação cruzada para evitar este
problema.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
16

Principais linhas de investigação futura
◦ Metodologias de redução de dimensionalidade
 Análise de Componentes
(Branco & Pires, 2009)
Principais
Robustas
◦ Análise comparativa de métodos de classificação
supervisionada
◦ Classificação supervisionada de dados temporais de
microarrays
CEAUL
Sílvia Pedro Rebouças
20/02/2010
17
5. Referências bibliográficas





Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine,
A. (1999) Broad patterns of gene expression revealed by clustering
analysis of tumor and normal colon tissues probed by oligonucleotide
arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750.
Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian
label estimation via EM algorithm to identify differentially expressed
genes: a comparative study, Biometrical Journal, 50 (5), 824-836.
Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using
fuzzy c-means and normal mixture modelling based classification
Methods, Bioinformatics, 21, 644-649.
Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a
practical and powerful approach to multiple testing, Journal of the Royal
Statistical Society, Series B, 57, 289 -300.
Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating
microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
18






Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns
and classification with applications to microarray data, Computational
Statistics & Data Analysis, 50, 783-802.
Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for
high-dimensional data. Trabalho submetido.
Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination
methods for the classification of tumours using gene expression data,
Journal of the American Statistical Association, 97 (457), 77-87.
Dupuy, A. & Simon, R. (2007) Critical review of published microarray
studies for cancer outcome and guidelines on statistical analysis and
reporting, Journal of National Cancer Institute, 99, 147-157.
Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J.,
Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E.
(1999) Molecular classification of cancer: class discovery and class
prediction by gene expression monitoring. Science, 286, 531-537.
Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression
for classification of multiple cancer types using gene expression data,
Computational Statistics & Data Analysis, 51, 1643-1655.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
19







Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene
ontology biological process from temporal gene expression patterns,
Genome Research, 13, 965-979.
Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of
recent classification tools applied to microarray data, Computational
Statistics & Data Analysis, 48, 869-885.
Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature
selection and multiclass classification methods for tissue classification
based on gene expression, Bioinformatics, 20, 15, 2429-2437.
Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network
for gene expression temporal patterns, Statistical Applications in
Genetics and Molecular Biology, 3 (1), article 20.
Liang, Y. and Kelemen, A. (2005) Temporal gene expression
classification with regularised neural networks, International Journal of
Bioinformatics Research and Applications, 1 (4), 399-413.
Liao, J. & Chin, K.-V. (2007) Logistic regression for disease
classification using microarray data: model selection in a large p and
small n, Bioinformatics, 23, 1945-1951.
Martella, F. (2006) Classification of microarray data with factor mixture
models, Bioinformatics, 22, 2, 202-208.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
20







Nguyen, D. & Rocke, D. (2004) On partial least squares dimension
reduction for microarray-based classification: a simulation study,
Computational Statistics & Data Analysis, 46, 407-425.
O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma
microarray data: prognosis and diagnosis near-perfect, BMC
Bioinformatics, 4: 13.
Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class
prediction for the analysis of gene expression data, Bioinformatics, 19
(1), 37-44.
Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java
interface for support vector machine classification of microarray data,
BMC Bioinformatics, 7, Suppl 4, S25.
Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray
datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718.
Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press.
Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network
Classifiers for Time-Series Microarray Data, Inteligent Data Analysis,
Lecture Notes in Computer Science, 3646, 475-485.
CEAUL
Sílvia Pedro Rebouças
20/02/2010
21
Download

Exploração de dados aplicada à análise de risco de crédito