Centro de Estatística e Aplicações da Universidade de Lisboa Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Sílvia Pedro Rebouças [email protected] 20/02/2010 Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL) Sumário 1. 2. 3. 4. 5. Introdução Objectivos Estado da arte Aplicação Referências bibliográficas CEAUL Sílvia Pedro Rebouças 20/02/2010 2 1. Introdução Monitorização do nível de expressão de milhares de genes em simultâneo, através de Biologia microarrays. Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n). Estatística CEAUL Sílvia Pedro Rebouças Aprendizagem Automática 20/02/2010 3 Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003): ◦ Quais os genes com expressão diferencial num conjunto de dados relativamente a outro? ◦ Quais as relações presentes entre os genes ou entre os indivíduos em estudo? ◦ Como classificar indivíduos tendo por base as suas medidas de expressão genética? Classificação Supervisionada CEAUL Sílvia Pedro Rebouças Não supervisionada 20/02/2010 4 Classificação Supervisionada: ◦ X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos. ◦ xij representa o nível de expressão do j-ésimo gene (variável) para o i-ésimo indivíduo (observação). ◦ yi identifica o grupo a que pertence o indivíduo. ◦ Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi. ◦ Pretende-se treinar classificadores numa amostra de modelação (learning set) L = {(x1, y1), …, (xnL, ynL)} e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set) T = {x1, …, xnT} CEAUL Sílvia Pedro Rebouças 20/02/2010 5 2. Objectivos Objectivo geral: Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays. Objectivos específicos: ◦ Implementar, testar e comparar técnicas de: Pré-processamento Normalização Imputação de valores omissos Redução de dimensionalidade Classificação supervisionada 2 grupos ou mais Séries temporais Avaliação da qualidade do ajustamento e da capacidade preditiva CEAUL Sílvia Pedro Rebouças 20/02/2010 6 ◦ Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos; ◦ Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays; ◦ Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área. CEAUL Sílvia Pedro Rebouças 20/02/2010 7 3. Estado da arte Métodos de classificação supervisionada aplicados a dados de microarrays: ◦ Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005); ◦ Regressão logística penalizada (Liao & Chin, 2007); ◦ Árvores de classificação (Boulesteix & Tutz, 2006); ◦ Modelos Bayesianos (Roth & Lange, 2004); ◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006); ◦ Médias difusas (Asyali et al., 2005); ◦ Modelos factoriais de misturas (Martella, 2006); ◦ Redes neuronais artificiais (O’Neill & Song, 2003); ◦ Máquinas de suporte vectorial (Pirooznia & Deng, 2006). CEAUL Sílvia Pedro Rebouças 20/02/2010 8 Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005) Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix & Tutz (2006) e Kim et al. (2006) A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade. Métodos de selecção de genes: ◦ Selecção de genes com expressão diferencial teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis; False Discovery Rate (Benjamini & Hochberg, 1995); Métodos bayesianos (Antunes & Sousa, 2008). ◦ Algoritmos moleculares (Ooi & Tan, 2003) Métodos de redução de dimensionalidade: ◦ Análise de componentes principais; ◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004); ◦ Padrões de interacção (Boulesteix & Tutz, 2006). CEAUL Sílvia Pedro Rebouças 20/02/2010 9 A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes. Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005) Pré-processamento de dados temporais de microarrays: Liang et al. (2005) Esta é uma área pouco estudada e um desafio do ponto de vista estatístico! CEAUL Sílvia Pedro Rebouças 20/02/2010 10 4. Aplicação Aplicação realizada no Curso de Formação Avançada: ◦ Bases de dados: Leucemia (Golub et al., 1999) Cancro do cólon (Alon et al., 1999) ◦ Métodos de classificação aplicados (biblioteca do R): Regressão logística penalizada (GeneLogit) Àrvores de classificação (tree) Redes neuronais (nnet) Classificador dos vizinhos mais próximos (class) ◦ Pré-processamento: Método 1: thresholding, filtragem e transformação logarítmica de base 10 (Dudoit et al., 2002) Método 2: Selecção dos genes com expressão diferencial (teste t) CEAUL Sílvia Pedro Rebouças 20/02/2010 11 ◦ Resultados: Leucemia (modelação: 38 ind., validação: 34 ind. ) Pré-processamento Número de genes Proporção de erros na amostra de modelação Mét. 1 3571 (q = 20) 0,0000 0,0294 Méts. 1 e 2 471 (q = 20) 0,0526 0,0588 Mét. 1 3571 0,0000 0,0882 Méts. 1 e 2 471 0,0526 0,2647 Mét. 1 e 2 471 0,0000 0,2059 Mét. 1 1 0,0000 0,0882 Mét. 1 2 0,1053 0,0882 Mét. 1 2 0,0000 0,2059 k=1 Mét. 1 e 2 471 0,0000 0,0882 k=4 Mét. 1 e 2 471 0,0526 0,0000 k=3 Mét. 1 3571 0,0000 0,0294 Método de classificação Regressão logística penalizada Árvore de classificação Rede neuronal (Perceptrão simples) Rede neuronal (5un) Classificador vizinhos mais próximos CEAUL Sílvia Pedro Rebouças Proporção de erros na amostra de validação 20/02/2010 12 Cancro do cólon (modelação: 31 ind., validação: 31 ind. ) Método de classificação Regressão logística penalizada Árvore de classificação Rede neuronal (Perceptrão simples) Rede neuronal com 5 unidades na camada escondida Classificador vizinhos mais Próximos CEAUL Sílvia Pedro Rebouças k=1 k=1 k=1 k=1 Pré-processamento Número de genes Nenhum Mét. 1 Mét. 2 Méts. 1 e 2 Nenhum Mét. 1 Mét. 2 Méts. 1 e 2 Mét. 1 Mét. 2 Méts. 1 e 2 Mét. 1 Mét. 2 Méts. 1 e 2 Nenhum Mét. 1 Mét. 2 Mét. 1 e 2 2000 (q = 2) 1224 (q = 2) 60 (q = 2) 43 (q = 2) 2000 1224 60 43 2 60 43 2 60 43 2000 1224 60 43 Proporção de erros na amostra de modelação 0,0645 0,3226 0,0645 0,3226 0,0526 0,0645 0,0645 0,0645 0,0968 0,1935 0,0000 0,0000 0,1290 0,0323 0,0000 0,0000 0,0000 0,0000 Proporção de erros na amostra de validação 0,1935 0,3871 0,2581 0,3871 0,3226 0,3226 0,3226 0,3226 0,1613 0,3226 0,3871 0,2903 0,3871 0,3548 0,1481 0,1935 0,2258 0,2258 20/02/2010 13 Cancro do cólon (modelação: 40 ind., validação: 22 ind. ) Método de classificação Regressão logística penalizada Árvore de classificação Rede neuronal (Perceptrão simples) Rede neuronal com 5 unidades na camada escondida Classificador vizinhos mais Próximos CEAUL Sílvia Pedro Rebouças k=1 k=1 k=1 k=1 Pré-processamento Número de genes Nenhum Mét. 1 Mét. 2 Méts. 1 e 2 Nenhum Mét. 1 Mét. 2 Méts. 1 e 2 Mét. 1 Mét. 2 Méts. 1 e 2 Mét. 1 Mét. 2 Méts. 1 e 2 Nenhum Mét. 1 Mét. 2 Mét. 1 e 2 2000 (q = 2) 1224 (q = 2) 86 (q = 2) 64 (q = 2) 2000 1224 86 64 3 86 64 3 86 64 2000 1224 86 64 Proporção de erros na amostra de modelação 0,1000 0,0750 0,1250 0,3750 0,0750 0,0750 0,0750 0,0750 0,0750 0,0000 0,0250 0,0500 0,0250 0,0500 0,0000 0,0000 0,0000 0,0000 Proporção de erros na amostra de validação 0,3636 0,6818 0,1364 0,6818 0,4091 0,4091 0,4091 0,4091 0,4091 0,5909 0,3636 0,3636 0,3636 0,3636 0,2273 0,1818 0,2727 0,1818 20/02/2010 14 ◦ Conclusões: A regressão logística penalizada é suportada por uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso. As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação. As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet. CEAUL Sílvia Pedro Rebouças 20/02/2010 15 O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho. Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados. Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta. Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema. CEAUL Sílvia Pedro Rebouças 20/02/2010 16 Principais linhas de investigação futura ◦ Metodologias de redução de dimensionalidade Análise de Componentes (Branco & Pires, 2009) Principais Robustas ◦ Análise comparativa de métodos de classificação supervisionada ◦ Classificação supervisionada de dados temporais de microarrays CEAUL Sílvia Pedro Rebouças 20/02/2010 17 5. Referências bibliográficas Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750. Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), 824-836. Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, 644-649. Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57, 289 -300. Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97. CEAUL Sílvia Pedro Rebouças 20/02/2010 18 Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, 783-802. Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido. Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), 77-87. Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, 147-157. Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, 531-537. Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, 1643-1655. CEAUL Sílvia Pedro Rebouças 20/02/2010 19 Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, 965-979. Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, 869-885. Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, 2429-2437. Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20. Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), 399-413. Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, 1945-1951. Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, 202-208. CEAUL Sílvia Pedro Rebouças 20/02/2010 20 Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, 407-425. O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13. Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), 37-44. Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25. Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718. Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press. Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, 475-485. CEAUL Sílvia Pedro Rebouças 20/02/2010 21