Deleterious SNP prediction: be mindful of your training data! Flávia Araújo [email protected] Objetivos 2 Estudar os três conjuntos de dados mais comumente utilizados para classificar os SNPs como deletérios ou neutros. Analisando as vantagens e desvantagens de cada conjunto de dados e também recomendando a melhor abordagem para estudos futuros. Single Nucleotide Polymorphisms SNPs Ocorre em uma seqüência de DNA em apenas um único nucleotídeo. Ex: A A G C C T A AA G C T TA – 90% dos polimorfismo no DNA humano é causado por SNP. – Em regiões codificantes ocorrem pelo menos 4 SNPs por gene, podendo ou não ocorrer a mudança no aminoácido. – 3 Single Nucleotide Polymorphisms SNPs – Sinônimo: a mudança de base não afeta na composição da proteína. (mutação silenciosa) – Não Sinônimo: a mudança de base altera a composição da proteína. – 4 Podendo afetar a função da proteína ou contribuir para uma doença genética. A importância de se estudar os SNP é a possibilidade de poder mapear características de interesse entendendo a diversidade dos fenótipos. Introdução 5 Dos métodos existentes na literatura utilizase uma grande variedade de atributos: estruturais e sequence-based para separar os SNPs deletérios dos neutros. Desses atributos os estruturais são que fornecem um maior entendimento dos mecanismos, mas esses atributos não estão disponíveis para todos os SNPs. Introdução Esses atributos são utilizados para uma grande variedade de métodos de predição usando técnicas de aprendizagem de máquina: – – – – 6 Decision trees, Support Vector Machine, Neural Networks, Bayesian Networks, etc. Métodos Árvores de decisão (Decision Trees) – – 7 São modelos preditivos utilizados para classificação dos SNPs. Cada nó representa um ponto de decisão no qual o teste é realizado mediante um atributo. Classe Físico-química hidrofóbico Neutro Estrutura Secundária? Loop Helix Strand Nó Polar Métodos Foi utilizado validação cruzada 10-fold para remover qualquer viés que a divisão dos conjuntos de dados em treinamento e teste pudessem apresentar. Sendo os resultados obtidos com a árvore de decisão exibidos em uma matriz de confusão. (OE) = [(FP+FN)/(TP+FP+TN+FN)], Onde, TP = true positive, TN = true negative, FP = false positive and FN = false negative. Taxa de falso positivo: [FPR=FP/(TN+FP)] Taxa de falso negativo: [FNR=FN/(TP+FN)]. 8 Atributos 9 Para permitir as predições de todos os SNPs foram selecionados atributos que não precisam de informações estruturais: 1. Identidade original e mutado do resíduo de aminoácido 2. Classe fisico-química do aminoácido original e mutado (Hydrophobic, Polar, Encarregado, Glycine) 3. Diferença da hidrofobicidade entre o resíduo original e mutado 4. Massa de mudança na mutação 5. Predição do sítio de mutação na estrutura secundária: (Loop, Helix, Strand) 6. Predição do sítio de mutação na solvente acessibility: (0 9; enterrado ou expostos) 7. Scorecons valor: seqüência conservação score mutação no site: (0 1; não Plenamente conservada) 8. Sítio de mutação Buried charge: (Resíduo é um dos K, R, D, E, H e tem uma acessibilidade de 0 ou 1) 9. Posição específica pontuação matriz (PSSM) valor de aminoácido substituição 10. Log-odds score substituição do aminoácido. Conjuntos de dados para a predição de SNP deletérios: 1. Conjunto de dados Mutagêneses – 2. Consiste em um conjunto sistemático de mutação imparcial do T4 lisozima (1990 mutações / 40% mutações deletérios) e proteína lac repressor (3303 mutações / 38% mutações deletérios). Conjunto de dados Swiss-Prot – Conjunto com single polimorfismos de aminoácidos (SAP), onde são classificados como: 10 Disease: Quando o polimorfismo é associado a uma doença, tendo 12911 disease SAP em 1055 proteínas. Polimorfismo: Quando não tem uma doença conhecida associada, tendo 8302 polimorfismo SAP em 3388 proteínas. Conjuntos de dados para a predição de SNP deletérios: 3. Conjunto de dados divergentes – – – – 11 Os SAPs neutros são encontrados pela divergência entre proteínas humanas relacionados com seus mamíferos ortólogos. Assumindo que a variação entre espécies próximas não é deletéria. Foram utilizadas proteínas contendo SAPs disease, cada proteína foi procurada no banco NCBI usando BLASTP. Todos os resultados de não mamíferos foram descartados e os dados restantes foram processados em dois métodos. Ambos os métodos fizeram o alinhamento das sequências encontradas com as proteínas disease e os aminoácidos diferentes foram anotados, verificando a sequence identity (SI). Um dos métodos utilizou todas as seqüências de mamíferos encontrados (neutralAH) e a outra apenas os melhores matchs (neutralBH). Validação Cruzada e Aleatorização dos dados Para uma melhor acurácia com as decision trees os dados são balanceados. Homogeneous cross validation: – – Heterogeneous cross validation: – – 12 Utiliza os mesmos dados para treinamento e teste. 4000 SAPs amostras são escolhidas aleatoriamente de cada conjunto de dados 10 vezes (ex.: 4000 deletérios e 4000 neutros). Estes dados são utilizados para realizar a validação cruzada 10fold. Parte dos dados do conjunto de treinamento são do mesmo tipo de parte dos dados do conjunto de teste. 4000 SAPs amostras aleatórias escolhidas 10 vezes de cada conjunto de dados dividido em dois conjuntos: treinamento e teste (ex: 2000 deletérios e 2000 neutros). Validação cruzada e Aleatorização dos dados Os dados de mutageneses é uma exceção nesse treinamento devido a baixa quantidade de dados disponíveis: – – – 13 Inicialmente os dados foram divididos em duas classes (lac: 1325 deleterious e 1978 neutral; lysozyme: 762 deleterious e 1228 neutral). Dessas 762 mutações foram escolhidas aleatoriamente 10 vezes de cada classe. Essas amostras foram então utilizadas para fazer uma validação cruzada homogenea 10-fold. Os conjuntos de dados de lac e lysozyme foram unidos para formar um conjunto de dados mutagenese contendo 3048 mutações por amostra (1372 treinamento e152 teste). Construção da matriz HEAT Human Expected Amino acids Transitions (HEAT) – – 14 Foi construída uma matriz consistindo das taxas esperadas de substituições de aminoácidos nas proteínas de genes humanos, na ausência de seleção. A matriz foi construída similar a Vitkup et al. (2003). Utilizando uma matriz de taxa de substituição de vizinhos-dependentes. Construção da matriz HEAT 15 Essa matriz HEAT foi utilizada para calcular as taxas esperadas de todas as substituições de aminoácidos resultantes de mutações de um único nucleotídeo (SNM). Comparação entre as taxas de cada conjunto de dados com a taxa de substituição esperada [log (P(datasetSubstitution)/P(HEAT Substitution))]. Matriz HEAT 16 Resultados 17 Comparação dos dados: SNM (single nucleotide mutations) podem dar origem a 150 possíveis substituições de aminoácidos em um códon. Enquanto que MNM (multiple nucleotide mutations) resulta em 230 possíveis substituições. Resultados 18 Os dados Mutagenes apresentam alta porcentagem de MNMs (multiple nucleotide mutations) Lac: 57% e Lyso: 59%. Swiss-Prot tem cerca de 0,2% de MNMs para disease e 0,1% para polymorphysm. Enquanto que os dados divergentes apresenta uma variação de 5 a 40% de acordo com o limiar da seqüência identidade (SI). Resultados 19 Resultados 20 A verificação da taxa de substituição dos aminoácidos devido a SNM (mutação de um único nucleotídeo) pode ser observada através da HEAT para cada um dos três dados analisados. [log (P(datasetSubstitution)/P(HEAT Substitution))]. Matriz HEAT 21 Matriz HEAT 22 Análise da HEAT A comparação feita com a HEAT pôs em evidência as diferenças dos conjuntos de dados mostrando o potencial para discriminar SNP deleterious de neutros usando apenas o parâmetro da substituição dos aminoácidos. Podendo ser observado que os dados: – – – 23 Swiss-Prot polimorfismo com a matrix HEAT (R = 0,91, P<0,0001) apresentaram elevado nível de correlação. Swiss-Prot disease (R=0.81, P<0.0001) Enquanto que o conjunto de Dados divergentes (R = 0,74, P<0,0001). Discussão 24 Foi possível observar que é de extrema importância considerar a seleção de formação dados com muito cuidado, pois estes tem efeitos significativos sobre classificadores e taxas de erro estimada. Os resultados sugeriram que o uso de dados de mutagenese com conteúdo significativamente alto de MNMs (mutação de múltiplos nucleotídeo) do que poderia ser esperado para nsSNPs pode levar a regras altamente irrelevantes para a predição de SNP. No entanto são bons para a predição dos efeitos gerais das mutações de proteínas. Discussão 25 Os dados divergentes também produziu dados que foram relevantes para distinguilos de mutações de patologias conhecidas, mas não são bons o suficiente para distinguir SNPs deletérios de neutros. Discussão 26 Foi então sugerido que os melhores dados de treinamento para predição de nsSNP em humanos são as variantes das proteínas humanas conhecidas: Disease e Polymorphysm anotados no Swiss-Prot. Embora estes dados ainda apresentem problemas pois os dados anotados como polymorphysm neutro possa ter associação com uma doença ainda desconhecida. Conclusão 27 Importantes observações foram levantadas sobre os dados, sendo o Swiss-prot o melhor conjunto de dados sugerido. Os próprios autores acreditam que os efeitos ocasionados pelos dados descritos no artigo tem afetado diversos estudos, assim como no deles. Portanto é importante que os estudiosos deste campo estejam cientes destes efeitos.