Deleterious SNP prediction: be
mindful of your training data!
Flávia Araújo
[email protected]
Objetivos


2
Estudar os três conjuntos de dados mais
comumente utilizados para classificar os
SNPs como deletérios ou neutros.
Analisando as vantagens e desvantagens de
cada conjunto de dados e também
recomendando a melhor abordagem para
estudos futuros.
Single Nucleotide Polymorphisms

SNPs
Ocorre em uma seqüência de
DNA em apenas um único
nucleotídeo.
Ex: A A G C C T A
AA G C T TA
– 90% dos polimorfismo no DNA
humano é causado por SNP.
– Em regiões codificantes ocorrem
pelo menos 4 SNPs por gene,
podendo ou não ocorrer a
mudança no aminoácido.
–
3
Single Nucleotide Polymorphisms

SNPs
– Sinônimo: a mudança de base não afeta na
composição da proteína. (mutação silenciosa)
– Não Sinônimo: a mudança de base altera a
composição da proteína.

–
4
Podendo afetar a função da proteína ou contribuir
para uma doença genética.
A importância de se estudar os SNP é a
possibilidade de poder mapear características de
interesse entendendo a diversidade dos fenótipos.
Introdução


5
Dos métodos existentes na literatura utilizase uma grande variedade de atributos:
estruturais e sequence-based para separar
os SNPs deletérios dos neutros.
Desses atributos os estruturais são que
fornecem um maior entendimento dos
mecanismos, mas esses atributos não estão
disponíveis para todos os SNPs.
Introdução

Esses atributos são utilizados para uma
grande variedade de métodos de predição
usando técnicas de aprendizagem de
máquina:
–
–
–
–
6
Decision trees,
Support Vector Machine,
Neural Networks,
Bayesian Networks, etc.
Métodos

Árvores de decisão
(Decision Trees)
–
–
7
São modelos preditivos
utilizados para
classificação dos SNPs.
Cada nó representa um
ponto de decisão no qual
o teste é realizado
mediante um atributo.
Classe
Físico-química
hidrofóbico
Neutro
Estrutura
Secundária?
Loop
Helix
Strand
Nó
Polar
Métodos


Foi utilizado validação cruzada 10-fold para remover qualquer
viés que a divisão dos conjuntos de dados em treinamento e
teste pudessem apresentar.
Sendo os resultados obtidos com a árvore de decisão exibidos
em uma matriz de confusão.
(OE) = [(FP+FN)/(TP+FP+TN+FN)],
Onde, TP = true positive, TN = true negative, FP = false
positive and FN = false negative.
Taxa de falso positivo: [FPR=FP/(TN+FP)]
Taxa de falso negativo: [FNR=FN/(TP+FN)].
8
Atributos

9
Para permitir as predições de todos os SNPs foram selecionados atributos que
não precisam de informações estruturais:
1. Identidade original e mutado do resíduo de aminoácido
2. Classe fisico-química do aminoácido original e mutado (Hydrophobic,
Polar, Encarregado, Glycine)
3. Diferença da hidrofobicidade entre o resíduo original e mutado
4. Massa de mudança na mutação
5. Predição do sítio de mutação na estrutura secundária: (Loop, Helix,
Strand)
6. Predição do sítio de mutação na solvente acessibility: (0 9; enterrado ou
expostos)
7. Scorecons valor: seqüência conservação score mutação no site: (0 1;
não  Plenamente conservada)
8. Sítio de mutação Buried charge: (Resíduo é um dos K, R, D, E, H e tem
uma acessibilidade de 0 ou 1)
9. Posição específica pontuação matriz (PSSM) valor de aminoácido
substituição
10. Log-odds score substituição do aminoácido.
Conjuntos de dados para a predição de
SNP deletérios:
1.
Conjunto de dados Mutagêneses
–
2.
Consiste em um conjunto sistemático de mutação
imparcial do T4 lisozima (1990 mutações / 40% mutações
deletérios) e proteína lac repressor (3303 mutações / 38%
mutações deletérios).
Conjunto de dados Swiss-Prot
–
Conjunto com single polimorfismos de aminoácidos
(SAP), onde são classificados como:


10
Disease: Quando o polimorfismo é associado a uma doença,
tendo 12911 disease SAP em 1055 proteínas.
Polimorfismo: Quando não tem uma doença conhecida
associada, tendo 8302 polimorfismo SAP em 3388 proteínas.
Conjuntos de dados para a predição de
SNP deletérios:
3.
Conjunto de dados divergentes
–
–
–
–
11
Os SAPs neutros são encontrados pela divergência entre
proteínas humanas relacionados com seus mamíferos ortólogos.
Assumindo que a variação entre espécies próximas não é
deletéria.
Foram utilizadas proteínas contendo SAPs disease, cada
proteína foi procurada no banco NCBI usando BLASTP.
Todos os resultados de não mamíferos foram descartados e os
dados restantes foram processados em dois métodos. Ambos os
métodos fizeram o alinhamento das sequências encontradas
com as proteínas disease e os aminoácidos diferentes foram
anotados, verificando a sequence identity (SI).
Um dos métodos utilizou todas as seqüências de mamíferos
encontrados (neutralAH) e a outra apenas os melhores matchs
(neutralBH).
Validação Cruzada e Aleatorização dos
dados


Para uma melhor acurácia com as decision trees os dados são
balanceados.
Homogeneous cross validation:
–
–

Heterogeneous cross validation:
–
–
12
Utiliza os mesmos dados para treinamento e teste.
4000 SAPs amostras são escolhidas aleatoriamente de cada
conjunto de dados 10 vezes (ex.: 4000 deletérios e 4000 neutros).
Estes dados são utilizados para realizar a validação cruzada 10fold.
Parte dos dados do conjunto de treinamento são do mesmo tipo
de parte dos dados do conjunto de teste.
4000 SAPs amostras aleatórias escolhidas 10 vezes de cada
conjunto de dados dividido em dois conjuntos: treinamento e teste
(ex: 2000 deletérios e 2000 neutros).
Validação cruzada e Aleatorização dos
dados

Os dados de mutageneses é uma exceção nesse
treinamento devido a baixa quantidade de dados
disponíveis:
–
–
–
13
Inicialmente os dados foram divididos em duas classes (lac:
1325 deleterious e 1978 neutral; lysozyme: 762 deleterious
e 1228 neutral).
Dessas 762 mutações foram escolhidas aleatoriamente 10
vezes de cada classe. Essas amostras foram então
utilizadas para fazer uma validação cruzada homogenea
10-fold.
Os conjuntos de dados de lac e lysozyme foram unidos
para formar um conjunto de dados mutagenese contendo
3048 mutações por amostra (1372 treinamento e152 teste).
Construção da matriz HEAT

Human Expected Amino acids Transitions
(HEAT)
–
–
14
Foi construída uma matriz consistindo das taxas
esperadas de substituições de aminoácidos nas
proteínas de genes humanos, na ausência de
seleção.
A matriz foi construída similar a Vitkup et al.
(2003). Utilizando uma matriz de taxa de
substituição de vizinhos-dependentes.
Construção da matriz HEAT



15
Essa matriz HEAT foi utilizada para calcular
as taxas esperadas de todas as
substituições de aminoácidos resultantes de
mutações de um único nucleotídeo (SNM).
Comparação entre as taxas de cada
conjunto de dados com a taxa de
substituição esperada
[log (P(datasetSubstitution)/P(HEAT
Substitution))].
Matriz HEAT
16
Resultados



17
Comparação dos dados:
SNM (single nucleotide mutations) podem
dar origem a 150 possíveis substituições de
aminoácidos em um códon.
Enquanto que MNM (multiple nucleotide
mutations) resulta em 230 possíveis
substituições.
Resultados



18
Os dados Mutagenes apresentam alta
porcentagem de MNMs (multiple nucleotide
mutations) Lac: 57% e Lyso: 59%.
Swiss-Prot tem cerca de 0,2% de MNMs
para disease e 0,1% para polymorphysm.
Enquanto que os dados divergentes
apresenta uma variação de 5 a 40% de
acordo com o limiar da seqüência identidade
(SI).
Resultados
19
Resultados


20
A verificação da taxa de substituição dos
aminoácidos devido a SNM (mutação de um
único nucleotídeo) pode ser observada
através da HEAT para cada um dos três
dados analisados.
[log (P(datasetSubstitution)/P(HEAT
Substitution))].
Matriz HEAT
21
Matriz HEAT
22
Análise da HEAT


A comparação feita com a HEAT pôs em evidência
as diferenças dos conjuntos de dados mostrando o
potencial para discriminar SNP deleterious de
neutros usando apenas o parâmetro da substituição
dos aminoácidos.
Podendo ser observado que os dados:
–
–
–
23
Swiss-Prot polimorfismo com a matrix HEAT (R = 0,91,
P<0,0001) apresentaram elevado nível de correlação.
Swiss-Prot disease (R=0.81, P<0.0001)
Enquanto que o conjunto de Dados divergentes (R = 0,74,
P<0,0001).
Discussão


24
Foi possível observar que é de extrema importância
considerar a seleção de formação dados com muito
cuidado, pois estes tem efeitos significativos sobre
classificadores e taxas de erro estimada.
Os resultados sugeriram que o uso de dados de
mutagenese com conteúdo significativamente alto
de MNMs (mutação de múltiplos nucleotídeo) do que
poderia ser esperado para nsSNPs pode levar a
regras altamente irrelevantes para a predição de
SNP. No entanto são bons para a predição dos
efeitos gerais das mutações de proteínas.
Discussão

25
Os dados divergentes também produziu
dados que foram relevantes para distinguilos de mutações de patologias conhecidas,
mas não são bons o suficiente para distinguir
SNPs deletérios de neutros.
Discussão


26
Foi então sugerido que os melhores dados
de treinamento para predição de nsSNP em
humanos são as variantes das proteínas
humanas conhecidas: Disease e
Polymorphysm anotados no Swiss-Prot.
Embora estes dados ainda apresentem
problemas pois os dados anotados como
polymorphysm neutro possa ter associação
com uma doença ainda desconhecida.
Conclusão



27
Importantes observações foram levantadas
sobre os dados, sendo o Swiss-prot o melhor
conjunto de dados sugerido.
Os próprios autores acreditam que os efeitos
ocasionados pelos dados descritos no artigo
tem afetado diversos estudos, assim como
no deles.
Portanto é importante que os estudiosos
deste campo estejam cientes destes efeitos.