Resumo registrado no evento sob nº 122
ISSN 1807-3441
Universidade Estadual do Centro-Oeste - UNICENTRO
17 a 20 de outubro de 2006
PREDIÇÃO DA ESTRUTURA SECUNDÁRIA DE PROTEÍNAS USANDO SUPPORT VECTOR
MACHINES
CAROLINA PAULA DE ALMEIDA
[email protected]
MYRIAM REGATTIERI DE BIASI DA SILVA DELGADO
Orientador Prof. RICHARD ADERBAL GONCALVES
Universidade Federal Tecnológica do Paraná (UFT-PR)
Palavras-chave: SUPPORT VECTOR MACHINES, PREDIÇÃO DA ESTRUTURA DE PROTEÍNAS, INTELIGÊNCIA COMPUTACIONAL, BIOINFORMÁTICA
Grande Área: Ciências Exatas e da Terra
Área: Ciência da Computação
Uma das tarefas mais importantes da Bioinformática é determinar a Estrutura de Proteínas
a
partir de sua seqüência de aminoácidos. Atualmente são conhecidas aproximadamente
2.000.000 de seqüências de proteínas das quais se conhece a estrutura de apenas 35.000, o
que comprova a dificuldade desse problema. De acordo com sua seqüência de aminoácidos, as
proteínas podem assumir uma determinada estrutura (primária, secundária, terciária e
quaternária). A determinação da estrutura secundária de proteínas consiste em identificar
os padrões estruturais (α-hélices, folhas-β, entre outros) presentes na seqüência de
aminoácidos. Esse trabalho apresenta o desenvolvimento de um conjunto de Support Vector
Machines
sistemas
(SVMs)
matemático
de
e
para
a
aprendizado
predição
estatístico.
da
estrutura
relativamente
Quando
secundária
recentes
comparadas
a
que
outros
de
possuem
tipos
proteínas.
um
de
forte
As
SVMs
são
embasamento
classificadores
elas
possuem a vantagem de evitar o overfitting, convergir sempre para um ótimo global e
possuir uma boa capacidade de generalização. As SVMs trabalham com o conceito de kernels.
Kernels são funções que permitem mapear um conjunto de dados de um espaço dimensional
para outro de maior dimensão. A idéia por detrás dessa transformação é encontrar um
espaço no qual os dados sejam linearmente separáveis. Nesse espaço os dados são separados
por um hiperplano de margens máximas, ou seja, pelo hiperplano que melhor separa uma
categoria da outra. Apenas os dados que se encontram mais próximos desse hiperplano são
necessários para a correta classificação dos dados e são denominados support vectors.
Para
determinação da estrutura secundária das proteínas do conjunto de dados RS126
(benchmark de proteínas utilizado para testes nesse trabalho), foram construídas 3 SVMs
binárias de kernel gaussiano: uma que classifica em C (coil) ou F (folha-β), outra em C
ou H (α-hélice) e a última em F ou H. A seqüência de aminoácidos é codificada de acordo
com a tabela de hidrofobicidade de Kyte-Doolittle normalizada para o intervalo [-1,+1]. A
união dessas SVMs formam um classificador ternário que classifica cada aminoácido em C, F
ou H. Esse classificador obteve uma precisão de 73,72%
a qual é comparável com outros
métodos do estado-da-arte (como o PHD que utiliza Redes Neurais e tem precisão de 72,1%).
Esses resultados fazem das SVMs um método eficiente para a resolução do problema da
determinação da estrutura secundária de proteínas.
Download

Predição da Estrutura Secundária de Proteínas Usando Support