Resumo registrado no evento sob nº 122 ISSN 1807-3441 Universidade Estadual do Centro-Oeste - UNICENTRO 17 a 20 de outubro de 2006 PREDIÇÃO DA ESTRUTURA SECUNDÁRIA DE PROTEÍNAS USANDO SUPPORT VECTOR MACHINES CAROLINA PAULA DE ALMEIDA [email protected] MYRIAM REGATTIERI DE BIASI DA SILVA DELGADO Orientador Prof. RICHARD ADERBAL GONCALVES Universidade Federal Tecnológica do Paraná (UFT-PR) Palavras-chave: SUPPORT VECTOR MACHINES, PREDIÇÃO DA ESTRUTURA DE PROTEÍNAS, INTELIGÊNCIA COMPUTACIONAL, BIOINFORMÁTICA Grande Área: Ciências Exatas e da Terra Área: Ciência da Computação Uma das tarefas mais importantes da Bioinformática é determinar a Estrutura de Proteínas a partir de sua seqüência de aminoácidos. Atualmente são conhecidas aproximadamente 2.000.000 de seqüências de proteínas das quais se conhece a estrutura de apenas 35.000, o que comprova a dificuldade desse problema. De acordo com sua seqüência de aminoácidos, as proteínas podem assumir uma determinada estrutura (primária, secundária, terciária e quaternária). A determinação da estrutura secundária de proteínas consiste em identificar os padrões estruturais (α-hélices, folhas-β, entre outros) presentes na seqüência de aminoácidos. Esse trabalho apresenta o desenvolvimento de um conjunto de Support Vector Machines sistemas (SVMs) matemático de e para a aprendizado predição estatístico. da estrutura relativamente Quando secundária recentes comparadas a que outros de possuem tipos proteínas. um de forte As SVMs são embasamento classificadores elas possuem a vantagem de evitar o overfitting, convergir sempre para um ótimo global e possuir uma boa capacidade de generalização. As SVMs trabalham com o conceito de kernels. Kernels são funções que permitem mapear um conjunto de dados de um espaço dimensional para outro de maior dimensão. A idéia por detrás dessa transformação é encontrar um espaço no qual os dados sejam linearmente separáveis. Nesse espaço os dados são separados por um hiperplano de margens máximas, ou seja, pelo hiperplano que melhor separa uma categoria da outra. Apenas os dados que se encontram mais próximos desse hiperplano são necessários para a correta classificação dos dados e são denominados support vectors. Para determinação da estrutura secundária das proteínas do conjunto de dados RS126 (benchmark de proteínas utilizado para testes nesse trabalho), foram construídas 3 SVMs binárias de kernel gaussiano: uma que classifica em C (coil) ou F (folha-β), outra em C ou H (α-hélice) e a última em F ou H. A seqüência de aminoácidos é codificada de acordo com a tabela de hidrofobicidade de Kyte-Doolittle normalizada para o intervalo [-1,+1]. A união dessas SVMs formam um classificador ternário que classifica cada aminoácido em C, F ou H. Esse classificador obteve uma precisão de 73,72% a qual é comparável com outros métodos do estado-da-arte (como o PHD que utiliza Redes Neurais e tem precisão de 72,1%). Esses resultados fazem das SVMs um método eficiente para a resolução do problema da determinação da estrutura secundária de proteínas.