Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and Pierre Baldi Edson Filho O Problema • Predizer estruturas terciárias (3D) e a função de proteínas conhecendo apenas a sua estrutura primária (linear) • Predição de estruturas – Predição da posição (relativa) espacial de cada átomo na estrutura terciária gerada apenas do conhecimento da estrutura primária (seqüência) Motivação • Por que predizer estruturas de proteínas? – A predição de estruturas pode ser usada na criação de drogas – Pode ser usada para entender efeitos das mutações em estruturas e funções Motivação • Por que predizer a estrutura? – Atualmente conhecemos cerca de 350.000 seqüências e apenas 11.000 estruturas*. – O conhecimento estrutural ajuda a conhecer a função e o mecanismo de ação da proteína. • *D.R. Westhead,2002 Motivação • Genome sequencing projects – generate large quantities of genomic sequences – BUT what does it mean? • Prediction of protein sequence, structure and function can give clue • Predictions can be verified experimentally – often slow Motivação • Paradigma evolucionário – Se pudermos mostrar que uma seqüência de uma função(estrutura) desconhecida é similar a uma ou mais estruturas(funções) conhecidas então elas têm detalhes estruturais(funcionais) comuns entre elas. Artifícios • • • • • • Profile Analysis BLAST PSIBLAST Redes Neurais Recorrentes Secondary Structure Prediction DSSP What is a Profile? • A profile is a position-dependent scoring matrix that has N rows and 20+ columns. N is the length of the profile. The first 20 columns of each row specify the probability for finding, at that position in the target sequence, each of the 20 amino acid residues. The >20 column(s) contain(s) a penalty (penalties) for insertions / deletions at that position. Specifically, the Mkj element of the profile is the score for jth amino acid (or gap) at kth position of the sequence. Profile analysis: detection of distantly related proteins • Profile analysis é um método para detectar proteínas remotamente relacionadas usando comparação de seqüências. A base para comparação é a distância mutacional mais o resultados de estudos estruturais e a informação implícita no alinhamento de seqüência de proteínas de famílias similares. Profile analysis: detection of distantly related proteins (cont.) • Esse método possui duas diferenças básicas em relação aos métodos de comparação convencionais: – Qualquer número de seqüências podem ser usados para construir o perfil, considerando assim mais informação. – O perfil inclui penalidades para inserção ou deleção para cada posição. Isso permite incluir a prova da estrutura secundária no esquema de teste. • Gribskov M, McLachlan AD, Eisenberg D. O que é BLAST? • BLAST® (Basic Local Alignment Search Tool) é um conjunto de programas de busca de similaridade projetado para explorar todas as seqüências disponíveis no banco sem considerar se são proteínas ou DNA. (Altschul et al. 1990). PSI-BLAST • Position-Specific Iterative BLAST. Uma busca iterativa usando BLAST. Um perfil é construído a partir de uma busca inicial, este é então usado em buscas subsequentes. • O processo pode ser repetido, com as novas seqüências encontradas em cada ciclo para refinar o perfil. (Altschul et al.) DSSP Program • Função: – Definition of secondary structure of proteins given a set of 3D coordinates • Descrição: – The DSSP program defines secondary structure, geometrical features and solvent exposure of proteins, given atomic coordinates in Protein Data Bank format. – The program does NOT PREDICT protein structure. Como funciona o DSSP • DSSP works by assigning potential backbone hydrogen bonds (based on the 3D coordinates of the backbone atoms) and subsequently by identifying repetitive bonding patterns. Estrutura Secundária • 8 classes – – – – – – – – H - alpha helix B - residue in isolated betabridge E - extended strand, participates in beta ladder G - 3-helix [3/10 helix] I - 5 helix [pi helix] T - hydrogen bonded turn S - bend “.” • 3 classes: – helices, strands, and coils O que são RNA • São modelos computacionais com propriedades de adaptação, agrupamento e generalização. • Estruturas distribuídas formadas por um grande número de unidades de processamento conectadas entre si e inspiradas no neurônio biológico. Redes Neurais Recorrentes • RNR são redes neurais com realimentação (Feedback), isto é, redes com "feedback" são aquelas cujo grafo de conectividade contém pelo menos um ciclo. RNR - Exemplo Por que utilizar as RNs? • habilidade de tratar sistemas não-lineares: relevante na classificação de padrões; • tolerância a falhas: o conhecimento é distribuído pela RN, mais que em uma simples localização de memória. • adaptabilidade: Os aspectos de aprendizado, auto-organização, generalização e treinamento estão intrinsecamente ligados a esta característica; • aprendizado: uma RN pode modificar seu comportamento em resposta ao ambiente. Por que utilizar as RNs? • generalização: consiste na RN mapear entradas similares em saídas similares • treinamento: é a forma pela qual a RN aprende • processamento paralelo: as RNs são estruturalmente paralelas. A seqüência de processamento das RNs é realizada em paralelo e simultaneamente • abstração: muitas RNs são capazes de abstrair a essência de um conjunto de entradas Aplicações de RNR • Sequence Recognition and Classication: the net produces a particular output pattern once the whole input sequence is seen. • Sequence Reproduction and Prediction: the net can generate the rest of a sequence when it sees part of it. • Temporal Association: the net will produce an output sequence in response to a specic input sequence. O experimento • Segunda versão do SSpro para classificação secundária nas classes padrões (hélice, corda e cilindro). • Primeira versão do SSpro8 para classificação secundária em oito classes. • Ambos podem ser encontrados em: http://promoter.ics.uci.edu/BRNN-PRED/ O experimento • Quatro conjuntos de dados foram usados para desenvolver e testar a aplicação sendo um para treinamento(TRAIN) e três para teste(R126, EVA, and CASP4) • Mesmo conjunto de treinamento do SSpro 1.0 O conjunto de Treinamento • • • • at least 30 amino acids long have no chain breaks Produce a DSSP output are obtained by X-ray diffraction methods with a resolution of at least 2.5 Å. • The resulting training set consists of 1180 sequences corresponding to 282,303 amino acids. O experimento • Profiles (Perfis) – Para tentar melhorar, foi usado tanto o perfil BLAST quanto o PSIBLAST considerados na entrada. Usar perfis no nível de entrada geralmente têm melhorado a precisão que quando usados na saída. O experimento • BLAST – Os perfis de entrada para o SSpro 1.0 foram construidos inicialmente rodando o BLAST sobre o banco não redundante(NR) com os parâmetros default. A versão usada era a disponível em Outubro de 1999 e continha aproximadamente 420.000 seqüências de proteínas. O experimento • PSI-BLAST – Foram derivados novos perfis alinhando todas as proteínas do banco NR usando o PSIBLAST. O experimento • Recurrent Neural Network Architectures – Foi proposta uma classe de rede neural recorrente que pode atenuar algumas limitações das redes feed-forward. Nessas redes foram usadas pequenas janelas de entrada de tamanho fixo. O experimento - TESTES • R126 – O primeiro teste independente, foi usado o conjunto original de 126 seqüências de Rost and Sander, atualmente correspondendo a um total de 23.363 posições de aminoácidos. – Houve 76.62% de acerto no SSPro 1.0 – Houve 78.13% de acerto no SSPro 2.0 – Houve 62.58% de acerto no SSPro8 2.0 O experimento - TESTES • EVA – Um novo teste se tornou possível, graças as seqüências do EVA, que compara servidores de predição em uma base regular usando as seqüências depositadas semanalmente. – Este foi o maior banco em que o SSpro 1.0 foi testado junto com outros servidores. – Houve 76.00% de acerto no SSPro 1.0 – Houve 77.65% de acerto no SSPro 2.0 – Houve 63.31% de acerto no SSPro8 2.0 O experimento - TESTES • CASP4 – O ultimo teste foi feito com as 40 seqüências do CASP4 disponíveis em http://predictioncenter.llnl.gov/casp4/ que correspondem a 9047 resíduos. – Houve 77.80% de acerto no SSPro 1.0 – Houve 80.65% de acerto no SSPro 2.0 Resultados - SSpro • Em todos os casos, PSI-BLAST profiles proveram uma melhora de pelo menos 1.5%. No conjunto EVA, SSpro 2.0 foi 77.7%. melhor que todos os outros sistemas avaliados. • incidentalmente, treinando no perfil BLAST e testando no PSIBLAST também levou a melhora no desempenho, embora não muita. Resultados – SSpro8 • Aparentemente, a predição em oito classes classes não melhorou a predição da estrutura secundária em três classes. entretanto, os resultados atuais são emcorajadores, pois os resultados tendem a melhorar com o aumento da quantidade de dados disponíveis. Comparando com o CIN • Combining only three neural networks, an average Q3 accuracy prediction by residues of 75,93% is achieved. • For a second database, RS126, an average accuracy of 74,13%. Conculões • Foram desenvolvidos três preditores “state-of-the-art” para estrutura secundária em três e oito classes, usando um grupo de redes recorrentes bidirecionais e perfis PSIBLAST. • Estimou-se o ganho atribuído ao uso de PSI-BLAST profiles sobre BLAST.