Melhorando a Predição de
estruturas secundárias de
proteínas usando RN
recorrentes e perfis.
Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and Pierre Baldi
Edson Filho
O Problema
• Predizer estruturas terciárias (3D) e
a função de proteínas conhecendo
apenas a sua estrutura primária
(linear)
• Predição de estruturas
– Predição da posição (relativa) espacial de cada
átomo na estrutura terciária gerada apenas do
conhecimento da estrutura primária
(seqüência)
Motivação
• Por que predizer estruturas de proteínas?
– A predição de estruturas pode ser usada na
criação de drogas
– Pode ser usada para entender efeitos das
mutações em estruturas e funções
Motivação
• Por que predizer a estrutura?
– Atualmente conhecemos cerca de 350.000
seqüências e apenas 11.000 estruturas*.
– O conhecimento estrutural ajuda a conhecer
a função e o mecanismo de ação da proteína.
•
*D.R. Westhead,2002
Motivação
• Genome sequencing projects
– generate large quantities of genomic
sequences
– BUT what does it mean?
• Prediction of protein sequence, structure
and function can give clue
• Predictions can be verified experimentally
– often slow
Motivação
• Paradigma evolucionário
– Se pudermos mostrar que uma seqüência de
uma função(estrutura) desconhecida é similar
a uma ou mais estruturas(funções)
conhecidas então elas têm detalhes
estruturais(funcionais) comuns entre elas.
Artifícios
•
•
•
•
•
•
Profile Analysis
BLAST
PSIBLAST
Redes Neurais Recorrentes
Secondary Structure Prediction
DSSP
What is a Profile?
• A profile is a position-dependent scoring
matrix that has N rows and 20+ columns.
N is the length of the profile. The first 20
columns of each row specify the
probability for finding, at that position in
the target sequence, each of the 20 amino
acid residues. The >20 column(s)
contain(s) a penalty (penalties) for
insertions / deletions at that position.
Specifically, the Mkj element of the profile
is the score for jth amino acid (or gap) at
kth position of the sequence.
Profile analysis: detection of
distantly related proteins
• Profile analysis é um método para
detectar proteínas remotamente
relacionadas usando comparação de
seqüências. A base para comparação é a
distância mutacional mais o resultados de
estudos estruturais e a informação
implícita no alinhamento de seqüência de
proteínas de famílias similares.
Profile analysis: detection of
distantly related proteins (cont.)
• Esse método possui duas diferenças básicas
em relação aos métodos de comparação
convencionais:
– Qualquer número de seqüências podem ser usados
para construir o perfil, considerando assim mais
informação.
– O perfil inclui penalidades para inserção ou deleção
para cada posição. Isso permite incluir a prova da
estrutura secundária no esquema de teste.
•
Gribskov M, McLachlan AD, Eisenberg D.
O que é BLAST?
• BLAST® (Basic Local Alignment Search
Tool) é um conjunto de programas de
busca de similaridade projetado para
explorar todas as seqüências disponíveis
no banco sem considerar se são proteínas
ou DNA. (Altschul et al. 1990).
PSI-BLAST
• Position-Specific Iterative BLAST. Uma
busca iterativa usando BLAST. Um perfil é
construído a partir de uma busca inicial,
este é então usado em buscas
subsequentes.
• O processo pode ser repetido, com as
novas seqüências encontradas em cada
ciclo para refinar o perfil. (Altschul et al.)
DSSP Program
• Função:
– Definition of secondary structure of proteins
given a set of 3D coordinates
• Descrição:
– The DSSP program defines secondary
structure, geometrical features and solvent
exposure of proteins, given atomic
coordinates in Protein Data Bank format.
– The program does NOT PREDICT protein
structure.
Como funciona o DSSP
• DSSP works by assigning potential
backbone hydrogen bonds (based on the
3D coordinates of the backbone atoms)
and subsequently by identifying repetitive
bonding patterns.
Estrutura Secundária
• 8 classes
–
–
–
–
–
–
–
–
H - alpha helix
B - residue in isolated betabridge
E - extended strand, participates in beta ladder
G - 3-helix [3/10 helix]
I - 5 helix [pi helix]
T - hydrogen bonded turn
S - bend
“.”
• 3 classes:
– helices, strands, and coils
O que são RNA
• São modelos computacionais com
propriedades de adaptação, agrupamento
e generalização.
• Estruturas distribuídas formadas por um
grande número de unidades de
processamento conectadas entre si e
inspiradas no neurônio biológico.
Redes Neurais Recorrentes
• RNR são redes neurais com realimentação
(Feedback), isto é, redes com "feedback"
são aquelas cujo grafo de conectividade
contém pelo menos um ciclo.
RNR - Exemplo
Por que utilizar as RNs?
• habilidade de tratar sistemas não-lineares:
relevante na classificação de padrões;
• tolerância a falhas: o conhecimento é
distribuído pela RN, mais que em uma simples
localização de memória.
• adaptabilidade: Os aspectos de aprendizado,
auto-organização, generalização e treinamento
estão intrinsecamente ligados a esta
característica;
• aprendizado: uma RN pode modificar seu
comportamento em resposta ao ambiente.
Por que utilizar as RNs?
• generalização: consiste na RN mapear
entradas similares em saídas similares
• treinamento: é a forma pela qual a RN aprende
• processamento paralelo: as RNs são
estruturalmente paralelas. A seqüência de
processamento das RNs é realizada em
paralelo e simultaneamente
• abstração: muitas RNs são capazes de abstrair
a essência de um conjunto de entradas
Aplicações de RNR
• Sequence Recognition and Classication: the
net produces a particular output pattern once the
whole input sequence is seen.
• Sequence Reproduction and Prediction: the
net can generate the rest of a sequence when it
sees part of it.
• Temporal Association: the net will produce an
output sequence in response to a specic input
sequence.
O experimento
• Segunda versão do SSpro para
classificação secundária nas classes
padrões (hélice, corda e cilindro).
• Primeira versão do SSpro8 para
classificação secundária em oito classes.
• Ambos podem ser encontrados em:
http://promoter.ics.uci.edu/BRNN-PRED/
O experimento
• Quatro conjuntos de dados foram usados
para desenvolver e testar a aplicação
sendo um para treinamento(TRAIN) e três
para teste(R126, EVA, and CASP4)
• Mesmo conjunto de treinamento do SSpro
1.0
O conjunto de Treinamento
•
•
•
•
at least 30 amino acids long
have no chain breaks
Produce a DSSP output
are obtained by X-ray diffraction methods
with a resolution of at least 2.5 Å.
• The resulting training set consists of 1180
sequences corresponding to 282,303
amino acids.
O experimento
• Profiles (Perfis)
– Para tentar melhorar, foi usado tanto o perfil
BLAST quanto o PSIBLAST considerados na
entrada. Usar perfis no nível de entrada
geralmente têm melhorado a precisão que
quando usados na saída.
O experimento
• BLAST
– Os perfis de entrada para o SSpro 1.0 foram
construidos inicialmente rodando o BLAST
sobre o banco não redundante(NR) com os
parâmetros default. A versão usada era a
disponível em Outubro de 1999 e continha
aproximadamente 420.000 seqüências de
proteínas.
O experimento
• PSI-BLAST
– Foram derivados novos perfis
alinhando todas as proteínas do
banco NR usando o PSIBLAST.
O experimento
• Recurrent Neural Network
Architectures
– Foi proposta uma classe de rede neural
recorrente que pode atenuar algumas
limitações das redes feed-forward. Nessas
redes foram usadas pequenas janelas de
entrada de tamanho fixo.
O experimento - TESTES
• R126
– O primeiro teste independente, foi usado o
conjunto original de 126 seqüências de Rost
and Sander, atualmente correspondendo a
um total de 23.363 posições de aminoácidos.
– Houve 76.62% de acerto no SSPro 1.0
– Houve 78.13% de acerto no SSPro 2.0
– Houve 62.58% de acerto no SSPro8 2.0
O experimento - TESTES
• EVA
– Um novo teste se tornou possível, graças as
seqüências do EVA, que compara servidores
de predição em uma base regular usando as
seqüências depositadas semanalmente.
– Este foi o maior banco em que o SSpro 1.0 foi
testado junto com outros servidores.
– Houve 76.00% de acerto no SSPro 1.0
– Houve 77.65% de acerto no SSPro 2.0
– Houve 63.31% de acerto no SSPro8 2.0
O experimento - TESTES
• CASP4
– O ultimo teste foi feito com as 40 seqüências
do CASP4 disponíveis em
http://predictioncenter.llnl.gov/casp4/ que
correspondem a 9047 resíduos.
– Houve 77.80% de acerto no SSPro 1.0
– Houve 80.65% de acerto no SSPro 2.0
Resultados - SSpro
• Em todos os casos, PSI-BLAST profiles
proveram uma melhora de pelo menos
1.5%. No conjunto EVA, SSpro 2.0 foi
77.7%. melhor que todos os outros
sistemas avaliados.
• incidentalmente, treinando no perfil
BLAST e testando no PSIBLAST também
levou a melhora no desempenho, embora
não muita.
Resultados – SSpro8
• Aparentemente, a predição em oito
classes classes não melhorou a predição
da estrutura secundária em três classes.
entretanto, os resultados atuais são
emcorajadores, pois os resultados tendem
a melhorar com o aumento da quantidade
de dados disponíveis.
Comparando com o CIN
• Combining only three neural networks, an
average Q3 accuracy prediction by
residues of 75,93% is achieved.
• For a second database, RS126, an
average accuracy of 74,13%.
Conculões
• Foram desenvolvidos três preditores
“state-of-the-art” para estrutura secundária
em três e oito classes, usando um grupo
de redes recorrentes bidirecionais e perfis
PSIBLAST.
• Estimou-se o ganho atribuído ao uso de
PSI-BLAST profiles sobre BLAST.