Bibliotecas de Fragmentos
para Inferência de
Estruturas de Proteínas
Tiago Edmundo Ribeiro Brito
Orientadora: Katia S. Guimarães
Mestrado em Ciência da Computação
Roteiro
• Proteínas e sua Importância
• Estruturas das Proteínas
• Determinação da Estrutura 3-D
• Bibliotecas de Fragmentos
• Trabalho Proposto
• Conclusões
Proteínas
• Proteínas são polímeros cuja unidade básica é o
aminoácido.
• São os principais e mais abundantes componentes
orgânicos da célula, participando das estruturas celulares
e dos processos bioquímicos da fisiologia celular.
Estruturas das Proteínas
• Níveis Estruturais
– Est. Primária (Seqüência de Aminoácidos)
– Est. Secundária (Arranjos Recorrentes dos R)
– Est. Terciária (Conformação 3-D)
• Função x Forma 3-D
Determinação da Est. 3-D
• Métodos Experimentais:
– Cristalografia
– Ressonância Magnética Nuclear
– Extremamente precisos, porém caros e instáveis
• Métodos Teóricos:
– Homologia ou Modelagem Comparativa (tradicional)
– Bibliotecas de Fragmentos (nova tendência)
Homologia
• Baseia-se na comparação entre as proteínasalvo e outras cuja estrutura já seja conhecida
– Alinhamento entre proteínas homólogas e o alvo
– Verificação de proximidades locais
– Construção e validação do modelo total
• Desvantagens
– Requer pesquisa de proteínas homólogas
– Processo iterativo, com aplicação de restrições ao
final de cada passo
Bibliotecas de Fragmentos
• Baseia-se na construção de conjuntos de fragmentos
representativos de proteínas
– 1986, Jones et al.: o backbone das proteínas é composto
de estruturas repetidas (4 a 10 resíduos)
• Dificuldade
– Infinitas possibilidades de conformação entre dois
fragmentos
• Solução
– Usar forte restrição na conformação
Bib. Fragmentos - Motivação
• Breve histórico estrutural das proteínas:
– Há quase 50 anos, as hélices  e fitas  foram descritas por Corey &
Pauling.
– Dez anos mais tarde, os ângulos de torção  e , permitidos a cada
resíduo na interação das ramificações laterais com a cadeia principal,
foram definidos por Ramachandran
– Em 1986 - Jones & Thirup detectam que quase todas as regiões do
backbone da proteína são formadas por estruturas canônicas
repetidas.
– Posteriormente, Unger et al. classificaram as unidades peptídicas,
formadas de 4 a 10 resíduos, da cadeia principal das proteínas numa
coleção de fragmentos. Nível intermediário de representação das
estruturas das proteínas (entre a estrutura primária e a secundária).
Bib. Fragmentos - Motivação
• Mesmo utilizando os ângulos de torção para restringir o
grau de liberdade, a cadeia de uma proteína pode ter um
número infinito de diferentes conformações.
• Restringir a conformação local dos resíduos para um
número limitado de estados pode ajudar na discretização
da conformação da proteína, reduzindo o número de
possíveis arranjos espaciais.
• Logicamente, a utilidade deste tipo de modelo depende da
exatidão com que ele modela a conformação real da
proteína bem como sua complexidade, o número de
possíveis estados de cada resíduo.
Bib. Fragmentos – Princípio
• Encontrar um conjunto finito de
fragmentos de proteínas que possam
ser utilizados para aproximar a
conformação espacial de qualquer
proteína com boa precisão.
Bib. Fragmentos – Etapas
•
•
•
•
I – Conjunto de Treinamento
II – Construção das Bibliotecas
III – Modelagem do Alvo
IV – Validação do Modelo
Bib. Fragmentos – Etapa I
• Conjunto de Treinamento
– Seleção das proteínas que darão
origem às bibliotecas
– Fragmentação com escolha do
comprimento dos fragmentos
Bib. Fragmentos – Etapa II
• Construção das Bibliotecas
– Agrupamento dos fragmentos mais
representativos através de clustering
– Escolha de uma das técnicas
existentes
• Uso de uma métrica de comparação
entre fragmentos
Bib. Fragmentos – Etapa III
• Modelagem do Alvo
– A partir de uma biblioteca, modela-se
a estrutura da proteína-alvo,
semelhante à montagem de um
quebra-cabeças
– Aplicação de restrições
Bib. Fragmentos – Etapa IV
• Validação do Modelo
– Comparação com o modelo real
(testes)
– Uso de softwares específicos
Bib. Fragmentos – Est. Caso
• Estudo exaustivo com bibliotecas de
fragmentos de comprimento variando de 4 a
7 resíduos. (Cientistas da Univ. de Stanford)
• A exatidão das representações discretas
depende da sua complexidade e varia de 1.9Å
para um modelo de 4 estados e fragmentos de
tamanho 7 até 0.76Å para um modelo de 15
estados e fragmentos de tamanho 5.
Bib. Fragmentos – Est. Caso
• Para a fase inicial de clustering um conjunto de proteínas
do PDB, com os dados estruturais mais confiáveis, serviu
como conjunto de dados inicial (tabela 1).
• Deste conjunto de proteínas foram extraídos quatro
conjuntos de treinamento de fragmentos de backbone de
proteínas. Estes conjuntos de treinamento diferiam no
comprimento dos fragmentos que variava de 4 a 7
resíduos. O número de fragmentos em cada conjunto foi
8949, 7123, 5910, 5029 para comprimentos de 4, 5, 6 e 7
resíduos, respectivamente.
Bib. Fragmentos – Est. Caso
• Antes da aplicação da técnica de clustering duas observações
a respeito dos dados do conjunto de testes precisam ser
ressaltadas: os fragmentos considerados fora do padrão e a
grande quantidade de fragmentos hélice .
– Os primeiros são aqueles cujo desvio cRMS em relação a
todos os outros é relativamente alto. De acordo com um
limiar, estes fragmentos são removidos. Cerca de 10%
são descartados com os seguintes valores de limiar:
0.074Å, 0.307Å, 0.487Å e 0.755Å, para conjuntos de de
comprimento 4, 5, 6 e 7 resíduos, respectivamente.
– A grande quantidade de fragmentos contendo hélices 
dificulta a rotina de clustering.
Bib. Fragmentos – Est. Caso
• A similaridade estrutural entre dois
fragmentos é medida através do desvio
cRMS entre os átomos Cα, após
superposições usando mínimos quadrados.
Bib. Fragmentos – Est. Caso
• Técnica de clustering: Simulated annealing k-means.
– Indicado para vários problemas de clustering utilizando dados
biológicos com distribuição desconhecida e desigual dos objetos.
– derivada da k-means pelo melhoramento do conjunto de
centroids.
– O k-means clustering é executado repetidas vezes
mesclando dois conjuntos e dividindo outro.
• Os conjuntos a serem mesclados são selecionados aleatoriamente,
sendo que os conjuntos mais próximos têm maiores chances de
ser selecionados.
• O conjunto a ser dividido também é selecionado aleatoriamente,
sendo que conjuntos dispersos têm mais chances de ser
escolhidos.
Bib. Fragmentos – Est. Caso
• Várias funções diferentes foram testadas na atribuição de
uma pontuação a cada conjunto e a escolhida (melhores
resultados) foi a variância total do conjunto (soma de
todos os quadrados das distâncias dos fragmentos em
relação ao elemento principal do conjunto - centroid).
• O número de conjuntos desejado é um parâmetro para a
rotina de clustering.
• O método utilizado é melhor que o seu antecessor pois
lida melhor com altas concentrações de fragmentos
(grande quantidade de hélices ) e por ser indiferente à
escolha inicial dos elementos centrais dos conjuntos.
Bib. Fragmentos – Est. Caso
• Esta técnica é ainda um pouco melhor que o método de
clustering hierárquico (cujo tempo de execução é muito
maior) que mescla os conjuntos em baseando-se na
distância máxima entre quaisquer dois membros de
conjuntos diferentes.
• O resultado da aplicação da técnica de clustering é
compilado em bibliotecas, pequenos conjuntos de
fragmentos representativos de proteínas. As bibliotecas
são representações dos conjuntos e são constituídas pelos
elementos centrais dos mesmos (o fragmento com a
mínima soma dos desvios cRMS relativo a todos os outros
fragmentos do conjunto).
Bib. Fragmentos – Est. Caso
• Muitas execuções da rotina de clustering são realizadas
(variando o número de conjuntos e o comprimento dos
fragmentos). Cada execução inicia-se com 50 diferentes
elementos centrais (sementes) aleatórias e, ao final, escolhe a
melhor biblioteca com a mínima pontuação de variância total.
• Como os fragmentos agrupados são utilizados para construir
bibliotecas representativas de todos os fragmentos do conjunto
de treinamento, é esperado que resultem em boas bibliotecas,
representando também todos os motifs encontrados nas proteínas
reais. Para mensurar a qualidade de uma biblioteca são usados o
local e o global fits (ajustes), obtidos a partir da aproximação da
estrutura das proteínas do conjunto de testes (independente do
conjunto de treinamento).
Bib. Fragmentos – Est. Caso
• Local-fit: medida de quão bem a biblioteca
modela a conformação local de todas as
proteínas no conjunto de testes.
– Cada proteína é desmembrada num conjunto de
fragmentos de tamanho específico f. Cada fragmento
da proteína é associado a um fragmento da
biblioteca que contenha o melhor valor do cRMS.
– O local-fit é a média dos valores dos cRMS de todos
os fragmentos aproximados.
Bib. Fragmentos – Est. Caso
• Global-fit, é a medida de quão bem uma biblioteca modela a
conformação tridimensional global de todas as proteínas do
conjunto de testes.
– Uma forma de construir estruturas tridimensionais contíguas
a partir das bibliotecas de fragmentos é concatenar os
fragmentos de bibliotecas com melhores local-fit citados
anteriormente.
– Superpondo o primeiro átomo C de cada fragmento com o
último átomo C  do fragmento anterior, torna-se necessário
especificar a orientação dos dois fragmentos. Isso pode ser
feito pela especificação os ângulos de torção  e .
– Porém, em muitos casos, estes ângulos podem assumir uma
grande combinação de valores.
Bib. Fragmentos – Est. Caso
– A solução encontrada foi utilizar o chamado global-fit
aproximado, onde a posição de um fragmento é determinada
pela superposição dos seus três primeiros C com os três
últimos do fragmento anterior (Exemplo 2-D na figura 6).
– Esta abordagem discretiza o espaço de todas as aproximações
construindo uma relação de um para um entre uma sequência
de fragmentos e sua representação tridimensional.
• Enquanto o melhor local-fit pode ser facilmente calculado, a
sequência de fragmentos de biblioteca necessários para o globalfit é muito mais difícil de encontrar.
• A sequência ótima de fragmentos de biblioteca deve definir a
estrutura 3-D com o mínimo desvio cRMS em relação à
estrutura real da proteína alvo.
Bib. Fragmentos – Est. Caso
• Conjunto de teste de proteínas utilizado por
Park & Levitt. Inclui 145 proteínas com
diferentes estruturas de motifs, de comprimentos
variáveis entre 36 e 753 resíduos. (Tabela 1,
identificadores do PDB das 145 proteínas).
• Facilidade na comparação e extensão dos
resultados obtidos em relação aos dois autores
citados.
Bib. Fragmentos – Est. Caso
• Tabela 2 mostra os melhores valores do local-fit.
• A figura 1 mostra os dados da tabela 2 em função da
complexidade das bibliotecas. Os fragmentos das proteínas do
conjunto de teste podem ser descritos satisfatoriamente por
qualquer das bibliotecas consideradas (desvio abaixo de 1Å em
todos os casos).
• Para bibliotecas cujos fragmentos têm o mesmo tamanho, a
exatidão do local-fit aumenta junto com a complexidade.
• Para bibliotecas que possuem a mesma complexidade, a exatidão
do local-fit aumenta com a diminuição do número de resíduos
dos fragmentos (Menor número de átomos C).
Bib. Fragmentos – Est. Caso
• Tabela 2 mostra também os valores do global-fit.
• A figura 2 mostra os dados da tabela 2 em função da
complexidade das bibliotecas. A média do global-fit no
conjunto de testes varia de 2.58 Å, para a complexidade
mais baixa, até 0.76 Å para a biblioteca de complexidade
mais alta.
• Para fragmentos que têm o mesmo tamanho, bibliotecas
mais complexas oferecem uma melhor aproximação pelo
global-fit.
• Para uma mesma complexidade, bibliotecas cujos
fragmentos têm maior comprimento resultam numa melhor
aproximação do global-fit.
Bib. Fragmentos – Est. Caso
• Figura 4 mostra a média do desvio cRMS das
aproximações local-fit versus a mesma medida das
aproximações global-fit.
– O local-fit é sempre menor que o cRMS global-fit
correspondente. Isto já era esperado, pois o local-fit ignora a
ligação entre fragmentos adjacentes ao longo da cadeia.
– Desta forma, pode-se utilizar o local-fit na estimativa do
global-fit. É possível perceber também que, para um mesmo
nível de global-fit, o local-fit decresce com o comprimento
do fragmento.
Bib. Fragmentos – Est. Caso
• A dependência da exatidão das aproximações em
relação ao comprimento das proteínas aproximadas.
– Foram considerados os desvios cRMS da melhor
aproximação local-fit e da melhor aproximação global-fit
versus o comprimento do polipeptídio.
– A exatidão da aproximação local-fit é independente do
comprimento da cadeia.
– Já as aproximações global-fit são ligeiramente dependentes
do comprimento da cadeia (os dados não foram exibidos).
• Exemplo de aproximações na figura 5.
Bib. Fragmentos – Est. Caso
• Nas aproximações feitas com as bibliotecas de fragmentos o
global-fit varia de 2.9 Ǻ até 0.76 Ǻ com complexidades de 2.66
a 15 estados por resíduo, respectivamente.
• Os modelos resultantes da aproximação da estrutura das
proteínas utilizando tais bibliotecas são úteis para:
– predição de estruturas,
– ajustes de loops,
– enumeração exaustiva de conformações de peptídeos e
– determinação de estrutura de baixa resolução através de
ressonância nuclear magnética (nuclear magnetic ressonance
- NMR) ou critalografia de raio-X.
Bib. Fragmentos – Est. Caso
• Resultados ainda melhores são esperados com a utilização de
bibliotecas de fragmentos de tamanho 6 ou 7.
• Porém, para construção de tais bibliotecas uma grande
quantidade de dados de coordenadas de proteínas é
necessário. Aqui, são utilizadas bibliotecas de 250 fragmentos
de comprimento 7 que apresentam uma complexidade de 1.91
Å. Para atingir 1 Å seria necessário uma complexidade em
torno de 8 e 84 = 4096 fragmentos (futuro, com o crescimento
na determinação das estruturas das proteínas).
Proposta de Trabalho
• Construir e analisar diferentes tipos de
bibliotecas de fragmentos
• Objetivo principal:
– Determinar parâmetros ideais para aproximação
de estruturas de proteínas
– Variações serem testadas
•
•
•
•
Métrica de similaridade
Técnicas de clustering
Comprimento dos resíduos
Tamanho das bibliotecas
Conclusões
• Técnicas computacionais x Distância entre
seqüências e estruturas 3-D
• Uso de bibliotecas de fragmentos
– técnica mais rápida e tão precisa quanto a modelagem
comparativa
• Proposta
– Necessidade de aprofundamento e estabelecimento de
parâmetros ideais na aplicação da nova técnica
Referências
• HOLMES, J. Bradley and TSAI, Jerry. Protein Science.
2004, 13, P. 1636-1650.
• KOLODNY, Rachel; KOEHL, Patrice; GUIBAS, Leonidas and
LEVITT, Michael. Journal of Molecular Biology. 2002, 323, P.
297-307.
Bibliotecas de Fragmentos
para Inferência de
Estruturas de Proteínas
Tiago Edmundo Ribeiro Brito
<[email protected]>
Voltar
Voltar
Voltar
Voltar
Voltar
Voltar
Voltar
Download

Bancos de Fragmentos de Proteínas