Bioinformática
Felipe G. Torres
ALINHAMENTOS
• Até este momento, o curso deve ter
despertado em você a seguinte dúvida:
Como eu faço para
comparar duas ou
mais sequências ?
ALINHAMENTOS
• Para que serve ?
• Comparar genes de DNA
• Fazer filtros de sequências similares em
conjuntos de sequências
• Predição de propensão a doenças
ALINHAMENTOS
ALINHAMENTOS
• A importância da similaridade...
• Encontrar similaridade entre sequências,
indica a possível presença de um
ancestral em comum.
• Os biólogos chamam genes (>70%) ou
proteínas (>25%) muito similares de
homólogas.
ALINHAMENTOS
• A importância da similaridade...
• O termo homólogo indica que as duas
sequências possuem:
• O mesmo ancestral
• Funções similares
• Estruturas similares
ALINHAMENTOS
• A importância da similaridade...
• Esta similaridade entre as sequências
precisa ser mensurada.
• A medida de similaridade entre
sequências é chamada de E-value
(Expectation value).
ALINHAMENTOS - DESAFIO
Qual a diferença entre similaridade e
homologia ?
ALINHAMENTOS - DESAFIO
Qual a diferença entre similaridade e
homologia ?
Homologia indica a
presença de um
relacionamento binário.
Similaridade só mensura
a homologia.
ALINHAMENTOS
• TIPOS DE ALINHAMENTOS
• Globais: alinhamento em toda a extensão
da sequência.
• Locais: O alinhamento local consiste no
alinhamento de apenas parte das
sequências envolvidas.
ALINHAMENTO GLOBAL
• Os alinhamentos globais não levam em
consideração o tamanho da sequência.
• Ele força o alinhamento a ter o maior
tamanho de alinhamento possível.
• Regiões com um score muito baixo são
cortadas.
• Um dos algoritmos mais conhecidos é o de
Needleman-Wunsch.
NEEDLEMAN-WUNSCH
O primeiro passo é criar a matriz com M + 1 colunas (uma coluna
é para o espaçamento) e N + 1 linhas onde M e N correspondem
ao comprimento das sequências a alinhar.
NEEDLEMAN-WUNSCH
Inicializar a matriz de acordo com a condição inicial, sendo que
F(i,j) é a Função de Pontuação para preenchimento da matriz
e d a pontuação do espaçamento:
NEEDLEMAN-WUNSCH
Escolher a Função de Pontuação e a Matriz de Mérito
NEEDLEMAN-WUNSCH
Preencher o resto da tabela de acordo com a função de
pontuação e a matriz de mérito.
NEEDLEMAN-WUNSCH
A matriz totalmente preenchida fica da seguinte forma:
NEEDLEMAN-WUNSCH
• A pontuação máxima do alinhamento para as duas
sequências é 10. O traceback determina o
alinhamento atual que resulta na pontuação máxima.
• Começar na posição M,N da e olhar para as células
vizinhas que podem ser as precedentes directos de
acordo com a seguinte regra de alinhamento:
• Diagonal: xi alinha com yi;
• Cima: yi alinha com espaço;
• Esquerda: xi alinha com espaço ;
NEEDLEMAN-WUNSCH
Na realidade, para o primeiro passo, significa olhar para cima
(yi alinha com espaço).
NEEDLEMAN-WUNSCH
Seguir todo o caminho até não existirem mais precedentes.
Normaliza 2 match, 0 mismatch e 0 gap.
MÃOS NA MASSA
1- Acesse o link:
https://blast.ncbi.nlm.nih.gov/Bl
ast.cgi?CMD=Web&PAGE_TY
PE=BlastHome
2Alinhe
as
sequências
presentes no arquivo fasta do
desafio 1.
ALINHAMENTO LOCAL
• É feita uma procura por regiões com
semelhança local.
• Não é considerada a sequência em todo o seu
comprimento.
• Um dos algoritmos utilizados para esse
processo é o Smith-Waterman e o BLAST.
SMITH-WATERMAN
• O primeiro passo é criar a matriz com M + 1
colunas (uma coluna é para o espaçamento) e N + 1
linhas onde M e N correspondem ao comprimento
das sequências a alinhar.
SMITH-WATERMAN
• Preenchimento da Matriz (scoring)
• Escolher a Função de Pontuação e a Matriz de
Mérito
SMITH-WATERMAN
• Preencher o resto da tabela de acordo com a função
de pontuação e a matriz de mérito.
SMITH-WATERMAN
• A matriz totalmente preenchida fica da seguinte
forma:
SMITH-WATERMAN
• A pontuação máxima de alinhamento local é 28,
que se encontra na posição 9,5.
• Começar na posição com pontuação máxima e
olhar para as células vizinhas que podem ser as
precedentes diretos de acordo com a seguinte regra
de alinhamento:
• Diagonal: xi alinha com yj;
• Cima: yi alinha com espaço;
• Esquerda: xj alinha com espaço;
SMITH-WATERMAN
• Na realidade, para o primeiro passo, significa olhar
para a diagonal (xi alinha com yj).
SMITH-WATERMAN
• Seguir todo o caminho até alcançar uma célula com
valor 0 (zero).
BLAST
http://blast.ncbi.nlm.nih.gov/Blast.cgi
TIPOS DE BLAST
(blastn) Compara nucleotídeos
(blastp) Compara proteínas
Utiliza nucleotídeo como “query” , este é traduzido nos
seus 6 quadros de leitura e é comparado contra banco de
proteína
Utiliza proteína como “query” , esta é comparada contra
banco de nucleotídeo traduzido nos 6 quadros de leitura
Utiliza nucleotídeo como “query” , este é traduzido nos
seus 6 quadros de leitura e é comparado contra banco de
nucleotídeo traduzido nos 6 quadros de leitura
BLAST
Seqüência a ser
alinhada ou numero
de acesso
Bases de dados
Busca por
palavra chave
Programa
Megablast +
rapido
BLAST
Programa:
Megablast utiliza “seeds” maiores (28 bases) fazendo com que o
algoritmo seja mais rápido
Discontiguos megablast- Utiliza seeds maiores, mas exige que
apenas algumas bases sejam coincidentes dentro de um padrão
definido.
Blastn- seeds menores (11 bases, podendo ser ajustado ate 7
bases). Mais sensível mas também mais lento
BLAST
Max Target sequences-Numero de alinhamentos mostrados
Short queries-Ajuste automático de parâmetros para seqüências
pequenas
Expect threshold-Ajuste da exigência mínima de relevância
estatistica para seqüência ser mostrada
Word size-Tamanho do “seed”
BLAST - SCORE
λ e K são parâmetros estatísticos utilizados utilizada que buscam
normalizar os escores de resultados derivados de diferentes
matrizes e espaços de busca
BLAST – E VALUE
Onde E = expect value
m e n-tamanho das seqüências alinhadas
S´-escore normalizado
BLAST - RESULTADOS
BLAST – RESULTADOS
Traços verticais
representam identidade
entre nucleotídeos
Letras minúsculas em
cinza representam
trechos mascarados
Traços horizontais
representam “gaps”
Query-seqüência
submetida ao programa
Subject-seqüência do
banco de dados
alinhada a seqüência
submetida
BLASTP
BLASTP
BLASTP - RESULTADOS
Espaços com letras
na linha do meio do
alinhamento
indicam
conservação do
aminoácido
Sinal + neste espaço
indica uma
substituição com
escore positivo
segundo a matriz de
substituição
utilizada
MÃOS NA MASSA
1- Descubra qual as seguintes
informações das sequências do
desafio 2:
Organismo.
Proteína.
Sequência.
Arquivo FASTA.
Bioinformática
Felipe G. Torres
Download

ALINHAMENTOS