Bioinformática Felipe G. Torres ALINHAMENTOS • Até este momento, o curso deve ter despertado em você a seguinte dúvida: Como eu faço para comparar duas ou mais sequências ? ALINHAMENTOS • Para que serve ? • Comparar genes de DNA • Fazer filtros de sequências similares em conjuntos de sequências • Predição de propensão a doenças ALINHAMENTOS ALINHAMENTOS • A importância da similaridade... • Encontrar similaridade entre sequências, indica a possível presença de um ancestral em comum. • Os biólogos chamam genes (>70%) ou proteínas (>25%) muito similares de homólogas. ALINHAMENTOS • A importância da similaridade... • O termo homólogo indica que as duas sequências possuem: • O mesmo ancestral • Funções similares • Estruturas similares ALINHAMENTOS • A importância da similaridade... • Esta similaridade entre as sequências precisa ser mensurada. • A medida de similaridade entre sequências é chamada de E-value (Expectation value). ALINHAMENTOS - DESAFIO Qual a diferença entre similaridade e homologia ? ALINHAMENTOS - DESAFIO Qual a diferença entre similaridade e homologia ? Homologia indica a presença de um relacionamento binário. Similaridade só mensura a homologia. ALINHAMENTOS • TIPOS DE ALINHAMENTOS • Globais: alinhamento em toda a extensão da sequência. • Locais: O alinhamento local consiste no alinhamento de apenas parte das sequências envolvidas. ALINHAMENTO GLOBAL • Os alinhamentos globais não levam em consideração o tamanho da sequência. • Ele força o alinhamento a ter o maior tamanho de alinhamento possível. • Regiões com um score muito baixo são cortadas. • Um dos algoritmos mais conhecidos é o de Needleman-Wunsch. NEEDLEMAN-WUNSCH O primeiro passo é criar a matriz com M + 1 colunas (uma coluna é para o espaçamento) e N + 1 linhas onde M e N correspondem ao comprimento das sequências a alinhar. NEEDLEMAN-WUNSCH Inicializar a matriz de acordo com a condição inicial, sendo que F(i,j) é a Função de Pontuação para preenchimento da matriz e d a pontuação do espaçamento: NEEDLEMAN-WUNSCH Escolher a Função de Pontuação e a Matriz de Mérito NEEDLEMAN-WUNSCH Preencher o resto da tabela de acordo com a função de pontuação e a matriz de mérito. NEEDLEMAN-WUNSCH A matriz totalmente preenchida fica da seguinte forma: NEEDLEMAN-WUNSCH • A pontuação máxima do alinhamento para as duas sequências é 10. O traceback determina o alinhamento atual que resulta na pontuação máxima. • Começar na posição M,N da e olhar para as células vizinhas que podem ser as precedentes directos de acordo com a seguinte regra de alinhamento: • Diagonal: xi alinha com yi; • Cima: yi alinha com espaço; • Esquerda: xi alinha com espaço ; NEEDLEMAN-WUNSCH Na realidade, para o primeiro passo, significa olhar para cima (yi alinha com espaço). NEEDLEMAN-WUNSCH Seguir todo o caminho até não existirem mais precedentes. Normaliza 2 match, 0 mismatch e 0 gap. MÃOS NA MASSA 1- Acesse o link: https://blast.ncbi.nlm.nih.gov/Bl ast.cgi?CMD=Web&PAGE_TY PE=BlastHome 2Alinhe as sequências presentes no arquivo fasta do desafio 1. ALINHAMENTO LOCAL • É feita uma procura por regiões com semelhança local. • Não é considerada a sequência em todo o seu comprimento. • Um dos algoritmos utilizados para esse processo é o Smith-Waterman e o BLAST. SMITH-WATERMAN • O primeiro passo é criar a matriz com M + 1 colunas (uma coluna é para o espaçamento) e N + 1 linhas onde M e N correspondem ao comprimento das sequências a alinhar. SMITH-WATERMAN • Preenchimento da Matriz (scoring) • Escolher a Função de Pontuação e a Matriz de Mérito SMITH-WATERMAN • Preencher o resto da tabela de acordo com a função de pontuação e a matriz de mérito. SMITH-WATERMAN • A matriz totalmente preenchida fica da seguinte forma: SMITH-WATERMAN • A pontuação máxima de alinhamento local é 28, que se encontra na posição 9,5. • Começar na posição com pontuação máxima e olhar para as células vizinhas que podem ser as precedentes diretos de acordo com a seguinte regra de alinhamento: • Diagonal: xi alinha com yj; • Cima: yi alinha com espaço; • Esquerda: xj alinha com espaço; SMITH-WATERMAN • Na realidade, para o primeiro passo, significa olhar para a diagonal (xi alinha com yj). SMITH-WATERMAN • Seguir todo o caminho até alcançar uma célula com valor 0 (zero). BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi TIPOS DE BLAST (blastn) Compara nucleotídeos (blastp) Compara proteínas Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína Utiliza proteína como “query” , esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura BLAST Seqüência a ser alinhada ou numero de acesso Bases de dados Busca por palavra chave Programa Megablast + rapido BLAST Programa: Megablast utiliza “seeds” maiores (28 bases) fazendo com que o algoritmo seja mais rápido Discontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido. Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento BLAST Max Target sequences-Numero de alinhamentos mostrados Short queries-Ajuste automático de parâmetros para seqüências pequenas Expect threshold-Ajuste da exigência mínima de relevância estatistica para seqüência ser mostrada Word size-Tamanho do “seed” BLAST - SCORE λ e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca BLAST – E VALUE Onde E = expect value m e n-tamanho das seqüências alinhadas S´-escore normalizado BLAST - RESULTADOS BLAST – RESULTADOS Traços verticais representam identidade entre nucleotídeos Letras minúsculas em cinza representam trechos mascarados Traços horizontais representam “gaps” Query-seqüência submetida ao programa Subject-seqüência do banco de dados alinhada a seqüência submetida BLASTP BLASTP BLASTP - RESULTADOS Espaços com letras na linha do meio do alinhamento indicam conservação do aminoácido Sinal + neste espaço indica uma substituição com escore positivo segundo a matriz de substituição utilizada MÃOS NA MASSA 1- Descubra qual as seguintes informações das sequências do desafio 2: Organismo. Proteína. Sequência. Arquivo FASTA. Bioinformática Felipe G. Torres