‘ Introdução à Bioinformática Sónia Andrade setembro/2012 ESALq - USP 1 ‘ O que é bioinformática “... é a pesquisa, desenvolvimento e aplicação de ferramentas e abordagens computacionais que permitem o uso de de dados biológicos, comportamentais ou da área de saúde, incluindo sua aquisição, organização, visualização, análise e armazenamento” (http://www.bisti.nih.gov/CompuBioDef.pdf) National Center for Biotechnology Information Origem - Universidade de Ultrecht, Grupo de Bioinformática, final dos anos 1970 - Paulien Hogeweg e Ben Hesper "the study of information processes in biotic systems". - Desde então a área de bioinformática engloba um número grande de assuntos interdisciplinares incluindo biologia de sistemas, biologia computacional e genômica Sequenciamento do genoma humano 2001 Métodos tradicionais em bioinformática - Procura na literatura e buscas (NCBI Entrez e Blast) - Análises de dados de sequenciamento (análise de restrição, mapeamento de plasmídeos, desenho de primers, procura por ORFs) - Obtenção da sequência consenso a partir de sequenciamento direto 4 Citocromo oxidase I 5 Uso de algoritmos para adquirir novos conhecimentos biológicos Uso de conhecimentos biológicos na construção de algoritmos Algoritmos Afinal, o que é um algoritmo? ● Uma receita passo a passo para um cálculo Exemplo: Alinhamento de 2 sequências Método – deslize a sequência 1 com sequência 2 e conte os pb que são coincidentes Algoritmo – ao longo do comprimento da seq 1 - compare a base na posição 1 da seq 2 com posição 1 da seq 1, conte coincidentes - repita com todas posições - registre a posição de todas bases coincidentes Implementação – escreva um código que exceute esses algoritmo em uma linguagem que o sistema computacional entenda 7 Nosso problema GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT <— —> CTAGAAGAGCGTAGTCAGAGTGTGTTTGAGTTCC ?????? GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT —>CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC <— 8 Por que nosso algoritmo não funcionou? Algoritmos de comparação par-a-par não funcionam bem pq não refletem a realidade biológica da similaridade entre sequências Mas porque não? Não sabe o que fazer com os indels Logo não sabe o que fazer com as regiões internas de similaridade Isso é um problema do algoritmo ou de sua implementação? Não, o problema aqui é o método Precisa conhecer a biologia do sistema Normalmente cientistas da computação criam algoritmos de bioinformática não muito úteis Um problema biológico pode ser solucionado por vários algoritmos diferentes: - possíveis resultados diferentes - diferentes quantidade de tempo de cálculo - pesquisador define o melhor “trade off” Um tipo de algoritmo pode ser aplicável a diversos problemas biológicos Difícil saber qual é a melhor solução possível Quanto mais os algoritmos existentes não proporcionam a solução adequada, mais ativa é a área de pesquisa Uma solução ótima mas que leva bilhões de anos para calcular não é satisfatória! 10 Mas preciso saber muito de computação? - Bioinformática pode ser encarada como uma ferramenta – como o PCR - Biólogos deveriam ser capazes de escrever seus próprios programas e construir base de dados? -na verdade não, mas seria extremamente vantajoso - está na crista da onda “Two months in the lab can easily save an afternoon on the computer.” —Alan Bleasby, 1997 11 12 Mas qual sistema usar? Mac OS X e Linux - Sistema Unix É possível em Windows: Cygwin, um portal de ambiente Unix 13 Na maioria das distribuições o shell onde se digita a linha de comando se chama bash “ Bash script” #!/bin/bash for ARQ in $(ls *.fasta) do bsub -q giribet -R "span[ptile=4]" -n 4 -e $ARQ.err -o $ARQ.out -J $ARQ.job blastx -query $ARQ -db nr -gilist /n/nobackup2/giribet/sandrade/blast_db/Fungi_Metazoa.gi -outfmt 5 -max_target_seqs 5 -evalue 1e-5 -out $ARQ.blx done 15 “Scripts” Funções escritas utilizando linguagens avançadas, como perl (.pl), python (.py) ou R (.r), onde o programa é interpretado ao longo da análise #!/usr/bin/perl use warnings; #use Bio::SeqIO; use Bio::AlignIO; $informat="fasta"; $outformat="phylip"; #$count = 0; for $infile (@ARGV) { $in = Bio::AlignIO->new(-file => $infile, -format => $informat); $outfile = $infile.".phy"; $out = Bio::AlignIO->new(-file => ">$outfile", -format => $outformat, -interleaved => 0, -longid => 1); while ( my $aln = $in->next_aln ) { $out->write_aln($aln); # $count++; } } #warn "Translated $count sequences from $informat to $outformat format\n" warn "Converted file @ARGV sequences from $informat to $outformat format\n" 16 Scriptome http://sysbio.harvard.edu/csb/resources/computational/scriptome/ 17 “Programas compilados” Se referem a arquivos executáveis que já tem seu código pré-compilado ou seja Não possuem um arquivo texto onde vc possa fazer alterações (ou se vc faz, tem que ser compilado novamente) 18 Repositórios de programas livres https://github.com/ http://sourceforge.net/ 19 Onde analisar seus dados? 1000-Pentium Beowulf-Style Cluster Computer 1999 HPTC cluster -4096 processadores, 16 TB mem - 2008 20 Aplicações da área de Bioinformática Análise de bases de dados de DNA & proteína Alinhamentos múltiplos Similaridade, alinhamento e montagem Padrões de domínios/motifs de proteínas (Pfam, Blocks, ProDom) Padrões de sequências/motifs de DNA (promotores, fatores de transcrição, regiões intrônicas) Reconstrução filogenética Predição de genes Análise de expressão de microarranjos Análise de SNPs Predição da estrutura de proteínas Mapeamento dos caminhos metabólicos e regulatórios Ontologias 21 Genômica Aplicação do sequenciamento de nova geração para biologia molecular Permite o estudo dos genomas completos (e dos transcriptomas, proteomas, metabolômicas...) 22 Análise Genômica de larga escala - lida-se com uma quantidade muito grande de dados Cria-se uma base de dados do lab Utiliza-se de ferramentas de bioinformática em grupos de dados Necessário saber linguagem de programação -estudos de expressão diferencial, classificação e predição de genes -genômica funcional – caminhos funcionais, classificção da ontologia -identificação de SNPs, GWA (Genome Wide Association) 23 Um dos grandes desafios... Enorme quantidade de dados Muitas novas sequências Sequenciamento direto Sequenciamento de genomas Sequenciamento de EST Sequenciamento ambiental/metagenômica O GenBank tem mais de 140 Bilhões de bases!!! E continua crescendo Processadores não dão conta Busca de sequências Como procurar uma sequência similar às minhas? Ferramentas – usando arquivos FASTA, faz-se uma busca heurística no BLAST (Basic Local Alignment Search Tool) Como decidir: resultados estatísticos e bom senso 25 Arquivos Fasta >Mytilusedulis TGGAGGAAAAGCTCCAAGAAAACAACTTGCCACCAAGGCCGC CCGTAAGAGCGCACCTGCCACAGGTGGAGTTAAGAAGCCACA TAGATACAGGCCAGGAACAGTCGCTCTTCGTGAGATCAGAAGA TACCAGAAAAGTACTGAACTCCTCATCAGGAAACTCCCCTTCC AGAGATTAGTTCGTGAAATTGCTCAAGACTTCAAGACTGATCTT CGTTTCCAGAGCTCTGCCGTTATGGCCCTCCAGGAAGCCAGT GAAGCTTACCTCGTTGGTCTTTTCGAGGACACCAACTTGTGTG CAATCCACGCCAAGAG >Golfingiaelongata TGGTGGCAAAGCCCCAAGGAAGCAACTGGCCACCAAGGCAG CCCGCAAGAGCGCCCCAGCSACAGGGGGAGTGAAGAAACCC CACAGGTACAGGCCTGGCACAGTCGCCCTGAGAGAAATCAGA AGGTACCAGAAGAGCACTGAACTTCTCATCAGGAAGCTGCCCT TCCAGCGTCTGGTGCGAGAAATTGCCCAGGACTTCAAGACTG ACCTCAGGTTCCAGAGCTCCGCCGTCATGGCTCTCCAGGAGG CCAGCGAGGCCTACCTTGTTGGACTGTTTGAGGACACCAACC TGTGCGCCATCCACGCCAAACG 26 BLAST 27 Algoritmo do Blast 28 Resultado BLAST 29 30 31 Projeto Genoma O genoma humano é decodificado cerca de 3,2 bilhões de pares de base 32 Mais genomas 33 Sequenciamento de Nova Geração fastq @HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAACCTTTACATAC TGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGATACTTTGA + b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggidM\`d`dac]]bc`_ ]b``bbb`bbZ_`Z @HWI-H201:67:D13FRACXX:5:1101:1875:1922 1:N:0:CGATGT NTTGCAAGTCATTGAACTTAGGGGAAAAGAAGTACTTTATGGCTCATTAAACAGGC CACTCAACACAACAACATACTTTTATAAATAAAATTTGCTAAGC + BP\ccccc\ceeehhhhhhhhhhhheehhhedefhehhhbdhheedehdecehhdehhhehhhhheedde eea__a__Z`bbcdd`caaaZ_Z__```Y^ cromatograma Cerca de 76800 pb Cerca de 150 bilhões pb Mas como são esses dados? Arquivos FASTQ Identificação do read/leitura @HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAA CCTTTACATACTGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGAT ACTTTGA + b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggi dM\`d`dac]]bc`_]b``bbb`bbZ_`Z Score de qualidade Paired end e Single end Ozsolak e Milos (2011) 37 Como checar a qualidade dessas sequências? Programa FASTQC 38 39 Mas o que fazer com as sequências que não estão boas?? préprocessamento Após thinning e trimming 40 Alinhamento contra o genoma de referência Se temos um genoma de referência é fácil visualizar se o alinhamento ficou bom ou não E quando não há um genoma de referência? Montagem de novo Gráficos De Brujin Como saber se sua montagem de novo ficou boa ou não? Usando parâmetros como: Tamanho dos contigs Número dos contigs maior que 1000pb N50 * é o tamanho minímo do contig que contém 50% das bases utilizadas na montagem Exemplo: Se vc tem 1000 pares de base para fazer a montagem e seu N50 = 300, isso quer dizer que 500 pb estão dentro de contigs com tamanho ≥ 300 pb 44 Faça um blast!! Tubulanus punctatus dados da plataforma 454 - Roche 4217 contigs! 1885 identificados pelo Blast Todos Blast hits (e<10-4) 45 E em seguida se faz a anotação dos contigs Anotação estrutural consiste na identificação do elementos de genoma ORFs e sua localização Estrutura do gene Regiões codificadoras Localizaçào dos motifs reguladores Anotação funcional consiste em dar informação biológica aos elementos do genoma Função bioquímica Função biológica Regulação da expressão e interações 46 Anotação Funcional As propriedades dos produtos gênicos se encaixam em 3 categorias: Funções Moleculares Processos Biológicos Componentes Celulares DAG 47 O projeto Gene Ontology é uma iniciativa entre pesquisadores com o objetivo de padronizar a representação do genes e dos atributos desse genes em várias espécies e bases de dados. O projeto proporciona um vocabulário controlado de termos para descrever os produtos do gene e os dados de anotação do consórcio GO, assim como também ferramentas para acessar e processar esses dados. 48 50 51 Análise de expressão diferencial Quantificando a expressão RPKM: Reads Per Kilobase per Million mapped reads • RPKM = C/LN C : número de reads mapeados em uma região determinada L: tamanho da região (em pb) N: número total de reads mapeados (em milhões) 52 Exemplo do cálculo de RPKM Quantificando expressão: FPKM • FPKM: Fragments Per Kilobase of transcript per Million fragments mapped Análogo ao RPKM mas não usa o número de reads As abundâncias relativas dos transcritos são descritas em termos de objetos biológicos esperados (fragmentos); a expressão relativa dos transcritos é proporcional ao número de fragmentos de cDNA que geraram os mesmos 55 Nectophores rpm (mean) 1M Nectophore Enriched p<0.05 p<0.01 p<0.00 10k 100 1 Gastrozooid Enriched 0.01 0.01 1 100 10k 1M Visualização de análises de RNA-seq Análise de enriquecimento existem diferenças de expressão entre categorias pré-definidas? (Alguma categoria é “enriquecida”?) Categorias comumente usadas: Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) Outras categorias PRÉ-definidas (cromossomo, tecido expresso, etc). 59 Como funciona? 1.Genes são divididos em categorias 2.conta-se quantos genes diferencialmente expressos existem por categoria 3. teste estatístico comparando distribuição de genes diferencialmente expressos entre categorias 60 Análise de enriquecimento existem diferenças de expressão entre categorias pré-definidas? (Alguma categoria é “enriquecida”?) Categorias comumente usadas: Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) Outras categorias PRÉ-definidas (cromossomo, tecido expresso, etc). 61 ‘ Aula Prática Enriquecimento das ontologias GO usando GOrilla (http://cbl-gorilla.cs.technion.ac.il/) 62 Dados do traballho: Comparação da expressão diferencial entre células tumorosas do tipo TNBC e não TNBC 63 Objetivos - Procurar quais são os genes enriquecidos nas diferentes ontologias: Processos biológicos, funções moleculares e componentes celulares - Visualização e compressão dos DAG (gráficos acíclicos direcionado) 64 Exercício 1. fazer análise comparando os genes significativos em relação ao total de genes identificados Exercício 2. fazer análise somente com os genes significativos ranqueados para cada tipo de câncer 65