Bioinformática Felipe G. Torres DICA http://www.cellbiol.com/ TERMOS IMPORTANTES • READS: Trechos sequenciados de DNA. • CONTIG: Macro trechos formato pela junção de reads. • LOW QUALITY: Regiões com baixa região, seja por falha de artefato ou metodológica. • QUALIDADE: Certeza de identificação do nucleotídeo em um determinado sítio. MONTAGEM DE GENOMAS • É um subprocesso do workflow de obtenção da sequencia de DNA. • Consiste em pegar os reads gerados no processo de sequenciamento e montar um ou vários contigs. • Afim de unificar os reads em uma sequência consensus que é a sequência do DNA. WORKFLOW - MONTAGEM ANÁLISE DE QUALIDADE SEQUENCIA MENTO MONTAGEM DOS CONTIGS SEQUENCIAMENTO • O sequenciamento do DNA é uma série de processos bioquímicos tem por finalidade determinar a ordem dos nucleotídeos. • Método Sanger • Pirosequenciamento • Nova Geração SEQUENCIAMENTO COMO É ARMAZENADO OS DADOS DO SEQUENCIAMENTO EM UM ARQUIVO ? SEQUENCIAMENTO • O arquivo usado para armazenar esse tipo de dado é o .FASTQ • Este arquivo não é lido de uma forma agradável pois muitas vezes possui o seu conteúdo binário. • Para lidar com ele normalmente é feita a conversão para o modelo FASTA. ANÁLISE • Essa conversão não é tão simples pois envolve uma análise de qualidade. • Existem regiões que possuem ruídos que necessitam ser avaliados. • Essa avaliação pode ser feita por diversos softwares. Ex:. PHRED & PHRAP ANÁLISE http://asparagin.cenargen.embrapa.br/phph/ MÃOS NA MASSA 1- Pegue o arquivo seq2.zip 2- Analise a qualidade sequenciamento e gere arquivos FASTA. do os APENAS SEQUENCIAR O DNA DE UM ORGANISMO RESPONDE TODAS AS PERGUNTAS ? ANOTAÇÃO GENÔMICA • Ter a sequência do genoma de um organismo não responde todas as perguntas... Mas ABRE PORTAS • É necessário entender, mapear e identificar todas as estruturas gênicas presentes nesse genoma. • Esse processo de explorar e entender melhor a estrutura de um genoma é conhecido por anotação. ANOTAÇÃO GENÔMICA • Este processo tem ganhado muita força recentemente devido: • Ganho de tempo • Redução de erros de artefatos • Entendimento melhor dos organismos • Redução de custos ANOTAÇÃO GENÔMICA ESTRUTURAL FUNCIONAL PROCESSO DE ANOTAÇÃO ANOTAÇÃO GENÔMICA ANOTAÇÃO ESTRUTURAL • A anotação estrutural consiste na identificação e mapeamento de estruturas genômicas: • GENES • RNAnc • REGIÕES PROMOTORAS ANOTAÇÃO ESTRUTURAL • Essa identificação é feita utilizando técnicas de predição gênica. • Os preditores são especializados para seres eucariotos e procariotos. • Essa especificação deve-se a diferença da complexidade das estruturas do genoma. ANOTAÇÃO ESTRUTURAL • Alguns preditores conhecidos são: GLIMMER, GENSCAN e GENMARK. Eucarioto GENSCAN GENMARK Procarioto GLIMMER DICA http://www.bioplanet.com/ GLIMMER • É um sistema de identificação de genes em DNA de procariotos, especialmente bacteria e archaea. • GLIMMER (Gene Locator and Interpolated Markov ModelIER). • Ele utiliza a interpolação de Markov para definir a probabilidade de uma região ser codificante. GLIMMER GLIMMER http://www.ncbi.nlm.nih.gov/genomes/MICROBES/ glimmer_3.cgi GLIMMER - RESULTADO ID: São números identificadores de possíveis genes. Frame: É o frame de leitura da ORF. Positivo indica a fita foward e Negativo indica a reverse. GLIMMER - RESULTADO Start: Sítio de início do gene ou da ORF. Stop: Sítio de início do gene ou da ORF. GLIMMER - RESULTADO Length: Tamanho do ORF e do Gene. MÃOS NA MASSA 1- Procure no sequência da braziliensis. NCBI uma Leishmania 2- Utilizando o GLIMMER, analise a sequência em busca de genes. GENSCAN • É um sistema de identificação de genes em DNA de eucariotos. • O GENSCAN pode ser usado para localização de exon-intron em sequências. • Desenvolvido pelo MIT, este software pode ser executado utilizando a web. • Ele utiliza cadeias de Markov do estado oculto para predizer as estruturas. GENSCAN GENSCAN http://genes.mit.edu/GENSCAN.html GENSCAN - RESULTADO Gn.Ex : Número de identificação da estrutura. Type : Init = Initial exon (ATG to 5' splice site) Intr = Internal exon (3' splice site to 5' splice site) Term = Terminal exon (3' splice site to stop codon) Sngl = Single-exon gene (ATG to stop) Prom = Promoter (TATA box / initation site) PlyA = poly-A signal (consensus: AATAAA) GENSCAN - RESULTADO S : DNA strand (+ = input strand; - = opposite strand) Begin : beginning of exon or signal (numbered on input strand) End : end point of exon or signal (numbered on input strand) Len : length of exon or signal (bp) GENSCAN - RESULTADO CodRg : coding region score (tenth bit units) P : probability of exon (sum over all parses containing exon) Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores) DICA http://www.softberry.com/ SOFTBERRY • O softberry é uma plataforma de bioinformática que permite a execução de softwares sem instalar. • Você pode executar softwares como: • BLAST • FGNESH ANOTAÇÃO FUNCIONAL • A anotação funcional consiste na identificação das funções executadas pelas estruturas identificadas. • Normalmente para este tipo de anotação utiliza-se algoritmos de similaridade entre bases de dados anotadas. • A comparação é feita entre o desconhecido e o conhecido e anotado. ANOTAÇÃO FUNCIONAL Proteínas anotadas Compara ção Proteinas preditas BLAST BLAT BOWTIE Proteinas preditas similares a existentes ANOTAÇÃO FUNCIONAL • Esta metodologia tem algumas limitações que por muitas vezes resultam diretamente no resultado do projeto. • Por exemplo, a base de dados conhecida precisa ter uma variedade alta de sequências. • Você pode está procurando similaridade entre coisas impossíveis. ANOTAÇÃO FUNCIONAL • Existem algumas consolidadas: bases conhecidas e • SWISS-PROT: Base de dados de proteínas curadas manualmente e mantida pela UNIPROT. • NRDR: Base de dados de RNA não codificante. ANOTAÇÃO FUNCIONAL • Existem algumas consolidadas: bases conhecidas e • EGGNOG: Base de dados de proteínas e grupos de Orthologia. ANOTAÇÃO FUNCIONAL • Esse processo é lento devido a grande quantidade de comparações. • A escolha do algoritmo de comparação deve ser feita analisando o tipo de dado que será comparado. • Nesse processo a escolha e formatação dos dados está diretamente ligado ao sucesso da técnica. MÃOS NA MASSA 1- Pegue as proteinas 2,3,4,5 e descubra: Qual o organismo ? Qual é a proteína ? Qual a função da proteína ? TERMOS GO • Mas como descobrir a função de uma proteína ? • Será que terei que difere o processo para organismos diferentes ? TERMOS GO • O Gene Onthology é a maior iniciativa da área de bioinformática para unificar os produtos gênicos atribuídos a todas as espécies. • O GO é na verdade uma metodologia de classificar proteínas por: • Componente Celular • Processo Biológico • Função Molecular TERMOS GO • Existem três tipos de termos GO: • Componente celular: É um componente celular ou no desenvolvimento extracelular. • Processo biológico: São produtos gênicos envolvidos processos vitais para a célula. TERMOS GO • Existem três tipos de termos GO: • Função molecular: São produtos gênicos envolvidos em alguma função intracelular. GO http://geneontology.org/ AMIGO http://amigo.geneontology.org/amigo MÃOS NA MASSA 1- Pegue as proteinas 4 e descubra: Qual a função da proteína ? Bioinformática Felipe G. Torres