Bioinformática Felipe G. Torres FELIPE G TORRES Graduado em Sistemas de Informação. Mestrando em Computação Aplicada – linha de pesquisa em bioinformática. [email protected] http://www.4shared.com/folder/iMzBTB BF/Bioinformtica.html INTRODUÇÃO • A necessidade de processar e analisar dados biológicos motivou o surgimento de uma ciência interdisciplinar. • Alguns biólogos começaram a utilizar o computador para executar processos nos dados. • O conjunto desses processos é chamado de Bioinformática. INTRODUÇÃO • Existem dois biológicos: tipos de experimentos • In vivo – Experimentos executados com seres vivos. • In vitro – Experimentos executados com dados desenvolvimento artificial. INTRODUÇÃO • Existem basicamente três tipos de análises de dados genéticos: • Proteínas • DNA • RNA INTRODUÇÃO INTRODUÇÃO Década de 60… INTRODUÇÃO Tempo 13 anos (1990 2003) Custo U$3.8 bilhões INTRODUÇÃO BANCO DE D. B. ESTRUT. COMP. DADOS BIO. BANCO DE DADOS ATUAIS FERRAMENTAS ILLUMINA HISEQ2000 SANGER TOTAL DE BASES: 30~ 350 kb TEMPO DA CORRIDA: 15 HORAS CUSTO: U$1000/Mb TOTAL DE BASES: 35 ~ 200 Gb TEMPO DA CORRIDA: 1.5 a 8 dias CUSTO: MENOS DE U$1/Mb INTRODUÇÃO • O que são nucleotídeos ? • Os nucleotídeos são compostos por uma base nitrogenada, um grupo fosfato e uma ribose ou desoxiribose. INTRODUÇÃO INTRODUÇÃO INTRODUÇÃO • Onde posso encontrar nucleotídeos ? INTRODUÇÃO • Direção da sequência 3’ 5’ e 5’ 3’ INTRODUÇÃO INTRODUÇÃO • Aminoácidos são moléculas orgânicas complexas formadas por: um grupo amina e um grupo carboxilo. INTRODUÇÃO • Atualmente a bioquímica categoriza basicamente 20 nomes de aminoácidos basicamente. • Os aminoácidos são cientificamente representados por 1 ou 3 letras. INTRODUÇÃO AMINOÁCIDOS INTRODUÇÃO • As proteínas são macromoléculas formadas por aminoácidos. Uma proteína como exemplo é a insulina humana. Insulina = (30 glycines, 44 alanines, 5 tyrosines + 14 glutamines + ... ) Insulina = MALWMRLLPLLALLALWGPDPAAAF VNQHLCGSHLVEALYLVCGERGFFYTPKTRRE AEDLQVGQVELGGGPGAGSLQPLALEGSLQKR GIVEQCCTSICSLYQLENYCN INTRODUÇÃO INTRODUÇÃO • A análise de proteínas à 50 anos atrás era realizada apenas em laboratórios. • Nesta disciplina posteriormente iremos nos aprofundar em análises modernas de proteínas com bioinformática. INTRODUÇÃO • Alfred Sanger é tipo como pai da era moderna da biologia molecular e estrutural. • Ele recebeu o prêmio nobel pelo sequenciamento da insulina. INTRODUÇÃO • Porém nos anos 1960 o poder computacional era pequeno, nessa época o computador tinha no máximo 8mb de memória. • Processava cálculos simples e demoravam um tempo alto para realizar cálculos. • Essa limitação durante muito tempo foi um fator limitante para as análises computacionais de dados biológicas. INTRODUÇÃO • A sequência lógica de obtenção das informações de uma proteína é: ESTRUTURA SEQUÊNCIA FUNÇÃO INTRODUÇÃO • A primeira estrutura 3D de proteína obtida foi em 1958 pelos Dr. Kendrew e Perultz utilizando cristalografia de raio X. • A função da proteína está diretamente ligada a sua estrutura 3D. • Com a bioinformática ficou muito mais fácil obter a estrutura 3D de uma proteína e navegar por ela. INTRODUÇÃO • Existe uma área conhecida bioinformática estrutural. como • Esta responsável por estudar e desenvolver processos de análise das estruturas moleculares. • Posteriormente iremos aprender técnicas e nos aprofundar mais na análise de bioinformática de proteínas. INTRODUÇÃO INTRODUÇÃO As proteínas são formadas de aminoácidos, e os aminoácidos são formados de quê ? INTRODUÇÃO As proteínas são formadas de aminoácidos, e os aminoácidos são formados de quê ? Isso mesmo, nucleotídeos. BANCO DE DADOS BIO 1965 1970 1982 BANCO DE DADOS BIO GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO GENBANK ENTRE 1995 A 2011. BANCO DE DADOS BIO GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO GOLD ENTRE 1997 A 2011. BANCO DE DADOS BIO • Banco de dados biológicos são locais computacionais para o armazenamento de dados biológicos. • Dados Biológicos • Sequências de DNA; • Sequências de Proteínas; • Anotações; BANCO DE DADOS BIO • Tipos de Bancos de dados biológicos, (XIONG, 2007): • Primários • Secundários • Especializados BANCO DE DADOS BIO • Bancos de dados Primários: • Armazenam originais. informações biológicas • Armazenam normalmente em arquivos de texto. Ex.: Fasta. BANCO DE DADOS BIO • Bancos de dados Secundários: • Armazenam resultados de análises feitas a partir de dados primários. • Utilizam SGBD`s e estruturas computacionais mais complexas. ESTRUTURA DE BD • Modelo Relacional • Orientação a objeto MODELO RELACIONAL • Planilhas que se relacionam • Utilizando o conceito de keys • Largamente utilizado e estável MODELO RELACIONAL MODELO OO • Conceito abstrato de objeto • Conceito melhorado de keys • Maior facilidade na abstração MODELO OO TIPO DE ARQUIVOS - FASTA TIPO DE ARQUIVOS - GENBANK TIPO DE ARQUIVOS - GENBANK UNIPROT • Banco de dados de proteínas e informações funcionais. • O UNIPROT é um consórcio entre: • European Bioinformatics Institute (EBI). • Swiss Institute of Bioinformatics (SIB). • Protein Information Resource (PIR). • Acesso disponível http://www.uniprot.org/ pelo link: HIV DATABASE • No HIV Databases estam armazenados dados de sequências de HIV, epitopos e testes para vacinas. • Este projeto foi fundado pela Division of AIDS of the National Institute of Allergy and Infectious Diseases (NIAID) • Acesso disponível pelo http://www.hiv.lanl.gov/content/index link: PROTEIN DATA BANK • É um repositório de estruturas tri-dimensionais de proteínas e ácidos nucléicos. • A maioria das estruturas foram obtidas por cristalograma ou por espectroscopia por ressonância magnética. • A estrutura pode ser visualizada em 3D. • Acesso disponível pelo link: http://www.rcsb.org/pdb ENTREZ • O NCBI armazena dados provenientes da sequenciação de genomas no seu GenBank e mantém um índice de artigos de investigação biomédica que disponibiliza nas bases de dados PubMed Central e PubMed. • Todas as bases de dados estão disponíveis na Internet através do motor de busca Entrez. É um grande integrador de dados no NCBI. • Acesso disponível pelo http://www.ncbi.nlm.nih.gov/sites/gquery link: ENTREZ - DEFINIÇÃO • É o sistema de indexação, busca e recuperação de informação baseado em texto usado pelo Portal NCBI. • Integra recursos de diversas fontes de informação em Ciências Biológicas e da Saúde. ENTREZ - RECURSOS • Bases de Dados referenciais e textuais • Literatura em Ciências Biológicas e da Saúde • Bancos de Dados Genéticos • Bases de Dados Moleculares • Ferramentas e Recursos em Biologia Genômica • Ferramentas de Mineração de Dados (Data Mining) ENTREZ - ACESSO Clique aqui para obter descrição e link de todas as bases de dados disponíveis no Portal NCBI ENTREZ - ACESSO Descrição e link de todas as bases de dados disponíveis no Portal NCBI ENTREZ - RECURSOS • Bases de Dados referenciais e textuais • Literatura em Ciências Biológicas e da Saúde • Bancos de Dados Genéticos • Bases de Dados Moleculares • Ferramentas e Recursos em Biologia Genômica • Ferramentas de Mineração de Dados (Data Mining) ENTREZ - LITERATURA PUBMED: biomedical literature citations and abstracts PUBMED CENTRAL: free, full text journal articles SITE SEARCH: NCBI web and FTP sites BOOKS: online books JOURNALS: detailed information about the journals indexed in PubMed and other NLM CATALOG: catalog of books, journals, and audiovisuals in the NLM collections ENTREZ - LITERATURA Clique aqui para acessar as bases de dados em literatura em Ciências Biológicas e da Saúde ENTREZ - LITERATURA Lista de todas as bases de dados em literatura em Ciências Biológicas e da Saúde ENTREZ - PUBMED • Serviço da NLM que integra diversas bases de dados em Ciências Biológicas e da Saúde. Permite o acesso a mais de 17 milhões de itens indexados pela MEDLINE e de artigos de periódicos, livros, multimeios, entre outros recursos de informação. • A base PubMed inclui links para muitos sites que fornecem resumos e/ou textos completos de artigos e outros recursos de informação. ENTREZ - PUBMED A interface da base PubMed é a mesma do Portal NCBI, com filtro de pesquisa apenas para a PubMed ENTREZ - PUBMED Links específicos da base PubMed ENTREZ – PUBMED CENTRAL • PubMed Central é um acervo digital de artigos de periódicos de livre acesso em Ciências Biológicas e da Saúde, desenvolvido e gerenciado pelo NCBI. • Também faz parte da base PubMed, com o diferencial de que seus recursos de informação estão disponíveis quase sempre em texto completo ENTREZ – PUBMED CENTRAL A interface da base PubMed Central é a mesma do Portal NCBI, com filtro de pesquisa apenas para a PubMed Central MÃOS NA MASSA 1- Busque no NCBI as sequências de Transversotrema. 2- Baixe todas as sequências em um único arquivo .FASTA 3- Descubra a localização geográfica da coleta do organismo de acession id: JF412530 Bioinformática Felipe G. Torres