Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN Computação e Biologia Molecular Bioinformática Casamento entre a ciência da computação e a biologia molecular É uma área nova Há 10 anos atrás o termo nem existia Podemos dizer que foi um desdobramento da descoberta de Watson e Crick (1953) de que o DNA é estruturado como uma hélice dupla 2 Contexto Histórico (1/6) A história começa na década de 1940 com a invenção do moderno computador digital Ele se chama digital, pois os dados são armazenados com um alfabeto binário Dígitos binários – 0 e 1 A operação também é digital, baseada na lógica liga/desliga Em 1944, Avery e colaboradores descobriram que o DNA era a substância que carregava a informação genética Usando a descoberta de Avery como referência, vemos que o nascimento do moderno computador digital e da moderna biologia molecular se deram mais ou menos ao mesmo tempo 3 Contexto Histórico (2/6) A descoberta da hélice dupla, em 1953, mostrou que a informação genética também é armazenada de forma digital Mas diferente do alfabeto binário dos computadores, os dados genéticos são armazenados com um alfabeto quaternário A, C, G e T Mais tarde se descobriu que a forma dos genes operarem também é digital Até certo ponto, os genes podem ser “ligados” ou “desligados” Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer nascer uma nova área de conhecimento 4 Contexto Histórico (3/6) O nascimento da área, entretanto, teve de esperar muito tempo para acontecer Essa é a razão da bioinformática ser uma aparente novidade Algumas pessoas consideram que a bioinformática passou a ser reconhecida como importante pelo mundo científico por volta de 1995 Ano que o primeiro genoma de uma bactéria foi publicado Por que tão longa demora? 5 Contexto Histórico (4/6) Do lado da biologia molecular o motivo é simples Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida” Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade Uma máquina automática Em 1995, uma única máquina dessas já conseguia ler milhares de letrinhas por dia 6 Contexto Histórico (5/6) Do lado da computação foi também preciso um amadurecimento Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor Se o seqüenciamento automático do DNA tivesse amadurecido mais rapidamente, digamos com 20 anos de antecedência, não haveria computadores com poder suficiente para dar conta dos dados gerados Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes, aproximadamente 1000 letras Um computador de grande porte daquela época tinha alguns kbytes de memória Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas 7 Contexto Histórico (6/6) Então, através de uma evolução que parece mais ou menos sincronizada, desembocamos em 1995 Os computadores já estavam suficientemente poderosos para poder processar os milhões e milhões de letrinhas que passaram a vir à luz. E assim nasceu a bioinformática, com a missão de ajudar-nos a entender a história que está escrita nesse livro da vida 8 Poligamina da Computação Até que ponto essa onda em torno da bioinformática é justificada? Afinal de de contas, hoje quase toda atividade científica depende do computador Poderíamos falar em física-informática, astronomia-informática, arqueologia-informática, etc. Será que há algo de especial na bioinformática? 9 Abordagens Há dois tipos de problemas em que atua a bioinformática O primeiro tipo de problema é chamado de problema biotecnológico O exemplo clássico é o da montagem de DNA Uma segunda classe de problemas têm um interesse que vai além de tecnologias específicas, que transcende qualquer tecnologia, e diz respeito à natureza mesmo da biologia molecular Queremos saber que informação está contida nos genomas 10 Problema biotecnológico (1/2) Montagem de DNA Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras? A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos Aí, obviamente, é necessário um programa de computador para montar esse quebra cabeça 11 Problema biotecnológico (2/2) Esse problema é fruto de uma limitação tecnológica atual É bem possível que daqui a 5 anos apareça um novo tipo de seqüenciador que consiga ler diretamente as 3 ou 4 milhões de bases E quando essa tecnologia aparecer, o problema da montagem do DNA deixa de existir. Portanto, o nome de problema biotecnológico Tal como esse, existem dezenas ou centenas de outros problemas na bioinformática, cada um deles motivado por uma particular tecnologia Mas problemas desse tipo existem em outras ciências também Certamente os telescópios modernos geram grandes quantidades de dados de um jeito e formato que exigem programas de computador sofisticados para coleta e intepretação; e quando mudam os telescópios mudam os programas. 12 Para além da tecnologia Há uma segunda classe de problemas que têm um interesse que vai além de tecnologias específicas Diz respeito à natureza mesmo da biologia molecular São esses problemas que dão um charme todo especial à bioinformática Que problemas são esses? São basicamente de dois tipos Primeiro, temos a interpretação do DNA como uma linguagem, a linguagem dos genes O segundo tipo de problema é o de entender os efeitos da informação genética 13 Linguagem dos Genes (1/2) Os genomas contém informação Sempre vamos querer saber que informação está contida neles Por exemplo, para diferentes espécies de organismos e para diferentes indivíduos de uma espécie, particularmente a nossa Essa interpretação requer métodos, técnicas, algoritmos que vêm principalmente da informática, pois afinal ela é a ciência da informação Sem o uso dessas técnicas as seqüências de DNA produzidas pelas máquinas e montadas pelos programas não passam de uma inútil sopa de letrinhas Dar sentido a essa sopa é tarefa dos bioinformatas 14 Linguagem dos Genes (2/2) Nesta linha é interessante observar que existe um paralelo entre o uso da informática para decifrar a informação genética e uma das primeiras grandes aplicações dos computadores O deciframento, pelos ingleses, do código secreto usado pelos alemães na II guerra mundial Um artigo recente que faz uma apanhado geral sobre as técnicas das ciências da informação usadas no deciframento da linguagem genética é D. Searls, The Language of Genes, Nature, 420:211-217, 2002 15 Efeitos da Informação Genética (2/2) Temos aqui efeitos de gênese, de criação, ou seja, como a partir de um ovo ou de uma semente se chega a um indivíduo; e também efeitos de manutenção da vida, ou seja, como um indivíduo já formado responde ao ambiente em que vive O entendimento dos efeitos da informação genética começa com o entendimento de como uma célula funciona Agora temos a possibilidade de tentar descobrir qual é o efeito que uma perturbação vai ter sem ter que efetivamente realizar essa perturbação Para isso bastará "ler as instruções", "ler as especificações" e fazer as deduções necessárias. Isto é, ler o genoma e entender a cadeia de dependências entre os genes. Essas cadeias são assim: um efeito externo faz um gene produzir uma proteína, que ativa outro gene, que produz outra proteína, que ativa outro gene e assim por diante. Essa é uma tarefa que vai precisar de muita bioinformática 16 Bioinformática (1/5) Definições Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia Biologia Molecular A Computação está para a Biologia da mesma forma que a matemática está para física Harold Morowitz 17 Bioinformática (2/5) Definições Número de definições Número de bioinformatas Todo mundo tem sua própria definição de Bioinformática, com detalhes sutis para refletir seu interesse em Ciências Biológicas Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e analisar informação genética Bits Journal - Bioinformatics: Information Technology & Systems 18 Bioinformática (3/5) Outras definições Aplicação de ferramentas de computação e análise para captura e interpretação de dados biológicos Integração de métodos matemáticos, estatísticos e computacionais para analisar dados biológicos, bioquímicos e biofísicos Ciência e tecnologia sobre aprendizado, gerenciamento e processamento de informação biológica 19 Bioinformática (4/5) Outras definições Coleção de métodos estatísticos para lidar com grande conjuntos de dados biológicos Casamento da Ciência da Computação com a Biologia Molecular Estatístico Chefe de departamento de Ciência da Computação Aplicação de técnicas de Aprendizado de Máquina para dados biológicos Pesquisador de Inteligência Artificial 20 Bioinformática (5/5) Outras definições Alinhamento de seqüências Linha de comando unix Comentário feito em uma reunião para decidir que projeto apoiar Profissional de suporte de sistemas em empresa de Biotecnologia Fluxo de recursos do próximo milênio Diretor de Instituição 21 Bioinformática: atualmente (1/2) Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação Com os sequenciamentos realizados, um grande volume de dados tem sido gerado Esses dados precisam agora ser analisados Análise laboratorial é difícil e cara Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos 22 Bioinformática: atualmente (2/2) Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões Erros na coleta de dados Erros na construção de bases de dados Aprendizado de Máquina Fornece técnicas para lidar com os problemas acima 23 Aprendizado de Máquina (AM)(1/2) Principal preocupação Como construir programas de computador que automaticamente melhoram seu desempenho com a experiência? Técnicas orientadas a dados Aprendem automaticamente a partir de grandes volumes de dados Geração de hipóteses a partir dos dados 24 AM (2/2) Algumas Técnicas Redes Neurais Artificiais (RNs) Máquinas de Vetores Suporte (SVMs) Algoritmos de Agrupamento (AA) Algoritmos Genéticos (AGs) Árvores de Decisão (ADs) Raciocínio Baseado em Casos (RBC) K-vizinhos mais próximos (kNN) ... 25 AM e Biologia (1/2) Por muitos anos, sub-áreas da Biologia têm inspirado técnicas de AM Redes Neurais Algoritmos Genéticos Programação Genética Vida Artificial Agora, diversas pesquisas na Biologia vêm utilizando técnicas de AM 26 AM e Biologia (2/2) Redes Neurais, Algoritmos Genéticos BIOLOGIA COMPUTAÇÃO Bioinformática 27 Biologia Molecular e AM (1/2) Problemas da Biologia Molecular que podem ser tratados por AM Reconhecimento de genes Reconstrução de árvores filogenéticas Análise de dados de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de seqüências 28 Biologia Molecular e AM (2/2) Aplicação Reconhecimento genes Filogenia Técnicas de AM RNs, ADs, SVMs, RBC, kNN AGs, AA Hierárquico Análise de Expressão RNs, SVMs, AA, ADs, kNN Estrutura Proteínas Interação entre genes Montagem fragmentos RNs, SVMs, AGs Redes Booleanas e Bayesianas AGs Alinhamento AGs 29 Problemas Abordados Alinhamento de seqüências Reconhecimento de genes Identificação de elementos que provavelmente surgiram de um ancestral comum Identificação de genes em seqüências de DNA não caracterizadas Análise de dados de expressão gênica Identificar: Predição de estrutura de proteínas Um agrupamento dos genes que seja funcionalmente significativo Novas sub-classes de doenças Funções de genes desconhecidos Identificação de estruturas secundárias de proteínas Reconstrução de árvores filogenéticas Encontrar estratégias eficientes para a obtenção da melhor árvore ou mesmo de uma árvore sub-ótima 30 Técnicas de AM Utilizadas Redes Neurais Artificiais Máquinas de Vetores Suporte Árvores de Decisão Algoritmos Genéticos Algoritmos de Agrupamento Agrupamento Hierárquico k-médias Mapa Auto-Organizáveis Cadeias escondidas de Markov (HMMs) 31 Objetivo O objetivo do curso é propiciar aos estudantes um entendimento das vantagens e limitações das técnicas de AM revisadas, quando aplicadas aos problemas de Biologia Molecular propostos 32 Referências Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning Approach. MIT Press. de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C. P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial – Livro Texto, capítulo Técnicas de Aprendizado de Máquina para Problemas de Biologia Molecular, pp. 103-152. Editora SBC. Mitchell, T. (1997). Machine Learning. McGraw Hill, New York. Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática. Com Ciência – Revista Científica da SBPC. http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml 33