Introdução à Bioinformática Prof. IVAné@ Bioinformática • União da ciência da computação com a biologia molecular • É uma área nova • Há 10 anos atrás o termo nem existia • Depois da descoberta de Watson e Crick (1953) de que o DNA é estruturado como uma hélice dupla; a Bioinformática passa a ser um dos instrumentos mais importante e fundamental para o estudo da Biologia Molecular. A história começa na década de 1940 com a invenção do moderno computador digital Ele se chama digital, pois os dados são armazenados com um alfabeto binário •Dígitos binários – 0 e 1 •A operação também é digital, baseada na lógica liga/desliga A descoberta da hélice dupla, em 1953, mostrou que a informação genética também é armazenada de forma digital Mas diferente do alfabeto binário dos computadores, os dados genéticos são armazenados com um alfabeto quaternário •A, C, G e T Mais tarde se descobriu que a forma dos genes operarem também é digital •Até certo ponto, os genes podem ser “ligados” ou “desligados” Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer nascer uma nova área de conhecimento A bioinformática passou a ser reconhecida como Quase que científico em sintonia desembocamos em 1995 importante pelo mundo por volta de 1995 • Ano que o primeiro genoma de uma bactéria foi publicado Os computadores já estavam suficientemente poderosos para poder processar os milhões e milhões de letrinhas. A Biologia Molecular •Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida” •Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las •Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade E assim nasceu a bioinformática, A computação •Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor •Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes, aproximadamente 1000 letras •Um computador de grande porte daquela época tinha alguns kbytes de memória •Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas Primeiro _ problema é chamado de problema biotecnológico •Montagem do DNA Segunda _ diz respeito à natureza da biologia molecular •Saber que informação está contida nos genomas Montagem de DNA Limitação tecnológica atual • Montagem de DNA •Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases •As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases •Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras? •A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si • Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos • É necessário um programa de computador para montar esse quebra cabeça • É necessario um computador que consiga ler diretamente as 3 ou 4 milhões de bases • Existem dezenas ou centenas de outros problemas na bioinformática, cada um deles motivado por uma particular tecnologia Que problemas são esses? São basicamente de dois tipos •Primeiro- temos a interpretação do DNA como uma linguagem, a linguagem dos genes •Segundo- entender os efeitos da informação genética Os genomas contém informação •Por exemplo: •Para diferentes espécies de organismos e para diferentes indivíduos de uma espécie, particularmente a nossa. Essa interpretação requer métodos, técnicas, algoritmos que vêm principalmente da informática, pois afinal ela é a ciência da informação •Dar sentido a essa sopa é tarefa dos bioinformatas Algumas Definições • Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia • Biologia Molecular • Número de definições Número de bioinformatas • Muitos tem sua própria definição de Bioinformática, com detalhes sutis para refletir seu interesse em Ciências Biológicas A Computação está para a Biologia da mesma forma que a matemática está para física Harold Morowitz Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e analisar informação genética Bits Journal - Bioinformatics: Information Technology & Systems Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação Com os sequenciamentos realizados, um grande volume de dados tem sido gerado Esses dados precisam agora ser analisados Análise laboratorial é difícil e cara Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos • Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões • Erros na coleta de dados • Erros na construção de bases de dados Aprendizado de Máquina Fornece técnicas para lidar com os problemas acima ATCTCGTAGCT ATCTCGTAGCTA A ATCTCGTAGCTAG ATCTCGTAGCT G ATCTCGTAGCT ATCTCGTAGCTAGC C ATCTCGTAGCT ATCTCGTAGCTAGCT T ATCTCGTAGCT ATCTCGTAGCTAGCTA A ATCTCGTAGCT ATCTCGTAGCTAGCTAC C ATCTCGTAGCT ATCTCGTAGCTAGCTACG G ATCTCGTAGCT ATCTCGTAGCTAGCTACGA A ATCTCGTAGCT ATCTCGTAGCTAGCTACGAC C ATCTCGTAGCT G ATCTCGTAGCTAGCTACGACG ATCTCGTAGCT T ATCTCGTAGCTAGCTACGACGT C ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGTC T ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGTCT A ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGTCTA TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG 15 milhões Europeu Japonês http://www.youtube.com/watch?v=xYDBZdy1WNE