Introdução à Bioinformática
Prof. IVAné@
Bioinformática
• União da ciência da computação com a
biologia molecular
• É uma área nova
• Há 10 anos atrás o termo nem existia
• Depois da descoberta de Watson e Crick
(1953) de que o DNA é estruturado
como uma hélice dupla; a Bioinformática
passa a ser um dos instrumentos mais
importante e fundamental para o estudo
da Biologia Molecular.
A história começa na década de 1940 com a invenção do moderno
computador digital
Ele se chama digital, pois os dados são armazenados com um alfabeto
binário
•Dígitos binários – 0 e 1
•A operação também é digital, baseada na lógica liga/desliga
A descoberta da hélice dupla, em 1953, mostrou que a informação
genética também é armazenada de forma digital
Mas diferente do alfabeto binário dos computadores, os dados genéticos
são armazenados com um alfabeto quaternário
•A, C, G e T
Mais tarde se descobriu que a forma dos genes operarem também é digital
•Até certo ponto, os genes podem ser “ligados” ou “desligados”
Apenas estas observações já seria suficiente para prever, na década de
1950, que um dia informática e biologia molecular iriam juntas fazer
nascer uma nova área de conhecimento
A bioinformática passou a ser reconhecida como
Quase
que científico
em sintonia
desembocamos
em 1995
importante
pelo mundo
por volta de
1995
• Ano que o primeiro genoma de uma bactéria foi
publicado
Os computadores já estavam suficientemente
poderosos para poder processar os milhões e
milhões de letrinhas.
A Biologia Molecular
•Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser
“lida”
•Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as
“palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las
•Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento”
suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade
E assim nasceu a bioinformática,
A computação
•Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada
vez mais rápido, a um custo cada vez menor
•Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes,
aproximadamente 1000 letras
•Um computador de grande porte daquela época tinha alguns kbytes de memória
•Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um
vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3
bilhões de letrinhas
Primeiro _ problema é
chamado de problema
biotecnológico
•Montagem do DNA
Segunda _ diz respeito à
natureza da biologia molecular
•Saber que informação está
contida nos genomas
Montagem
de DNA
Limitação
tecnológica
atual
• Montagem de DNA
•Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases
•As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases
•Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler
fragmentos de 1000 letras?
•A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição
entre si
• Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos
• É necessário um programa de computador para montar esse quebra cabeça
• É necessario um computador que consiga ler diretamente as 3 ou 4 milhões de bases
• Existem dezenas ou centenas de outros problemas na bioinformática, cada um deles
motivado por uma particular tecnologia
Que problemas são esses? São basicamente de dois tipos
•Primeiro- temos a interpretação do DNA como uma linguagem, a linguagem dos genes
•Segundo- entender os efeitos da informação genética
Os genomas contém informação
•Por exemplo:
•Para diferentes espécies de organismos e para diferentes indivíduos de uma espécie,
particularmente a nossa. Essa interpretação requer métodos, técnicas, algoritmos que
vêm principalmente da informática, pois afinal ela é a ciência da informação
•Dar sentido a essa sopa é tarefa dos bioinformatas
Algumas Definições
• Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas
e estatísticas para a resolução de problemas da Biologia
• Biologia Molecular
• Número de definições  Número de bioinformatas
• Muitos tem sua própria definição de Bioinformática, com detalhes sutis
para refletir seu interesse em Ciências Biológicas
A Computação está para a Biologia da mesma forma que a matemática está para física
Harold Morowitz
Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e
analisar informação genética
Bits Journal - Bioinformatics: Information Technology & Systems
Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação
Com os sequenciamentos realizados, um grande volume de dados tem sido gerado
Esses dados precisam agora ser analisados
Análise laboratorial é difícil e cara
Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos
Para muitas dessas análises,
as ferramentas computacionais
precisam lidar com dados
imprecisos e ruidosos
• Técnicas de laboratório de Biologia
Molecular quase sempre geram dados
com erros ou imprecisões
• Erros na coleta de dados
• Erros na construção de bases de
dados
Aprendizado de Máquina
Fornece técnicas para lidar com os problemas acima
ATCTCGTAGCT
ATCTCGTAGCTA
A
ATCTCGTAGCTAG
ATCTCGTAGCT
G
ATCTCGTAGCT
ATCTCGTAGCTAGC
C
ATCTCGTAGCT
ATCTCGTAGCTAGCT
T
ATCTCGTAGCT
ATCTCGTAGCTAGCTA
A
ATCTCGTAGCT
ATCTCGTAGCTAGCTAC
C
ATCTCGTAGCT
ATCTCGTAGCTAGCTACG
G
ATCTCGTAGCT
ATCTCGTAGCTAGCTACGA
A
ATCTCGTAGCT
ATCTCGTAGCTAGCTACGAC
C
ATCTCGTAGCT
G
ATCTCGTAGCTAGCTACGACG
ATCTCGTAGCT
T
ATCTCGTAGCTAGCTACGACGT
C
ATCTCGTAGCT
ATCTCGTAGCTAGCTACGACGTC
T
ATCTCGTAGCT
ATCTCGTAGCTAGCTACGACGTCT
A
ATCTCGTAGCT
ATCTCGTAGCTAGCTACGACGTCTA
TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
15 milhões
Europeu
Japonês
http://www.youtube.com/watch?v=xYDBZdy1WNE
Download

introducao a bioinformatica