Introdução à Bioinformática
Marcílio C. P. de Souto
DIMAp/UFRN
Computação e Biologia Molecular

Bioinformática



Casamento entre a ciência da computação e a biologia molecular
É uma área nova
 Há 10 anos atrás o termo nem existia
Podemos dizer que foi um desdobramento da descoberta de
Watson e Crick (1953) de que o DNA é estruturado como uma
hélice dupla
2
Contexto Histórico (1/6)

A história começa na década de 1940 com a invenção do moderno
computador digital

Ele se chama digital, pois os dados são armazenados com um
alfabeto binário




Dígitos binários – 0 e 1
A operação também é digital, baseada na lógica liga/desliga
Em 1944, Avery e colaboradores descobriram que o DNA era a
substância que carregava a informação genética
Usando a descoberta de Avery como referência, vemos que o
nascimento do moderno computador digital e da moderna biologia
molecular se deram mais ou menos ao mesmo tempo
3
Contexto Histórico (2/6)



A descoberta da hélice dupla, em 1953, mostrou que a informação
genética também é armazenada de forma digital
 Mas diferente do alfabeto binário dos computadores, os dados
genéticos são armazenados com um alfabeto quaternário
 A, C, G e T
Mais tarde se descobriu que a forma dos genes operarem também é
digital
 Até certo ponto, os genes podem ser “ligados” ou “desligados”
Apenas estas observações já seria suficiente para prever, na década de
1950, que um dia informática e biologia molecular iriam juntas fazer
nascer uma nova área de conhecimento
4
Contexto Histórico (3/6)

O nascimento da área, entretanto, teve de esperar muito tempo para
acontecer



Essa é a razão da bioinformática ser uma aparente novidade
Algumas pessoas consideram que a bioinformática passou a ser
reconhecida como importante pelo mundo científico por volta de
1995
 Ano que o primeiro genoma de uma bactéria foi publicado
Por que tão longa demora?
5
Contexto Histórico (4/6)

Do lado da biologia molecular o motivo é simples
 Apesar da estrutura do DNA ter sido desvendada em 1953, a
informação nela contida não podia ser “lida”
 Foi como tivéssemos descoberto o alfabeto utilizado para escrever
“o livro da vida”, mas as “palavras” desse livro estavam com
letrinhas tão pequenas que não conseguíamos lê-las
 Foi preciso esperar até fins da década de 1980 para que
aparecesse uma “lente de aumento” suficientemente boa que
permitisse a leitura dessas letrinhas em grande quantidade
 Uma máquina automática
 Em 1995, uma única máquina dessas já conseguia ler milhares de
letrinhas por dia
6
Contexto Histórico (5/6)

Do lado da computação foi também preciso um amadurecimento


Computadores sendo capazes de armazenar cada vez mais informação, de
processá-la de modo cada vez mais rápido, a um custo cada vez menor
Se o seqüenciamento automático do DNA tivesse amadurecido mais
rapidamente, digamos com 20 anos de antecedência, não haveria
computadores com poder suficiente para dar conta dos dados gerados



Na década de 1970 a unidade básica de armazenamento de informação era o
kilobyte -- 1000 bytes, aproximadamente 1000 letras
Um computador de grande porte daquela época tinha alguns kbytes de
memória
Com tal memória um computador desses não seria capaz de processar nem
sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil
letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas
7
Contexto Histórico (6/6)

Então, através de uma evolução que parece mais ou menos
sincronizada, desembocamos em 1995


Os computadores já estavam suficientemente poderosos para poder
processar os milhões e milhões de letrinhas que passaram a vir à luz.
E assim nasceu a bioinformática, com a missão de ajudar-nos a
entender a história que está escrita nesse livro da vida
8
Poligamina da Computação


Até que ponto essa onda em torno da bioinformática é justificada?
Afinal de de contas, hoje quase toda atividade científica depende do
computador


Poderíamos falar em física-informática, astronomia-informática,
arqueologia-informática, etc.
Será que há algo de especial na bioinformática?
9
Abordagens

Há dois tipos de problemas em que atua a bioinformática

O primeiro tipo de problema é chamado de problema
biotecnológico


O exemplo clássico é o da montagem de DNA
Uma segunda classe de problemas têm um interesse que vai
além de tecnologias específicas, que transcende qualquer
tecnologia, e diz respeito à natureza mesmo da biologia molecular

Queremos saber que informação está contida nos genomas
10
Problema biotecnológico (1/2)

Montagem de DNA




Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas
ou bases
As máquinas seqüenciadoras conseguem ler apenas pedaços de
cerca de 1000 bases
Então como é possível ler um livro de 3 ou 4 milhões de letras se
só conseguimos ler fragmentos de 1000 letras?
A solução é gerar uma enorme quantidade de fragmentos que
tenham sobreposição entre si


Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses
fragmentos
Aí, obviamente, é necessário um programa de computador para
montar esse quebra cabeça
11
Problema biotecnológico (2/2)

Esse problema é fruto de uma limitação tecnológica atual




É bem possível que daqui a 5 anos apareça um novo tipo de
seqüenciador que consiga ler diretamente as 3 ou 4 milhões de
bases
E quando essa tecnologia aparecer, o problema da montagem do
DNA deixa de existir. Portanto, o nome de problema
biotecnológico
Tal como esse, existem dezenas ou centenas de outros problemas
na bioinformática, cada um deles motivado por uma particular
tecnologia
Mas problemas desse tipo existem em outras ciências também

Certamente os telescópios modernos geram grandes quantidades de
dados de um jeito e formato que exigem programas de computador
sofisticados para coleta e intepretação; e quando mudam os
telescópios mudam os programas.
12
Para além da tecnologia

Há uma segunda classe de problemas que têm um interesse que vai além de
tecnologias específicas

Diz respeito à natureza mesmo da biologia molecular

São esses problemas que dão um charme todo especial à bioinformática

Que problemas são esses? São basicamente de dois tipos


Primeiro, temos a interpretação do DNA como uma linguagem, a
linguagem dos genes
O segundo tipo de problema é o de entender os efeitos da informação
genética
13
Linguagem dos Genes (1/2)

Os genomas contém informação

Sempre vamos querer saber que informação está contida neles




Por exemplo, para diferentes espécies de organismos e para diferentes
indivíduos de uma espécie, particularmente a nossa
Essa interpretação requer métodos, técnicas, algoritmos que vêm
principalmente da informática, pois afinal ela é a ciência da informação
Sem o uso dessas técnicas as seqüências de DNA produzidas pelas
máquinas e montadas pelos programas não passam de uma inútil sopa de
letrinhas
Dar sentido a essa sopa é tarefa dos bioinformatas
14
Linguagem dos Genes (2/2)

Nesta linha é interessante observar que existe um paralelo entre o uso
da informática para decifrar a informação genética e uma das
primeiras grandes aplicações dos computadores


O deciframento, pelos ingleses, do código secreto usado pelos
alemães na II guerra mundial
Um artigo recente que faz uma apanhado geral sobre as técnicas das
ciências da informação usadas no deciframento da linguagem genética
é D. Searls, The Language of Genes, Nature, 420:211-217, 2002
15
Efeitos da Informação Genética (2/2)

Temos aqui efeitos de gênese, de criação, ou seja, como a partir de um ovo
ou de uma semente se chega a um indivíduo; e também efeitos de
manutenção da vida, ou seja, como um indivíduo já formado responde ao
ambiente em que vive

O entendimento dos efeitos da informação genética começa com o
entendimento de como uma célula funciona

Agora temos a possibilidade de tentar descobrir qual é o efeito que uma
perturbação vai ter sem ter que efetivamente realizar essa perturbação



Para isso bastará "ler as instruções", "ler as especificações" e fazer as deduções
necessárias. Isto é, ler o genoma e entender a cadeia de dependências entre
os genes.
Essas cadeias são assim: um efeito externo faz um gene produzir uma proteína,
que ativa outro gene, que produz outra proteína, que ativa outro gene e assim
por diante.
Essa é uma tarefa que vai precisar de muita bioinformática
16
Bioinformática (1/5)

Definições

Pesquisa e desenvolvimento de ferramentas
computacionais, matemáticas e estatísticas para a
resolução de problemas da Biologia

Biologia Molecular
A Computação está para a Biologia da mesma
forma que a matemática está para física
Harold Morowitz
17
Bioinformática (2/5)

Definições


Número de definições  Número de bioinformatas
Todo mundo tem sua própria definição de
Bioinformática, com detalhes sutis para refletir seu
interesse em Ciências Biológicas
Uma combinação de Ciência da Computação, Tecnologia da
Informação e Genética para determinar e analisar informação
genética
Bits Journal - Bioinformatics: Information Technology & Systems
18
Bioinformática (3/5)

Outras definições



Aplicação de ferramentas de computação e análise
para captura e interpretação de dados biológicos
Integração de métodos matemáticos, estatísticos e
computacionais para analisar dados biológicos,
bioquímicos e biofísicos
Ciência e tecnologia sobre aprendizado,
gerenciamento e processamento de informação
biológica
19
Bioinformática (4/5)

Outras definições

Coleção de métodos estatísticos para lidar com grande conjuntos
de dados biológicos


Casamento da Ciência da Computação com a Biologia Molecular


Estatístico
Chefe de departamento de Ciência da Computação
Aplicação de técnicas de Aprendizado de Máquina para dados
biológicos

Pesquisador de Inteligência Artificial
20
Bioinformática (5/5)

Outras definições

Alinhamento de seqüências


Linha de comando unix


Comentário feito em uma reunião para decidir que projeto
apoiar
Profissional de suporte de sistemas em empresa de
Biotecnologia
Fluxo de recursos do próximo milênio

Diretor de Instituição
21
Bioinformática: atualmente (1/2)

Ênfase está se deslocando progressivamente do acúmulo
de dados para a sua interpretação

Com os sequenciamentos realizados, um grande volume
de dados tem sido gerado

Esses dados precisam agora ser analisados

Análise laboratorial é difícil e cara

Ferramentas computacionais sofisticadas são necessárias para
a análise dos dados obtidos
22
Bioinformática: atualmente (2/2)

Para muitas dessas análises, as ferramentas
computacionais precisam lidar com dados imprecisos e
ruidosos

Técnicas de laboratório de Biologia Molecular quase sempre geram
dados com erros ou imprecisões
 Erros na coleta de dados
 Erros na construção de bases de dados
Aprendizado de Máquina
Fornece técnicas para lidar com os problemas acima
23
Aprendizado de Máquina (AM)(1/2)

Principal preocupação


Como construir programas de computador que
automaticamente melhoram seu desempenho com a
experiência?
Técnicas orientadas a dados


Aprendem automaticamente a partir de grandes
volumes de dados
Geração de hipóteses a partir dos dados
24
AM (2/2)

Algumas Técnicas








Redes Neurais Artificiais (RNs)
Máquinas de Vetores Suporte (SVMs)
Algoritmos de Agrupamento (AA)
Algoritmos Genéticos (AGs)
Árvores de Decisão (ADs)
Raciocínio Baseado em Casos (RBC)
K-vizinhos mais próximos (kNN)
...
25
AM e Biologia (1/2)

Por muitos anos, sub-áreas da Biologia têm
inspirado técnicas de AM





Redes Neurais
Algoritmos Genéticos
Programação Genética
Vida Artificial
Agora, diversas pesquisas na Biologia vêm
utilizando técnicas de AM
26
AM e Biologia (2/2)
Redes Neurais, Algoritmos Genéticos
BIOLOGIA
COMPUTAÇÃO
Bioinformática
27
Biologia Molecular e AM (1/2)

Problemas da Biologia Molecular que podem ser
tratados por AM







Reconhecimento de genes
Reconstrução de árvores filogenéticas
Análise de dados de expressão gênica
Previsão de estruturas de proteínas
Análise de interação entre genes
Montagem de fragmentos
Alinhamento de seqüências
28
Biologia Molecular e AM (2/2)
Aplicação
Reconhecimento genes
Filogenia
Técnicas de AM
RNs, ADs, SVMs, RBC, kNN
AGs, AA Hierárquico
Análise de Expressão
RNs, SVMs, AA, ADs, kNN
Estrutura Proteínas
Interação entre genes
Montagem fragmentos
RNs, SVMs, AGs
Redes Booleanas e Bayesianas
AGs
Alinhamento
AGs
29
Problemas Abordados

Alinhamento de seqüências


Reconhecimento de genes


Identificação de elementos que provavelmente surgiram de um
ancestral comum
Identificação de genes em seqüências de DNA não caracterizadas
Análise de dados de expressão gênica

Identificar:




Predição de estrutura de proteínas


Um agrupamento dos genes que seja funcionalmente significativo
Novas sub-classes de doenças
Funções de genes desconhecidos
Identificação de estruturas secundárias de proteínas
Reconstrução de árvores filogenéticas

Encontrar estratégias eficientes para a obtenção da melhor árvore ou
mesmo de uma árvore sub-ótima
30
Técnicas de AM Utilizadas





Redes Neurais Artificiais
Máquinas de Vetores Suporte
Árvores de Decisão
Algoritmos Genéticos
Algoritmos de Agrupamento




Agrupamento Hierárquico
k-médias
Mapa Auto-Organizáveis
Cadeias escondidas de Markov (HMMs)
31
Objetivo
O objetivo do curso é propiciar aos estudantes um
entendimento das vantagens e limitações das técnicas
de AM revisadas, quando aplicadas aos problemas de
Biologia Molecular propostos
32
Referências




Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning
Approach. MIT Press.
de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C.
P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial –
Livro Texto, capítulo Técnicas de Aprendizado de Máquina para
Problemas de Biologia Molecular, pp. 103-152. Editora SBC.
Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.
Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática.
Com Ciência – Revista Científica da SBPC.
http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml
33
Download

Introdução a Bioinformática - Centro de Informática da UFPE