LABIC
Utilizando Inteligência
Artificial em
Bioinformática
Prof. André de Carvalho
LABIC - Universidade de São Paulo
André de Carvalho
1
Principais tópicos
LABIC
Introdução
 Bioinformática
 Biologia Molecular
 Reconhecimento de Genes
 Utilizando Inteligência Artificial
 Conclusão

André de Carvalho
2
LABIC
IA e Bioinformática
Redes Neurais, Algorítmos genéticos
BIOLOGIA
COMPUTAÇÃO
Bioinformática
André de Carvalho
3
LABIC
Definições

Bioinformática
 Pesquisa e desenvolvimento de ferramentas
computacionais, matemáticas e estatísticas para
a resolução de problemas da Biologia
 Biologia molecular
A Computação está para a Biologia da mesma
forma que a Matemática está para a Física.
Harold Morowitz
André de Carvalho
4
LABIC

Bioinformática
Nos últimos anos, diversos laboratórios têm
trabalhado no seqüenciamento de vários genomas
 Até o ano 2000:
 Mais que 30 organismos tinham sido seqüenciados
 Cerca de 150 organismos estavam sendo seqüenciados
 Determinação da seqüência de nucleotídeos em uma
molécula é o primeiro passo para entender seu
funcionamento
 Beneficia várias áreas
 Medicina - Farmácia - Agricultura
André de Carvalho
5
LABIC
Crescimento do GenBank
Número de sequências armazenadas no banco de
dados GenBank
12000000
10000000
8000000
6000000
4000000
2000000
0
1990
1992
1994
1996
1998
2000
Ano
André de Carvalho
6
LABIC
Andamento de projetos genoma

73 genomas completos publicados
 Humano
 Camundongo
 Drosophila
 Arabidopsis
 Levedura
212 de procariotos em andamento
 157 de eucariotos em andamento

André de Carvalho
7
LABIC
Fração do genoma da levedura
CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCC
TCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCAC
TGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACT
TTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGC
CCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATAT
CTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAA
AAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAA
CGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGG
TGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCA
AGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCAT
CTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGT
CTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGC
AGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAG
TTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGT
TTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGG
CTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGG
TAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGG
TTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATA
TTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCAC
ACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAA
TGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCT
AAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTC
TCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATT
ATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGT
TCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTT
CTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAAT
AGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAAT
TTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTT
TCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTG
TTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGG
CTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGA
CTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATT
TTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTAT
TATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGT
TGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAG
CAACTCATAATTTAA
André de Carvalho
8
Bioinformática
LABIC

Ênfase está se deslocando progressivamente
da acumulação de dados para a sua
interpretação
 Com os seqüenciamentos realizados, uma grande
quantidade de dados tem sido gerada
 Estes dados precisam agora ser analisados
 Análise laboratorial destes dados é difícil e cara
 Ferramentas computacionais sofisticadas são
necessárias para a análise dos dados obtidos
André de Carvalho
9
Bioinformática
LABIC

Para muitas destas análises, as ferramentas
computacionais precisam lidar com dados
imprecisos e ruidosos
 Técnicas de laboratório de Biologia Molecular
quase sempre geram dados com erros ou
imprecisões
 Na medição dos valores ou definição das classes
 Inteligência Artificial fornecem técnicas
eficientes para lidar com problemas deste tipo
André de Carvalho
10
LABIC

Biologia Molecular
Estudo das células e moléculas
 Em particular: genoma dos organismos

Estruturas principais:
 Genes
 Cromossomos
 DNA
nucleotídeos
 RNA
 Proteínas
aminoácidos
André de Carvalho
Expressão
Gênica
11
LABIC

Biologia Molecular
Dogma central da Biologia Molecular
 Transferência de Informação
Replicação
DNA
Transcrição
RNA
Tradução
André de Carvalho
Proteínas
12
Biologia Molecular
LABIC

Algumas descobertas posteriores contradizem
este dogma:
 RNA pode sofrer replicação em alguns vírus e
plantas
 RNA viral, através de uma enzima denominada
transcriptase reversa, pode ser transcrito em DNA
 DNA pode traduzir diretamente proteínas
específicas
 Sem passar pelo processo de transcrição
André de Carvalho
13
Biologia Molecular
LABIC

DNA (Ácido Desoxirribonucleico)
 O DNA é uma molécula formada por duas fitas (dupla
fita) que se entrelaçam formando uma hélice dupla
 DNA é composto de quatro nucleotídeos diferentes
 Adenina, Citosina, Guanina e Timina
 Fitas são mantidas juntas por ligações
que conectam cada nucleotídeo de uma
fita ao seu complemento na outra
• A se liga com T e C se liga com G
André de Carvalho
14
Biologia Molecular
LABIC

Genes
 Subseqüências de DNA
 Localizados no cromossomo
 Servem como molde para a produção de
proteínas
 Encaixadas entre os genes estão segmentos
chamados de regiões não codificadoras
André de Carvalho
15
Biologia Molecular
LABIC

Proteínas
 Definem estrutura, função e mecanismos
regulatórios das células
 Exemplos de mecanismos regulatórios: controle do
ciclo celular, transcrição gênica
 Seqüências lineares
 Combinações de 20 aminoácidos diferentes
 Três nucleotídeos (codon) formam um aminoácido
André de Carvalho
16
LABIC
Biologia Molecular
André de Carvalho
17
Biologia Molecular
LABIC

Expressão gênica
 Processo pelo qual genes são usados para
produzir proteínas
 Mecanismos de expressão gênica são diferentes
para organismos:
 Eucariotos
• Material genético difuso nas células (Ex.: bactérias)
 Procariotos
• Material genético em um núcleo (Ex.: seres humanos)
André de Carvalho
18
Processo de expressão gênica
LABIC

Transcrição
 RNA polimerase é a molécula (enzima) que
transcreve DNA em RNA
 RNA polimerase começa a transcrição após se
ligar a um sinal regulatório no DNA chamado
promotor
 Gera molécula de RNA mensageiro (mRNA)
André de Carvalho
19
Processo de expressão gênica
LABIC

Transcrição depende do organismo
 Organismos eucariotos
 Cada gene é transcrito independentemente
 Existe um promotor antes de todo gene
 Organismos procariotos
 Vários genes consecutivos podem ser transcritos em
uma única molécula de RNA
 Não existe necessariamente um promotor antes de
cada gene
André de Carvalho
20
LABIC

Processo de expressão gênica
Tradução
 Sintetiza uma proteína utilizando como forma mRNA
 Leitura do mRNA é feita por uma molécula chamada de
ribossomo
 Mensagem lida é utilizada para montar uma cadeia de proteína
• Tripla de nucleotídeos consecutivos (codon) codifica um
aminoácido
 Código genético: mapeamento de codons em
aminoácidos
André de Carvalho
21
LABIC
Processo de expressão gênica
DNA
RNA Polimerase
T G CAG C T C C G GAC TC CAT . . .
Transcrição
promotor
mRNA
A
André de Carvalho
22
LABIC
Processo de expressão gênica
DNA
RNA Polimerase
T G CAG C T C C G GAC TC CAT . . .
promotor
Transcrição
mRNA
AC GU C GAGG C C U GAGGUA. . .
André de Carvalho
23
LABIC
Processo de expressão gênica
DNA
RNA Polimerase
T G CAG C T C C G GAC TC CAT . . .
promotor
Transcrição
Ribossomo
mRNA
AC G U C GAGG C C U GAGGUA. . .
Tradução
Thr
André de Carvalho
24
LABIC
Processo de expressão gênica
DNA
RNA Polimerase
T G CAG C T C C G GAC TC CAT . . .
Transcrição
promotor
mRNA
AC GU C GAGG C C U GAGGUA. . .
Tradução
Ser
Cys
André de Carvalho
His
Ser
Gly
Ribossomo
Leu
25
Processo de expressão gênica
LABIC

Estrutura de leitura
 Para uma dada faixa de DNA, nucleotídeos podem
ser agrupados em triplas de três formas diferentes
 Um dos nucleotídeos pode ocupar a 1a, 2a ou 3a
posição em um codon
 Apenas um destes três possíveis agrupamentos é
realmente lido pelo ribossomo
 O agrupamento lido é chamado de estrutura de
leitura do gene
A T T AC G A A G
André de Carvalho
26
Processo de expressão gênica
LABIC

Em organismos eucariotos, existe um outro passo
importante durante o processo de expressão
gênica
 Após o DNA ser transcrito, certas partes da molécula
são eliminadas antes de sua transformação em
proteína

Genes em eucariotos são formados por segmentos
alternados de exons e introns
André de Carvalho
27
LABIC

Regiões de splice
Exons:
 Seqüências de nucleotídeos que são expressas
(traduzidas em proteínas)

Introns:
 Seqüências intercaladas que são eliminadas na tradução

Regiões de splice (splice-junctions):
 Pontos de fronteira onde ocorrem junções de exons e
introns
 Doadoras: bordas exon-intron
 Aceptoras: bordas intron-exon
André de Carvalho
28
LABIC
Splice-junctions
DNA
doador aceptor
exon
Transcrição
mRNA
intron
Splicing
mRNA
André de Carvalho
29
Biologia Molecular e IA
LABIC

Problemas da Biologia Molecular que podem ser
tratados por IA







André de Carvalho
Reconhecimento de genes
Construção de árvores filogenéticas
Análise de expressão gênica
Previsão de estruturas de proteínas
Análise de interação entre genes
Montagem de fragmentos
Alinhamento de seqüências
30
LABIC


Reconhecimento de genes
Um dos principais problemas em biologia
molecular é a identificação de genes em seqüências
de DNA não caracterizadas
Algoritmos convencionais não têm sido eficientes
 Variação natural dos genes
 Complexidade dos genes
 Natureza pouco compreendida dos genes

Abordagem promissora: Aprendizado de Máquina
André de Carvalho
31
LABIC
Reconhecimento de genes
 Duas
abordagens principais têm sido
seguidas:
 Busca por sinal
 Busca por conteúdo
André de Carvalho
32
Reconhecimento de genes
LABIC

Busca por sinal
 Localiza genes indiretamente
 Procura sinais particulares relacionados com a
expressão de genes
 Sinal
 Região localizada do DNA que realiza uma função
específica (exemplo: se liga a uma enzima)
André de Carvalho
33
Reconhecimento de genes
LABIC

Busca por conteúdo
 Reconhece genes diretamente
 Identifica segmentos de seqüências de DNA que
possuem as propriedades gerais de regiões
codificadoras
 Se baseia no conhecimento das diferentes
propriedades estatísticas de regiões codificadoras
e não codificadoras
André de Carvalho
34
Busca por sinal
LABIC

É importante não apenas entender a função
de cada gene
 Mas também os mecanismos que regulam a
expressão do gene
 Vários sinais exercem importantes funções
regulatórias definindo:
 Condições sob as quais os genes são expressos
 Taxa com a qual a expressão ocorre
André de Carvalho
35
Busca por sinal
LABIC

Detecção de sinal já é um problema em si
 Vários sinais que podem ser identificados em
seqüências de nucleotídeos são importantes para a
identificação de genes





André de Carvalho
Sítios de início de transcrição (promotores)
Sítios de término de transcrição (terminadores)
Sítios de splice-junction
Sítios de início da tradução (codons de iniciação)
Sítios de término da tradução (codons de parada ou stop
codons)
36
Busca por sinal
LABIC

Diferentes sinais têm diferentes dificuldades de
identificação
 Codons de parada são facilmente identificados
 Identificação de outros sinais é mais complicada

Busca por sinal é uma tarefa de classificação
 Dada uma janela de tamanho fixo de um DNA,
determinar se ela contém um sinal de interesse
 Se uma característica identificável do sinal ocupa
uma posição particular na janela
André de Carvalho
37
LABIC
Busca por sinal
Promotor na posição 3?
Classificador
Representação das
características
Posição 1 = ‘C’
Posição 2 = ‘T’
Posição 3 = ‘T’
Posição 4 = ‘A’
Posição 5 = ‘C’
Posição 6 = ‘G’
Seqüência de DNA ... A T C G T G C T T A C G C G T C C A
André de Carvalho
1 2 3 4 5 6
38
Reconhecimento de início da tradução
LABIC



Reconhece codons de iniciação
Tradução de mRNA em proteína não começa
com sua primeira tripla de nucleotídeos
Em organismos procariotos, uma simples
molécula de mRNA pode ter vários sítios de
início de tradução
 Genes consecutivos podem ser transcritos em uma
única cadeia de mRNA
André de Carvalho
39
LABIC

Reconhecimento de promotores
Sinal regulatório de uma molécula de DNA onde
RNA polimerase se liga para começar a transcrição
 RNA polimerase é uma molécula que transcreve DNA
em RNA
 Auxilia na localização de genes no DNA
 Existem sítios amplamente aceitos como sendo as
regiões que fornecem as carecterísticas definidoras de
promotores
 Regiões 10 e 35
André de Carvalho
40
Busca pelo conteúdo
LABIC

Identifica genes reconhecendo padrões que que
ocorrem na sua seqüência de nucleotídeos
 Regiões do DNA que serão traduzidas em proteínas
 Organismos procariotos: distinguir genes de regiões
não codificadoras
 Organismos eucariotos: distinguir também introns
de exons
 Janelas de tamanho fixo também são utilizadas para
esta previsão
André de Carvalho
41
Busca pelo conteúdo
LABIC

Busca por conteúdo procura responder as
seguintes perguntas:
 Quais são as regiões codificadoras
 Para uma dada região, que faixa e qual estrutura
de leitura codifica a proteína

Várias propriedades podem ser exploradas
para distinguir regiões codificadoras de não
codificadoras
André de Carvalho
42
Busca pelo conteúdo
LABIC

Propriedades que podem ser exploradas:
 Alguns aminoácidos são usados mais freqüentemente que
outros em regiões codificadoras
 A existência de diferentes números de codons para
aminoácidos diferentes
 Codons que mapeiam em um dado aminoácido não são
usados igualmente na maioria dos organismos
 Não podem conter codons de parada
 Alguns codons têm maior probabilidade de serem
vizinhos
André de Carvalho
43
Reconhecimento de genes
LABIC

Abordagens mais promissoras em
reconhecimento de genes:
 Combinam previsão de vários sinais diferentes
e regiões codificadoras

Reconhecimento de operons
 Genes consecutivos que são ativados ou
desativados em conjunto
André de Carvalho
44
Redes Neurais Artificiais
LABIC

Sistemas computacionais distribuídos
baseados na estrutura e funcionamento do
sistema nervoso
 Nodos simulam neurônios
 Conexões ponderadas simulam sinapses

Definidas por
 Arquitetura
 Aprendizado
André de Carvalho
45
LABIC
Redes Neurais Artificiais
camadas intermediárias
camada de
entrada
camada de
saída
conexões
André de Carvalho
46
LABIC

Redes Neurais Artificiais
Stormo et al (1982): reconhecimento de sítios de início
de tradução no DNA de bactérias E. Coli
 Primeira aplicação de Redes Neurais em Bioinformática
 Utilizou rede Perceptron
A C G T
A C G T A C G T
... A T C G T G C T T A C G C G C G T ...
André de Carvalho
47
LABIC
Redes Neurais Artificiais
Trabalho
Towell et al (1990)
Problema abordado
Sítios de início de transcrição
Uberbacher et al (1993) Servidor GRAIL - identificação de genes
Riis et al (1995)
Polyac et al (1992)
Ma e Wang (1999)
Bajic et al. (2002)
Rampone (1998)
André de Carvalho
Previsão de estrutura de proteínas
Reconhecimento de promotores
Reconhecimento de regiões de splicing
48
LABIC
Algoritmos Genéticos

Técnica de busca e otimização
 Baseados na genética e teoria da seleção natural
 Utiliza uma população de soluções candidatas
(indivíduos)
 A cada indivíduo é associado um escore de aptidão, que
mede o quão boa é a solução que ele representa
 Otimização ocorre em várias gerações
 A cada geração
• Mecanismos de seleção selecionam os indivíduos mais aptos
• Operadores de reprodução geram novos indivíduos
André de Carvalho
49
LABIC
Algoritmos Genéticos
População inicial
População final
Avaliação
População atual
Seleção
Reprodução
André de Carvalho
50
LABIC

Algoritmos Genéticos
Alinhamento de seqüências:
 Uma a uma
 Uma com várias
 Identificar:
 Inserções
 Remoções
 Substituições
André de Carvalho
Seq1: A G C C A T A T
Seq2: A C G C T A T A
Seq1: A  G C C A T A T
Seq2: A C G C T A T A 
51
LABIC
Algoritmos Genéticos
Trabalho
Alander (1995)
Krasnogor et al. (1999)
Zhang e Wong (1997)
André de Carvalho
Problema abordado
Previsão de estrutura de
proteínas
Alinhamento de sequências
52
LABIC
Raciocínio Baseado em Casos

Resolve novos problemas adaptando soluções de
problemas anteriores semelhantes
Solução
Problema
André de Carvalho
2
1
Nova solução
Novo problema
53
Raciocínio Baseado em Casos
LABIC

RBC é mais que uma Base de Dados
 Não é uma tabela de busca

Sistemas de RBC procuram casos passados
semelhantes ao problema atual em uma base de
casos indexada
 Indexação e representação de casos facilitam
recuperação de casos relevantes e sua comparação
com o problema atual
 Permite adaptação de casos
André de Carvalho
54
LABIC
Raciocínio Baseado em Casos
Ciclo de um sistema de RBC
André de Carvalho
(Aamodt, 1993)
55
LABIC
Raciocínio Baseado em Casos
Trabalho
Problema abordado
Shavlik (1990, 1991)
Reconhecimento de genes
Harris et al. (1993)
Alinhamento de seqüências
André de Carvalho
56
LABIC
Classificadores de Margens Largas

Maximizam a margem de separação entre
classes presentes nos dados
 Máquinas de Vetores Suporte (SVMs)
 Boosting
 Maior capacidade de generalização
 Baseados na Teoria de Aprendizado
EstatísticoVapnik e Chervonenkis (1968)
 Embute conceitos probabilísticos e estatísticos
André de Carvalho
57
LABIC

Classificadores de Margens Largas
Máquinas de Vetores Suporte
 Encontra um hiperplano ótimo que separa classes em um
espaço abstrato
margem
Classe 1
Classe 2
André de Carvalho
58
LABIC
Classificadores de Margens Largas

Análise de expressão gênica
Gene
1
2
3
4
André de Carvalho
Expressão
Tecido normal
Tecido com tumor
T1 T2 T3
T1 T2 T3
128 100 30
20 10
9
20 10 18
104 210 47
29 130 7
37 310 40
21 12 15
92 123 84
59
LABIC
Classificadores de Margens Largas
Trabalho
Técnicas
Problema abordado
Ding e Dubchak (2001) SVMs, RNs
Estrutura proteínas
Zien et al. (2000)
SVMs
Sítios de início de tradução
Furey et al. (2001)
SVMs
DNA microarray
Bem-Hur et al. (2000)
SVMs, AB, DNA microarray
clusterização
Brown et al. (1999)
SVMs, ADs
DNA microarray
Karchin et al. (2002)
SVMs
Subfamílias proteínas
Jackson (1995)
AB, RNs
Promotores, reg. codificadoras
Huss et al. (2001)
ADs, AB
Especificidade proteínas
André de Carvalho
60
LABIC

Árvores de Decisão
Organizam informações em
estrutura composta de nós e
ramificações
 Nós: testes sobre atributos;
 Ramos: resultados dos testes
sorri
segura
espada
inimigo
André de Carvalho
não
sim
inimigo
balão ou
bandeira
amigo
61
Árvores de Decisão
LABIC

Lapedes et al (1989): detecção de regiões de
splicing (regiões doadoras)
 Entrada: cadeia de nucleotídeos
Posição 8 = ?
C
A
Posição 3 = ? Positivo
A
Negativo
André de Carvalho
C
Negativo
G
G
Negativo Posição 9 = ?
T
Positivo
T
A
Negativo
C
Positivo
G
Negativo
T
Negativo
62
LABIC
Outras técnicas
Técnica
Problema
Redes Baysianas
Detecção de genes Friedman et al
(2000)
Cadeias de
Markov
Detecção de genes Eddy (1998)
RNAs, AGs e kNN
Estrutura de
proteínas
Guan et al (1994)
Lingüística
computacional
Previsão da
estrutura de genes
Dond e Searls
(1994)
André de Carvalho
Trabalho
63
Projeto Fapesp Genoma Clínico
LABIC

Genoma do câncer humano
 Dados clínicos e de expressão gênica
 Sage, PCR, Microarray e MPSS
 9 tipos de câncer
 Análise de expressão gênica
 Data mining
 Utiliza técnicas de Aprendizado de Máquina
 FAPESP e Instituto Ludwig
André de Carvalho
64
Projeto CNPq - Bioinformática
LABIC

Reconhecimento de genes
 Identificação de promotores
 Reconhecimento de regiões de splicing
 Reconhecimento de regiões codificadoras
 Utiliza SVMs, AB e RNs
 Metodologias para melhorar desempenho
 Redução de ruídos
 Seleção de atributos
 CNPq e FAPESP
André de Carvalho
65
LABIC
Projeto CNPq - Bioinformática

Melhoramento genético
 Utiliza marcadores moleculares para avaliar
potencial genético
 10 marcadores (2 já foram avaliados)
 Identificação de cruzamentos mais promissores
 Previsão de ganho de peso entre nascimento e
desmama
 Utiliza SVMs e RNs
 CNPq e Embrapa
André de Carvalho
66
Referências de IA e Bioinformática
LABIC

Artificial Intelligence and Molecular Biology
 Editado por Lawrence Hunter, AAAI Press Book
 Disponível gratuitamente na internet

Bioinformatics (Adaptive Computation and Machine
Learning)
 Pierre Baldi, Soren Brunak, Sren Brunak, MIT Press

Neural Networks and Genome Informatics
 Cathy H. Wu, Jerry W. McLarty, Elssevier

Data Analysis and Classification for Bioinformatics
 Arun Jagota
André de Carvalho
67
LABIC
Conclusão
Introdução
 Bioinformática
 Biologia Molecular
 Reconhecimento de Genes
 Utilização de IA em Bioinformática

André de Carvalho
68
LABIC
Agradecimentos
Ana Carolina Lorena
 Cláudia Regina Milaré
 Humberto de Sousa
 Silvia Gorla Modonese da Silva
 Alexandre Delbem
 Katti Faceli
 Welington Martins

André de Carvalho
69
LABIC


Reconhecimento de regiões de splicing
Dados: regiões de splicing de primatas (UCI)
Divisão do problema:
 Identificação de presença da região (Experimento 1)
 Determinação do tipo da região (Experimento 2)
 intron-exon
 exon-intron

Técnicas:
 Árvores de Decisão (ADs)
 Redes Neurais Artificiais (RNAs)
 Máquinas de Vetores Suporte (SVMs)
André de Carvalho
70
Pré-processamento dos dados
LABIC

Heurística Tomek links: identificar
 Dados classificados incorretamente
5 - 6 % dados
 Borderlines
André de Carvalho
71
Resultados
LABIC

ADs:
 diminuição do tamanho das árvores induzidas
(10 - 33 %)

RNAs:
 menor tempo de treinamento (20 %)

SVMs:
 menor tempo de treinamento (7 - 15 %)
 menor número de vetores suporte (6 - 10 %)
André de Carvalho
72
LABIC
Erros obtidos (%)
Experimento 2
Experimento 1
Dados
Total
IE+EI
N
Total
IE
EI
Originais 4.4  0.6 1.9  0.6 6.7  0.9 4.3  1.5 5.3  2.3 3.3  2.8
A
D Pré-proc. 4.5  0.9 1.9  1.0 6.8  1.0 4.5  1.6 5.3  2.4 3.7  2.4
R
N
A
S
V
M
Originais
--
--
--
3.5  1.7 3.6  1.7 3.3  2.3
Pré-proc.
--
--
--
3.7  1.7 4.3  2.3 3.0  2.8
Originais 3.6  0.9 1.3  0.8 2.2  0.6 1.9  1.1 1.7  1.1 2.1  2.3
Pré-proc. 2.9  0.8 1.0  0.8 2.0  0.4 2.1  1.2 1.2  1.2 0.9  0.5
André de Carvalho
73
LABIC
Teste de Significância
• Significância com que Técnica 1 é melhor que Técnica 2
• Experimento 1:
Técnica 1
Técnica 2
Originais
Pré-processados
SVM
AD
95 %
95 %
• Experimento 2:
Técnica 1
Técnica 2
Originais
Pré-processados
RNA
AD
--
80 %
SVM
AD
95 %
95 %
SVM
RNA
95 %
95 %
André de Carvalho
74
Análise de expressão gênica
LABIC



Várias medidas foram testadas para a seleção de
genes
Para as várias medidas foram selecionados 50, 10
e 4 genes, sendo metade hipo e metade hiper
expressos
Para os casos 10 e 4 genes, os genes foram
selecionados dentre aqueles com expressão > 5
(apenas 84 genes)
André de Carvalho
75
Experimentos
LABIC

Os genes selecionados foram utilizados em um
algoritmo de Aprendizado de Máquina (AM)
 AM utilizado para classificar se uma amostra é de
tecido normal ou com tumor, a partir dos dados de
expressão desses genes
 Objetivo: verificar quais entre várias medidas para
seleção dos genes forneceu um conjunto de genes mais
apropriado para a distinção tumor/normal
André de Carvalho
76
Bibliotecas empregadas
LABIC

Normal







1 - SAGE_Brain_normal_cerebellum_B_1_FREQUENCY
2 - SAGE_Brain_normal_cerebellum_B_BB542_FREQUENCY
3 - SAGE_Brain_normal_cortex_B_BB542_FREQUENCY
4 - SAGE_Brain_normal_cortex_B_pool6_FREQUENCY
5 - SAGE_Brain_normal_peds_cortex_B_H1571_FREQUENCY
6 - SAGE_Brain_normal_thalamus_B_1_FREQUENCY
Tumor








André de Carvalho
7 - SAGE_Brain_astrocytoma_gradeIII_B_H1020_FREQUENCY
8 - SAGE_Brain_ependymoma_B_239_FREQUENCY
9 - SAGE_Brain_glioblastoma_B_GBM1062_FREQUENCY
10 - SAGE_Brain_glioblastoma_CL_H54+EGFRvIII_FREQUENCY
11 - SAGE_Brain_glioblastoma_CL_H54+LacZ_FREQUENCY
12 - SAGE_Brain_medulloblastoma_B_96-04-P019_FREQUENCY
13 - SAGE_Brain_medulloblastoma_B_98-04-P494_FREQUENCY
14 - SAGE_Brain_medulloblastoma_B_98-05-P608_FREQUENCY
77
LABIC
Resultados
Classificações incorretas
Medida
A
Fórmula
Se SomaT  SomaN
(Ratio)
B
SomaT
senão  SomaN
SomaN
SomaT
SomaT  SomaN
(Difference)
C
(Ratio)
D
Se MediaT  MediaN
MediaT  MediaN
(Difference)
E
F
(correlação de Pearson)
G
(Baseado em A e B)
H
(Baseado em C e D)
I
André de Carvalho
(Distância Euclidiana)
MediaT
MediaN
senão 
MediaN
MediaT
p( g , c) 
n
c g
i i
1 i
MediaT  MediaN
dpT  dpN
1
n
5Ratio  Difference
5  1
5Ratio  Difference
5  1
1 n
 ( g i  ci ) 2
n i 1
50 genes
10 genes
4 genes
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0

max¨(difference)  min(difference)
max¨(Ratio)  min(Ratio)
0
1
0

max¨(difference)  min(difference)
max¨(Ratio)  min(Ratio)
0
1
0
0
1
2
78
LABIC
Genes selecionados com as várias medidas
TAG
André
UNIGENE
No. de vezes que
foi selecionado
AAGTTGCTAT
78575
1
AGGCTACGGA
ATGTGAAGAG
ATTTGAGAAG
CACCTAATTG
CCACTGCACT
CCTGTAATCC
CTGGGTTAAT
GAGGGAGTTT
GGCAAGCCCC
GGCTGGGGGC
GGGCTGGGGT
GTGAAACCCC
GTGAAACCCT
GTGAAGGCAG
GTTGTGGTTA
TACCATCAAT
TACTAGTCCT
TAGGTTGTCT
TGCACGTTTT
TGCCTGCACC
TGGAGTGGAG
TGTACCTGTA
deTTGGGGTTTC
Carvalho
119122
111779
178658
334477
107003
138593
298262
76064
334895
75721
90436
372737
182476
77039
75415
169476
289088
279860
169793
135084
3764
334842
62954
6
1
9
9
6
6
5
8
2
3
2
6
1
3
1
1
8
1
3
3
2
2
1
Descrição
Prosaposin (variant Gaucher disease and variant metachromatic
leukodystrophy)
ribosomal protein L13a
secreted protein, acidic, cysteine-rich (osteonectin)
RAD23 homolog B (S. cerevisiae)
FLJ23277 protein
enhancer of invasion 10
5'-nucleotidase (purine), cytosolic type B
ribosomal protein S19
ribosomal protein L27a
ribosomal protein L10a
profilin 1
sperm associated antigen 7
hypothetical protein MGC3207
hypothetical protein PP1226
ribosomal protein S3A
beta-2-microglobulin
glyceraldehyde-3-phosphate dehydrogenase
heat shock 90kD protein 1, alpha
tumor protein, translationally-controlled 1
ribosomal protein L32
cystatin C (amyloid angiopathy and cerebral hemorrhage)
guanylate kinase 1
tubulin, alpha, ubiquitous
ferritin, heavy polypeptide 1
79
Download

Utilizando Intelignc..