Edberto Ferneda Introdução aos Modelos Computacionais de Recuperação de Informação Prefácio de Johanna Smit Introdução aos Modelos Computacionais de Recuperação de Informação Copyright© Editora Ciência Moderna Ltda., 2012. Todos os direitos para a língua portuguesa reservados pela EDITORA CIÊNCIA MODERNA LTDA. De acordo com a Lei 9.610, de 19/2/1998, nenhuma parte deste livro poderá ser reproduzida, transmitida e gravada, por qualquer meio eletrônico, mecânico, por fotocópia e outros, sem a prévia autorização, por escrito, da Editora. Editor: Paulo André P. Marques Supervisão Editorial: Aline Vieira Marques Copidesque: Vanessa Motta Capa: Daniel Jara Diagramação: Janaína Salgueiro Assistente Editorial: Laura Souza Várias Marcas Registradas aparecem no decorrer deste livro. Mais do que simplesmente listar esses nomes e informar quem possui seus direitos de exploração, ou ainda imprimir os logotipos das mesmas, o editor declara do dono da Marca Registrada, sem intenção de infringir as regras de sua utilização. Qualquer semelhança em nomes próprios e acontecimentos será mera coincidência. FICHA CATALOGRÁFICA FERNEDA, Edberto. Introdução aos Modelos Computacionais de Recuperação de Informação Rio de Janeiro: Editora Ciência Moderna Ltda., 2012 1. Informática. I — Título ISBN: 978-85-399-0212-5 Editora Ciência Moderna Ltda. R. Alice Figueiredo, 46 – Riachuelo Rio de Janeiro, RJ – Brasil CEP: 20.950-150 Tel: (21) 2201-6662 / Fax: (21) 2201-6896 [email protected] www.lcm.com.br CDD 001.642 11/11 Aos meus pais Élcio (in memoriam) e Elza Aos meus irmãos Edilson e Edmir Agradecimentos Este livro é derivado de minha tese de doutorado em Ciência da Informação. Assim, gostaria de agradecer a todos que contribuíram para a execução daquela pesquisa, em especial à minha orientadora, professora Johanna Smit, que com sua competência e simpatia apresentou a mim o mundo novo e empolgante da Ciência da Informação. Agradeço às professoras Mariângela Fujita e Silvana Vidotti pela amizade e pelo exemplo de dedicação à pesquisa e ao trabalho acadêmico. Agradeço também aos demais professores do Departamento de Ciência da Informação da UNESP-Marília pelo ambiente agradável e fecundo onde tenho a felicidade de trabalhar. Agradeço ainda aos professores Edilson Ferneda e Hércules Antonio do Prado, do Programa de Pós-Graduação em Gestão de Conhecimento e Tecnologia da Informação da Universidade Católica de Brasília, pela leitura atenta, revisão e sugestões. Prefácio Os jovens de hoje, que já nasceram numa sociedade digital, ignoram muitas vezes o quanto os recursos que agora parecem muito simples – “naturais” até – resultam de uma história que foi se consolidando ao longo de séculos. A recuperação de informações na Internet provê um ótimo exemplo para a Internet para achar qualquer coisa.... inclusive a informação procurada! Graças à tecnologia, a busca se tornou uma operação simples, quase intuitiva, o que obviamente representa um grande avanço, mas também acaba escondendo a complexidade das operações que estão por trás das buscas. Edberto Ferneda, aliando uma formação na área de Informática a outra em Ciência da Informação, consegue demonstrar a complexidade daquilo que hoje parece completamente natural, iniciando pela “pré-história” da recuperação da informação, baseada em cálculos estatísticos e estratégias de busca formatadas pela lógica booleana. Posteriormente sistemas de recuperação da de estratégias de busca; o percurso desenhado por Edberto nos leva até as atuais “nuvens de tags” que chegam a mesclar a indexação elaborada pelos responsáveis por sites com indexações propostas pelos usuários ou então por eles customizadas. O presente texto atualiza a pesquisa desenvolvida sob forma de uma tese de doutorado defendida no Programa de Pós-Graduação em Ciências da Comunicação, área de concentração Ciência da Informação, da ECA/USP em "##$ % &' % da Ciência da Informação. Pode-se ler o texto como uma narração de “redescobertas da roda”, já que os desenvolvedores de sistemas de busca de informação foram incorporando procedimentos clássicos da biblioteconomia, VIII Introdução aos Modelos Computacionais de Recuperação de Informação da documentação e da recuperação de informação. A ironia quer que um dos *& + 0 formação disponibilizada) atualize a diplomática, desenvolvida por monges europeus no século XVII e apropriada pela arquivologia! O grande mérito deste livro reside em explicar de forma bastante simples conceitos da maior complexidade e, por meio desta explicação, desvelar a complexidade dos procedimentos mobilizados ao “googlar” hoje uma “simples” pergunta. Imensos progressos foram possíveis nestes últimos anos graças à incorporação massiva da tecnologia nos sistemas de recuperação da informação: justamente esta é a odisseia que Edberto nos apresenta, ressaltando tanto o que é novidade quanto o que não passa de uma reutilização de procedimentos e conceitos clássicos da Ciência da Informação. Apesar dos progressos, uma certeza, no entanto, permanece: o adequado dimensionamento da tensão entre os aspectos quantitativos e qualitativos, sempre presente na recuperação da informação, ainda tem um longo caminho pela frente e nenhuma opção poderá ignorar as variáveis descritas por Edberto! Johanna W. Smit 1"#2# Apresentação O vertiginoso avanço tecnológico que caracterizou o século XX e ainda 3 * aumento da importância da informação como recurso estratégico nos mais variados contextos. No mundo globalizado e competitivo em que vivemos mais do que nunca precisamos de informação: informação para o bom desempenho 45 estratégico e operacional de empresas; informação para auxiliar governos no desenvolvimento e gestão de políticas públicas. Porém, observa-se que mesmo com as tecnologias disponíveis na atualidade a busca por uma informação 3% 6 4 satisfatórias para esse problema faz da Recuperação de Informação uma área O termo “Recuperação de Informação” (“Information Retrieval”) foi 278#* 9 < substanciadas em um “modelo”. Um modelo de recuperação de informação = ' dos documentos, a representação das buscas dos usuários e a maneira como esses dois primeiros elementos serão comparados. O objetivo deste livro é apresentar de forma simples e clara alguns dos principais modelos de recuperação de informação advindas da Ciência da Computação. Este livro não contém algoritmos ou programas, e as fórmulas matemáticas existentes são devidamente interpretadas e explicadas textual 9 conhecimento em informática. Nos dois primeiros capítulos são apresentadas as duas principais ciências envolvidas na pesquisa por soluções para problemas relacionados à recuperação da informação: a Ciência da Informação e a Ciência da Computação, X Introdução aos Modelos Computacionais de Recuperação de Informação bem como um esquema básico com os principais elementos que compõem o processo de recuperação de informação. 1 9$8modelo booleano, o primeiro modelo desenvolvido e de certa forma ainda o mais utilizado; o modelo vetorial, de fundamental importância para o desenvolvimento das pesquisas nessa área; e o modelo probabilístico, que aborda o problema da recuperação de informação utilizando a teoria da probabilidade. Estes três modelos (booleano, vetorial e probabilístico) são muitas vezes referenciados como modelos “clássicos” e correspondem de certa forma ao alicerce teórico sob o qual se desenvolveu a área de Recuperação de Informação. Os modelos clássicos foram o ponto de partida para diversas outras ideias e modelos, como é o caso do modelo booleano estendido, apresentado no Capítulo 6. A recuperação de informação se tornou foco de interesse de diversas áreas ?= ?@= direcionou parte de seu ferramental teórico e prático na proposição de soluções para os problemas relacionados ao tratamento e recuperação da informação. No Capítulo 7 são apresentadas algumas técnicas de Processamento da Linguagem Natural auxiliares no processo de tratamento da informação 1?9Q 9 da lógica fuzzy e a sua utilização na recuperação de informação. Sistemas Especialistas foi @= Y elementos básicos de um sistema especialista e a sua aplicação em sistemas de ?97< @= Z1 goritmos Genéticos. A aplicação de conceitos ligados a essas áreas na recupe?92#22 ?[9 3 277#3 Y *mados “mecanismos de busca” (search engines), “sites de busca” ou simplesmente “buscadores” são resultados dessas pesquisas e transformaram a Web Apresentação XI de um simples repositório de páginas em uma preciosa fonte de informação * Y?92"tos característicos da Web e a estrutura básica dos mecanismos de busca. Esforços foram e estão sendo realizados para melhorar o desempenho na busca por informação na Web. Dentre esses esforços está a Web Semântica, & %[ 31?92$3 estrutura básica da Web Semântica, assim como os seus elementos que buscam * [ \ ?9 2] 4 abordando as características e limites da Ciência da Informação e da Ciência da Computação e as possibilidades de um relacionamento mais próximo. Sumário 1 A Informação e as suas Ciências .................................................... 1 22?= @......................................................................... $ 2"?= ? ?= @ . 7 2 Recuperação de Informação ........................................................ 13 "2< 0Corpus)........................................................................... 2] ""Z ............................................................ 28 "$^ ................................................................................................ 2_ "]6` ............................................................................... 2Q "8Z6` ................................................. 2Q "kw` ................................................................................... 27 "_Z` ............................................................................... 27 "QyZ @ ............................................... "# 3 Modelo Booleano ........................................................................... 21 $2Y ........................................................................... "" $"Y .................................................................. "8 $$< .............................................................................................. "Q 4 Modelo Vetorial ............................................................................. 31 ]2Z ............................................................ $2 ]"6 ............................................................................... $$ ]$? ......................................................................... $8 ]]Y{yZ| ................................................................................ $k XIV Introdução aos Modelos Computacionais de Recuperação de Informação ]8< .............................................................................................. ]# 5 Modelo Probabilístico ................................................................... 43 82Z 9 ................................................................... ]_ 8"< .............................................................................................. 8" 6 Modelo Booleano Estendido ......................................................... 53 k2< .............................................................................................. k# 7 Processamento da Linguagem Natural ....................................... 61 _21%49 ................................................ k$ _"@ ....................................................... k] _$Z ................................................................... k8 _]< .............................................................................................. k7 8 Modelo fuzzy .................................................................................. 71 Q2?&fuzzy..................................................................................... 72 Q"?&fuzzy na recuperação de informação.................................... _8 Q$< .............................................................................................. 77 9 Sistemas Especialistas ................................................................... 79 726 {6 ........................................ Q# 7"{6 .......................... Q8 7$< .............................................................................................. Q_ 10 Redes Neurais .............................................................................. 89 2#2Z ...................................................................... 7# 2#"% ..................................................................................... 7" Sumário XV 2#$Z1 ................... 7$ 2#]Z1 [ ...................................... 2## 2#8< .......................................................................................... 2#2 11 Algoritmos Genéticos ................................................................ 103 2226 ................................................................... 2#] 22"}3 ........................22# 22$< ...........................................................................................22] 12 Recuperação de Informação na Web ...................................... 117 2"2? 9 [ .......................................................................22Q 2""y ....................................................................... 2"" 2""2@........................................................................................................2"" 2"""@ ..................................................................................................2"$ 2""$6 ...............................................................................................2"8 2""]y ...................................................................................................................2"Q 2"$~y ............................................................................ 2"7 2"]< .......................................................................................... 2$8 13 Web Semântica .......................................................................... 137 2$2 Z<wZ<w Schema............................................................ 139 2$" Y.................................................................... 2]8 2$$ \? ............................................ 2]7 2$]< .......................................................................................... 28# 14 Considerações Finais ................................................................ 151 Referências...................................................................................... 155 Lista de Figuras w2Z ................ 2] w"Z &01< .............................................."" w$Z &0YZ .......................... "$ w]Z 01Y| ......................................... "$ w8Z 1Y|................... "] Figura 6 Resultado de uma expressão de busca booleana utilizando parênteses ...."] Figura 7 Representação vetorial de um documento com dois termos de indexação ......$" wQZ = $" w76 ........................................ $$ w2#Z . $] w22{ & .......... ]_ w2"Z .......... 8] w2$\= & ................... _" w2]Z4altobaixo ............................................. _$ w28Zfuzzy de um documento estruturado ......................... 76 w2k6 ................................................ Q# w2_6 * ...... Q$ w2Q6%frames na representação do conhecimento ....Q] w27Z .................................... Q7 w"#y ................................................ 72 w"2Z ..................................... 7" w""Z ....7] w"$6y% .............................. 78 w"]@Z....................................... 77 w"8{= 3 ........................... 2#8 w"kCorpus com documentos representados por quatro “cromossomos” 222 w"_6[0^Z ............................................. 227 w"Q6|y% ......................... 2"# XVIII Introdução aos Modelos Computacionais de Recuperação de Informação w"7\ } .....2"_ w$#?|y~y.............................. 2$# w$26%<|< ~y ........ 2$2 w$"?<|<~ySchema .......................................... 2$" w$$6%~ySchema em um documento XML .2$] w$][{ ......................................................... 2$7 w$8<Z<wSchema da classe Autor ........................................... 2]" w$k<Z<wSchema da classe Publicação .................................. 2]$ w$_<Z<wSchema da classe Livro ........................................... 2]] w$Q< Z<wZ<wSchema ................... 2]8 w$76%Y@.......................... 2]_ 1 A Informação e as suas Ciências {y }02777$ logo após a invenção da imprensa no século XV, quando normalmente se utilizava uma palavra em latim para expressar uma nova ideia ou conceito. Sua raiz é derivada de formatio e forma, ambos transmitindo a ideia de “moldar algo” ou dar “forma a” algo. {*[027]7$ ' O que acrescenta algo a uma representação [...] Recebemos informação quando o que conhecemos se @3 & alteração ou reforço de uma representação ou estado de coisas. As representações podem ser explicitadas como num mapa ou proposição, ou implícitas como no estado de atividade orientada para um objetivo do receptor. Na visão de Shannon, a informação não depende de um suporte material, 6|@ * importante no estudo da informação em diversos contextos. " Introdução aos Modelos Computacionais de Recuperação de Informação {Z027_"$' A palavra ’informação’, em seu sentido usual, parece comportar, necessariamente, um elemento de consciência e de sentido. [...] A informação, no sentido habitual do termo, é a transmissão a um ser consciente de uma com base em um suporte espaço-temporal: imprensa, 027Qk ' Informação é uma propriedade dos dados resultante de ou produzida por um processo realizado sobre os dados. O processo pode ser simplesmente a transmissão de 0 & utilizadas na teoria da comunicação); pode ser a seleção de dados; pode ser a organização de dados; pode ser a análise de dados. 1 ` 02772 = do termo “informação”: Como processo - o ato de informar ou a comunicação do conhecimento ou notícias sobre um fato ou ocorrência; Como conhecimento - o que é percebido pela informação enquanto processo, o conhecimento comunicado. Sua principal característica é a intangibilidade; Como coisa - aquilo que é visto como informativo: objetos, documentos, textos, dados ou eventos. A sua principal característica é a tangibilidade, sua materialidade. Nos dois primeiros usos, a informação para ser comunicada precisa estar “expressa, descrita ou representada em algum modo físico”, em uma forma 9 ` informação como coisa” em termos de potencial para o processo de informar, e defende o por este ser o único sentido com o qual tais sistemas podem lidar diretamente. 2@?= $ Z 0"##$ 2 @4 contexto da Ciência da Informação está evidenciado o seu caráter semântico. 1.1 A Ciência da Informação O nascimento da Ciência da Informação pode ser visto como consequência de uma sucessão de técnicas relacionadas com o registro físico do conhecimento, principalmente a escrita. A escrita permitiu registrar, estocar e recuperar o conhecimento, gerando uma espiral cumulativa de textos cujo potencial *} 2]$7 tipo móvel e apresentou a primeira prensa na Europa. O sucesso do invento de Gutenberg só não foi mais imediato pelo fato de que naquela época poucas pessoas sabiam ler. Em uma sociedade basicamente agrária, os camponeses nada tinham a ganhar com a alfabetização, e em geral não aspiravam a ela. Porém, a Revolução Industrial, iniciada em meados do século XVIII, provocou o êxodo das populações do campo para a cidade e deu interpretação e utilização. A construção de estradas e o surgimento das ferrovias facilitaram a expansão do comércio e a distribuição de livros e jornais. A velocidade das mensagens passou da velocidade do cavalo para a da locomotiva e desta para a eletricidade. Novas invenções se seguiram durante o século XIX, a maioria delas li13 2Q"#9 *13 < tempo aliou-se à impressão nas técnicas de ilustração de livros e jornais. Por 2Q]#*`&< 62Q]$ escocês Alexander Bain patenteou o primeiro aparelho de fax (fac-simile) da *62Q_k}*`1 |*6 2Q_7 &3 0y }ZZ27777#7$ ] Introdução aos Modelos Computacionais de Recuperação de Informação No início do século XX, Paul Otlet apresenta o termo “Documentação”. \Y027$] & mentação e propõe metodologias e técnicas para estudá-lo, sinalizando também para a necessidade de criar algumas interdisciplinas, contidas pelas interfaces 9 9 0{1|Y{"##_ Paul Otlet e Henri La Fontaine entraram para a história da biblioteconomia ? < ^0?<^62Q78 em Bruxelas, na Bélgica, o International Institute for Bibliography - IIB, marco no desenvolvimento do que veio a se chamar Documentação e posteriormente Ciência da Informação. O primeiro objetivo do IIB era a elaboraZ` ^0Z`^* % *% \Y * associação entre as informações nelas registradas. Devidamente conectadas ?<^ * prenúncio do hipertexto. As solicitações de pesquisa nesse grande banco de dados eram feitas pelo correio e sua operacionalização era bastante demorada. Em uma época na qual não existiam fotocopiadoras ou computadores, era ne * no arquivo. Além da execução das “buscas”, era também tarefa dos funcioná% * 0Z[Z<277_ Em sua obra, Traité de Documentation, Paul Otlet mostra-se interessado em toda novidade tecnológica que permita condensar e organizar a informação de acordo com suas necessidades e objetivos. Fez diversas experimentações gida na época: a televisão. Anteviu vários equipamentos tecnológicos como o fax, os microcomputadores, as work-stations@0Y|6|27$] $Q7$72\Y27]]3{} 2@?= 8 Após a Segunda Guerra Mundial, o entusiasmo na busca de soluções para os problemas advindos da explosão informacional pode ser resumido pelo `* 027]8 As We May Think”. Nesse arti`* 4 solução uma máquina denominada Memex que agregava as mais modernas tecnologias de informação existentes na época. O Memex nunca foi construído, mas as ideias que inspiraram sua idealização ainda fazem parte das aspirações de pesquisadores e cientistas da atualidade. Em uma escala muito maior, enfrentam-se hoje os mesmos problemas apontados por Otlet e, como Bush, busca-se na tecnologia a solução para tais problemas. { {* ? 027__ 3 k# favorável para o desenvolvimento da Ciência da Informação. Os problemas relacionados com o tratamento da informação começavam a ser abordados por 9 período de acelerado desenvolvimento tecnológico. A primeira formulação do que seria a Ciência da Informação surgiu como resultado das conferências do Georgia Institute of Technology (ou simplesmente Georgia Tech%27k227k"' [Ciência da Informação é] a ciência que investiga as propriedades e comportamento da informação, as processamento da informação para uma acessibilidade e usabilidade ótimas. Os processos incluem a origem, disseminação, coleta, organização, recuperação, interpretação e uso da informação. O campo deriva de ou relaciona-se com a matemática, a lógica, a linguística, a psicologia, a tecnologia da computação, a pesquisa 4 biblioteconomia, a administração e alguns outros campos 0{6Z5?661<27__"k8 627kQ` ?ência da Informação, ressaltando suas características tanto de ciência pura como de ciência aplicada. 6 Introdução aos Modelos Computacionais de Recuperação de Informação Ciência da Informação é a disciplina que investiga as propriedades e o comportamento da informação, as processamento da informação para acessibilidade e usabilidade ótimas. Está relacionada com o corpo de conhecimento que abrange a origem, coleta, organização, armazenamento, recuperação, interpretação, transmissão, transformação e utilização da informação. Isto inclui a investigação das representações da informação nos dispositivos e técnicas de processamento de informação tais como computadores e seus sistemas. É uma ciência interdisciplinar derivada de e relacionada a vários campos tais como matemática, lógica, linguística, psicologia, tecnologia da computação, pesquisa operacional, artes 4 e outros campos similares. Possui um componente de ciência pura, que investiga o assunto sem considerar suas aplicações, e um componente de ciência aplicada, que 0`YZY27kQ$ { 0277k]_' [...] a Ciência da Informação é um campo dedicado às 4 9 os problemas da efetiva comunicação do conhecimento e de seus registros entre os seres humanos, no contexto social, institucional ou individual do uso e das necessidades de informação. No tratamento destas questões são consideradas de particular interesse as vantagens das modernas tecnologias informacionais. O componente tecnológico, principalmente a “tecnologia da computação”, 4?= @rem a tecnologia em uma posição central, outros a colocam como resultado da interdisciplinaridade da Ciência da Informação. A natureza interdisciplinar da Ciência da Informação propicia o surgimento de diferentes correntes e estimula discussões sobre o seu objeto de estudo: a informação. Nesse ambiente, onde se juntam conceitos de áreas diversas, a cons 2@?= 7 1.2 A Ciência da Computação e sua relação com a Ciência da Informação 3 27"# que realizavam cálculos. Após essa década, a expressão “máquina computacional” (computer machine) começou a ser usada para referir-se a qualquer %* 3 27$# * dispositivos de cálculo com algum tipo de sistema de controle automático. Já se dispunha da tecnologia necessária para se construir máquinas semelhantes às projetadas por Charles Babbage um século antes. Surgiram os primeiros computadores mecânicos e eletromecânicos e muitos projetos de computado = meiras máquinas. Após a Segunda Guerra Mundial, quando efetivamente se construíram os primeiros computadores digitais, o termo “máquina computacional” acabou perdendo espaço para o termo reduzido: “computador”. Diferentemente da Ciência da Informação, é raro encontrar na literatura ?= ? Denning et al027Q72"?= ? ' […] o estudo sistemático de processos algorítmicos que descrevem e transferem informação: sua teoria, análise, & = . A questão fundamental de toda a computação é: ‘O que pode ser 0 %. Q Introdução aos Modelos Computacionais de Recuperação de Informação < ?= ? sos que podem ser executados por meio de um conjunto sequencial de instruções: o algoritmo. Na introdução do livro intitulado “História da Computação: teoria e tecw w*027772$?= ? ' [...] um corpo de conhecimento formado por uma infraestrutura conceitual e um edifício tecnológico onde se materializam o hardware e o software. A primeira fundamenta a segunda e a precedeu. A história da computação é formada por uma sucessão de personagens e %0+ ou dispositivos (hardware). Essa história pode ser contada a partir de diversos referenciais, desde a criação do conceito abstrato de número até a criação dos 3 ~~ 13 278# * penharam na busca de soluções para os problemas enfrentados por Otlet no início do século e atualizados por Bush após a Segunda Guerra. Os primeiros ram com os experimentos de Hans Peter Luhn sobre indexação automática e na elaboração automática de resumos. Engenheiro pesquisador da IBM, Luhn & radicalmente métodos tradicionais de armazenamento, tratamento e recuperação de informação (SCHULTZ, 1968). 62782?y Information Retrieval” (Recupe@ disciplina. [A Recuperação de Informação] trata dos aspectos intelectuais da descrição da informação e sua 3 técnicas ou máquinas que são empregadas para realizar 0yYY6Z{2782 2@?= 7 Z @ noma no seio da Ciência da Informação, com um acelerado desenvolvimento. \{ 02777Z @ vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação. O termo “recuperação de informação” atribuído a sistemas computacionais é ainda hoje bastante questionado, sendo que muitos autores preferem o termo “recuperação de documento” (document retrieval) ou “recuperação de textos” (text retrieval). De fato, os sistemas não recuperam “informação”, mas sim referências a documentos cujo conteúdo poderá ser relevante à necessidade de informação do usuário. Neste trabalho será utilizada a designação original formação” potencial, uma possibilidade de informação contida nos documen 0`Z}2778. 3 k#393 Z @y*027k# princípios básicos do modelo probabilístico para a recuperação de informação, %Z 027_k6k# 3tos que constitui um marco na Recuperação de Informação: o projeto SMART. Resultado da vida de pesquisa de Gerard Salton, este projeto produziu em 3 3 9 de recuperação de informação, a criação e o aprimoramento de diversas técni {yZ|0{|Y127_2 Os primeiros sistemas de recuperação de informação baseavam-se na contagem de frequência das palavras do texto e na eliminação de palavras reconhecidamente de pouca relevância. Nos trabalhos de Luhn e Salton observa-se inicial 39 para tratar os problemas relacionados à recuperação de informação. Porém, no 3 dos de análise semântica. Desde os seus primeiros trabalhos, Salton se mostra interessado pela utilização de processos de tratamento da linguagem natural na 2# Introdução aos Modelos Computacionais de Recuperação de Informação {y }027Q$ 9 intitulado “Future directions in Information Retrieval” a aplicação do processamento da linguagem natural e da lógica fuzzy na recuperação de informação, @= 6%3 @= * consequência de uma natural evolução dos modelos matemáticos na busca de um aprofundamento semântico no tratamento textual, as pesquisas utilizando modelos estatísticos continuaram gerando novos modelos e aperfeiçoando antigas ideias. É o caso do modelo booleano estendido e de diversos outros modelos que foram atualizados tendo em vista a premência de métodos de recuperação para a Web. ?= @ @= deu-se inicialmente por meio da automação de processos documentários tais como a indexação e a elaboração de resumos, utilizando recursos do Processamento da Linguagem Natural. Além do Processamento da Linguagem Natural, outras áreas da Inteligên e dos algoritmos genéticos. Na Ciência da Computação a pesquisa em redes @= = * 3 % sistemas de recuperação a capacidade de se adaptarem ao “meio ambiente”, isto é, às necessidades informacionais dos usuários, materializadas por meio de suas expressões de busca. Já os algoritmos genéticos implementam uma representação dos mecanismos da evolução natural e dos processos genéticos da reprodução humana. Os sistemas de recuperação baseados em algoritmos genéticos possuem a capacidade de evoluírem, alterando progressivamente as representações (código genético) dos documentos em função das buscas realizadas pelos usuários. Estes potenciais modelos de recuperação podem ser vistos como possíveis soluções para a urgência de métodos que consigam não 2@?= 22 só lidar com a quantidade de informação, mas também que possibilitem uma melhor qualidade da informação recuperada em relação às necessidades de 9 3 9 @= de informação geralmente se dá por meio de pesquisadores ligados à Ciência da Computação, que se aventuram na Ciência da Informação com o objetivo 3 senvolvimento de pequenos protótipos e de alguns resultados práticos, em geral retornam às pesquisas em sua ciência de origem, sem consolidar avanços Z @6= teresses nas pesquisas foi parcialmente rompida com o surgimento da Internet e da Web. A Web promoveu um rápido direcionamento nos esforços de pes 9 recuperação de informação.