Edberto Ferneda
Introdução aos Modelos
Computacionais de
Recuperação de Informação
Prefácio de Johanna Smit
Introdução aos Modelos Computacionais de Recuperação de
Informação
Copyright© Editora Ciência Moderna Ltda., 2012.
Todos os direitos para a língua portuguesa reservados pela EDITORA CIÊNCIA
MODERNA LTDA.
De acordo com a Lei 9.610, de 19/2/1998, nenhuma parte deste livro poderá ser
reproduzida, transmitida e gravada, por qualquer meio eletrônico, mecânico, por
fotocópia e outros, sem a prévia autorização, por escrito, da Editora.
Editor: Paulo André P. Marques
Supervisão Editorial: Aline Vieira Marques
Copidesque: Vanessa Motta
Capa: Daniel Jara
Diagramação: Janaína Salgueiro
Assistente Editorial: Laura Souza
Várias Marcas Registradas aparecem no decorrer deste livro. Mais do que
simplesmente listar esses nomes e informar quem possui seus direitos de
exploração, ou ainda imprimir os logotipos das mesmas, o editor declara
do dono da Marca Registrada, sem intenção de infringir as regras de sua
utilização. Qualquer semelhança em nomes próprios e acontecimentos será
mera coincidência.
FICHA CATALOGRÁFICA
FERNEDA, Edberto.
Introdução aos Modelos Computacionais de Recuperação de
Informação
Rio de Janeiro: Editora Ciência Moderna Ltda., 2012
1. Informática.
I — Título
ISBN: 978-85-399-0212-5
Editora Ciência Moderna Ltda.
R. Alice Figueiredo, 46 – Riachuelo
Rio de Janeiro, RJ – Brasil CEP: 20.950-150
Tel: (21) 2201-6662 / Fax: (21) 2201-6896
[email protected]
www.lcm.com.br
CDD 001.642
11/11
Aos meus pais
Élcio (in memoriam) e Elza
Aos meus irmãos
Edilson e Edmir
Agradecimentos
Este livro é derivado de minha tese de doutorado em Ciência da Informação. Assim, gostaria de agradecer a todos que contribuíram para a execução
daquela pesquisa, em especial à minha orientadora, professora Johanna Smit,
que com sua competência e simpatia apresentou a mim o mundo novo e empolgante da Ciência da Informação.
Agradeço às professoras Mariângela Fujita e Silvana Vidotti pela amizade
e pelo exemplo de dedicação à pesquisa e ao trabalho acadêmico. Agradeço
também aos demais professores do Departamento de Ciência da Informação
da UNESP-Marília pelo ambiente agradável e fecundo onde tenho a felicidade
de trabalhar.
Agradeço ainda aos professores Edilson Ferneda e Hércules Antonio do
Prado, do Programa de Pós-Graduação em Gestão de Conhecimento e Tecnologia da Informação da Universidade Católica de Brasília, pela leitura atenta,
revisão e sugestões.
Prefácio
Os jovens de hoje, que já nasceram numa sociedade digital, ignoram muitas vezes o quanto os recursos que agora parecem muito simples – “naturais”
até – resultam de uma história que foi se consolidando ao longo de séculos.
A recuperação de informações na Internet provê um ótimo exemplo para a
Internet para achar qualquer coisa.... inclusive a informação procurada! Graças
à tecnologia, a busca se tornou uma operação simples, quase intuitiva, o que
obviamente representa um grande avanço, mas também acaba escondendo a
complexidade das operações que estão por trás das buscas.
Edberto Ferneda, aliando uma formação na área de Informática a outra
em Ciência da Informação, consegue demonstrar a complexidade daquilo que
hoje parece completamente natural, iniciando pela “pré-história” da recuperação da informação, baseada em cálculos estatísticos e estratégias de busca
formatadas pela lógica booleana. Posteriormente sistemas de recuperação da
de estratégias de busca; o percurso desenhado por Edberto nos leva até as
atuais “nuvens de tags” que chegam a mesclar a indexação elaborada pelos
responsáveis por sites com indexações propostas pelos usuários ou então por
eles customizadas.
O presente texto atualiza a pesquisa desenvolvida sob forma de uma tese
de doutorado defendida no Programa de Pós-Graduação em Ciências da Comunicação, área de concentração Ciência da Informação, da ECA/USP em
"##$
%
&'
% da Ciência da Informação. Pode-se ler o texto como uma narração de “redescobertas da roda”, já que os desenvolvedores de sistemas de busca de informação foram incorporando procedimentos clássicos da biblioteconomia,
VIII ‘ Introdução aos Modelos Computacionais de Recuperação de Informação
da documentação e da recuperação de informação. A ironia quer que um dos
*&
+
0
formação disponibilizada) atualize a diplomática, desenvolvida por monges
europeus no século XVII e apropriada pela arquivologia!
O grande mérito deste livro reside em explicar de forma bastante simples
conceitos da maior complexidade e, por meio desta explicação, desvelar a
complexidade dos procedimentos mobilizados ao “googlar” hoje uma “simples” pergunta.
Imensos progressos foram possíveis nestes últimos anos graças à incorporação massiva da tecnologia nos sistemas de recuperação da informação:
justamente esta é a odisseia que Edberto nos apresenta, ressaltando tanto o
que é novidade quanto o que não passa de uma reutilização de procedimentos
e conceitos clássicos da Ciência da Informação. Apesar dos progressos, uma
certeza, no entanto, permanece: o adequado dimensionamento da tensão entre
os aspectos quantitativos e qualitativos, sempre presente na recuperação da
informação, ainda tem um longo caminho pela frente e nenhuma opção poderá
ignorar as variáveis descritas por Edberto!
Johanna W. Smit
1"#2#
Apresentação
O vertiginoso avanço tecnológico que caracterizou o século XX e ainda
3
* aumento da importância da informação como recurso estratégico nos mais variados contextos. No mundo globalizado e competitivo em que vivemos mais
do que nunca precisamos de informação: informação para o bom desempenho
45
estratégico e operacional de empresas; informação para auxiliar governos no
desenvolvimento e gestão de políticas públicas. Porém, observa-se que mesmo com as tecnologias disponíveis na atualidade a busca por uma informação
3%
6 4
satisfatórias para esse problema faz da Recuperação de Informação uma área
O termo “Recuperação de Informação” (“Information Retrieval”) foi
278#*
9
< substanciadas em um “modelo”. Um modelo de recuperação de informação
=
'
dos documentos, a representação das buscas dos usuários e a maneira como
esses dois primeiros elementos serão comparados.
O objetivo deste livro é apresentar de forma simples e clara alguns dos
principais modelos de recuperação de informação advindas da Ciência da
Computação. Este livro não contém algoritmos ou programas, e as fórmulas
matemáticas existentes são devidamente interpretadas e explicadas textual
9
conhecimento em informática.
Nos dois primeiros capítulos são apresentadas as duas principais ciências
envolvidas na pesquisa por soluções para problemas relacionados à recuperação da informação: a Ciência da Informação e a Ciência da Computação,
X ‘ Introdução aos Modelos Computacionais de Recuperação de Informação
bem como um esquema básico com os principais elementos que compõem o
processo de recuperação de informação.
1
9$8modelo booleano, o primeiro modelo desenvolvido e de certa forma ainda o mais utilizado; o modelo vetorial, de fundamental importância para o desenvolvimento das pesquisas nessa
área; e o modelo probabilístico, que aborda o problema da recuperação de
informação utilizando a teoria da probabilidade. Estes três modelos (booleano, vetorial e probabilístico) são muitas vezes referenciados como modelos
“clássicos” e correspondem de certa forma ao alicerce teórico sob o qual se
desenvolveu a área de Recuperação de Informação. Os modelos clássicos foram o ponto de partida para diversas outras ideias e modelos, como é o caso
do modelo booleano estendido, apresentado no Capítulo 6.
A recuperação de informação se tornou foco de interesse de diversas áreas
?=
?@=
direcionou parte de seu ferramental teórico e prático na proposição de soluções para os problemas relacionados ao tratamento e recuperação da informação. No Capítulo 7 são apresentadas algumas técnicas de Processamento
da Linguagem Natural auxiliares no processo de tratamento da informação
1?9Q
9
da lógica fuzzy e a sua utilização na recuperação de informação. Sistemas
Especialistas foi @=
Y
elementos básicos de um sistema especialista e a sua aplicação em sistemas de
?97<
@=
Z1
goritmos Genéticos. A aplicação de conceitos ligados a essas áreas na recupe?92#22
?[9
3
277#3
Y
*mados “mecanismos de busca” (search engines), “sites de busca” ou simplesmente “buscadores” são resultados dessas pesquisas e transformaram a Web
Apresentação ‘ XI
de um simples repositório de páginas em uma preciosa fonte de informação
*
Y?92"tos característicos da Web e a estrutura básica dos mecanismos de busca.
Esforços foram e estão sendo realizados para melhorar o desempenho na
busca por informação na Web. Dentre esses esforços está a Web Semântica,
&
%[
31?92$3
estrutura básica da Web Semântica, assim como os seus elementos que buscam
*
[
\ ?9 2] 4 abordando as características e limites da Ciência da Informação e da Ciência
da Computação e as possibilidades de um relacionamento mais próximo.
Sumário
1 A Informação e as suas Ciências .................................................... 1
22?=
@......................................................................... $
2"?=
?
?=
@ . 7
2 Recuperação de Informação ........................................................ 13
"2<
0Corpus)........................................................................... 2]
""Z
............................................................ 28
"$^ ................................................................................................ 2_
"]6`
............................................................................... 2Q
"8Z6`
................................................. 2Q
"kw`
................................................................................... 27
"_Z`
............................................................................... 27
"QyZ
@ ............................................... "#
3 Modelo Booleano ........................................................................... 21
$2Y ........................................................................... ""
$"Y .................................................................. "8
$$<
.............................................................................................. "Q
4 Modelo Vetorial ............................................................................. 31
]2Z
............................................................ $2
]"6
............................................................................... $$
]$?
......................................................................... $8
]]Y{yZ| ................................................................................ $k
XIV ‘ Introdução aos Modelos Computacionais de Recuperação de Informação
]8<
.............................................................................................. ]#
5 Modelo Probabilístico ................................................................... 43
82Z
9
................................................................... ]_
8"<
.............................................................................................. 8"
6 Modelo Booleano Estendido ......................................................... 53
k2<
.............................................................................................. k#
7 Processamento da Linguagem Natural ....................................... 61
_21%49
................................................ k$
_"@
....................................................... k]
_$Z ................................................................... k8
_]<
.............................................................................................. k7
8 Modelo fuzzy .................................................................................. 71
Q2?&fuzzy..................................................................................... 72
Q"?&fuzzy na recuperação de informação.................................... _8
Q$<
.............................................................................................. 77
9 Sistemas Especialistas ................................................................... 79
726
{6
........................................ Q#
7"{6
.......................... Q8
7$<
.............................................................................................. Q_
10 Redes Neurais .............................................................................. 89
2#2Z
...................................................................... 7#
2#"% ..................................................................................... 7"
Sumário
‘
XV
2#$Z1
................... 7$
2#]Z1
[ ...................................... 2##
2#8<
.......................................................................................... 2#2
11 Algoritmos Genéticos ................................................................ 103
2226
................................................................... 2#]
22"}3
........................22#
22$<
...........................................................................................22]
12 Recuperação de Informação na Web ...................................... 117
2"2?
9
[ .......................................................................22Q
2""y
....................................................................... 2""
2""2@........................................................................................................2""
2"""@
..................................................................................................2"$
2""$6
...............................................................................................2"8
2""]y
...................................................................................................................2"Q
2"$~y ............................................................................ 2"7
2"]<
.......................................................................................... 2$8
13 Web Semântica .......................................................................... 137
2$2
Z<w€Z<w Schema............................................................ 139
2$"
Y.................................................................... 2]8
2$$

\? ............................................ 2]7
2$]<
.......................................................................................... 28#
14 Considerações Finais ................................................................ 151
Referências...................................................................................... 155
Lista de Figuras
w2Z
................ 2]
w"Z
&01<‚ ..............................................""
w$Z
&0YZ‚ .......................... "$
w]Z
01Y|‚ ......................................... "$
w8Z
1Y|................... "]
Figura 6 Resultado de uma expressão de busca booleana utilizando parênteses ...."]
Figura 7 Representação vetorial de um documento com dois termos de indexação ......$"
wQZ
= $"
w76
........................................ $$
w2#Z
. $]
w22{
&

.......... ]_
w2"Z
.......... 8]
w2$\=
& ................... _"
w2]Z4ƒaltoƒbaixo ............................................. _$
w28Zfuzzy de um documento estruturado ......................... 76
w2k6
................................................ Q#
w2_6
*
...... Q$
w2Q6%frames na representação do conhecimento ....Q]
w27Z
„ .................................... Q7
w"#y
„ ................................................ 72
w"2Z
..................................... 7"
w""Z
....7]
w"$6y% .............................. 78
w"]@Z....................................... 77
w"8{=
3
........................... 2#8
w"kCorpus com documentos representados por quatro “cromossomos” 222
w"_6[0^Z‚ ............................................. 227
w"Q6†|y% ......................... 2"#
XVIII
‘
Introdução aos Modelos Computacionais de Recuperação de Informação
w"7\‡
} .....2"_
w$#?†|y~y.............................. 2$#
w$26%<|<
~y ........ 2$2
w$"?<|<~ySchema .......................................... 2$"
w$$6%~ySchema em um documento XML .2$]
w$][{
......................................................... 2$7
w$8<Z<wSchema da classe Autor ........................................... 2]"
w$k<Z<wSchema da classe Publicação .................................. 2]$
w$_<Z<wSchema da classe Livro ........................................... 2]]
w$Q<
Z<wZ<wSchema ................... 2]8
w$76%Y@.......................... 2]_
1
A Informação e as suas
Ciências
{y
}ˆ02777$‚‰Š€
logo após a invenção da imprensa no século XV, quando normalmente se utilizava uma palavra em latim para expressar uma nova ideia ou conceito. Sua
raiz é derivada de formatio e forma, ambos transmitindo a ideia de “moldar
algo” ou dar “forma a” algo.
{*[027]7$‚
'
O que acrescenta algo a uma representação [...]
Recebemos informação quando o que conhecemos se
@3
&
alteração ou reforço de uma representação ou estado de
coisas. As representações podem ser explicitadas como
num mapa ou proposição, ou implícitas como no estado
de atividade orientada para um objetivo do receptor.
Na visão de Shannon, a informação não depende de um suporte material,
6|@
„
*
importante no estudo da informação em diversos contextos.
"‘ Introdução aos Modelos Computacionais de Recuperação de Informação
{Zˆ027_"$‚'
A palavra ’informação’, em seu sentido usual, parece
comportar, necessariamente, um elemento de consciência
e de sentido. [...] A informação, no sentido habitual do
termo, é a transmissão a um ser consciente de uma
com base em um suporte espaço-temporal: imprensa,
„
†ˆ027Qk‚
'
Informação é uma propriedade dos dados resultante de
ou produzida por um processo realizado sobre os dados.
O processo pode ser simplesmente a transmissão de
0
&
utilizadas na teoria da comunicação); pode ser a seleção
de dados; pode ser a organização de dados; pode ser a
análise de dados.
1
`
02772‚
=
do termo “informação”:
‘
Como processo - o ato de informar ou a comunicação do
conhecimento ou notícias sobre um fato ou ocorrência;
‘
Como conhecimento - o que é percebido pela informação
enquanto processo, o conhecimento comunicado. Sua principal
característica é a intangibilidade;
‘
Como coisa - aquilo que é visto como informativo: objetos,
documentos, textos, dados ou eventos. A sua principal
característica é a tangibilidade, sua materialidade.
Nos dois primeiros usos, a informação para ser comunicada precisa estar
“expressa, descrita ou representada em algum modo físico”, em uma forma
9
`
‰informação
como coisa” em termos de potencial para o processo de informar, e defende o
por este ser o único sentido com o qual tais sistemas podem lidar diretamente.
2€@?=
‘$
Z 0"##$ 2‚ @4
contexto da Ciência da Informação está evidenciado o seu caráter semântico.
1.1 A Ciência da Informação
O nascimento da Ciência da Informação pode ser visto como consequência
de uma sucessão de técnicas relacionadas com o registro físico do conhecimento, principalmente a escrita. A escrita permitiu registrar, estocar e recuperar o conhecimento, gerando uma espiral cumulativa de textos cujo potencial
’*} 2]$7 tipo móvel e apresentou a primeira prensa na Europa.
O sucesso do invento de Gutenberg só não foi mais imediato pelo fato de
que naquela época poucas pessoas sabiam ler. Em uma sociedade basicamente
agrária, os camponeses nada tinham a ganhar com a alfabetização, e em geral
não aspiravam a ela. Porém, a Revolução Industrial, iniciada em meados do
século XVIII, provocou o êxodo das populações do campo para a cidade e deu
interpretação e utilização. A construção de estradas e o surgimento das ferrovias facilitaram a expansão do comércio e a distribuição de livros e jornais. A
velocidade das mensagens passou da velocidade do cavalo para a da locomotiva e desta para a eletricidade.
Novas invenções se seguiram durante o século XIX, a maioria delas li13
2Q"#9
’*13

<
tempo aliou-se à impressão nas técnicas de ilustração de livros e jornais. Por
2Q]#’*`&<
62Q]$
escocês Alexander Bain patenteou o primeiro aparelho de fax (fac-simile) da
*62Q_k}*`1
|*6
2Q_7
&3
0y
}ZZ“27777#€7$‚
]‘ Introdução aos Modelos Computacionais de Recuperação de Informação
No início do século XX, Paul Otlet apresenta o termo “Documentação”.
\Y027$]‚
&
mentação e propõe metodologias e técnicas para estudá-lo, sinalizando também
para a necessidade de criar algumas interdisciplinas, contidas pelas interfaces

9
9
0{1|Y{"##_‚
Paul Otlet e Henri La Fontaine entraram para a história da biblioteconomia
?
<
^0?<^‚62Q78
em Bruxelas, na Bélgica, o International Institute for Bibliography - IIB,
marco no desenvolvimento do que veio a se chamar Documentação e posteriormente Ciência da Informação. O primeiro objetivo do IIB era a elaboraZ`
^0Z`^‚*
%
*%
\Y
*
associação entre as informações nelas registradas. Devidamente conectadas
?<^
*
prenúncio do hipertexto. As solicitações de pesquisa nesse grande banco de
dados eram feitas pelo correio e sua operacionalização era bastante demorada.
Em uma época na qual não existiam fotocopiadoras ou computadores, era ne
*
€
€
no arquivo. Além da execução das “buscas”, era também tarefa dos funcioná%
*
0Z“[Z<277_‚
Em sua obra, Traité de Documentation, Paul Otlet mostra-se interessado
em toda novidade tecnológica que permita condensar e organizar a informação
de acordo com suas necessidades e objetivos. Fez diversas experimentações
gida na época: a televisão. Anteviu vários equipamentos tecnológicos como
o fax, os microcomputadores, as work-stations@0Y|6|27$]
$Q7€$72‚\Y27]]3{}
2€@?=
‘8
Após a Segunda Guerra Mundial, o entusiasmo na busca de soluções para
os problemas advindos da explosão informacional pode ser resumido pelo
” `* 027]8‚ ‰As We May Think”. Nesse arti`*
4
solução uma máquina denominada Memex que agregava as mais modernas
tecnologias de informação existentes na época. O Memex nunca foi construído, mas as ideias que inspiraram sua idealização ainda fazem parte das aspirações de pesquisadores e cientistas da atualidade. Em uma escala muito maior,
enfrentam-se hoje os mesmos problemas apontados por Otlet e, como Bush,
busca-se na tecnologia a solução para tais problemas.
{ {* ? 027__‚ 3
k# favorável para o desenvolvimento da Ciência da Informação. Os problemas
relacionados com o tratamento da informação começavam a ser abordados por
9
período de acelerado desenvolvimento tecnológico.
A primeira formulação do que seria a Ciência da Informação surgiu como
resultado das conferências do Georgia Institute of Technology (ou simplesmente Georgia Tech‚%27k227k"'
[Ciência da Informação é] a ciência que investiga
as propriedades e comportamento da informação, as
• processamento da informação para uma acessibilidade
e usabilidade ótimas. Os processos incluem a origem,
disseminação, coleta, organização, recuperação,
interpretação e uso da informação. O campo deriva de
ou relaciona-se com a matemática, a lógica, a linguística,
a psicologia, a tecnologia da computação, a pesquisa
4 biblioteconomia, a administração e alguns outros campos
0{†6Z5?6”61<27__"k8‚
627kQ†`
?ência da Informação, ressaltando suas características tanto de ciência pura
como de ciência aplicada.
6 ‘ Introdução aos Modelos Computacionais de Recuperação de Informação
Ciência da Informação é a disciplina que investiga as
propriedades e o comportamento da informação, as
• processamento da informação para acessibilidade e
usabilidade ótimas. Está relacionada com o corpo de
conhecimento que abrange a origem, coleta, organização,
armazenamento, recuperação, interpretação, transmissão,
transformação e utilização da informação. Isto inclui
a investigação das representações da informação nos
 dispositivos e técnicas de processamento de informação
tais como computadores e seus sistemas. É uma ciência
interdisciplinar derivada de e relacionada a vários campos
tais como matemática, lógica, linguística, psicologia,
tecnologia da computação, pesquisa operacional, artes
4
e outros campos similares. Possui um componente de
ciência pura, que investiga o assunto sem considerar suas
aplicações, e um componente de ciência aplicada, que
0`YZ–Y27kQ$‚
{
0277k]_‚'
[...] a Ciência da Informação é um campo dedicado às
4
9
os problemas da efetiva comunicação do conhecimento
e de seus registros entre os seres humanos, no
contexto social, institucional ou individual do uso e
das necessidades de informação. No tratamento destas
questões são consideradas de particular interesse as
vantagens das modernas tecnologias informacionais.
O componente tecnológico, principalmente a “tecnologia da computação”,
4?=
@rem a tecnologia em uma posição central, outros a colocam como resultado da
interdisciplinaridade da Ciência da Informação.
A natureza interdisciplinar da Ciência da Informação propicia o surgimento
de diferentes correntes e estimula discussões sobre o seu objeto de estudo: a informação. Nesse ambiente, onde se juntam conceitos de áreas diversas, a cons
€
2€@?=
‘ 7
1.2 A Ciência da Computação e sua relação com a Ciência
da Informação
3
27"#‰
Š
que realizavam cálculos. Após essa década, a expressão “máquina computacional” (computer machine) começou a ser usada para referir-se a qualquer
%*
3
27$#
*
dispositivos de cálculo com algum tipo de sistema de controle automático. Já
se dispunha da tecnologia necessária para se construir máquinas semelhantes
às projetadas por Charles Babbage um século antes. Surgiram os primeiros
computadores mecânicos e eletromecânicos e muitos projetos de computado„
•=
meiras máquinas.
Após a Segunda Guerra Mundial, quando efetivamente se construíram os
primeiros computadores digitais, o termo “máquina computacional” acabou
perdendo espaço para o termo reduzido: “computador”.
Diferentemente da Ciência da Informação, é raro encontrar na literatura
?=
?
Denning et al027Q72"‚?=
?
'
[…] o estudo sistemático de processos algorítmicos que
descrevem e transferem informação: sua teoria, análise,
&
=
. A questão
fundamental de toda a computação é: ‘O que pode ser
0
‚%™š.
Q‘ Introdução aos Modelos Computacionais de Recuperação de Informação
<
?=
?
sos que podem ser executados por meio de um conjunto sequencial de instruções: o algoritmo.
Na introdução do livro intitulado “História da Computação: teoria e tecŠw
w*027772$‚?=
?
'
[...] um corpo de conhecimento formado por uma
infraestrutura conceitual e um edifício tecnológico onde
se materializam o hardware e o software. A primeira
fundamenta a segunda e a precedeu.
A história da computação é formada por uma sucessão de personagens e
%0+‚
ou dispositivos (hardware). Essa história pode ser contada a partir de diversos
referenciais, desde a criação do conceito abstrato de número até a criação dos
„
3
~~
13
278#
*
penharam na busca de soluções para os problemas enfrentados por Otlet no
início do século e atualizados por Bush após a Segunda Guerra. Os primeiros
ram com os experimentos de Hans Peter Luhn sobre indexação automática e
na elaboração automática de resumos. Engenheiro pesquisador da IBM, Luhn
›&
radicalmente métodos tradicionais de armazenamento, tratamento e recuperação de informação (SCHULTZ, 1968).
62782?y
‰Information Retrieval” (Recupe@‚
disciplina.
[A Recuperação de Informação] trata dos aspectos
intelectuais da descrição da informação e sua
3
técnicas ou máquinas que são empregadas para realizar
0yYY6Z{2782‚
2€@?=
‘7
Z
@
„noma no seio da Ciência da Informação, com um acelerado desenvolvimento.
\{
02777‚Z
@
vertente tecnológica da Ciência da Informação e é resultado da relação desta
com a Ciência da Computação.
O termo “recuperação de informação” atribuído a sistemas computacionais
é ainda hoje bastante questionado, sendo que muitos autores preferem o termo
“recuperação de documento” (document retrieval) ou “recuperação de textos”
(text retrieval). De fato, os sistemas não recuperam “informação”, mas sim
referências a documentos cujo conteúdo poderá ser relevante à necessidade
de informação do usuário. Neste trabalho será utilizada a designação original
‰
Š
‰formação” potencial, uma possibilidade de informação contida nos documen
0`Z}2778‚.
3
k#393
Z
@y–*027k#‚
princípios básicos do modelo probabilístico para a recuperação de informação,
%Z
’027_k‚6k#
€3tos que constitui um marco na Recuperação de Informação: o projeto SMART.
Resultado da vida de pesquisa de Gerard Salton, este projeto produziu em
3
3
9
de recuperação de informação, a criação e o aprimoramento de diversas técni
{yZ|0{|Y127_2‚
Os primeiros sistemas de recuperação de informação baseavam-se na contagem de frequência das palavras do texto e na eliminação de palavras reconhecidamente de pouca relevância. Nos trabalhos de Luhn e Salton observa-se inicial
39
para tratar os problemas relacionados à recuperação de informação. Porém, no
€
3
dos de análise semântica. Desde os seus primeiros trabalhos, Salton se mostra
interessado pela utilização de processos de tratamento da linguagem natural na
2#‘ Introdução aos Modelos Computacionais de Recuperação de Informação
{y
}027Q$‚
9
intitulado “Future directions in Information Retrieval” a aplicação do processamento da linguagem natural e da lógica fuzzy na recuperação de informação,
@=
6%3
@=
*
consequência de uma natural evolução dos modelos matemáticos na busca de
um aprofundamento semântico no tratamento textual, as pesquisas utilizando modelos estatísticos continuaram gerando novos modelos e aperfeiçoando
antigas ideias. É o caso do modelo booleano estendido e de diversos outros
modelos que foram atualizados tendo em vista a premência de métodos de
recuperação para a Web.
?=
@ @=
deu-se inicialmente por meio da automação de processos documentários tais
como a indexação e a elaboração de resumos, utilizando recursos do Processamento da Linguagem Natural.
Além do Processamento da Linguagem Natural, outras áreas da Inteligên

e dos algoritmos genéticos. Na Ciência da Computação a pesquisa em redes
@=
=
* 3
%
sistemas de recuperação a capacidade de se adaptarem ao “meio ambiente”,
isto é, às necessidades informacionais dos usuários, materializadas por meio
de suas expressões de busca. Já os algoritmos genéticos implementam uma
representação dos mecanismos da evolução natural e dos processos genéticos
da reprodução humana. Os sistemas de recuperação baseados em algoritmos
genéticos possuem a capacidade de evoluírem, alterando progressivamente
as representações (código genético) dos documentos em função das buscas
realizadas pelos usuários. Estes potenciais modelos de recuperação podem ser
vistos como possíveis soluções para a urgência de métodos que consigam não
2€@?=
‘22
só lidar com a quantidade de informação, mas também que possibilitem uma
melhor qualidade da informação recuperada em relação às necessidades de
9
3
9
@=
de informação geralmente se dá por meio de pesquisadores ligados à Ciência
da Computação, que se aventuram na Ciência da Informação com o objetivo
3
senvolvimento de pequenos protótipos e de alguns resultados práticos, em
geral retornam às pesquisas em sua ciência de origem, sem consolidar avanços
Z
@6=
teresses nas pesquisas foi parcialmente rompida com o surgimento da Internet
e da Web. A Web promoveu um rápido direcionamento nos esforços de pes
9
recuperação de informação.
Download

Introdução aos Modelos Computacionais de