RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES Alessandro Marinho Silva André Pires Vieira Diego Dainese Polla Sergio Luis da Silva Wilson Witerkosk RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES Índice • Introdução • Modelos Quantitativos • Modelos Dinâmicos • Recuperação de Informação na Web • Conclusão RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES INTRODUÇÃO Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Recuperação de Informação Recuperação da informação significa a operação pela qual se seleciona documentos, sobre tópicos específicos, a partir do acervo, em função da demanda do usuário. O processo de recuperação de informação consiste em identificar, no conjunto de documentos(corpus) de um sistema, quais atendem à necessidade de informação do usuário. 4 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Sistemas de Recuperação de Informação Os Sistemas de Recuperação de Informação (SRI’s) surgiram da necessidade de se extrair informações em bases de dados não estruturadas, tais como grandes coleções de documentos textuais e bibliográficos. Os SRI’s necessitam de técnicas que agilizam o armazenamento e acesso aos dados. 5 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Sistemas de Recuperação de Informação A recuperação de informação é feita a partir de uma entrada do usuário, ou seja, uma consulta para que os documentos relevantes sejam encontrados. Os SRI’s geralmente se baseiam em Busca por PalavraChave ou Busca por Similaridade. 6 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Recuperação de Informação x Mineração de Texto A informatização de diversas áreas trouxe como conseqüência um grande volume de informações sendo armazenadas em bancos de dados. Algumas áreas surgiram para o tratamento de informações textuais, como a Recuperação de Informação e a Mineração de Textos. Ambas utilizam técnicas avançadas para explorar uma grande coleção de dados textuais desestruturados, mas tem propósitos diferentes. 7 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Recuperação de Informação x Mineração de Texto Recuperação de Informação é uma tecnologia utilizada para buscar documentos, focalizando nos dados relacionados a algum tópico específico. A Mineração de Textos, também conhecida como Descoberta de Conhecimento em Textos (KDT), visa encontrar padrões e tendências em um conjunto de documentos, realizar classificação de documentos, ou ainda comparar documentos. 8 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Recuperação de Informação x Mineração de Texto Em uma das etapas da Mineração de Textos, utiliza-se técnicas de R.I. Técnicas de RI Forma Intermediária Coleção de textos Mineração Conheciment o Técnicas de EI Processo de Mineração de Textos (Correa, 2003) 9 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Recuperação de Informação x Mineração de Texto Por se tratar de documentos textuais desestruturados, é necessário um sistema que filtre o conjunto de documentos e indexe as palavras-chave encontradas, as quais identificam o conteúdo dos textos. Essa técnica é chamada de indexação. 10 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Indexação Processo pelo qual as palavras contidas nos textos são armazenadas em uma estrutura de índice para viabilizar a pesquisa de documentos através das palavras que eles contêm. 11 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Indexação Índices invertidos são criados para possibilitar melhoras significativas no desempenho e na funcionalidade da busca. A figura a seguir mostra a utilização de arquivos invertidos para o armazenamento dos termos que identificam os documentos. 12 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Indexação Os termos, As buscas ou palavras-chave, usam os índices são extraídos extraídos dosdos documentos-texto textos e ficam armazenados para comparações juntamente com a com consulta as referências para do usuário. os respectivos documentos. Estrutura de Arquivo Invertido (Correa, 2003) 13 Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Indexação Algumas etapas que constituem o processo de indexação: Análise léxica: etapa para converter uma cadeia de caracteres em uma cadeia de palavras. Remoção de Stop-Words: esta fase tem por objetivo filtrar e retirar as palavras que ocorrem na maioria dos documentos, como artigos, preposições, conjunções e pronomes. Stemming: remove todas as variações (plurais, gerúndios, sufixos) de uma palavra, permanecendo apenas a raiz da palavra. 14 RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES MODELOS QUANTITATIVOS Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos A grande maioria dos modelos de RI é de natureza quantitativa: baseados em disciplinas como a lógica, a estatística e a teoria dos conjuntos. Talvez a principal tarefa para os sistemas de RI seja decidir a importância de um termo para a descrição do conteúdo de um documento. 16 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Os modelos de recuperação quantitativos, aqui abordados, são: •Modelo Booleano •Modelo Vetorial •Modelo Probabilístico 17 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Booleano Baseado na lógica booleana. Considera uma consulta como uma expressão booleana convencional formada com os conectivos lógicos AND, OR e NOT. Sua estratégia de recuperação é baseada no critério de decisão binária. É de vital importância para sistemas de banco de dados (SQL). 18 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Booleano (FERNEDA, 2003) 19 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial Associa pesos aos termos de indexação e aos termos da expressão de busca. O resultado da utilização destes pesos é a ordenação dos documentos pelo grau de similaridade em relação à expressão de busca. Cada elemento do vetor é normalizado para assumir valores entre 0 e 1. Para o cálculo do peso é considerado o n° de vezes que o termo aparece no documento e o n° de vezes que o termo aparece no corpus de documentos. 20 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial A representação gráfica de dois documentos: DOC1, com termos de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se: 21 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial Se utilizarmos uma expressão de busca eBUSCA=(0.2,0.35,0.1), juntamente com os documentos DOC1 e DOC2, em um espaço vetorial formado pelos termos t1, t2 e t3, teremos a representação gráfica a seguir: 22 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial Para encontrar o grau de similaridade, calcula-se o coseno do ângulo entre documentos ou entre consultas e documentos: Onde wi,x é o peso do i-ésimo elemento do vetor x e wi,y é o peso do i-ésimo elemento do vetor y. 23 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial Assim, o grau de similaridade entre o documento DOC1 e o documento DOC2 é calculado: 24 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial Portanto, o grau de similaridade entre estes dois documentos é de 73%. Utilizando-se a mesma fórmula é possível encontrar o grau de similaridade entre a expressão eBUSCA com cada um dos documentos DOC1 e DOC2: 25 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Vetorial A expressão eBUSCA possui um grau de similaridade de 45% com o documento DOC1 e de 92% com o documento DOC2. É possível restringir a quantidade de documentos recuperados definindo um limite mínimo para o valor de similaridade. Um limite de 0.5, indica que uma expressão de busca obterá como resultado apenas os documentos cujo valor de similaridade for superior a 50%. 26 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Probabilístico O Modelo Probabilístico representa o processo de recuperação de informação sob um ponto de vista probabilístico, ou seja, calcula a probabilidade de que o documento seja relevante para a consulta. 27 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Probabilístico Dada uma expressão de busca, podem-se dividir os N documentos de um corpus em quatro subconjuntos: • o conjunto dos documentos relevantes (Rel) • o conjunto dos documentos recuperados (Rec) • o conjunto dos documentos relevantes e recuperados (RR) e • o conjunto dos documentos não relevantes e não recuperados. 28 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Probabilístico O resultado ideal de uma busca é o conjunto que contenham todos e apenas os documentos relevantes para o usuário, isto é, todo o conjunto Rel. 29 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Probabilístico Após obter os resultados da primeira busca, é possível melhorar os resultados através de interações com o usuário. Seja Rel o conjunto de documentos relevantes, e Re l o complemento de Rel, a probabilidade de um documento d ser relevante em relação à expressão de busca é designada por p(Rel|d). 30 Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelo Probabilístico A similaridade (sim) de um documento d em relação à expressão de busca eBUSCA é definida como: 31 RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES MODELOS DINÂMICOS Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinâmicos Representam um enfoque diferenciado em relação aos modelos quantitativos. Dá ao conjunto de usuários uma participação ativa na representação dos documentos. Seu uso se restringe a pequenos grupos de usuários com interesses comuns. 33 Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinâmicos Apresentaremos três tipos conhecidos de modelos dinâmicos: •Sistemas Especialistas •Redes Neurais Articifiais •Algoritmos Genéticos 34 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas É um sistema computacional que procura representar o conhecimento de um especialista humano em um domínio particular, de maneira a auxiliar nas tomadas de decisões e resolução de problemas relacionados a esse domínio. Parte do princípio de que a inteligência não é apenas raciocínio, mas também memória, ou seja, é possuir grande quantidade de informação sobre determinado assunto. 35 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas São sistemas baseados em conhecimento. Servem como consultores na tomada de decisões em áreas restritas. Permitem representar o conhecimento heurístico na forma de regras obtidas através da experiência e intuição de especialistas de uma área específica. 36 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas A recuperação de informação é um processo cuja eficiência depende grande parte do conhecimento sobre o assunto. Há dois exemplos de sistemas que utilizam procedimentos típicos dos sistemas especialistas na recuperação de informação. 37 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas Sistema IOTA Desenvolvido no Laboratoire Génie Informatique de Grenoble. O processo de construção automática da base de conhecimento é realizado através da identificação dos principais conceitos contidos nos textos do conjunto de documentos (corpus). 38 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas Sistema IOTA Esses conceitos são identificados utilizando-se cálculos estatísticos de co-ocorrência de pares de palavras. Se duas palavras aparecerem próximas em vários documentos do corpus então elas possuem um certo relacionamento. 39 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas Sistema RUBRIC Rule-Basic Retrieval of Information by Computer O usuário é capaz de construir sua própria base de conhecimento sobre um determinado assunto através da especificação e organização de conceitos na forma de uma rede de frames. 40 Introdução Modelos Quantitativos R.I. Na Web Conclusão Sistemas Especialistas Sistema RUBRIC Para cada conceito (frame) o usuário define um conjunto de regras do tipo se...então que caracteriza o conceito. Ex: Se “recuperação” e “informação” então “recuperação de informação” (0.5) Aparecendo as palavras”recuperação” e “informação” no mesmo documento, a probabilidade de se tratar de “recuperação de informação” é de 50%. 41 Introdução Modelos Quantitativos R.I. Na Web Conclusão Redes Neurais Artificiais A busca por um modelo artificial que simule o funcionamento das células do cérebro data dos anos 40. Nos anos 80 o entusiasmo nas pesquisas aumentou devido a avanços metodológicos importantes e também graças aos avanços da ciência da computação. 42 Introdução Modelos Quantitativos R.I. Na Web Conclusão Redes Neurais Artificiais Uma das propriedades mais importantes de uma rede neural é a capacidade de aprender através de exemplos e fazer inferências sobre o que aprendeu, melhorando gradativamente o seu desempenho. 43 Introdução Modelos Quantitativos R.I. Na Web Conclusão Redes Neurais Artificiais De uma forma simplificada, uma rede neural artificial pode ser vista como um grafo onde os nós são os neurônios e as ligações fazem a função das sinapses. 44 Introdução Modelos Quantitativos R.I. Na Web Conclusão Redes Neurais Artificiais (FERNEDA, 2003) 45 Introdução Modelos Quantitativos R.I. Na Web Conclusão Redes Neurais Artificiais Uma tarefa comum para um sistema de recuperação de informação é pesquisar documentos relevantes que satisfazem uma determinada expressão de busca através dos termos de indexação. Essa organização pode ser comparada a uma estrutura de uma rede neural. 46 Introdução Modelos Quantitativos R.I. Na Web Conclusão Redes Neurais Artificiais Entrada da rede neural Saída da rede neural (FERNEDA, 2003) 47 Introdução Modelos Quantitativos R.I. Na Web Conclusão Algoritmos Genéticos É um processo repetitivo que mantém uma população de “indivíduos” que representam as possíveis soluções para um determinado problema. A cada geração os indivíduos da população passam por uma avaliação de sua capacidade em oferecer uma solução satisfatória para o problema. Essa avaliação é feita por uma função de adaptação ou função de fitness. 48 Introdução Modelos Quantitativos R.I. Na Web Conclusão Algoritmos Genéticos De acordo com essa avaliação alguns indivíduos, selecionados de acordo com uma regra probabilística, passam por um processo de reprodução, gerando uma nova população de possíveis soluções. Pressupõe-se que a população vá gradativamente ficando mais apta para solucionar o problema. 49 Introdução Modelos Quantitativos R.I. Na Web Conclusão Algoritmos Genéticos A aplicação dos algoritmos genéticos na recuperação de informação representa um novo modelo para todo o processo de recuperação. As representações dos documentos podem ser vistas como um tipo de um “código genético”. 50 Introdução Modelos Quantitativos R.I. Na Web Conclusão Algoritmos Genéticos Nesse código genético um cromossomo é representado por um vetor binário onde cada elemento armazena o valor 0 ou 1 (presença ou ausência de um determinado termo na representação do documento). 51 Introdução Modelos Quantitativos R.I. Na Web Conclusão Algoritmos Genéticos A aplicação dos algoritmos genéticos na recuperação de informação se apresenta somente como uma possibilidade, uma proposição para futuras implementações de sistemas com características evolutivas. 52 RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES Recuperação de Informação na WEB Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Características da Web A web é hoje considerada como a maior fonte de informação das principais formas de conhecimento. Nunca na história da humanidade tanta informação foi produzida. O seu uso intensivo, aliado ao crescimento exponencial, vem mudando diversos aspectos da sociedade contemporânea. 54 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Características da Web Alguns dados: •A cada dois anos, cada habitante do planeta produz 800 MB de informação digital •De 2000 para 2003, o número de informações novas cresceu 30%. •Todos os habitantes do planeta geraram informação digital nova suficiente para lotar 500 mil bibliotecas do congresso nacional dos EUA, a maior do mundo. Isso são 5 petabytes, ou seja, 5 bilhões de gigabytes de dados! Como achar qualquer informação nessa montanha de dados? fonte: http://noticias.uol.com.br/mundodigital 55 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Métodos de busca Os search engines, ou mecanismos de busca, são as ferramentas indicadas para o trabalho. Em um acervo extremamente grande e dinâmico como o da Web é essencial a indexação constante de suas páginas. Para isso temos a indexação manual e a indexação automática. 56 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Indexação Manual Usuários cadastram sua página e associam-na a uma ou mais categorias (podendo sugerir uma nova categoria para a sua página). Cada categoria é uma página Web formada por um conjunto de links para as páginas relacionadas àquela categoria. Os funcionários do site de busca fazem a análise da URL cadastrada, podendo alterar a classificação. O mais conhecido search engine que utiliza a indexação manual é o Yahoo! 57 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Indexação Manual Vantagens • Se a busca do usuário estiver relacionada diretamente a uma categoria existente, é esperada uma alta precisão na busca. • Uma página encontrada, que foi indexada por esse método, normalmente possui links para outras páginas relevantes sobre o mesmo assunto. 58 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Indexação Manual Desvantagens •Depende do cadastramento voluntário de páginas, isso reduz a cobertura da busca. •A procura por um assunto que não se enquadra em qualquer categoria existente, torna da busca ineficiente. 59 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Indexação Automática Utiliza programas chamados spiders. Um spider encontra páginas que podem ser cadastradas seguindo os links de páginas que já estão no banco de dados do buscador. Depois de encontradas, as páginas são passadas para outro software para a indexação, que identifica texto, links, e outros conteúdos na página e arquiva esses dados no banco do buscador. 60 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Indexação Automática Se uma página nunca foi "linkada" a qualquer outra, os spiders não podem encontrá-la. Por produzir milhares de resultados, exige o uso de alguns truques para tornar a pesquisa mais rápida e precisa. Google e Altavista são os mais conhecidos buscadores que utilizam a indexação automática. 61 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Meta-busca Metabuscadores não possuem Banco de Dados próprios. Retornam o resultado proveniente da combinação de outros mecanismos de busca, como Google, Yahoo! Search, MSN Search, Ask Jeeves e vários outros. 62 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Meta-busca Metabuscadores são muito eficientes na localização de temas muito específicos e difíceis de localizar. Se a busca é simples, vale mais usar um mecanismo de busca comum, pois os metabuscadores podem produzir um amontoado de informação que servirá mais para confundir do que para ajudar. Alguns metabuscadores: WebCrawler, MetaCrawler, SurfWax, Vivísimo. 63 Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão Meta-busca Buscadores escolhidos para integrar a lista personalizada. Pode-se fazer até 3 listas, contendo até 10 buscadores cada. Lista de search engines disponíveis, divididos por assunto. 64 http://www.surfwax.com RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES CONCLUSÃO Introdução Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Com a “explosão da informação” e a urgência no tratamento da crescente produção de informação, o computador foi a solução mais direta. A natural vocação dos computadores pelo processamento matemático justifica a predominância dos modelos quantitativos de recuperação de informação. 66 Introdução Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Os modelos dinâmicos rompem a rigidez imposta pelos modelos quantitativos através da participação de usuários na representação dos documentos. Os trabalhos práticos disponíveis na literatura apresentam somente testes utilizando um ambiente controlado, com um conjunto de documentos reduzidos. O desempenho computacional dos modelos dinâmicos em situações reais ainda é uma incógnita. 67 Introdução Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Recuperar informação implica operar seletivamente um estoque de informação, o que envolve processos cognitivos que dificilmente podem ser formalizados através de um algoritmo. Mesmo que um modelo computacional de recuperação da informação tenha como base algum tipo de vocabulário e organização lógica, a equiparação dos significados supostamente implícitos depende de uma análise intelectual. 68 RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES FIM 69