PPI - Trabalho Prático
Universidade da Beira Interior, 2014/2015
29 de Abril de 2015
Objectivos: Com este trabalho pretende-se que os alunos possam consolidar
os conhecimentos que foram sendo adquiridos ao longo das aulas.
Descrição: Deverá ser implementado um motor de pesquisa que permita
indexar a colecção de documentos “Time 1960” — conjunto de artigos
p u b l i c a d o s n a r e v i s t a Ti m e , n o p e r í o d o 1 9 6 0 — 1 9 6 3 , c o n t e n d o
aproximadamente 1 milhão de tokens. A aplicação deve permitir a realização de pesquisas de
texto, por parte do utilizador.
1. Pesquisa em linha de comandos: após a inserção das palavras da pesquisa, serão listados os
cinco documentos mais relevantes, por ordem de relevância. Para cada documento
encontrado deve ser listado o número do documento seguido da primeira linha que o
compõe. Deve existir um comando que permita listar a totalidade do texto de um
documento, tal como exemplificado em baixo (@print).
Time1960> KENNEDY ADMINISTRATION PRESSURE
268: SYRIA TO UNITY BY DISUNION IN CAIRO LAST WEEK, EGYPT'S ...
288: GREAT BRITAIN TROLLOPE, HOT TIDE BETTER EDUCATION ...
304: INDIA THE CRITICS RETURN WHEN THE CONGRESS PARTY ACHIEVED ...
...
Time1960> @print 304
INDIA THE CRITICS RETURN WHEN THE CONGRESS PARTY ACHIEVED ITS
LANDSLIDE VICTORY IN INDIA'S LATEST GENERAL ELECTION 15 MONTHS AGO,
THE FIERCEST CRITICS OF PRIME MINISTER JAWAHARLAL NEHRU AND
FORMER DEFENSE MINISTER KRISHNA MENON WERE SWEPT OUT OF OFFICE .
BUT THE GOVERNMENT'S CLUMSY HANDLING OF THE CHINESE INVASION
LAST OCTOBER GAVE NEW HOPE TO …
2. Utilize a biblioteca DOM (em Java) para ler os documentos do ficheiro XML.
3. Após a determinação do vocabulário inicial (Vinicial), este deve ser reduzido ao vocabulário
final (Vfinal), com base nas palavras mais informativas de cada documento. Utilize o cálculo
da relevância de termos numa região (aula de 22 de abril) e selecione as palavras com
informação superior a um determinado limiar mínimo de informação, por exemplo: 1.75.
4. A indexação dos documentos deverá ser feita com o modelo VSM simplificado (não eficiente
— matriz dos TF*IDF), usando Vfinal.
5. Implemente o comando @similar, o qual encontra o documento mais semelhante a um
determinado documento. Exemplo:
Time1960> @similar 304
6. Implemente um comando que faz o mesmo que o do exercício 1 mas envia o resultado da
pesquisa para um ficheiro HTML, estética e funcionalmente bem “equipado”. A nível estético
utilize CSS e a nível de funcionalidade deve existir um botão e código JavaScript para
permitir a expansão do documento, mostrando-o integralmente. Exemplo:
Time1960> @qhtml KENNEDY ADMINISTRATION PRESSURE
Regras Gerais:
1. Os trabalhos serão realizados individualmente, usando as linguagens utilizadas nas aulas:
Java e XML e HTML5.
2. Plágios serão fortemente penalizados, podendo anular completamente o trabalho e
comprometer assim o sucesso da realização desta unidade curricular.
3. A entrega é feita enviando um e-mail para o docente ([email protected]) com o trabalho
em anexo — um ZIP ou um RAR com todo o conteúdo. O “assunto” desse mail deverá ser
“trabalho de PPI”, não esquecendo de se identificar com o seu número e nome.
4. O trabalho poderá ser submetido até às 23h59 do dia 29 de Maio de 2015. Atrasos terão
um efeito penalizador, aumentando exponencialmente com o passar do tempo.
5. Não serão aceites trabalhos “fantasmas” — os que aparecem só no dia da entrega!
6. Na semana seguinte à entrega, alunos irão prestar prova do seu trabalho, de acordo com
o horário marcado pelo docente.
Bom Trabalho!
Download

PPI - Trabalho Prático - Departamento de Informática da