PPI - Trabalho Prático Universidade da Beira Interior, 2014/2015 29 de Abril de 2015 Objectivos: Com este trabalho pretende-se que os alunos possam consolidar os conhecimentos que foram sendo adquiridos ao longo das aulas. Descrição: Deverá ser implementado um motor de pesquisa que permita indexar a colecção de documentos “Time 1960” — conjunto de artigos p u b l i c a d o s n a r e v i s t a Ti m e , n o p e r í o d o 1 9 6 0 — 1 9 6 3 , c o n t e n d o aproximadamente 1 milhão de tokens. A aplicação deve permitir a realização de pesquisas de texto, por parte do utilizador. 1. Pesquisa em linha de comandos: após a inserção das palavras da pesquisa, serão listados os cinco documentos mais relevantes, por ordem de relevância. Para cada documento encontrado deve ser listado o número do documento seguido da primeira linha que o compõe. Deve existir um comando que permita listar a totalidade do texto de um documento, tal como exemplificado em baixo (@print). Time1960> KENNEDY ADMINISTRATION PRESSURE 268: SYRIA TO UNITY BY DISUNION IN CAIRO LAST WEEK, EGYPT'S ... 288: GREAT BRITAIN TROLLOPE, HOT TIDE BETTER EDUCATION ... 304: INDIA THE CRITICS RETURN WHEN THE CONGRESS PARTY ACHIEVED ... ... Time1960> @print 304 INDIA THE CRITICS RETURN WHEN THE CONGRESS PARTY ACHIEVED ITS LANDSLIDE VICTORY IN INDIA'S LATEST GENERAL ELECTION 15 MONTHS AGO, THE FIERCEST CRITICS OF PRIME MINISTER JAWAHARLAL NEHRU AND FORMER DEFENSE MINISTER KRISHNA MENON WERE SWEPT OUT OF OFFICE . BUT THE GOVERNMENT'S CLUMSY HANDLING OF THE CHINESE INVASION LAST OCTOBER GAVE NEW HOPE TO … 2. Utilize a biblioteca DOM (em Java) para ler os documentos do ficheiro XML. 3. Após a determinação do vocabulário inicial (Vinicial), este deve ser reduzido ao vocabulário final (Vfinal), com base nas palavras mais informativas de cada documento. Utilize o cálculo da relevância de termos numa região (aula de 22 de abril) e selecione as palavras com informação superior a um determinado limiar mínimo de informação, por exemplo: 1.75. 4. A indexação dos documentos deverá ser feita com o modelo VSM simplificado (não eficiente — matriz dos TF*IDF), usando Vfinal. 5. Implemente o comando @similar, o qual encontra o documento mais semelhante a um determinado documento. Exemplo: Time1960> @similar 304 6. Implemente um comando que faz o mesmo que o do exercício 1 mas envia o resultado da pesquisa para um ficheiro HTML, estética e funcionalmente bem “equipado”. A nível estético utilize CSS e a nível de funcionalidade deve existir um botão e código JavaScript para permitir a expansão do documento, mostrando-o integralmente. Exemplo: Time1960> @qhtml KENNEDY ADMINISTRATION PRESSURE Regras Gerais: 1. Os trabalhos serão realizados individualmente, usando as linguagens utilizadas nas aulas: Java e XML e HTML5. 2. Plágios serão fortemente penalizados, podendo anular completamente o trabalho e comprometer assim o sucesso da realização desta unidade curricular. 3. A entrega é feita enviando um e-mail para o docente ([email protected]) com o trabalho em anexo — um ZIP ou um RAR com todo o conteúdo. O “assunto” desse mail deverá ser “trabalho de PPI”, não esquecendo de se identificar com o seu número e nome. 4. O trabalho poderá ser submetido até às 23h59 do dia 29 de Maio de 2015. Atrasos terão um efeito penalizador, aumentando exponencialmente com o passar do tempo. 5. Não serão aceites trabalhos “fantasmas” — os que aparecem só no dia da entrega! 6. Na semana seguinte à entrega, alunos irão prestar prova do seu trabalho, de acordo com o horário marcado pelo docente. Bom Trabalho!