Terceiro Trabalho Prático de GTI Resolução Exercício 1 Considere dois ficheiros XML descrevendo catálogos de livrarias, dos quais se apresenta um excerto abaixo e que se encontram disponíveis no material de suporte para estes exercícios. Escreva um XML schema que capture uma visão integrada das duas fontes de dados. Exercício 1 <?xml version="1.0"> <xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema"> <xsd:complexType name="BookType"> <xsd:sequence> <xsd:element name="title" type="xsd:string" /> <xsd:element name="author" type="xsd:string" /> <xsd:element name="isbn" type="xsd:string" /> <xsd:element name="category" type="xsd:string" minOccurs="0" /> <xsd:element name="publisher" type="xsd:string" minOccurs="0" /> <xsd:element name="pages" type="xsd:integer" minOccurs="0" /> <xsd:element name="price" type="xsd:decimal" minOccurs="0" /> <xsd:element name="date" type="xsd:string" minOccurs="0" /> <xsd:element name="description" type="xsd:string" minOccurs="0" /> </xsd:sequence> Exercício 1 </xsd:complexType> <xsd:complexType name="CatalogueType"> <xsd:sequence><xsd:element name="book" type="BookType" maxOccurs="unbounded" /></xsd:sequence> </xsd:complexType> <xsd:element name="catalogue"> type="CatalogueType"> </xsd:schema> Exercício 2 Escreva em XQuery dois mapeamentos entre esquemas (views), um para cada um dos ficheiros XML referidos no Exercício 1, que produzam XML em conformidade com o schema dado como resposta. Defina ainda uma view adicional, de nome mediated-schema, que faça a união dos dois mapeamentos sobre um elemento de raiz comum e que produza XML em conformidade com o schema dado como resposta ao exercício 1. Exercício 2 declare namespace gti="uri:gti.pt"; declare function gti:view1() { <catalogue xsi:noNamespaceSchemaLocation="schema.xsd"> { for $book in doc("book-catalogue1.xml")//book return <book> <title>{data($book/title)}</title> <author>{data(reverse(tokenize(data($book/author),", ")))}</author> <isbn>{data($book/@id)}</isbn> <category>{data($book/genre)}</category> <price>{replace(data($book/price),"\$","")}</price> <date>{data($book/publish_date)}</date> <description>{data($book/description)}</description> </book> } </catalogue>} Exercício 2 declare function gti:view2() { <catalogue xsi:noNamespaceSchemaLocation="schema.xsd"> { for $book in doc("book-catalogue2.xml")//book return <book> <title>{data($book/title)}</title> <author>{data(reverse(tokenize(data($book/author),", ")))}</author> <isbn>{data($book/isbn)}</isbn> <category>{data($book/../categoryname)}</category> <publisher>{data($book/publisher)}</publisher> <pages>{data($book/pagecount)}</pages> <price>{replace(data($book/price),"\$","")}</price> <date>{data($book/pubdate)}</date> <description>{data($book/blurb)}</description> </book> } </catalogue>} Exercício 2 declare function gti:integrated() { let $aux = ( gti:view1()//catalogue union gti:view2()//catalogue ) return <catalogue xsi:noNamespaceSchemaLocation="schema.xsd">{$aux}</catalogue> } Exercício 3 Escreva as seguintes interrogações em XQuery e diga quais os resultados obtidos aquando da sua execução sobre a view mediated-schema: Exercício 3 Quais os autores que escreveram mais do que um livro? let $doc := gti:integrated() for $a in distinct-values($doc//author) where count($doc//book[author= $a]) > 1 return <author>{$a}</author> Exercício 3 Qual o livro mais caro? let $doc := gti:integrated() return $doc//book[price = max($doc//price)]/title Exercício 3 Quais as categorias existentes e quantos livros existem em cada categoria? let $doc := gti:integrated() for $c in distinct-values($doc//category) return <category> <name>{$c}</name> <books>{count($doc//book[category=$c]}</books> </category> Exercício 4 Usando o algoritmo de "string matching" baseado em programação dinâmica dado nas aulas teóricas, calcule a similaridade e o alinhamento entre as duas cadeias de caracteres abaixo indicadas. Indique também a matriz calculada pelo algoritmo. AATTGGTCCC AACTTGGACC Exercício 4 A A C T T G G A C C 0 1 2 3 4 5 6 7 8 9 9 A 1 0 1 2 3 4 5 6 7 8 9 edit distance = alinhamento: A A A A A 2 1 0 1 2 3 4 5 6 7 8 T 3 2 1 1 1 2 3 4 5 6 7 T 4 3 2 2 1 1 2 3 4 5 6 G 5 4 3 3 2 2 1 2 3 4 5 G 6 5 4 4 3 3 2 1 2 3 4 T 7 6 5 5 4 3 3 2 2 3 4 C 8 7 6 5 5 4 4 3 3 2 3 C 9 8 7 6 6 5 5 4 4 3 2 C 10 9 8 7 7 6 6 5 5 4 3 C T T T T G G G G T A C C C C C - 3 Exercício 5 Usando o algoritmo "simple tree matching" dado nas aulas teóricas, calcule a similaridade e o alinhamento das árvores que se seguem. Devem ser mostradas todas as matrizes calculadas pelo algoritmo. A / | \ B C D /| |\ E F G J / \ |\ H I KL A / | \ B C M /\ E F /\ H N Exercício 5 Matriz para os filhos de A e A (nível 2) B C M B 0 1 1 1 0 0 0 0 C 0 1 5 5 D 0 1 5 5 retorno: Matriz para os filhos de C e C (nível 3) 0 0 0 E F 6 E 0 1 1 F 0 1 3 retorno: 4 Matriz para os filhos de B e B (nível 3) Matriz para os filhos de E e E (nível 4) 0 0 retorno: 1 retorno: 1 Matriz para os filhos de F e F (nível 4) Matriz para os filhos de H e H (nível 5) H N 0 0 0 H 0 1 1 I 0 1 1 0 retorno: 1 Nas restantes iteracções o retorno é 0 (porque os nós são diferentes) Para alinhar, basta ligar os nós com o mesmo nome Exercício 6 Usando as ferramentas de extracção de dados introduzidas nas aulas práticas e tendo como base de conhecimento a lista de filmes e nomes de actores fornecida no material de suporte, indique um processo de extracção de informação às críticas de cinema contidas num ficheiro de texto, que também se encontra fornecido no material de suporte. Exercício 6 import com.aliasi.chunk.* import com.aliasi.dict.*; import com.aliasi.util.*; import com.aliasi.tokenizer.*; import java.util.*; import java.io.*; Exercício 6 public class MovieReviews { private MapDictionary dictionary; private ExactDictionaryChunker chunker; private Map movies; public MovieReviews() { this.dictionary = new MapDictionary(); this.movies = new hashMap(); addEntries(new File("actors.txt"),"ACTOR",1.0); addEntries(new File("movies.txt","MOVIE",1.0); this.chunker = new ExactDictionaryChunker(dictionary,IndoEuropeanTokenizerFactory.FACTORY,tr ue,true); } Exercício 6 public void addReview(String aux) { Chunking chunking = chunker.chunk(review); Set reviewActors = new HashSet(); Set reviewMovies = new HashSet(); for (Chunk chunk : chinking.chunkSet() ) { if(chunk.type().equals("MOVIE")) reviewMovies.add(review.substring(chunk.start(),chunk.end())); else reviewActors.add(review.substring(chunk.start(),chunk.end())); } Exercício 6 for (String movie : reviewMovies) { Set aux = movies.get(movie); if(aux==null) aux = new HashSet(); aux.addAll(reviewActors); movies.put(movie,aux); } } Exercício 6 public String getNextReview(BufferedReader reader) throws Exception { StringBuffer aux = new StringBuffer(); while((s=reader.readLine())!=null && s.equals("##") == false) { aux.append(s); aux.append(" "); } return aux.toString(); } Exercício 6 public void AddEntries ( File file, String cat, double score) throws Exception { BufferedReader reader = new BufferedReader(new FileReader(file)); String s; while((s=reader.readLine())!=null) dictionary.addEntry(new DictionaryEntry(s.trim(),cat,score)); } Exercício 6 public static void main ( String[] args ) throws Exception { MovieReviews m = new MovieReviews(); BufferedReader reader = new BufferedReader(new FileReader("reviews.txt")); String s; while((s=getNextReview(reader)).length()>0) addReview(s); for (Map.Entry entry : m.movies.entrySet() ) { System.out.println("Actors for movie " + entry.getKey() + "*****"); for (String value : m.getValue()) System.out.println("-----" + value); } } } Exercício 6 Possíveis erros Nomes de actores que ocorrem na crítica, mas não pertencem ao elenco Nomes de filmes que aparecem na crítica de outros filmes Nomes de actores em diferentes formatos (e.g., com ou sem iniciais) Nomes de filmes em diferentes formatos, abreviados, etc.