Gestão e Tratamento de Informação 1º Semestre 2009/2010 DEI IST Corpo docente Pável Calado Bruno Martins Paulo Carreira Organização das aulas Aulas teóricas Aulas de laboratório Grupos de três elementos Apoio no software a ser utilizado inscrições na página da cadeira no Fénix iniciam-se hoje, 18h, terminam 2/10, 23h59 SW open-source Apoio na resolução dos mini-projectos Avaliação Exame (60%) 21/1/2010 4/2/2010 4 Mini-Projectos (40%), todos de igual valor Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos feita na aula teórica Solução e correcções mostradas na aula teórica Conteúdo: uma parte teórica/prática e outra de SW Calendário Mini-Projectos MP1 MP2 Entrega enunciado: 16/10 Entrega alunos: 6/11 MP3 Entrega enunciado: 25/9 Entrega alunos: 16/10 Entrega enunciado: 6/11 Entrega alunos: 27/11 MP4 Entrega enunciado: 27/11 Entrega alunos: 18/12 Programa Gestão de dados XML Linguagens de interrogação e modificação: XPath, XSLT, XQuery, XQuery Update Armazenamento de dados XML Extracção de Informação Extracção de dados da Web Técnicas de extracção de informação a partir de texto Hidden Markov Models Ferramentas: Mallet, GATE, MinorThird, UIMA Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers Systems: LSD, TSIMMIS, Information Manifold Transformação e limpeza de dados Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação Gestão de dados XML XML é vastamente utilizada como linguagem de troca de dados na Internet DTD, XMLSchema, XPath, XSLT são assuntos já conhecidos A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui Extracção de informação Extracção de dados estruturados a partir da Web (docs HTML, XML) Extracção de dados estruturados a partir de texto 1. 2. Tb. conhecido por prospecção de texto (text mining) Desafios da Web: Número grande de fontes de dados Páginas Web devem ser transformadas em dados estruturados Falta de controlo sobre os dados Fontes têm restrições de entrada e saída Natureza distribuída da Web pode tornar a integração de dados muito lenta Extracção de dados estruturados a partir de texto Como descobrir estrutura em dados não estruturados Exemplo (http://www.imdb.com) Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman. ... Algumas técnicas de aprendizagem automática (Machine Learning) podem ser usadas Integração de dados e esquema Integrar dados oriundos de múltiplas fontes de dados heterógeneas Desafios: Acesso aos dados Resolver as diferenças existentes ao nível de esquema e dados Executar a integração de forma eficiente Transformação e limpeza de dados Durante e após a integração, alguns problemas com os dados precisam de ser resolvidos Exemplo: Filmes (id, título, realizador, ano, ano_ult_remake) (1|Casablanca|Weir|1942|1940) (2|Dead Poets Society|Curtiz|1989|-) (3|Rman Holiday|Wylder|1953|-) (4|Casblanca|Weir|1940|1950) Detecção e eliminação de duplicados é um dos aspectos que vamos estudar Software utilizado Pacotes de SW open source: Interrogação de dados XML, integração e limpeza de dados Extracção de dados da Web Saxon - Java API for XML processing, supporting SAX, DOM, XPath 2.0, XSLT 2.0 and XQuery 1.0 http://saxon.sourceforge.net/ SimPack - Java Library of similarity functions http://www.ifi.uzh.ch/ddis/simpack.html RoadRunner - Java Library for Automated Web Data Extraction http://www.dia.uniroma3.it/db/roadRunner/software.html Extracção de dados a partir de texto Minorthird - Java Library for ML-based Text Annotation and Classification http://minorthird.sourceforge.net/ LingPipe - Java Framework for General Text Mining http://alias-i.com/lingpipe/ Bibliografia Não há um livro único Algumas partes da matéria cobertas por artigos Livros: Data on the Web: From Relations to Semistructured Data and XML Serge Abiteboul, Peter Buneman, Dan Suciu Morgan Kaufmann Publishers 2000 (4 ex. Bib IST Tagus) XQuery from the Experts: A Guide to the W3C XML Query Language Howard Katz, Don Chamberlin, Denise Draper, Mary Fernandez, Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim Tivy, Philip Wadler Addison-Wesley 2004 Data Quality: Concepts, Methodologies and Techniques Carlo Batini, Monica Scannapieco Springer 2006 (4 ex. Bib. IST Tagus) Outras informações Questões?