Modelo de Qualidade Bibliotecas Digitais Apresentação MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA Defining a Quality Model for Digital Libraries AVALIAÇÃO REFERÊNCIA Bárbara Lagoeiro Moreira Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Motivação • O que seria uma boa biblioteca digital? • Hipótese: Teoria formal pode ajudar a definir o que é uma boa biblioteca digital: – Formalização de indicadores de qualidade dentro do modelo 5S. – Contextualização dos indicadores propostos dentro do ciclo de vida da informação Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Contexto(1/2) • Para cada conceito principal de bibliotecas digitais, é formalmente definido um número de: – Dimensões de qualidade • ...e são propostos: – Um conjunto de indicadores numéricos para estas dimensões. Modelo de Qualidade Bibliotecas Digitais Contexto(2/2) Objeto Digital • • • • Acessibility • Pertinence • Preservability • Relevance Metadados • • • Accuracy Completeness Conformance Coleção • • Completeness Impact Factor Catálogo • • Completeness Consistency Repositório • • Completeness Consistency Serviços • • • • Composability • Efficiency • Effectiviness Extensibility MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Similarity Significance Timeliness Indicadores Numéricos Reusability Reliability Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Um objeto digital é acessível por um ator da biblioteca, se: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Objetos Digitais – Acessibility (1/3) – Ele existe nas coleções da biblioteca; – É possível recuperá-lo pelo repositório – Ele não apresenta restrições de acesso: • Por metadados (rights) • Ou, se existe política restritiva, esta não restringe a comunidade a que pertence o ator, ou o ator em particular. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais – Acessibility (2/3) • A Accessibility de um objeto “dox” por um ator “acx”, é dado por: – 0, se dox não pertence a nenhuma coleção da biblioteca – Do contrário: • Acc = (z e streams de do r(acx)) / |streams(dox)| – r(acx): • 1, se z não tem restrições de acesso, ou se tem, não proíbe acx • 0, do contrário. Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Exemplo: Virginia Tech’s ETD: >> Objetos Digitais – Acessibility (3/3) CONTEXTO DIMENSÕES CICLO DE VIDA Letter Unrestricted Restricted Mixed Acessibility for users not in VT A 164 50 5 Mix(0.5,0.5,0.167, 0.1875,0.6) AVALIAÇÃO REFERÊNCIA •Unrestricted: acessibilidade = 1, para todos •Restricted: acessibilidade = 1 para VTcm, e 0 para fora de VTcm •Mixed: exemplo: 5 dos 6 capítulos(streams) do 3o documento misto são disponíveis só para VTcm. A acessibilidade para fora da VTcm é 1/6 = 0.167. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais – Pertinence(1/2) • Depende muito do ator: Relação entre a informação que um objeto digital carrega e a necessidade de informação de um ator. Definições: – Inf(doi) = informação de um objeto digital – IN(acj) = necessidade de informação de um ator – Contextjk = fatores que podem impactar sobre o julgamento de pertinência por acj no tempo k (ex: lugar, história de interação do ator, tarefa em questão...) Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais – Pertinence(2/2) • Pertinence(doi, acj): Inf(doi) IN(acj) Contextjk • Definida como: – 1, se Inf(doi) é julgada como informativa, em relação a IN(acj) no contexto Contextjk; – 0, de outra forma • Muito subjetiva! Depende do usuário. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais – Preservability(1/3) • Reflete o estado do objeto, que pode variar em relação a mudanças de: – HW (novas tecnologias de gravação) – SW (nova versão de SW que cria o objeto) – formatos padrão (novos padrões para representar imagens) – e processos (migração). Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Preservability de um objeto pode ser afetada por: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Objetos Digitais – Preservability(2/3) – sua obsolescência: objeto obsoleto é difícil de migrar, pode ser definida como custo da migração do objeto. – pela fidelidade do processo de migração: reflete a distorção do processo de migração, pode ser definida como inverso da distorção do objeto, causada pelo processo • Preservability(doi,dl)= (fidelidade na migração(doi ,formatx,,formaty), obsolescência(doi,dl)). Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais – Preservability(3/3) • Exemplo: – 1.000 imagens, em TIFF versão 5, – Migração para JPEG 2000. – Custo de migração: ferramenta de $500,00 + 20 horas de trabalho, a $66,6 a hora. – Compressão: distorção de 9 por imagem. – Preservability = (1/9, ($500 + 20*$66,6)/1.000) = (0,11, $1,83) (f,o) Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais – Relevance (1/2) • Contexto: relevância de um objeto em relação a uma consulta, ou um perfil, dentro do contexto de um serviço (Busca, recomendação). • Relevância é uma relação entre a representação de um documento e a representação de uma necessidade de informação. != de Pertinência!! Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Relevance(doi, q) é definida como: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Objetos Digitais – Relevance (2/2) – 1, se doi é julgado como relevante para q, por um juiz externo – 0, do contrário • Relevância pode ser estimada, tendo como base propriedades dos streams do objeto digital. Ex: Medida do cosseno. • Define uma noção objetiva, diferente de Pertinência. Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Pode ser vista como: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Objetos Digitais - Significance – Relevância – Em termos absolutos, calculada pelo # de citações de um documento. • Exemplo: ACM – DL – Mais citado/significante • Computer Programming Art, CACM, 1974, 279 citações. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Objetos Digitais - Similarity • Reflete o quão relacionados são 2 objetos. • Define-se a Similaridade em relação a: – Conteúdo (Bag-of-words) – Organização interna (Okapi, medida do cosseno) – Citações (cocit, bibcoup, Amsler) • Pode ser usada em serviços de classificação automática Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Representa atualização do objeto: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Objetos Digitais - Timeliness – (data atual ou última atualização da coleção) – (data da última citação), se o objeto foi citado – (data atual ou ultima atualização da coleção) – (data da criação ou publicação), se o objeto nunca foi citado Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Esp. de Metadados – Accuracy (1/2) • A Accuracy de uma especificação de metadados é dada pelo somatório do grau de accuracy de seus atributos. • O grau de Accuracy de um atributo “a” se refere á proximidade do valor “v” de “a” de um valor “v’” definido como correto para “a”. • Regras devem ser definidas: valor correto e proximidade deste valor. Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Exemplo de regras: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Esp. de Metadados – Accuracy (2/2) – Grau de accuracy para atributo título: é 1 se não conter informação sobre autores; do contrário é 0.5. – Grau de accuracy para atributo sumário: é 0 se contiver frases como “Title from *”, “Includes bibliographical references”; é 0 se for igual a “Thesis” ou “Dissertetion”; do contrário é 1. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >>Esp.de Metadados-Completeness(1/2) • Grau com o qual os valores estão presentes de acordo com o padrão de metadados. Ou está presente, ou não. • Completeness(msx) = 1 - (# de atributos ausentes na msx/ total de atributos do schema ao qual a msx segue) WagUniv UCL CALTECH UPSALLA LAVAL NSYSU WATERLOO CCSD UTENN MUENCHEN USF ETSU GATECH VIENNA DRESDEN BGMYU OCLC HUMBOLT HKU PITT USASK NCSU VANDERBILT VTINDIV REFERÊNCIA PHYSNET AVALIAÇÃO 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 UBC CICLO DE VIDA MIT DIMENSÕES • Exemplo: Especificações de Metadados da NDLTD Union Archives, de acordo com o padrão de metadados DC (15 atributos) VTETD CONTEXTO >>Esp.de Metadados-Completeness(2/2) LSU MOTIVAÇÃO Dimensões GWUD Modelo de Qualidade Bibliotecas Digitais Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >>Esp.de Metadados–Conformance(1/3) • A Conformance de uma especificação de metadados é dada pelo somatório da conformidade de seus atributos • O valor de um atributo está em conformidade com o “schema”, se ele pertence ao domínio de valores definido para o atributo (string, date, number). • Conformidade do atributo é 1, se obedece os requisitos, e 0 do contrário. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >>Esp.de Metadados–Conformance(2/3) • Cardinally Conformance: definição mais forte: – Valor do atributo deve obedecer domínio definido no esquema. – Cada atributo deve aparecer ao menos uma vez, se este está definido como obrigatório no esquema. – Um atributo não pode aparecer mais de uma vez, se este estiver definido sem a possibilidade de repetição. Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Exemplo: ETD Union Archive: – padrão de metadados EDT-MS: – (6 atributos obrigatórios, domínio de dc.type:{“Collection”,“Dataset”,“Event”, “Image”, “InteractiveResource”, “Software”, “Sound”, “Text”, “PhysicalObject”, “StillImage”, ”MovingImge”, “Eletronic Thesis or Dissertation”}). DIMENSÕES CICLO DE VIDA AVALIAÇÃO 1 0. 95 0. 9 0. 85 WagUniv UCL CALTECH UPSALLA LAVAL NSYSU WATERLOO CCSD UTENN USF MUENCHEN ETSU GATECH VIENNA DRESDEN BGMYU OCLC HUMBOLT HKU PITT USASK NCSU VANDERBILT VTINDIV PHYSNET UBC VTETD 0. 75 LSU 0. 8 GWUD REFERÊNCIA MIT CONTEXTO >>Esp.de Metadados–Conformance(3/3) Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Coleção – Completeness (1/2) • Uma coleção completa contém todos os objetos digitais existentes que deveria conter. • Mais fácil de estimar para coleções baseadas em outras (harvesting). • Completeness(Cx)= |Cx| / |coleção ideal| Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Coleção – Completeness (2/2) • Exemplo: ACM Guide, considerado boa aproximação para coleção ideal de computação. Coleção Grau de Completeness ACM Guide 1 DBLP 0.652 CITIDEL 0.467 IEEE-DL 0.168 ACM-DL 0.146 Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Coleção – Impact Factor • Impact Factor CIF: # de citações ou links para objetos digitais da coleção em questão. • Imapct factor eCIF: elimina autocitações. • Exemplo: – ACM-DL (referência) e DBLP (inclui ACMDL). CIF eCIF ACM-DL DBLP 223.198 ------ 369.557 146.359 Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Catálogo – Completeness • A completeza de um catálogo(DMc) é definida por: – Completeness(DMc) = 1 – (# de objetos digitais sem esp. de metadados / tamanho da coleção) • Exemplo: – Apenas 103, dos 4.446 registros de um catálogo são extraídos: – 1-(4.446 -103)/4.446 = 0.023 Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Catálogo – Consistency • A consistência de um catálogo é definida como: – 0,se houver pelo menos um conjunto de especificação de metadados atribuído a mais que um objeto digital. – 1, do contrário. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Repositório – Completeness • Um repositório completo contém todas as coleções que deveria conter. • Completeness(Rx)= # de coleções em Rx| / # ideal de coleções • Exemplo: – ACM Guide, como repositório de referência, considerando 11 de suas coleções, temos que a completeza do repositório da CITIDEL(ACM, IEEE, NCTRL, NDLTD-CS), pode ser definida por: 4/11 = 0.36 Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Repositório – Consistency • Se um repositório armazena coleções com seus catálogos de metadados correspondentes, então, a consistência do repositório pode ser definida como: – 1, se a consistência de todos os catálogos, em relação às suas coleções descritas for 1. – 0, do contrário. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO Dimensões >> Serviços - Extensibility • Serviço A estende o serviço B, se A inclui o comportamento de B e potencialmente inclui sub-fluxos condicionais de eventos. Serv = conjunto de serviços; SM = conjunto de “gerentes” que executam os serviços: – Macro-Extensibility(Serv) = # de serviços que são “estendidos”/ # total de serviços REFERÊNCIA – Micro-Extensibility(Serv) = # de linhas de código dos “gerentes” que executam serviços ”estendidos”/ total de linhas de código dos “gerentes”. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Serviços – Reusability (1/2) • Serviço A reusa o serviço B, se o comportamento de A incorpora o comportamento de B. Serv = conjunto de serviços; SM = conjunto de “gerentes” que executam os serviços: – Macro-Reusability(Serv) = # de serviços que são “reusados”/ # total de serviços – Micro-Reusability(Serv) = # de linhas de código dos “gerentes” que executam serviços ”reusados”/ total de linhas de código dos “gerentes”. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Serviços – Reusability (2/2) • Exemplo: SM Component LOC Implemeting LOC Reused Total LOC 1 Yes - 1650 1650 2 No 100 - 100 3 Yes - 700 700 4 No 200 - 200 5 No 50 - 50 6 No 1800 - 1800 7 No 550 - 550 8 No 250 - 250 Total: 2950 2350 5300 Macro-Reusability= 2/8 = 0.25, Micro-Reusability = 2350/5300 = 0,44 Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Serviços – Effectiviness • Quão bom foi o resultado? • Normalmente está relacionado a serviços de satisfação de informação. • Medidas mais comuns: Precisão, Revocaçãol, F1, 10-precision, RPrecision Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Serviços – Efficiency (1/2) • Diferença entre tempo de requisição e tempo de resposta: – t(e) é o tempo em que ocorre um evento e – eix e efx são os eventos inicial e final do service sex . – Para o serviço sex, efficiency é definida como: • Efficiency(sex) = t(efx) - t(eix) Modelo de Qualidade Bibliotecas Digitais Dimensões MOTIVAÇÃO • Exemplo: CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA >> Serviços – Efficiency (2/2) – Serviço de indexação: • 0.40 GB/hora – Serviço de Busca: • 1.2 segundos/consulta Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Dimensões >> Serviços – Reliability (1/2) • Indica a probabilidade com a qual um serviço não falhará durante um dado período de tempo. – Reliability(sex) = 1 – (# de falhas/ # de acessos a sex ) Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO Dimensões >> Serviços – Reliability (2/2) • Exemplo: Serviços da CITIDEL CONTEXTO Serviço # falhas/#acessos reliability Busca 73/14.370 0,994 Navegação 4.130/153.369 0,973 Requisição 1.569/318.036 0,995 Busca Estruturada 214/752 0,66 DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Contribuição 0/980 1 Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Qualidade e o Ciclo de Vida da Informação • Informação nas bibliotecas digitais está contida nos objetos digitais e suas especificações de metadados. • Assim, as dimensões de qualidade propostas para esses 2 conceitos, podem ser conectadas ao ciclo de vida da informação nas bibliotecas digitais. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Qualidade e o Ciclo de Vida da Informação • Tais conexões podem ser utilizadas para determinar: – Quando e onde pode-se medir, avaliar e aprimorar as questões de qualidade – Como problemas de qualidade podem ser prevenidos, detectados e eliminados. Modelo de Qualidade Bibliotecas Digitais Qualidade e o Ciclo de Vida da Informação MOTIVAÇÃO Active Accurac y Comple teness Conform ance Timeliness Similarity Preservability CONTEXTO DIMENSÕES CICLO DE VIDA Describing Organizing Indexing Authoring Modifying Semi-Active Pertinence Retention Significance Mining Creation Accessibility Storing Accessing Timeliness AVALIAÇÃO Filtering Utilization Archiving Distribution Seeking REFERÊNCIA Discard Inactive Searching Browsing Recommending Relevance Ac ce s si b Networking Pr ese ility rva bil ity Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Avaliação • 3 biblitecários, com experiência prática com bibliotecas digitais. • Pontos levantados: – Foco definido sobre bibliotecas digitais, não bibliotecas traditionais – Alguns indicadores pode ter uso mais teórico que prático em alguns contextos – Gostaram da estratégia minimalista – Interessante e potencialmente útil para aprendizado e avaliação. Modelo de Qualidade Bibliotecas Digitais MOTIVAÇÃO CONTEXTO DIMENSÕES CICLO DE VIDA AVALIAÇÃO REFERÊNCIA Referência • Arcabouço teórico sobre dimensões de qualidade para avaliar bibliotecas digitais • Streams, Structures, Spaces, Scenarios, and Societies: A Formal Framewrok for Digital Libraries and Its Applications: Defining a Quality Model fopr Digital Libraries (Capítulo 8)