10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 ACTIVIDADE NORMATIVA NO ÂMBITO DO DITED Maria Margarida Lopes Biblioteca Nacional, Divisão PORBASE INTRODUÇÃO Nos últimos anos, na sequência da crise dos modelos tradicionais de publicação científica1, tem-se assistido a um amplo debate, promovido pela comunidade científica e seguido de perto pelos profissionais da informação, sobre a necessidade de toda uma reengenharia do processo de comunicação da investigação. Os novos modelos emergentes, que pretendem ‘devolver’ à comunidade científica o controlo sobre a sua produção académica, assentam na premissa do direito ao acesso livre à informação científica, concretizado em duas vias complementares2: a publicação de artigos em periódicos de acesso livre, e políticas de auto-arquivo - os chamados repositórios institucionais3. A disponibilização dos repositórios - serviços de depósito e acesso em linha a conteúdos académicos -, e a sua crescente procura por parte dos utilizadores, têm 1 A divulgação da investigação mais relevante para cada área científica faz-se, tradicionalmente, num conjunto restrito de publicações periódicas, que procedem à selecção dos textos a publicar com base em processos de avaliação por pares (peer review). O crescimento do número de investigadores, da investigação publicada, e o consequente aumento exponencial no número de títulos académicos, levou a que este sistema de divulgação da investigação académica tenha começado a revelar sinais de crise no final do século XX: as bibliotecas deixam de conseguir assegurar as assinaturas dos títulos necessários aos investigadores; o cancelamento de assinaturas leva os editores a aumentar os preços, de forma a assegurar a manutenção dos lucros; e o aumento de custos leva as bibliotecas a mais cancelamentos de assinaturas. Gera-se assim um círculo vicioso, que se traduz numa redução significativa do acesso aos resultados da investigação. Desta ‘crise dos periódicos’ resulta uma dupla insatisfação: por parte de investigadores, pelas condições em que os seus trabalhos são publicados (tendo por ex. de abdicar dos seus direitos de copyright); por parte dos utilizadores, pela impossibilidade de aceder à informação científica, ferramenta indispensável à investigação. 2 Esta estratégia ficou definida num dos mais importantes documentos do movimento do Acesso Livre – o BOAI (Budapest Open Access Inictiative) – que resultou da reunião realizada em 2001, em Budapeste, promovida pelo Open Society Institute 3 Directory of Open Access Journals disponível em http://www.doaj.org/; Registry of Open Access Repositories disponível em http://archives.eprints.org/. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 1/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 contribuído para um aumento significativo da visibilidade deste tipo de informação4, incluindo-se neste universo as teses de mestrado e doutoramento. O DITED O serviço DiTeD – Depósito de Dissertações e Teses Digitais5, desenvolvido, gerido e disponibilizado pela Biblioteca Nacional, é um destes repositórios digitais. Tem como objectivo aumentar a visibilidade da produção científica nacional, através do depósito, da preservação e do acesso livre aos conteúdos integrais de teses e dissertações digitais, sempre que os autores assim o autorizam, e da articulação com outras iniciativas nacionais e internacionais com objectivos semelhantes, como a Biblioteca do Conhecimento Online (B-On) ou o NDLTD – Networked Digital Library of Theses and Dissertations. Internamente, o DiTeD está sincronizado com a PORBASE: os registos da Base Nacional de Dados Bibliográficos são regularmente exportados para o DiTeD e, em sentido inverso, está também a ser preparada a exportação automática de dados do DiTeD para a PORBASE. Simultaneamente, está em preparação a sincronização com a Biblioteca Nacional Digital (BND), já que a partir do DiTeD se fará a transferência regular de teses digitais para a BND. Quanto a acesso externos, a tecnologia utilizada no DiTeD – o sistema de gestão de repositórios DEPTAL - implementa o protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), assegurando assim a interoperabilidade entre arquivos abertos e garantindo que os conteúdos depositados são integralmente pesquisáveis via Internet. Outra forma através da qual a BN disponibiliza amplamente a informação sobre a sua colecção de teses é o servidor Z39.50 da PORBASE. O DiTeD e a colecção de teses da PORBASE estão assim articulados com o NDLTD, com a B-On, com a European Library (TEL) e com o Google Scholar. A URGÊNCIA DE NORMALIZAR A articulação do DiTeD com todos estes sistemas / repositórios / bases de dados torna indispensável que a informação esteja de tal forma estruturada que se torne possível 4 Existem diversos estudos comparativos, alguns dos quais referidos na bibliografia, que confirmam que o impacto dos artigos publicados em acesso livre é consideravelmente maior do que o dos artigos não disponíveis em linha. 5 Disponível em http://dited.bn.pt. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 2/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 operacionalizar, sem perda de dados e sem gerar ruído, os diversos mapeamentos entre sistemas ou bases de dados. No entanto, ficou claro desde muito cedo, no contexto do desenvolvimento do DiTeD, que não havia forma de proceder a uma transferência de informação com estas características a partir da PORBASE. Em primeiro lugar, a necessidade de capturar registos da PORBASE para o DiTeD implicava conseguir definir uma expressão de pesquisa que permitisse identificar teses de mestrado e doutoramento com o mínimo de ruído e com o mínimo de lacunas. A melhor solução encontrada foi a da construção de uma complexa expressão de pesquisa, que incidia sobre um campo de notas – o campo 328 do UNIMARC, com resultados que estavam longe de ser satisfatórios: esta solução gerava muito ruído na extracção, uma vez que a prática catalográfica era a de preenchimento do campo 328 para todos os tipos de trabalhos académicos, e também para a edição comercial de teses revistas. Em segundo lugar, os registos bibliográficos de teses não continham informação que é essencial em qualquer repositório digital de trabalhos académicos, o que dificultava os mapeamentos e a qualidade da recuperação da informação: falamos por exemplo na recuperação do nome da instituição de ensino superior onde foi produzida a tese, e também dos orientadores e co-orientadores. Da constatação destas dificuldades cresceu a urgência de tornar mais ‘fina’ a descrição bibliográfica de teses, melhorar a recuperação da informação e aumentar a qualidade e rigor das extracções. Ao nível do formato UNIMARC estão incorporados desde 2002 (4ª revisão da 2ª edição), alguns desenvolvimentos que reflectem a consciência da especificidade da informação de carácter académico, e da sua crescente visibilidade. Foram estes novos instrumentos, enumerados abaixo, que nos permitiram estabelecer regras para ‘afinar’ a descrição e a recuperação da informação relativa às teses: • Campo de dados codificados - livros (campo 105^a), códigos da forma de conteúdo: está disponível o código ‘m’ para teses originais, o ‘p’ para relatórios, planos de aula etc., e um novo código – ‘v’, para teses revistas; • O campo de nota de dissertação ou tese (campo 328) passa a poder ser preenchido de forma estruturada, com diversos subcampos disponíveis para identificar o grau académico da tese, a área cientifica, o ano e a instituição que confere o grau académico; Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 3/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 • Estão disponíveis códigos de função que permitem recuperar no bloco 7XX a instituição de ensino superior que confere o grau académico (295), o orientador e o co-orientador da tese (727). Relativamente ao primeiro problema – a identificação dos registos de teses de mestrado e doutoramento na PORBASE – a Biblioteca Nacional definiu como regra o preenchimento do campo 328 de forma estruturada, e exclusivamente para os casos de teses de mestrado e doutoramento. Para o caso das teses revistas para edição comercial ou outros trabalhos académicos foi recomendada a utilização das Notas gerais (campo 300). Desta forma, passará a ser possível extrair da PORBASE apenas as teses de mestrado e doutoramento, pesquisando os registos que têm o campo 328 preenchido. A identificação dos outros tipos de trabalhos académicos, e também das teses revistas para publicação comercial, é feita através do preenchimento dos códigos de conteúdo do campo 105^a. Relativamente à segunda questão – a ausência de informação relativa à instituição universitária e aos orientadores, a Biblioteca Nacional definiu que, para os casos das teses de mestrado e doutoramento, essa informação deve passar a ser registada e recuperada nos campos de responsabilidade secundária, com os códigos de função 295 e 727, respectivamente. O TRABALHO DE NORMALIZAÇÃO DE TESES NA PORBASE Estabelecidas estas decisões técnicas, que ficaram expressas na Nota Técnica nº 12 Catalogação de teses e dissertações de mestrado e doutoramento, emitida em Julho de 2005, foi necessário definir de que forma elas seriam aplicadas ao conjunto de registos da PORBASE. Normalização de novos registos Relativamente à criação de novos registos, foi emitida internamente a Nota Técnica acima referida, disponibilizada também aos cooperantes como Informação Técnica nº 1/2006, no endereço http://purl.pt/735/1/info-tec-n1-05.html. Com a divulgação destas recomendações pretende-se uniformizar procedimentos na catalogação de teses e dissertações, de forma a garantir a consistência e a qualidade dos registos bibliográficos produzidos quer pela BN, quer pelas outras bibliotecas cooperantes da PORBASE. Com o mesmo objectivo, foi pensada (e realizada pela primeira vez este Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 4/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 ano) uma nova acção de formação específica para descrição de teses e mestrado e doutoramento. Neste momento, a PORBASE conta já com 2497 registos bibliográficos de teses de mestrado e doutoramento criados de acordo com as recomendações acima referidas6, a maior parte dos quais resultantes do processamento interno da Biblioteca Nacional. Normalização de registos já existentes No que diz respeito aos registos já existentes na PORBASE, em Agosto de 2005, momento em que se iniciaram os trabalhos de correcção, o estado da base relativamente a registos de teses nacionais era o seguinte: Reg. bibliográficos com o campo 328 preenchido 41019 Analisando o conteúdo das notas, foi possível desagregar este número nas seguintes categorias: Teses de mestrado 20791 51% Teses de doutoramento 9271 23% Teses de licenciatura 4680 11% Teses de tipo não especificado 452 1% Outros trabalhos académicos (relatórios, sínteses, provas de 4693 11% 1132 3% aptidão pedagógica e capacidade científica, etc.) Outros (desconhecido) Ou seja, do total de 41019 registos identificados como teses, só 30062 (74%), correspondiam efectivamente a teses de mestrado e doutoramento, aos quais era necessário adicionar os dados relativos às responsabilidades secundárias. Os restantes 26% tinham o campo 328 indevidamente preenchido, e era necessário transferir a informação nele contida para o campo 300. A verificação e correcção destes registos na PORBASE foi pensada, e está a ser concretizada, em duas vertentes distintas: 6 Dados de 9 de Maio de 2006. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 5/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 1) Para um conjunto mais restrito de registos, correspondentes às teses que estão depositadas no DiTeD com conteúdos digitais parciais ou integrais, foi feita a respectiva correcção manual na PORBASE, quer dos registos bibliográficos, quer dos de autoridade. Esta correcção manual justifica-se pela importância de ter informação consistente e coerente em ambas as bases, de modo a facilitar as migrações de dados entre o DiTeD, a PORBASE e a NDLTD, e também para prestar um melhor serviço possível aos utilizadores destes sistemas. Foram até este momento corrigidos 1522 registos bibliográficos e 503 registos de autoridade (orientadores e instituições de ensino superior), correspondentes a cerca de 81% do total de 1878 registos disponíveis no DiTeD7. 2) Para o conjunto mais vasto de registos da PORBASE foi necessário pensar na implementação de correcções automáticas, uma vez que era impossível proceder à correcção manual do conjunto de cerca de 41.000 registos acima referidos. Relativamente à decisão de qual a aplicação a utilizar para operar as correcções sobre a PORBASE, a escolha recaiu desde logo sobre o SARA – Sistema de Actualização Automática de registos na PORBASE. Esta aplicação, desenvolvida pela BN, foi concebida para fazer correr sobre a base “pacotes” variados de actualizações aos registos bibliográficos, de autoridade e de exemplar, previamente definidos. Está já a ser aplicada na criação dos registos de exemplar da Biblioteca Nacional Digital e na adição do campo 856 aos registos bibliográficos, e será utilizado também para apagar e fundir registos duplicados. Para poder parametrizar o SARA para correcções de registos de teses, foi necessário definir um desses “pacotes” de regras, que identificasse quais as alterações a fazer, sobre que registos, e com que sequência. Os resultados desse trabalho apresentam-se seguidamente, numa versão simplificada: 7 Dados de 10 de Maio de 2006. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 6/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 IDENTIFICAÇÃO DOS REGISTOS NA PORBASE (SIMPLIFICADO) Registos com 102^a=PT e 328^a preenchido Teses de mestrado Registos com 102^a=PT e 328^a contendo ((dissert* ou prova* ou tese*) e (master* ou mestr*)) e sem (compl* ou orig* ou extra* ou sinop* ou resum*) Teses de doutoramento Registos com 102^a=PT e 328^a contendo ((dissert* ou prova* ou tese*) e (dout* ph)) e sem (compl* ou orig* ou extra* ou sinop* ou resum*) Teses de licenciatura Registos com 102^a=PT e 328^a contendo (licenc* ou lic ou licen) e sem (compl* ou orig* ou extra* ou sinop* ou resum*) Outros trab. académicos Teses (não defin.) CORRECÇÕES A EFECTUAR (SIMPLIFICADO) Correcção de gralhas: Corrigir "Tese metr.", “tese mesr", “Tese mesrt.", ou “Tese mertr." para "Tese mestr.", por ex. Campo 105^a: verificar e inserir código ‘m’ numa das posições de códigos de conteúdo. Campo 210^c: preencher com ‘[s.n.]’ Campo 105^a: verificar e inserir código ‘m’ numa das posições de códigos de conteúdo. Campo 210^c: preencher com ‘[s.n.]’ Campo 105^a: verificar e inserir código ‘m’ numa das posições de códigos de conteúdo. Campo 210^c: preencher com ‘[s.n.]’ Conteúdo do 328^a: Transferir para o 300^a. Registos com 102^a=PT e 328^a contendo (apt* ou relatorio ou assistente* ou congresso ou comunicacao Conteúdo do 328^a: Transferir para o 300^a. ou professor* ou prof ou investigador* ou conferencia ou sintese ou sint ou capacidade ou concurso ou agrega*) ou (pos e graduacao) Registos com 102^a=PT e 328^a contendo dissert* ou tese* ou thesis* ou these* e sem orig* Ed. comerciais de teses Registos com 102^a=PT e 328^a iniciado com a expressão Orig* Desconhec. Registos com 102^a=PT e 328^a não contendo nenhum dos casos anteriores. SEQUÊN CIA 1 2 3 4 5 Conteúdo do 328^a: Transferir para o 300^a. 6 Campo 105^a: verificar e inserir código ‘V’ numa das posições de códigos de conteúdo. Conteúdo do 328^a: Transferir para o 300^a. 7 Conteúdo do 328^a: Transferir para o 300^a. 8 A próxima fase deste trabalho será a verificação da correcção das regras através de testes, antes de fazer correr as operações de correcção sobre a PORBASE. Estimamos que serão cerca de 44.000 o número de registos bibliográficos afectados por estas correcções. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 7/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 Após a conclusão desta fase do trabalho, e uma vez que o conjunto de regras que foi possível definir não contempla todas as recomendações da Nota Técnica, será ainda necessária outra intervenção sobre os registos, para verificação e complemento das correcções: para incluir as menções de responsabilidade secundária, e para estruturar o campo 328 nos diversos subcampos. Esta última acção pode ser feita de forma semi-automática, se/quando for imediatamente seguida de verificação e correcções adicionais de todos os registos, manualmente8. CONCLUSÃO Temos consciência de que, no âmbito da normalização de registos de teses de mestrado e doutoramento, e de outros trabalhos académicos, a PORBASE tem ainda pela frente uma longa tarefa, dado o elevado número de registos, e a complexidade das alterações a introduzir Apesar disso, as bases estão lançadas: as directivas técnicas foram definidas e divulgadas, estão a ser aplicadas na criação de novos registos, e quanto à normalização dos registos já existentes na PORBASE, o trabalho tem sido contínuo e consistente. Além disso, é um trabalho cujos resultados se propagam, cada vez que os registos da PORBASE são acedidos ou exportados, uma vez que as correcções feitas se reflectem nos diversos repositórios ou bases de dados: por exemplo para as teses depositadas no DiTeD que já tenham registos na PORBASE, faz-se simplesmente a respectiva importação do registo, sem necessidade de duplicar o trabalho. Anima-nos por isso a certeza de que, apesar de se tratar de um trabalho volumoso, terá um universo de execução bem delimitado, e que uma vez concluído, constituirá uma importante mais-valia em termos de qualidade da informação sobre a produção científica nacional, e um factor determinante no aumento da sua visibilidade. 8 As regras para este caso poderiam ser aproximadamente estas: 1º Correcção do campo 328 - primeiro indicador: #; segundo indicador: 0; 2º Dividir 328^a da seguinte forma: o que está entre o ^a e o “.” passa a ^b; o que está a seguir ao “.” até à primeira “,” fica em ^c; o que está entre a primeira e a segunda “,” fica em ^e; o que está a seguir à segunda “,” fica em ^d. A aplicação destas regras é no entanto bastante delicada, uma vez que incide sobre uma campo de texto e utiliza para separação dos subcampos elementos falíveis como a pontuação. Ainda assim, podem ser uma boa ajuda, se houver condições para verificar posteriormente os registos. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 8/9 10as Jornadas PORBASE – Normalização bibliográfica Biblioteca Nacional, 18-19 de Maio 2006 BIBLIOGRAFIA BRODY, Tim [et al.] – The effect of Open Access on Citation Impact [em linha]. 2004. [Consultado em: 1/05/2006]. Disponível em: WWW: <URL:http://opcit.eprints.org/feb19oa/brody-impact.pdf> The effect of open access and downloads (‘hits’) on citation impact: a bibliography of studies [em linha]. 2004 [Consultado: em 1/05/2006]. Disponível em: WWW: <URL:http://opcit.eprints.org/oacitation-biblio.html> HARNAD, Steven ; BRODY, Tom – Comparing the impact of Open Access (AO) vs. non-OA articles in the same journals. D-Lib Magazine [em linha]. V. 10(6), 2004. [Consultado em: 1/05/2006]. Disponível em: WWW: <URL:http://www.dlib.org/dlib/june04/harnad/06harnad.html> PROSSER, David C. – Open Access: the future of scholarly communication. Cadernos BAD. 1(2005). p. 6-20. RODRIGUES, Eloy – Acesso livre ao conhecimento: a mudança do sistema de comunicação da ciência e os profissionais da informação. Cadernos BAD. 1(2004). p. 24-35. RODRIGUES, Eloy – Concretizando o acesso livre à literatura científica: o repositório institucional e a política de auto-arquivo da Universidade do Minho. Cadernos BAD. 1(2005). p. 21-32. Actividade normativa no âmbito do DiTeD Maria Margarida Lopes 9/9