Bibliometrics Alexandre Luna Breno Miranda Plano de Vôo 1. Introdução 1. Revisão Histórica 2. Fundamentos: Conceitos , princípios e relações 2. 3. 4. 5. 6. Técnicas e Métodos Ferramentas Aplicação Conclusão Referências Bibliometrics INTRODUÇÃO Revisão Histórica [1,3] • Bibliometria = avaliar e medir instrumentos referentes à conhecimento, livros, obras [5, 12]. • Termo usado pela primeira vez, por Paul Otlet, na obra intitulada Traité de Documentatión, de 1934; • 1948, Ranganathan, na Conferência dea Aslib em Leamington, Spa, sugere que Bibliotecários devem desenvolver a “bibliotecometria”, para auxílio à gestão das informações disponíveis em uma biblioteca; • 1969, Neelameghan (DRTC – Documentation, Research and Training Centre) esboçou aplicabilidade da “bibliotecometria”; • 1969, Alan Pritchard popularizou o termo, substituindo de vez a “bibliografia estatística” ou a “bibliotecometria” por “bibliometria”, como é conhecida atualmente; Leis da Bibliometria [1,3] • Lei de Lotka ou Lei do Quadrado Inverso (1926) – Aponta para a medição da produtividade dos autores, mediante um modelo de distribuição tamanho-freqüência dos diversos autores, em um conjunto de documentos; • Lei de Bradford ou Lei da Dispersão (1934) – Mediante a medição da produtividade das revistas, permite estabelecer o núcleo e as áreas de dispersão sobre um determinado assunto em um mesmo conjunto de revistas. • Lei de Zipf ou Lei do Mínimo Esforço (1949) – Consiste em medir a freqüência do aparecimento das palavras em vários textos, gerando uma lista ordenada de termos de uma determinada disciplina ou assunto. Bibliometrics FUNDAMENTOS O que é? • A bibliometria é um campo da ciência da informação, que infere sobre a produção bibliográfica de um determinado autor, grupo de pesquisa, instituição, localização geográfica (país), campo de pesquisa, ou área do conhecimento, tentando assim medir a sua produtividade e assim criar métodos de comparação entre eles. Outra medida utilizada também pode ser o número de citações que foram feitas do documento original, o que demonstra mais sobre a qualidade do documento em questão. [Wikipedia [5], Adaptado por: Luna e Miranda] Comparação das aplicações dos distintos métodos quantitativos [3] Tipologia Bibliometria (1969) Cienciometria (1977) Informetria (1989) Webometria/ Cybermetrics (1997) Objeto de Estudo Livros, documentos, revistas, artigos, autores, usuários Disciplinas, assuntos, áreas e campos científicos e tecnológicos. Patentes, dissertações e teses. Palavras, documentos, bases de dados, comunicações informais (inclusive em âmbitos não científicos), WWW Sites WWW, (URL, título, tipo, domínio, tamanho e links) motores de busca Variáveis Número de empréstimos (circulação) e de citações, freqüência de extensão de frases Fatores que diferenciam as subdisciplinas. Como os cientistas se comunicam Difere da cienciometria no propósito das variáveis. Por Exemplo: medir a recuperação, a relevância, a revocação Número de páginas por site, no de links por site, no de links que remetem a um mesmo site, no de sites recuperados Métodos Ranking, freqüência, distribuição Análise de conjunto e de correspondência, co-ocorrência de termos, expressões, palavras-chave, etc. Modelo vetor-espaço, modelos booleanos de recuperação, modelos probabilísticos; linguagem de processamento, abordagens baseadas no conhecimento, tesauros Fator de Impacto da Web (FIW), densidade dos links, “sitações”, estratégias de busca Objetivos Alocar recursos: pessoas, tempo, dinheiro, etc. Identificar domínios de interesse. Onde os assuntos estão concentrados. Compreender como e quanto os cientistas se comunicam Melhorar a eficiência da recuperação da informação, identificar estruturas e relações dentro dos diversos sistemas de informação Avaliar o sucesso de determinados sites, detectar a presença de países, instituições e pesquisadores na rede e melhorar a eficiência dos motores de busca na recuperação das informações Fonte: adaptado de McGrath (apud Macias-Chapula, 1998). Diagrama de Inter-relação entre os quatro subcampos [3] A - Bibliometria B - Cienciometria C - Informetria D - Webometria Fonte: adaptado de VANTI (2002). Bibliometria contemporânea [1] • Principais Grupos-alvo: – (i) Bibliometria para Bibliométricos (Metodologia): Este é o domínio da pesquisa bibliométrica básica e é tradicionalmente financiada pela habituais concessões. • Pesquisa Metodológica é conduzida principalmente neste domínio. – (ii) Bibliometria para as disciplinas científicas (Informação Científica): Os pesquisadores em disciplinas científicas formam o maior, mas também o mais diverso grupo de interesses em Bibliometria. Devido a sua principal orientação científica, os seus interesses estão fortemente relacionados com a sua especialidade de cada subgrupo. • Este domínio pode ser considerada uma extensão da ciência da informação por meio de suas métricas. Aqui vamos encontrar também fronteira comum com a pesquisa quantitativa em recuperação de informações. – (iii) Bibliometria para as políticas de Ciência e gestão (Políticas Científicas): Este é o domínio de pesquisa de avaliação comparativa, atualmente o mais importante tópico do campo. • Neste grupo, as comparações entre as estruturas em seus diversos níveis (institucional, regional, nacional, internacional, e das áreas de conhecimento) estão em primeiro plano. Bibliometria x Aplicação de Serviços e Áreas afins [1] Vemos assim como Bibliometria / Cienciometria estão relacionadas com as aplicações de serviços e áreas afins. Bibliometrics TÉCNICAS E MÉTODOS Grande quantidade de dados de difícil análise Modelo de Processo [1,4] Identificação das necessidades de informação Preparação dos Dados Tratamento Bibliométrico Análise dos Resultados e assimilação do conhecimento Indicadores de alto valor agregado • Leeds[13]cita quatro etapas no tratamento automatizado de dados: – – – – identificação das necessidades de informação (20% do esforço); preparação dos dados (10% do esforço); tratamento bibliométrico (60% do esforço), e análise dos resultados e assimilação do conhecimento (10% do esforço). Data sources of Bibliometric Research [1,3] • The databases of the Institute for Scientific Information (ISI, Philadelphia, PA, USA), first of all, the Science Citation Index (SCI) have become the most generally accepted basic source for bibliometric analyses; – The SCI database was available already in the ‘70s. • Prominent specialised databases are among others: – – – – Medline (life sciences); Chemical Abstracts (chemistry-related literature and patents); Inspec (physical sciences and engineering); Mathematical Reviews (mathematics); • Business Elite Index (BEI) [11]; • Dados de Publicações da própria Organização, EMBRAPA[4] (~29 anos); Principais Métricas/Indicadores [1,6] 1. 2. 3. 4. 5. 6. Total number of papers Total number of citations Average number of citations per paper Average number of citations per author Average number of papers per author Hirsch's h-index and related parameters, shown as h-index and Hirsch a=y.yy, m=z.zz in the output 7. Egghe's g-index, shown as g-index in the output 8. The contemporary h-index, shown as hc-index and ac=y.yy in the output 9. Two variations of the individual h-index, shown as hI-index and hI,norm in the output 10. The age-weighted citation rate 11. An analysis of the number of authors per paper. Exemplo de Consulta no Harzing’s Publish or Perish [6] 1 2 3 4 5 11 6 7 8 9 10 h-index (6) [5,6] • O índice h, ou h-index em inglês, é uma proposta para quantificar a produtividade e o impacto de cientistas baseando-se nos seus artigos (papers) mais citados. • Em outras palavras, o índice h é o número de artigos com citações maiores ou iguais a esse número. – um pesquisador com h = 5 tem 5 artigos que receberam 5 ou mais citações; um departamento com h = 45 tem 45 artigos com 45 ou mais citações; e assim por diante. – Uma ilustração alternativa de como o índice h não funciona também pode ser útil: um pesquisador que publicou 2 artigos, sendo um deles numa revista obscura que lhe rendeu apenas 2 citações e o outro como primeiro autor numa revista de prestígio recebendo incríveis 238 citações, terá um índice h = 1 pois ele não tem nem 2 artigos com pelo menos 2 citações. • O índice pode ser também aplicado para estimar a produtividade e impacto de um grupo de cientistas, um departamento, um país, e assim por diante. – O índice h foi proposto em 2005 por Jorge E. Hirsch como uma ferramenta para determinar a qualidade relativa dos trabalhos de físicos teóricos, no paper An index to quantify an individual's scientific research output, arXiv:physics/0508025 v5 29 Sep 2005. Contemporary h-index (8) [6] • The Contemporary h-index was proposed by Antonis Sidiropoulos, Dimitrios Katsaros, and Yannis Manolopoulos in their paper Generalized h-index for disclosing latent facts in citation networks, arXiv:cs.DL/0607066 v1 13 Jul 2006. • Acrescenta uma ponderação na relação com a idade para cada artigo citado, dando (por padrão, isso depende da parametrização) menos peso a artigos mais velhos. A ponderação é parametrizada; a aplicação Publish or Perish[5] usa gama=4 e delta= 1. – Isto significa que para um artigo publicado durante o ano corrente, as suas citações possuem peso 4. – Para um artigo publicado 4 anos atrás, suas citações possuem peso 1. – Para um artigo publicado 6 anos atrás, a citações possuem peso 4/6, e assim por diante. • This metric is shown as hc-index. g-index (7) [6] • The g-index was proposed by Leo Egghe in his paper Theory and practice of the g-index, Scientometrics, Vol. 69, No 1 (2006), pp. 131-152. It is defined as follows: • [Given a set of articles] ranked in decreasing order of the number of citations that they received, the gindex is the (unique) largest number such that the top g articles received (together) at least g2 citations. • It aims to improve on the h-index by giving more weight to highly-cited articles. • This metric is shown as g-index in the output. Individual h-index (2 variations) (9) [6] • • • • The Individual h-index was proposed by Pablo D. Batista, Monica G. Campiteli, Osame Kinouchi, and Alexandre S. Martinez in their paper Is it possible to compare researchers with different scientific interests?, Scientometrics, Vol 68, No. 1 (2006), pp. 179-189. It divides the standard h-index by the average number of authors in the articles that contribute to the h-index, in order to reduce the effects of co-authorship; the resulting index is called hI. Publish or Perish also implements an alternative individual h-index, hI,norm, that takes a different approach: instead of dividing the total h-index, it first normalizes the number of citations for each paper by dividing the number of citations by the number of authors for that paper, then calculates hI,norm as the h-index of the normalized citation counts. This approach is much more fine-grained than Batista et al.'s; we believe that it more accurately accounts for any co-authorship effects that might be present and that it is a better approximation of the per-author impact, which is what the original h-index set out to provide. These metrics are shown as hI-index (Batista et al.'s) and hI,norm (PoP's) in the output. Age-weighted citation rate (AWCR, AWCRpA) and AW-index (10) [6] • • • • The age-weighted citation rate was inspired by Bihui Jin's note The AR-index: complementing the h-index, ISSI Newsletter, 2007, 3(1), p. 6. The AWCR measures the number of citations to an entire body of work, adjusted for the age of each individual paper. It is an age-weighted citation rate, where the number of citations to a given paper is divided by the age of that paper. The AWindex is defined as the square root of the AWCR to allow comparison with the hindex; it approximates the h-index if the (average) citation rate remains more or less constant over the years. The per-author age-weighted citation rate is similar to the plain AWCR, but is normalized to the number of authors for each paper. These metrics are shown as AWCR, AWCRpA and AW-index in the output. Bibliometrics FERRAMENTAS Principais Ferramentas 1. Bibliometrics ToolBox [1,7]: Criado por Terrence A. Brookes para apoiar bibliometricians na preparação de estatísticas de seu dados; 2. Dataview [1,10]: Software comercial, desenvolvido pelo Centro de Recherche Retrospective de Marseille (CRRM) na Faculté Saint Jérome, em Marselha (França). 3. BibExcel [1,9]: é uma ferramenta freeware desenvolvida por Olle Persson, Inforsk, Univ Umeå (Suécia). 4. BibTechMon [1]: é um produto comercial desenvolvido em Centros de Investigação austríaco Seibersdorf (Áustria). 5. Harzing’s Publish or Perish [6]: é um software que recupera e analisa citações acadêmicas, usando o Google Acadêmico. Harzing’s Publish or Perish [6] Prof. Anne-Wil Harzing Email: [email protected] Web site: www.harzing.com University of Melbourne, Australia Bibliometrics APLICAÇÃO CASE STUDY ANALYSIS [11] Fuel Cell Technology in the U.S. Automotive Industry “America must have an energy policy that plans for the future, but meets the needs of today. I believe we can develop our natural resources and protect our environment" President George Bush • • Information from the Energy Information Administration, April 2004, points out that the United States of America is the world's largest energy producer, consumer, and net importer ranking eleventh worldwide in reserves of oil, sixth in natural gas, and first in coal. Government reports showed how energy demand has continued growing rates since 1970’s. However, non-renewable energy resources are worth and limited. Then, the efforts to reduce the energy consumption levels and/or generate more energy alternatives to alleviate the current situation must be a constant effort that should motivate academics, scientific, managers and politicians at this time. Rueda, Chandiwalla, Said, Bassam and Alsudiri emphasized three main forces pushing people to find energy alternative sources: i) energy demand is growing; ii) the limitation of the fossil fuel reserves; and iii) the environmental problems, emissions, generated by current sources. The following figures illustrate how each one is a problem in the US economy. Technology Forecasting Using Bibliometric Analysis and System Dynamics Tugrul U. Daim1, Guillermo R. Rueda1, Hilary T. Martin2 1Department of Engineering and Technology Management, Portland State University, OR, USA 2INTEL Corp., USA The following figure shows how energy consumption has been increasing during last thirty years and how after the 50’s energy consumption has been always higher than production. • Normally oil represents a big slice from the energy demand. For instance in 2003 petroleum accounted for 40 percent of the energy demand. Also, at 2003 petroleum accounted for 67 percent of the fuel consumed by the U.S. transportation sector. The figure above shows the relative importance of petroleum after the 1950’s followed in importance by coal and natural gas as alternatives. • Third and considered as one of the most important factors will be the need to reduce contamination levels to guarantee safe environments. The figure above shows CO2 levels. [11] • Then, two research questions blow up in order to prepare governments, organizations and people for the best future using fuel cell as energy alternative in the US industry: – RQ1. What will the most likely future for the fuel cell technology in the automotive industry? – RQ2. How the factors are interrelated (structure) and which of the factors have the most influence over FC adoption rate (high-leverage)? • The exercise to forecast emerging technologies involved high degree of uncertainty and risk due to lack of previous information. Then, this research proposed the use of bibliometrics and system dynamics to deal with feedback, non-linear relationships and unknown data. Analysis • The figure below represents the general model developed to forecast the FC adoption rate. Analysis – What was done and resulting graphs • represents the interface that was designed to give the user more flexibility and the ability to run multiple scenarios in practical way. … Interpretation • As result of the simulation and running it over different scenarios it was possible to conclude the following points: – Due to FC is without any doubt one of the most promising energy alternatives. Then, it is clear how government and industry need to work together. – Fuel Cell market will increase adoption rate only as a consequence of government policies and supply/demand relations. – FC must need for its development network support from government, industry and people. Not any of these acting alone may leverage FC development. – FC may not contribute significantly to the environmental issues in the first phase of their implementation. However, their environmental effects will be important in the longterm. – The use of System Dynamics models makes the process very interesting, adding nonlinear relations and feedback structures. – The proliferation of FC is highly dependent on achievement cost and performance levels. Then, reinforcing cycles will push FC adoption to high levels. However, serious challenges in cost, performance and weight reduction still need to overcome. Bibliometrics CONCLUSÃO E DISCUSSÕES Conclusão e Discussões 1. Bibliometria deve ser encarada como: 1. 2. Um campo de Pesquisa de grande importância e potencial, nas áreas de Gestão do Conhecimento e Ciência da Informação, dentre outras áreas; Um conjunto de técnicas e métodos essenciais para apoiar os processos de: 1. 2. 3. 4. 5. 2. Direcionamento do processo de Revisão Bibliográfica sobre qualquer tema; Acompanhamento do Impacto da Produção Científica de Pesquisadores, Grupos de Pesquisa, Instituições e Países, em diversas áreas do Conhecimento; Estudo de Indicadores de Produção Científica para apoiar o processo de decisão de investimento de P&D, por Instituições de Fomento; Destacar o desenvolvimento de um campo em uma área do conhecimento específica; Análise de Tendências de Pesquisas, identificando áreas emergentes da ciência e mapeando ONDE e com que FREQUÊNCIA artigos específicos são publicados e citados. No caso de Estudos de Futuro: 1. 2. 3. Deve ser combinadas com outros Métodos e Técnicas [11]; O uso de Bibliometria se aplica mais adequadamente ao item 1.2.1; Bem como à análise das tendências identificadas nos itens 1.2.2 a 1.2.5, assim como aos impactos das mesmas sobre o estudo em questão. Perguntas Bibliometrics REFERÊNCIAS Referências Bibliográficas 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. GLÄNZEL, W. ; Bibliometrics as a Research Field, COURSE HANDOUTS, 2003; ROUSSEAU, R.;Bibliometric and econometric indicators for the evaluation of scientific institutions, Ci. Inf. vol.27 n.2 Brasília 1998; VANTI, N.A.P., Da Bibliometria à Webometria: uma exploração conceitual dos mecanismos utilizados para medir o registro da informação e a difusão do conhecimento, Ciência da Informação, Brasília, v. 31, n. 2, p. 152-162, maio/ago. 2002; PENTEADO FILHO, R. DE C. ; FARIA, L.I. L. DE ; VIEIRA, J. L. G. ; KURIHARA, M. H.; AVILA, A. F. D.; QUONIAM, L.; Aplicação da Bibliometria na Construção de Indicadores sobre a Produção Científica da Embrapa; Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento, 2002, São Paulo. Anais. Wikipedia: http://www.wikipedia.org/, acessado em 27/10/2008, 09:20h; Harzing’s Publish or Perish: http://www.harzing.com/pop.htm, acessado em 28/10/2008, 10:54h; The Bibliometrics Toolbox: http://projects.ischool.washington.edu/tabrooks/hyper/biblio.html, acessado em 28/10/2008, 10:21h; SITKIS -A software tool for bibliometric analysis: http://users.tkk.fi/~hschildt/sitkis/index.html, acessado em 28/10/2008, 10:36h BIBEXCEL, Toolbox for Bibliometricians: http://www.umu.se/inforsk/Bibexcel/, acessado em 28/10/2008, 10:51h; Data View: http://www.slb.com/content/services/evaluation/software/dataview.asp, acessado em 02/11/208, 19:13h; Daim, T. U. ; Rueda, G. R.; Martin, H. T.; Technology Forecasting Using Bibliometric Analysis and System Dynamics; IEEE Xplore, 2004. TORRINHA, F. Dicionário português-latino. Porto : Ed. Domingos, 1939. 1129 p. LEEDS, S.; Data Mining: Beware of the shaft. Direct Marketing. 62(9), Jan, 2000, [email protected] [email protected]