Grupo Termático 7 – Informação para Diagnóstico, Mapeamento e Avaliação UTILIZAÇÃO DE TÉCNICAS INFOMÉTRICAS NA ORGANIZAÇÃO DE BANCOS DE CONHECIMENTO SOBRE RECURSOS HUMANOS E APLICAÇÕES NOS PROCESSOS DECISÓRIOS Jaime Robredo. Doutor em Ciências. Pesquisador Associado Senior, Departamento de Ciência da Informação, Universidade de Brasília, Brasília DF. E-mail: [email protected]. e Roberto Silva Cantanhede. Bacharel em Ciência da Computação. Departamento de Ciência da Computação, Universidade de Brasília, Brasília DF. E-mail: [email protected]. Resumo: A identificação de grupos de pesquisa e o estudo de sua evolução temporal são do maior interesse para acompanhar a produção intelectual e as atividades de orientação dos docentes e pesquisadores das instituições de ensino superior. Uma aplicação infométrica informatizada, especialmente desenvolvida, permite identificar automaticamente os grupos de pesquisa, e estudar os clusters de autores e co-autores. São mostrados exemplos dos resultados obtidos com uma base de dados referente à produção intelectual da Universidade de Brasília (1994-2003), contendo cerca de 50.000 registros bibliográficos. Esses exemplos podem ser extendidos a outras aplicações, tais como a gestão dos conhecimentos dos recursos humanos, tanto no âmbito publico, como no acadêmico e corporativo. A análise das ocorrências e co-ocorrências de palavras-chave que apontam para determinados temas de interesse crítico, e da evolução temporal desses temas, abre o caminho a numerosas aplicações, no apoio à tomada de decisão e em ações relacionadas com a inteligência competitiva e a inovação. Palavras-chave: infometria; grupos de pesquisa; indicadores de C&T; gestão do conhecimento The use of informetrics in the organization of knowledge banks on human resources and applications in the decision-making processes Abtract: The identification of research groups, and the study of its historical evolution are of upmost interest to survey the intellectual productivity and tutorial activities of members of the academic community. A computerized informetric application was specially developed in view of the identification of research groups,as as the study of authors and co-authors clusters. Some examples are presented of the results obtained with a data base containing about 50,000 bibliographic records of the intellectual production of the University of Brasília, in the period 1994-2003. These examples can be extended to a number of applications, such as the management of human knowledge resources in the public sector, or in the academic or entrepreneurial areas. The co-wording analysis of key words pointing to certain topics of critical interest, and to their evolution within time opens the way for many applications related to decision-making support or to any action in the areas of competitive intelligence and innovation. Keywords: informetrics; research groups; S&T indicators; knowledge management; 1. INTRODUÇÃO Embora nas décadas de 70 e 80, numerosos pesquisadores brasileiros da área de biblioteconomia tenham prestado especial atenção ao desenvolvimento da bibliometria (ver, por exemplo BRAGA, 1974, e LIMA e FIGUEIREDO, 1984), a aplicação de técnicas infométricas, em processos de gestão de bibliotecas e centros de informação (desenvolvimento de acervos, avaliação de uso, desenvolvimento de tesauros, e léxicos para indexação de documentos e recuperação de informações), somente vem sendo utilizada em algumas entidades de grande porte. Seu uso não alcança o nível de desenvolvimento observado (às vezes com denominações diversas) nos países de economias avançadas. E, o que é mais preocupante, as aplicações em áreas fortemente relacionadas com a inteligência econômica, estratégica, competitiva, de inovação, e-business, tais como as vigílias tecnológicas, a organização de bancos de conhecimento, a gestão de recursos humanos e do conhecimento corporativo, o resgate do conhecimento tácito, etc. (BAR-ILAN e PERITZ, 2002; BRUNEAU e MARCON, 2006; COURTIAL,1990; LESCA, 2006; ROSTAING, 2005; SAMIER, 2001; VERNA, 1993, 2001, e WOUTERS e LEYERSDORFF, 1994), são praticamente desconhecidas ou ignoradas no Brasil. Não deixa de ser curioso observar que isso acontece enquanto um número crescente de aplicações e sistemas ditos ‘avançados’ tendem a se espalhar pelo país sem que nenhuma aplicação infométrica baseada nos acervos de dados, informações e conhecimentos tácitos ou explícitos, próprios e/ou do interesse das entidades, venham a sustentar esses ‘sistemas avançados’. Uma aplicação bibliométrica ou, utilizando um termo mais geral, infométrica, que, desde a década de 80 ganhou um interesse crescente, é a determinação e uso de indicadores quantitativos como instrumentos de avaliação da produção científica (KING, 1987). Esses indicadores são bastante usados no Brasil em ambientes acadêmicos e pelas entidades de fomento à pesquisa (ver, por exemplo, FAPESP, 2005), e cada vez mais utilizados nos países desenvolvidos para alicerçar as políticas de ciência, tecnologia e incentivo à pesquisa e inovação. Numa publicação anterior de um dos autores (ROBREDO, 2000) foi apresentada uma visão geral das numerosas aplicações da bibliometria, cientometria e infometria que podem interessar diversos domínios e sub-domínios da ciência da informação, mais especificamente no que diz respeito à organização e gestão do conhecimento. Nessa publicação foram destacadas aplicações para acompanhar a evolução da pesquisa científica e tecnológica, assim como para identificar e avaliar a importância da produção intelectual de pesquisadores e docentes. Em outra publicação posterior (ROBREDO e OLIVEIRA, 2003) foi mostrada uma aplicação concreta que permite analisar quantitativa e tematicamente, de forma automática, a produção científica técnica e artística das comunidades acadêmicas. Estudos de afinidades entre publicações (KESSLER,1993) ou de co-autoria entre pesquisadores, a partir de aplicações infométricas (GLÄNTZEL, 2002), permitem trazer à luz hábitos e tendências das comunidades científicas que, quando conhecidas, podem ser interpretadas – e/ou geridas – de forma a se obter melhores resultados na gestão dos conhecimentos e dos recursos humanos. Num estudo recente sobre co-autoria (ROBREDO e CANTANHEDE, 2005), foram aplicadas técnicas infométricas que permitiram a identificação automática de grupos de pesquisa e o estudo de sua evolução temporal, na comunidade acadêmica da Universidade de Brasília. Embora o foco da maioria das pesquisas e aplicações infométricas apresentadas possa parecer voltado para ambientes acadêmicos, trata-se de um tema cujo interesse de muito ultrapassa esse ambiente, enquanto origem e fundamento de novas (ou revolucionárias?) abordagens nos processos de organização e gestão do conhecimento em âmbito 1 governamental e corporativo, onde a definição de políticas e as estratégias de implementação devem orientar a competitividade com base na qualidade e a inovação em todos os setores. A presente comunicação enquadra-se numa linha de pesquisa dirigida para a representação, organização, recuperação e difusão da informação e do conhecimento, iniciada há mais de dez anos, com ênfase no uso dos princípios e aplicações infométricos (ROBREDO, 1995). O foco em atividades acadêmicas, relacionadas com a produção científica de docentes e pesquisadores, é, de fato, um aspecto particular, dentro de uma temática e de um âmbito muito mais amplos. O foco acadêmico deve-se, em grande parte, ao fato de que a pesquisa tem merecido, em determinados períodos, apoio do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e do Decanato de Pesquisa e Pósgraduação da Universidade de Brasília (UnB/DPP), o não impede a aplicação da tecnologia utilizada, com mínimos ajustes, a outros casos e a outros ambientes. 2. OBJETIVOS Os estudos de co-autoria não tratam de estabelecer, senão raramente, qualquer relação com a existência formalizada ou não de grupos de pesquisa, nem de verificar a consistência, consolidação e vida ativa desses grupos. De outra parte, o acompanhamento da evolução desses grupos e sua associação com o controle da produção científica e tecnológica, abrem horizontes de aplicações quase que inesperadas – e razoavelmente fáceis de serem automatizadas. São exemplos a montagem de bases de conhecimento sobre recursos humanos altamente especializados, de bancos de competências pessoais e institucionais, de acervos informacionais que, devidamente utilizados, apontem tendências, sustentabilidade ou inconsistência, ou abram caminhos para montar séries históricas suscetíveis de parametrizar o nível de inovação das pesquisas em andamento ou projetadas, em comparação com a evolução do interesse de tópicos semelhantes nos países mais avançados. O objetivo é, com base no aprimoramento da ferramenta desenvolvida anteriormente (ROBREDO e CANTANHEDE, 2005), que permitia, a partir de um esquema de clustering (neste caso, organização em árvore), recuperar automaticamente os nomes de autores e coautores, com indicação do número de publicações conjuntas e as referências correspondentes. Esse aprimoramento tornou-se necessário por duas razões principais: 1. Aumentar a velocidade de processamento e recuperação das informações, uma vez observado que o sistema se tornava lento, ao trabalhar com grandes volumes de dados, e 2. Desenvolver uma interface da aplicação na Internet, facilitando a consulta e recuperação de informações a um número ilimitado de usuários, simultaneamente. 3. METODOLOGIA O universo da pesquisa, o mesmo da pesquisa anterior, foi constituído pelos registros bibliográficos contidos na base de dados referente à produção científica, técnica e artística da Universidade de Brasília, correspondente ao período de 1994 a 2003, totalizando cerca de 40.000 registros1. A Figura 1 mostra a estrutura de dois registros da base. 004090000000000730004500035001600000099002000016100014400036245015500180-CDS 0 2(07)045-Produção Científica-SILVA, MARINA; NOVAES, WASHINGTON; BUARQUE, CRISTOV AM RICARDO CAVALCANTI; CAMARGO, ASPASIA; MORHY, LAURO; CASTRO, EDNA RAMOS; BURSZ TYN, MARCEL.- A questão amazônica: em busca de um projeto. In: MORHY, LAURO (ed. ). Brasile em questão: a universidade e a eleição presidencial. Brasília DF: UnB , 2002.-” 003460000000000730004500035001600000099002000016100010100036245013500137-IB CEL9 5(04)013-Produção Científica-NITTI, GIAMPAOLO; ORRÙ, STEFANIA; BLOCH JÚNIOR, CAR LOS; MORHY, LAURO; MARINO, GENNARO; PUCCI, PIERO.-Amino acido sequence and disul phide-brigde pattern of three P-Thionins from sorghum bicolor.. Eur. J. Biochem, v.288, 1995, p.250-256.-” Figura 1.- Estrutura de dois registros. A estrutura segue um padrão UNISIST/CDS ISIS, conforme especificações da norma ISO 2709 (ISO, 1981) 2 A ferramenta informática utilizada na pesquisa anterior (ROBREDO e CANTANHEDE, 2005), denominada InfoClusterAutores, que não será detalhada aqui, foi desenvolvida em linguagem Java. Todos os registros eram extraídos de arquivos em formato ISO 2709, armazenados em tabelas do banco de dados relacional HSQLDB em um formato semelhante, com i) identificador de registro, ii) tags e iii) texto, e recuperados usando a linguagem de consultas SQL. Essa versão foi concebida utilizando um modelo de orientação a objetos, que possui uma ‘burocracia’ (overhead) associada a cada dado, o que traz facilidades de acesso dando certa vida a cada dado. Dessa forma, são criadas abstrações sobre um ente2 que são agrupadas em classes e instanciadas na forma de um objeto. A instância de uma publicação no ambiente Java responde por si a diversas perguntas como: quais seus tokens, quem são seus autores, quais tags estão disponíveis, quantos autores possui, etc. Da mesma maneira, um objeto do tipo autor responde quem são seus co-autores e conhece as publicações a si associadas. Além disso, é possível aplicar correções diretamente nos objetos e apenas solicitar que elas sejam guardadas, permitindo uma manutenção facilitada por parte da entidade. Toda essa capacidade tem por trás o banco de dados que guarda as informações relativas a cada publicação em formas diferentes e métodos de acesso implementados na aplicação ou em camadas intermediárias responsáveis pela abstração. Com essa forma de classes e objetos o programador não necessita conhecer os modelos de dados ou o banco de dados atrás da aplicação; pode usar os objetos diretamente e se concentrar no problema que está tentando resolver. Portanto, a manipulação dos dados através dos objetos é conceitualmente mais simples, mas apresenta, eventualmente, um desempenho menor. A opção por um banco de dados integrado à aplicação favorece a distribuição desta, uma vez que não dependeria de outro software para oferecer sua funcionalidade. Entretanto, o uso do banco de dados em Java mostrou-se como uma fonte de concorrência pelos mesmos recursos computacionais (jvm, processador, memória, disco rígido) e sofre de alguns problemas de implementação que têm sido resolvidos, mas não mostrou desempenho superior. Por isso, foi adotado o banco MySQL que mostrou-se sensivelmente mais rápido quando comparado à execução do InfoCluster Java com o modelo em HSQLDB. Além disso, o InfoClusterWeb tem funcionalidade e segue tendência tecnológica diferente da versão Java e, por isso, apresenta desempenho superior para a tarefa a que se propõe, que é expor numa interface Web os dados relativos aos autores, co-autores e publicações. A versão Web, utiliza paradigma procedural, onde cada função da aplicação (consultar autores, consultar publicações, etc.) tem um procedimento associado e, para torná-la possível, é necessário o conhecimento de como cada dado está armazenado no banco de dados. Essa dependência direta do banco de dados traz benefícios de desempenho, pois a manipulação dos dados não é implementada na aplicação, mas executada pelo banco de dados e retornada para a aplicação num único passo. O efeito colateral dessa migração de responsabilidades para o banco de dados é que qualquer mudança no modelo de dados corrompe a aplicação em pontos difíceis de se localizar, em todos os locais em que referencia diretamente o banco. No caso do modelo orientado a objetos, apenas a camada ou objeto de abstração necessitaria de manutenção, e a aplicação permaneceria intacta; logo a possibilidade de corromper funções da aplicação por mudança no modelo de dados é maior no paradigma procedural, pois o acesso aos dados está misturado à aplicação. Isso afeta negativamente a manutenção do código, razão pela qual, nas atualizações do banco, usa-se o InfoCluster Java, cujo banco é o mesmo usado pelo InfoClusterWeb. 3 Outro risco que se corre no modelo procedural é a implementação dos procedimentos de atualização descentralizada. No modelo orientado a objetos, uma classe pode ser responsável por atualizar dados em várias tabelas e objetos para manter a informação consistente. Caso dois procedimentos precisem modificar partes da informação num modelo não suficientemente generalizado há risco de corrupção. Como o número de passos envolvidos na manipulação de dados para o modelo procedural é menor, o desempenho desse modelo foi melhor, sendo adotado apenas para consultas, pois o risco de sua execução corromper os dados é nulo3. A aplicação Web não apresentará as facilidades de manutenção dos objetos, facilidade de modelagem nem integridade dos dados, restando ainda a dependência da aplicação Java, para operações de manutenção da base (correções, importação do arquivo ‘iso’, exclusão de duplicados, etc.). Para realizar a atualização, migra-se o banco de HSQLDB/Java para MySQL, modificase o InfoCluster Java para que realize a conexão com o novo banco, adequa-se a sintaxe da SQL, e disponibiliza-se o script ‘PHP’ num servidor Web que possa se conectar ao MySQL4. A Figura 2 mostra a arquitetura da nova aplicação. 1 2 INFOCLUSTER AUTORES DADOS ATUALIZAÇÃO INFOCLUSTER GUI USUÁRIO HSQLDB ou MySQL INFOCLUSTER WEB 3 OPERAÇÃO CONSULTAS Figura 2.- Arquitetura da nova aplicação InfoClusterWeb. 4. RESULTADOS Como já indicado, os resultados alcançados com o uso conjunto do InfoClusterAutores e do InfoClusterWeb, foram o significativo aumento da velocidade de operação e de recuperação e exibição das informações, e da disponibilização da ferramenta na Internet, o que torna possível o acesso multiusuário via Web. Na nova versão, a página de abertura do InfoClusterWeb5 apresenta a página de índice representada na Figura 3. A pequena janela na parte superior permite escolher o nome de um autor, o que também pode ser feito clicando na inicial do nome, no primeiro bloco. Na segunda opção, aparece uma lista de nomes, na qual pode ser selecionado o nome desejado. Em ambos os casos, o nome de autor escolhido apresenta-se – eventualmente em suas diversas grafias – com a quantidade de publicações correspondentes (ver Figura 4 A). 4 INFOCLUSTER W EB Type author initial: Go! Authors per name initial A(1239) B(1321) C(1922) D(459) E(128) F(1035) G(856) H(231) I(82) J(185) K(208) L(870) M(1893) N(469) O(503) . P(1028) Q(82) R(1041) S(2528) T(481) U(31) V(542) W(152) X(33) Y(39) Z(105) Authors per publication count 1(9338) 2(2984) 3(1386) 4(888) 5(492) 6(380) 7(268) 16(53) 17(39) 18(45) 19(30) 20(47) 21(39) 22(35) 31(11) 32(17) 33(14) 34(21) 35(17) 36(11) 37(12) 46(7) 47(10) 48(7) 49(3) 50(6) 51(2) 52(8) 61(1) 62(7) 63(2) 64(2) 65(3) 67(5) 68(5) 77(2) 78(2) 79(2) 80(1) 81(3) 82(1) 84(1) 106(1) 109(2) 110(1) 112(1) 113(2) 116(2) 117(1) 143(1) 152(1) 153(1) 165(1) 173(1) 176(1) 178(1) 8(227) 23(34) 38(8) 53(7) 69(1) 85(1) 118(2) 182(1) 9(166) 10(110) 11(101) 12(85) 13(80) 14(68) 15(62) 24(26) 25(21) 26(32) 27(25) 28(19) 29(18) 30(13) 39(9) 40(4) 41(10) 42(7) 43(9) 44(7) 45(4) 54(7) 55(4) 56(3) 57(2) 58(2) 59(5) 60(4) 70(3) 71(5) 72(2) 73(5) 74(5) 75(1) 76(3) 86(3) 90(4) 91(1) 92(2) 93(1) 98(2) 102(3) 119(2) 121(2) 123(2) 126(1) 127(1) 132(1) 135(1) 190(1) 203(1) 212(1) 276(1) 314(1) Figura 3. Abertura do índice do InfoClusterWeb. O primeiro bloco indica a quantidade de autores cujo nome começa por uma determinada letra. O segundo bloco indica para um certo número de publicações quantos autores (entre parênteses) publicaram esse número de artigos, comunicações, etc. Exemplo: 1(9338) indica que 9338 autores produziram uma publicação só, e 314(1) indica que um único autor produziu 314 publicações. As referências bibliográficas das publicações podem ser exibidas clicando no ícone correspondente. Clicando no ícone Cluster correspondente ao nome MORHY, LAURO (com 14 publicações) abre-se uma nova janela, que mostra o nome escolhido acompanhado da relação de autores que publicaram em co-autoria, indicando o numero total de publicações de cada um deles e o número de publicações em co-autoria com o autor que poderiamos chamar de “tronco da árvore” (ver Figura 4 B - fragmento). No exemplo escolhido, pode-se identificar o número de publicações conjuntas de Mohry, L. e Buarque, Cristovam e/ou Buarque, Cristovam Ricardo Cavalcante (aparentemente, uma publicação com o mesmo autor, embora com grafia diferente). A visualização da(s) referência(s) dos trabalhos publicados em co-autoria pode ser feita, seja clicando nas publicações em co-autoria (‘Coautored’, na Figura 4 B) ou pesquisando na base de dados que reúne a produção intelectual dos pesquisadores e docentes da Universidade de Brasília, no período 1994-2003 (ver ROBREDO e OLIVEIRA, 2003, citados anteriormente), mediante uma simples pesquisa booleana do tipo: “Morhy AND Buarque AND Cristovam”. O resultado da pesquisa pode ser visto na Figura 5. Observa-se que as técnicas infométricas aplicadas, além de fornecer a resposta à pergunta formulada na pesquisa, está mostrando que o mesmo trabalho (mesmos autores, mesmo título, mesma referência) foi contado duas vezes. Por quê? Porque no levantamento da produção intelectual da UnB, no ano de 2002, o artigo foi registrado como relativo à produção científica de dois centros/departamentos diferentes (Centro de Desenvolvimento Sustentável - CDS e Departamento de Sociologia – SOL do Instituto de Ciências Sociais – ICS) , por ter um ou mais co-autores que a eles pertencem. 5 (A) INFOCLUSTER W EB Type author initial: morhy Name Cluster Publications Total publications MORHY, L. 48 MORHY, LAURO 14 (B) NFOCLUSTER W EB Type author initial: Main author MORHY, LAURO with 14 publication(s). Name Cluster Publications Geral Coauthored BARBARO, KÁTIA CRISTINA 11 1 BLOCH JÚNIOR, CARLOS 86 1 BORGHETTI, FABIAN 15 2 BUARQUE, CRISTOVAM 1 1 BUARQUE, CRISTOVAM RICARDO CAVALCANTI 152 1 BUCKERIDGE, MARCOS SILVEIRA 2 1 Figura 4.- Exibição do ‘cluster’ de co-autores a partir de um autor escolhido, com indicação da produção intelectual de cada um deles. Produção Científica, Técnica e Artística 1994 a 2003 Resultado da pesquisa Ordenar por Autor - Título Total encontrado: 2 Exibindo de 1 a 2 CDS 02(07)045 SILVA, MARINA; NOVAES, WASHINGTON; BUARQUE, CRISTOVAM RICARDO CAVALCANTI; CAMARGO, ASPASIA; MORHY, LAURO; CASTRO, EDNA RAMOS; BURSZTYN, MARCEL. A questão amazônica: em busca de um projeto. In: MORHY, LAURO (ed.). Brasil em questão: a universidade e a eleição presidencial. Brasília DF: UnB, 2002. Produção Científica ICSSOL02(07)016 SILVA, MARINA; NOVAES, WASHINGTON; BUARQUE, CRISTOVAM; CAMARGO, ASPASIA; MORHY, LAURO; CASTRO, EDNA RAMOS; BURSZTYN, MARCEL. A questão amazônica: em busca de um projeto. In: MORHY, LAURO (ed.). Brasil em questão: a universidade e a eleição presidencial. Brasília DF: Universidade de Brasília, 2002. Produção Científica Figura 5. Resultado da pesquisa “Morhy AND Buarque AND Cristovam”, na base de dados que reúne a produção intelectual dos pesquisadores e docentes da Universidade de Brasília (1994-2003). Ao alertar sobre a necessidade de usar alguma espécie de filtro ou mecanismo de crítica dos dados estatísticos que serviram de base para a pesquisa, a ferramenta infométrica utilizada respondeu à nossa pesquisa e nos alertou sobre um provável erro na metodologia estatística. Assim, a infometria, ao apontar para algo mais do que foi solicitado, mostra seu potencial para apoiar ações de vigília ou enriquecer ferramentas de data mining. 6 Para cercar mais o problema observado, foram realizadas outras buscas, na mesma base, formuladas combinando aspectos temáticas que caracterizam o conteúdo do artigo, com os outros co-autores. As estratégias de busca foram as seguintes Universidade AND eleição AND presidencial AND <AUTOR>, onde <AUTOR> representa os nomes <Bursztyn>, <Aspásia>, < Silva AND Marina>, <Washington> e < Castro AND Edna>. Os resultados os mesmos mostrados na Figura 5. Mas imaginemos outros trabalhos com quatro, oito ou dez autores trabalhando em quatro, oito ou dez departamentos diferentes, cujos trabalhos entrariam como produção dos respectivos departamentos... Embora talvez fosse imprudente tirar-se uma conclusão generalizada a partir desse exemplo, o menos que se pode concluir é que as metodologias de coleta de dados passadas pela Coordenação de Aperfeiçoamento do Pessoal de Ensino Superior – CAPES (EXECAPES e, posteriormente, Coleta) às Instituições Federais de Ensino Superior – IFES, mesmo representando um louvável impulso ao registro da produção intelectual das universidades brasileiras, mereceriam alguns aprimoramentos. 5. OUTRAS APLICAÇÕES Citemos outros exemplos de aplicação das técnicas infométricas, ainda na área acadêmica, como o acompanhamento, avaliação e gestão do desempenho e gestão dos recursos humanos, que, com um pouco de imaginação, podem-se estender à fundamentação das políticas de incentivo à pesquisa e a inovação. O cruzamento dos dados e informações referentes a pesquisadores e docentes e/ou aos grupos de pesquisa oficiais ou não com o perfil do interesse dos mesmos, extraído da análise infométrica dos temas de suas pesquisas, publicações, orientações e outras atividades permitem montar facilmente um banco de conhecimentos sobre recursos humanos que muito pode ajudar as pessoas mais aptas e mais adequadas para exercer determinadas funções ou assumir responsabilidades necessárias para a entidade ou para o país. Obviamente o modelo é extensível ao mundo corporativo. Basta fazer um registro formalizado dos dados pessoais, de sua história de suas capacidades, de seus conhecimentos, de sua personalidade, de seus hobbies, e montar um banco de dados e desenvolver ou adaptar uma ferramenta infométrica semelhante à aqui apresentada. Outro exemplo importante de aplicação das técnicas infométricas encontra-se na organização de léxicos e vocabulários especializados. Já em meados da década de 70, um estudo que visava identificar grupos de termos com afinidades semânticas, objetivando a construção estruturada de vocabulários controlados do tipo tesauro, com a decorrente melhoria da qualidade da indexação e da recuperação da informação, mostrou que os termos significativos podiam ser organizados dentro de círculos concêntricos, mais ou menos disantes de um termo principal com o qual apresentavam algum tipo de afinidade (ROBREDO, 1974). O desenvolvimento da informática deu um grande impulso aos estudos de co-ocorrência de palavras e termos, abrindo o caminho ao cálculo das ocorrências e coocorrências (associações binárias) dos termos significativos e à indexação automática, que, entre outros avanços, modificaram radicalmente o processamento, armazenagem e uso da informação e do conhecimento. (Ver, por exemplo: WITTAKER, 1989; POLANCO, 1993, 1995; ROBREDO, 1983, 1994, 1997, apud ROBREDO, 2000.) A importância das análises de freqüência de uso de termos significativos sós ou associados com outros (coocorrências) pode ser ilustrada mediante um exemplo próximo de todos nós. Imaginemos que alguém, nas décadas de 60 e 70, buscasse informações que falassem alguma coisa sobre transporte e álcool. Certamente encontraria informações sobre o transporte de álcool, pela estrada em caminhões, por trem. De repente, uns anos mais tarde, a quantidade de publicações localizadas a partir dos mesmos temas, não somente aumentou, 7 mas apontou para um fato novo: o alcool como combustível usado nos meios de transporte. Havia nascido o Pro-Alcool. Poucos anos depois, a literatura sobre o assunto torna-se mais escassa. O Pro-Alcool tinha sido desmontado... Mais na frente, agora, novo aumento de publicações e... novos termos associados. É a ressurreição do alcool como combustível para todo tipo de veículo e surgimento de novos combustíveis (gás, biodiesel, etc.). Em resumo, o acompanhamento da variação da freqüência de uso de determinados temas definidos por um pequeno número de descritores ou palavras-chave, junto com a variação dos grupos em que estes se reúnem no transcurso do tempo, permite monitorar as atividades de um setor, e/ou descobrir tendências. Esse exemplo nos leva a falar das curvas estocásticas. Elas baseiam-se no princípio de que todos os processos e sistemas – de fato, pensando bem, tudo pode-se associar a algum tipo de processo ou sistema –, surgem, crescem até um certo nível a partir do qual o crescimento torna-se cada vez mais lento, até parar e, depois de um certo tempo... ninguém lembra mais de que existiram. A Figura 6 é uma representação genérica desse tipo de curvas, extremamente útil para acompanhar inúmeros processos no decorrer do tempo. Em outros termos, para montar e interpretar séries históricas. Figura 6.- Curva estocástica ou curva em S. Observe-se que, em qualquer ponto da curva, pode surgir um fato novo, suscetível de modificar completamente o traçado da curva do processo que estava sendo estudado. A detecção dessas variações não previstas, nas curvas estocásticas, aliada a análise infométrica das ocorrências dos termos significativos em publicações técnicas ou nos registros de patentes, ao permitir ‘seguir’ ou monitorar os caminhos do mercado ou de um concorrente, abrem um espaço de grande interesse para a chamada infometria inferencial, para as vigílias tecnológicas, estratégicas, etc. Em suma, para uma inteligência competitiva, com bases mais sólidas para orientar decisões e escolhas. Os resultados de um estudo realizado no início da década de 70, financiado pela indústria francesa do vidro, mostrou o interesse de identificar parâmetros para tomada de decisão quanto à conveniência de investir em pesquisa para lançamento de novos produtos, em função do grau de avanço dos concorrentes na corrida para a introdução no mercado de um produto similar (ROBREDO,1970). A pesquisa restringiu-se a um certo número de produtos e processos, em relação aos quais foram registradas, no decorrer de meses e anos, a variação no número de patentes requeridas e as datas de lançamento no mercado dos novos produtos. O estudo foi desenvolvido com base na premissa de que o número de patentes solicitadas por uma companhia industrial cresce desenhando uma curva em forma de S, até atingir um ponto crítico – definido de acordo com o nível de consistência e maturidade de 8 seus processos de pesquisa e capacidade de desenvolvimento e inovação – que é seguido por um decréscimo regular. Foi possível estabelecer assim uma correlação entre o número de patentes requeridas e o ponto da curva em que o lançamento dos novos produtos ocorria, e como conseqüência definir um programa otimizado de pesquisa e inovação... que deu certo. Lembremos, ainda, para encerrar esta Seção, que a infometria, com seus aglomerados (ou clusters) temáticos, é um poderoso auxiliar na conceituação e construção dos mapas de tópicos, chamados a desempenhar um papel importantíssimo no processo de desenvolvimento da Web semântica. 6. CONCLUSÃO Todas essas idéias, exemplos e realizações se enquadram perfeitamente na sistematização elaborada por SOLLA PRICE (1976) sobre a evolução da ciência, que ele mesmo sintetiza assim: "Se as coisas evoluem de acordo com um quadro conhecido previamente e se podemos determinar em que ponto da curva evolutiva situa-se determinado fenômeno, em certo momento, [...] então seremos capazes de prever razoavelmente - supondo que fatos inesperados não intervenham - como as coisas provavelmente acontecerão." Encerraremos com um convite à reflexão. Se comparados os respectivos desenvolvimentos da infometria e da econometria é impressionante o impacto desta última na sociedade contemporânea: seis econometristas laureados com o Prêmio Nobel entre 1969 e 2003 ! 6. Será que teremos um dia um cientista da informação, com um forte viés infométrico, entre os laureados com o Prêmio Nobel? Ou teremos ainda que esperar muito tempo para que os políticos entendam que mais importante que o capital é o conhecimento e a inteligência? 7. REFERENCIAS BIBLIOGRAFICAS BAI, Ying. L’Intelligence Compétitive (IC) dans le cadre de la mondialisation : influence des «soft technologies» sur la méthodologie de l’IC. Marseille: Université Paul Cézanne Aix Marseille III, 2006. (Thèse de Doctorat – Sciences de l’Information.) Disponível em http://ms161u22.u-3mrs.fr/crrm/web/sommaire_texte.php3 BAR-ILAN, J.; PERITZ, B.C. Informetrics Theories and Methods for Exploring the Internet: An Analytical Survey of Recent Research Literature. Library Trends, v.50, n.3, Winter 2002, p.372-392. BRAGA, G.M. Informação, ciência, política científica: o pensamento de Derek de Solla Price, Ciência da Informação. v.3, n,.2, p.155-177, 1974. BRUNEAU, J.M.; MARCON, C. Information stratégique informelle: le potentiel relationnel d’une organisation. In: Séminaire Veille Stratégique, Scientifique & Technologique 2006: Systèmes d’information élaboré, bibliométrie, linguistique, intélligence économique. Lille, 16-17 jan 2006. Communications... Disponível em http://atlas.init.fr/COLLOQUES/-VSST2006/ VSST2006.htm. COURTIAL, Jean-Pierre. Introduction à la cientométrie: de la bibliométrie à la veille technologique. Paris: Anthropos-Économica, 1990. FAPESP. Indicadores de Ciência, Tecnologia e Inovação em São Paulo 2004. v.1, cap.5, Análise da produção científica a partir de indicadores bibliométricos. São Paulo SP: FAPESP, 2005. p. 5-1 – 5-44. GLÄNTZEL, W. Coauthorship Patterns and Trends in the Sciences (1980-1988): A Bibliometric Study with Implications for Database Indexing and Search Strategies. Libray Trends, v.50, n.3, Winter 2002, p.461-473. INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Documentation: format for bibliographic information exchange on magnetic tape. 2.ed. Geneva: ISO. 1981 (ISO 2709-1981). KESSLER, M.M. Bibliographic coupling between scientific papers. American Documentation. v.14, p.20-25,1993 9 KING, J. A review of bibliometrics and other science indicators and their role in resarch evaluation. Journal of Information Science. v.13, p.261-276,1987. LIMA, A.C.C.; FIGUEIREDO, N.M. de. Seleção e aquisição: da visão clássica à aplicação de técnicas bibliométricas. Ciência da Informação. v.13, n,.2, p.137-150, 1984. LESCA, H. Veille anticipative stratégique: vers une gestion des connaissances tacites dans les petites e moyennes entreprises e industries. In: Séminaire Veille Stratégique, Scientifique & Technologique 2006: Systèmes d’information élaboré, bibliométrie, linguistique, intélligence économique). Lille, 16-17 jan 2006. Communications... Disponível em http://atlas.init.fr/COLLOQUES/VSST2006/ VSST2006.htm>. POLANCO, X. et al. À la recherche de la diversité perdue: est-il possible de mettre en évidence des élements hétérogènes d’un front de recherche ? In: Journées d’Étude sur les Systèms d’Information Élaborée: Analyse et Produits Bibliométriques, Information Stratégique, Veille Technologique et Aide à la Décision. 1993, Île Rousse, Corse. Travaux...1993. POLANCO, Xavier. Aux sources de la scientométrie. Solaris, n.2, Presses Universitaires de Rennes, 1995. ROBREDO, Jaime. La documentation scientifique e technique en tant qu’outil pour une prospective em matière de recherche. Paris: Institut du Verre, 1970. ROBREDO, Jaime. Étude des assotiations réelles entre descripteurs en vue d’améliorer la qualité de l’indexage. Information et Documentation, v.4, p.3-30, 1974. ROBREDO, Jaime. Otimização dos processos de indexação dos documentos e de recuperação da informação mediante o uso de instrumento de controle terminológico. Ciência da Informação, v.11, n.1, p.3-18,1983. ROBREDO, Jaime. Indexação automática de textos. In: Encontro Nacional de Pesquisa em Ciência da Informação e Biblioteconomia, 1994 (I ENANCIB), Belo Horizonte MG, Anais... Belo Horizonte MG: ANCIB, 1994, p.15-17. ROBREDO, Jaime. Indexação automática e infometria: um casamento que está dando certo. In: Congresso Brasileiro de Biblioteconomia e Documentação, 18. 1997, São Luís MA. Anais..., 1997 (Mídia eletrônica). ROBREDO, Jaime. On informetrics as a tool for forecasting. In: International Conference of the International Society on Scientometrics and Informetrics, 5th. Proceedings..., 1995. Medford: Learned Information, 1995. ROBREDO, Jaime; CUNHA, Murilo B. da. Aplicação de técnicas infométricas para identificar a abrangência do léxico básico que caracteriza os processos de indexação e recuperação da informação. Ciência da Informação, v.27, n.1, p.11-27,1998. ROBREDO, Jaime. Infometria e Ciência da Informação. In: LUBISCO, Nídia L.M; BRANDÃO, Lídia M.B. Brandão. (orgs.). Informação e Informática. Salvador BA: EDUFBA, 2000. p.81118. ROBREDO, Jaime; OLIVEIRA, Leandro Rodor de. Novo modelo de processamento e difusão da produção científica, técnica e artística da Universidade de Brasília In: Encontro Nacional de Pesquisa em Ciência da Informação, 2003, (V ENANCIB). Belo Horizonte MG. Anais... Belo Horizonte MG: Escola de Ciência da Informação da UFMG, 2003. (Meio eletrônico). ROBREDO, Jaime; CANTANHEDE, Roberto Silva. Identificação automática de grupos de pesquisa mediante o estudo infométrico de clusters de autores e co-autores. In: VI Encontro Nacional de Pesquisa em Ciência da Informação, 2005, (VI ENANCIB). Florianópolis SC. Anais... Florianópolis SC: Programa de Pós-graduação em Ciência da Informação, da Universidade Federal de Santa Catarina, 2005. (Meio eletrônico). ROSTAING, Hervé. La bibliométrie et ses techniques. Paris: Sciences de la Société; CRRM, 2005. Disponível em http://crrm.u-3mrs.fr/vrs_fr/livres/bibliome.htm SAMIER, Henri. La veille stratégique sur l’internet. Paris: Hermes Sciences. 2001. SOLLA PRICE, Derek de. General theory of bibliometrics and other cumulative advantage processes. Journal of the American Society for Information Science, v.2, n.1, p.73-74, 1976. VERNA,Gerard. La veille technologique: une ‘’ardente nécessité’’. Université Laval, 1993 Disponível em http://www.fsa.ulaval.ca/personnel/vernag/PUB/Veille.html VERNA,Gérard; FERRADAS, César. Ética e Inteligência Económica. Centrum Católica, Lima, Peru. 2001 Disponível em http://www.fsa.ulaval.ca/personnel/VernaG/PUB/Etica_IE.htm 10 WHITTAKER. J. Creativity and conformity in science: titles, keywords and co-word analysis. Social Studies in Science, v.19, p.473-496, 1989. WOUTERS, P.; LEYERSDORFF, L: Has Price’s dream come true? : is scientometrics a hard science? Scientometrics, v.31, n.2, p.193-222, 1994 8. NOTAS 1 Os dados utilizados para a construção da base foram fornecidos pelo Decanato de Pesquisa e Pósgraduação da Universidade de Brasília – UnB/DPP, a partir das aplicações EXECAPES e Coleta. A conceituação, desenvolvimento, implementação, motor de busca, etc. da base encontra-se descrita num trabalho anterior (ROBREDO e OLIVEIRA, 2003) e pode ser acessada em http://www.ssrrinfo.com.br/data/psq. 2 Ente pode ser um autor, uma publicação ou, com certas restrições, um tema. O ente tema é denominado “palavra” e é um ente um pouco especial, pois pode ocorrer polissemia, sinonímia... Autor + Publicação Instanciação do autor. De fato, pode-se instanciar tudo com tudo (nível binário), embora, pela razão apontada acima, possa ser mais prudente não tratar as palavras como os outros entes. 3 O ganho de desempenho da versão Web é também favorecido pela reformulação das queries feitas ao banco de dados. Na versão Java, cada objeto participante na consulta faz uma ou mais consultas por conta própria, resultando num número total variável, sendo que essas consultas poderiam ainda se desdobrar no SGBD. Na versão Web, apenas uma consulta é feita, e seu desdobramento ocorre apenas no SGBD. (Sobre HSQLDB, ver SIMPSON, Blaine; TOUSSI, Fred (eds.). HSQL Database Engine: HSQLDB User Guide. Copyright 2002-2005 HSQLDB Development Group. http://www.hsqldb.org/web/-hsqlDocsFrame.html . [Consultado em: 22/07/05]). 4 A diferenciação de gênero entre ‘a SQL’ e ‘o MySQL’ faz sentido, pois SQL significa Structured Query Language – de onde o feminino –, diferente do produto da Microsoft (ou Micro$oft ?) SQLServer, embora o jargão de banca use ‘o SQL’ indistintamente, talvez por ser um padrão ANSI – de onde o masculino. Quanto a ‘o MySQL’, este refere-se ao produto MySQL, que é ‘o SGBD’ (Sistema Gerenciador de Banco de Dados). Assim, usamos ‘a SQL’ (linguagem) para não confundir o padrão ANSI-SQL com o SQL-Server (produto proprietário). 5 O InfoCluster Web pode ser acessado no endereço http://ssrrinfo.homeip.net:8080/infoclusterweb/ ou http://201.22.148.96:8080/infoclusterweb/. 6 A econometria pode ser definida como ‘a medida da economia’. É um domínio dessa ciência social aplicada que se serve de métodos estatísticos para o estudo empírico de teorias e relações econômicas. É uma combinação da economia, matemática, estatística, estatística econômica e teoria econômica. (Wikipedia, Econometrics, apud Economic Expert.com, 2005). Infometria e cientometria também poderiam ser definidas, respectivamente, como a `medida da informação` e do ‘comportamento da ciência’. São domínios de ciência da informação, que também é uma ciência social aplicada que se serve de métodos estatísticos e matemáticos, mas com uma profunda fundamentação teórica. 11