Grupo Termático 7 – Informação para Diagnóstico, Mapeamento e Avaliação
UTILIZAÇÃO DE TÉCNICAS INFOMÉTRICAS NA ORGANIZAÇÃO
DE BANCOS DE CONHECIMENTO SOBRE RECURSOS HUMANOS E
APLICAÇÕES NOS PROCESSOS DECISÓRIOS
Jaime Robredo.
Doutor em Ciências. Pesquisador Associado Senior, Departamento de Ciência da Informação,
Universidade de Brasília, Brasília DF. E-mail: [email protected].
e
Roberto Silva Cantanhede.
Bacharel em Ciência da Computação. Departamento de Ciência da Computação,
Universidade de Brasília, Brasília DF. E-mail: [email protected].
Resumo: A identificação de grupos de pesquisa e o estudo de sua evolução temporal são do maior interesse para
acompanhar a produção intelectual e as atividades de orientação dos docentes e pesquisadores das instituições de
ensino superior. Uma aplicação infométrica informatizada, especialmente desenvolvida, permite identificar
automaticamente os grupos de pesquisa, e estudar os clusters de autores e co-autores. São mostrados exemplos
dos resultados obtidos com uma base de dados referente à produção intelectual da Universidade de Brasília
(1994-2003), contendo cerca de 50.000 registros bibliográficos. Esses exemplos podem ser extendidos a outras
aplicações, tais como a gestão dos conhecimentos dos recursos humanos, tanto no âmbito publico, como no
acadêmico e corporativo. A análise das ocorrências e co-ocorrências de palavras-chave que apontam para
determinados temas de interesse crítico, e da evolução temporal desses temas, abre o caminho a numerosas
aplicações, no apoio à tomada de decisão e em ações relacionadas com a inteligência competitiva e a inovação.
Palavras-chave: infometria; grupos de pesquisa; indicadores de C&T; gestão do conhecimento
The use of informetrics in the organization of knowledge banks on human resources and applications in
the decision-making processes
Abtract: The identification of research groups, and the study of its historical evolution are of upmost interest to
survey the intellectual productivity and tutorial activities of members of the academic community. A
computerized informetric application was specially developed in view of the identification of research groups,as
as the study of authors and co-authors clusters. Some examples are presented of the results obtained with a data
base containing about 50,000 bibliographic records of the intellectual production of the University of Brasília, in
the period 1994-2003. These examples can be extended to a number of applications, such as the management of
human knowledge resources in the public sector, or in the academic or entrepreneurial areas. The co-wording
analysis of key words pointing to certain topics of critical interest, and to their evolution within time opens the
way for many applications related to decision-making support or to any action in the areas of competitive
intelligence and innovation.
Keywords: informetrics; research groups; S&T indicators; knowledge management;
1. INTRODUÇÃO
Embora nas décadas de 70 e 80, numerosos pesquisadores brasileiros da área de
biblioteconomia tenham prestado especial atenção ao desenvolvimento da bibliometria (ver,
por exemplo BRAGA, 1974, e LIMA e FIGUEIREDO, 1984), a aplicação de técnicas
infométricas, em processos de gestão de bibliotecas e centros de informação
(desenvolvimento de acervos, avaliação de uso, desenvolvimento de tesauros, e léxicos para
indexação de documentos e recuperação de informações), somente vem sendo utilizada em
algumas entidades de grande porte. Seu uso não alcança o nível de desenvolvimento
observado (às vezes com denominações diversas) nos países de economias avançadas. E, o
que é mais preocupante, as aplicações em áreas fortemente relacionadas com a inteligência
econômica, estratégica, competitiva, de inovação, e-business, tais como as vigílias
tecnológicas, a organização de bancos de conhecimento, a gestão de recursos humanos e do
conhecimento corporativo, o resgate do conhecimento tácito, etc. (BAR-ILAN e PERITZ,
2002; BRUNEAU e MARCON, 2006; COURTIAL,1990; LESCA, 2006; ROSTAING, 2005;
SAMIER, 2001; VERNA, 1993, 2001, e WOUTERS e LEYERSDORFF, 1994), são
praticamente desconhecidas ou ignoradas no Brasil. Não deixa de ser curioso observar que
isso acontece enquanto um número crescente de aplicações e sistemas ditos ‘avançados’
tendem a se espalhar pelo país sem que nenhuma aplicação infométrica baseada nos acervos
de dados, informações e conhecimentos tácitos ou explícitos, próprios e/ou do interesse das
entidades, venham a sustentar esses ‘sistemas avançados’.
Uma aplicação bibliométrica ou, utilizando um termo mais geral, infométrica, que, desde
a década de 80 ganhou um interesse crescente, é a determinação e uso de indicadores
quantitativos como instrumentos de avaliação da produção científica (KING, 1987). Esses
indicadores são bastante usados no Brasil em ambientes acadêmicos e pelas entidades de
fomento à pesquisa (ver, por exemplo, FAPESP, 2005), e cada vez mais utilizados nos países
desenvolvidos para alicerçar as políticas de ciência, tecnologia e incentivo à pesquisa e
inovação.
Numa publicação anterior de um dos autores (ROBREDO, 2000) foi apresentada uma
visão geral das numerosas aplicações da bibliometria, cientometria e infometria que podem
interessar diversos domínios e sub-domínios da ciência da informação, mais especificamente
no que diz respeito à organização e gestão do conhecimento. Nessa publicação foram
destacadas aplicações para acompanhar a evolução da pesquisa científica e tecnológica, assim
como para identificar e avaliar a importância da produção intelectual de pesquisadores e
docentes. Em outra publicação posterior (ROBREDO e OLIVEIRA, 2003) foi mostrada uma
aplicação concreta que permite analisar quantitativa e tematicamente, de forma automática, a
produção científica técnica e artística das comunidades acadêmicas.
Estudos de afinidades entre publicações (KESSLER,1993) ou de co-autoria entre
pesquisadores, a partir de aplicações infométricas (GLÄNTZEL, 2002), permitem trazer à luz
hábitos e tendências das comunidades científicas que, quando conhecidas, podem ser
interpretadas – e/ou geridas – de forma a se obter melhores resultados na gestão dos
conhecimentos e dos recursos humanos.
Num estudo recente sobre co-autoria (ROBREDO e CANTANHEDE, 2005), foram
aplicadas técnicas infométricas que permitiram a identificação automática de grupos de
pesquisa e o estudo de sua evolução temporal, na comunidade acadêmica da Universidade de
Brasília.
Embora o foco da maioria das pesquisas e aplicações infométricas apresentadas possa
parecer voltado para ambientes acadêmicos, trata-se de um tema cujo interesse de muito
ultrapassa esse ambiente, enquanto origem e fundamento de novas (ou revolucionárias?)
abordagens nos processos de organização e gestão do conhecimento em âmbito
1
governamental e corporativo, onde a definição de políticas e as estratégias de implementação
devem orientar a competitividade com base na qualidade e a inovação em todos os setores.
A presente comunicação enquadra-se numa linha de pesquisa dirigida para a
representação, organização, recuperação e difusão da informação e do conhecimento, iniciada
há mais de dez anos, com ênfase no uso dos princípios e aplicações infométricos
(ROBREDO, 1995). O foco em atividades acadêmicas, relacionadas com a produção
científica de docentes e pesquisadores, é, de fato, um aspecto particular, dentro de uma
temática e de um âmbito muito mais amplos. O foco acadêmico deve-se, em grande parte, ao
fato de que a pesquisa tem merecido, em determinados períodos, apoio do Conselho Nacional
de Desenvolvimento Científico e Tecnológico (CNPq) e do Decanato de Pesquisa e Pósgraduação da Universidade de Brasília (UnB/DPP), o não impede a aplicação da tecnologia
utilizada, com mínimos ajustes, a outros casos e a outros ambientes.
2. OBJETIVOS
Os estudos de co-autoria não tratam de estabelecer, senão raramente, qualquer relação
com a existência formalizada ou não de grupos de pesquisa, nem de verificar a consistência,
consolidação e vida ativa desses grupos. De outra parte, o acompanhamento da evolução
desses grupos e sua associação com o controle da produção científica e tecnológica, abrem
horizontes de aplicações quase que inesperadas – e razoavelmente fáceis de serem
automatizadas. São exemplos a montagem de bases de conhecimento sobre recursos humanos
altamente especializados, de bancos de competências pessoais e institucionais, de acervos
informacionais que, devidamente utilizados, apontem tendências, sustentabilidade ou
inconsistência, ou abram caminhos para montar séries históricas suscetíveis de parametrizar o
nível de inovação das pesquisas em andamento ou projetadas, em comparação com a evolução
do interesse de tópicos semelhantes nos países mais avançados.
O objetivo é, com base no aprimoramento da ferramenta desenvolvida anteriormente
(ROBREDO e CANTANHEDE, 2005), que permitia, a partir de um esquema de clustering
(neste caso, organização em árvore), recuperar automaticamente os nomes de autores e coautores, com indicação do número de publicações conjuntas e as referências correspondentes.
Esse aprimoramento tornou-se necessário por duas razões principais:
1. Aumentar a velocidade de processamento e recuperação das informações, uma vez
observado que o sistema se tornava lento, ao trabalhar com grandes volumes de dados, e
2. Desenvolver uma interface da aplicação na Internet, facilitando a consulta e recuperação
de informações a um número ilimitado de usuários, simultaneamente.
3. METODOLOGIA
O universo da pesquisa, o mesmo da pesquisa anterior, foi constituído pelos
registros bibliográficos contidos na base de dados referente à produção científica, técnica e
artística da Universidade de Brasília, correspondente ao período de 1994 a 2003, totalizando
cerca de 40.000 registros1. A Figura 1 mostra a estrutura de dois registros da base.
004090000000000730004500035001600000099002000016100014400036245015500180-CDS
0
2(07)045-Produção Científica-SILVA, MARINA; NOVAES, WASHINGTON; BUARQUE, CRISTOV
AM RICARDO CAVALCANTI; CAMARGO, ASPASIA; MORHY, LAURO; CASTRO, EDNA RAMOS; BURSZ
TYN, MARCEL.- A questão amazônica: em busca de um projeto. In: MORHY, LAURO (ed.
). Brasile em questão: a universidade e a eleição presidencial. Brasília DF: UnB
, 2002.-”
003460000000000730004500035001600000099002000016100010100036245013500137-IB CEL9
5(04)013-Produção Científica-NITTI, GIAMPAOLO; ORRÙ, STEFANIA; BLOCH JÚNIOR, CAR
LOS; MORHY, LAURO; MARINO, GENNARO; PUCCI, PIERO.-Amino acido sequence and disul
phide-brigde pattern of three P-Thionins from sorghum bicolor.. Eur. J. Biochem,
v.288, 1995, p.250-256.-”
Figura 1.- Estrutura de dois registros. A estrutura segue um padrão UNISIST/CDS ISIS,
conforme especificações da norma ISO 2709 (ISO, 1981)
2
A ferramenta informática utilizada na pesquisa anterior (ROBREDO e
CANTANHEDE, 2005), denominada InfoClusterAutores, que não será detalhada aqui, foi
desenvolvida em linguagem Java. Todos os registros eram extraídos de arquivos em formato
ISO 2709, armazenados em tabelas do banco de dados relacional HSQLDB em um formato
semelhante, com i) identificador de registro, ii) tags e iii) texto, e recuperados usando a
linguagem de consultas SQL.
Essa versão foi concebida utilizando um modelo de orientação a objetos, que possui
uma ‘burocracia’ (overhead) associada a cada dado, o que traz facilidades de acesso dando
certa vida a cada dado. Dessa forma, são criadas abstrações sobre um ente2 que são agrupadas
em classes e instanciadas na forma de um objeto.
A instância de uma publicação no ambiente Java responde por si a diversas perguntas
como: quais seus tokens, quem são seus autores, quais tags estão disponíveis, quantos autores
possui, etc. Da mesma maneira, um objeto do tipo autor responde quem são seus co-autores e
conhece as publicações a si associadas.
Além disso, é possível aplicar correções diretamente nos objetos e apenas solicitar que
elas sejam guardadas, permitindo uma manutenção facilitada por parte da entidade. Toda essa
capacidade tem por trás o banco de dados que guarda as informações relativas a cada
publicação em formas diferentes e métodos de acesso implementados na aplicação ou em
camadas intermediárias responsáveis pela abstração.
Com essa forma de classes e objetos o programador não necessita conhecer os modelos
de dados ou o banco de dados atrás da aplicação; pode usar os objetos diretamente e se
concentrar no problema que está tentando resolver. Portanto, a manipulação dos dados através
dos objetos é conceitualmente mais simples, mas apresenta, eventualmente, um desempenho
menor.
A opção por um banco de dados integrado à aplicação favorece a distribuição desta,
uma vez que não dependeria de outro software para oferecer sua funcionalidade. Entretanto, o
uso do banco de dados em Java mostrou-se como uma fonte de concorrência pelos mesmos
recursos computacionais (jvm, processador, memória, disco rígido) e sofre de alguns
problemas de implementação que têm sido resolvidos, mas não mostrou desempenho superior.
Por isso, foi adotado o banco MySQL que mostrou-se sensivelmente mais rápido quando
comparado à execução do InfoCluster Java com o modelo em HSQLDB.
Além disso, o InfoClusterWeb tem funcionalidade e segue tendência tecnológica
diferente da versão Java e, por isso, apresenta desempenho superior para a tarefa a que se
propõe, que é expor numa interface Web os dados relativos aos autores, co-autores e
publicações.
A versão Web, utiliza paradigma procedural, onde cada função da aplicação (consultar
autores, consultar publicações, etc.) tem um procedimento associado e, para torná-la possível,
é necessário o conhecimento de como cada dado está armazenado no banco de dados.
Essa dependência direta do banco de dados traz benefícios de desempenho,
pois a manipulação dos dados não é implementada na aplicação, mas executada pelo banco de
dados e retornada para a aplicação num único passo.
O efeito colateral dessa migração de responsabilidades para o banco de dados é que
qualquer mudança no modelo de dados corrompe a aplicação em pontos difíceis de se
localizar, em todos os locais em que referencia diretamente o banco.
No caso do modelo orientado a objetos, apenas a camada ou objeto de abstração
necessitaria de manutenção, e a aplicação permaneceria intacta; logo a possibilidade de
corromper funções da aplicação por mudança no modelo de dados é maior no paradigma
procedural, pois o acesso aos dados está misturado à aplicação. Isso afeta negativamente a
manutenção do código, razão pela qual, nas atualizações do banco, usa-se o InfoCluster Java,
cujo banco é o mesmo usado pelo InfoClusterWeb.
3
Outro risco que se corre no modelo procedural é a implementação dos
procedimentos de atualização descentralizada. No modelo orientado a objetos, uma classe
pode ser responsável por atualizar dados em várias tabelas e objetos para manter a informação
consistente. Caso dois procedimentos precisem modificar partes da informação num modelo
não suficientemente generalizado há risco de corrupção.
Como o número de passos envolvidos na manipulação de dados para o modelo
procedural é menor, o desempenho desse modelo foi melhor, sendo adotado apenas para
consultas, pois o risco de sua execução corromper os dados é nulo3.
A aplicação Web não apresentará as facilidades de manutenção dos objetos, facilidade
de modelagem nem integridade dos dados, restando ainda a dependência da aplicação Java,
para operações de manutenção da base (correções, importação do arquivo ‘iso’, exclusão de
duplicados, etc.).
Para realizar a atualização, migra-se o banco de HSQLDB/Java para MySQL, modificase o InfoCluster Java para que realize a conexão com o novo banco, adequa-se a sintaxe da
SQL, e disponibiliza-se o script ‘PHP’ num servidor Web que possa se conectar ao MySQL4.
A Figura 2 mostra a arquitetura da nova aplicação.
1
2
INFOCLUSTER
AUTORES
DADOS
ATUALIZAÇÃO
INFOCLUSTER
GUI
USUÁRIO
HSQLDB
ou
MySQL
INFOCLUSTER
WEB
3 OPERAÇÃO
CONSULTAS
Figura 2.- Arquitetura da nova aplicação InfoClusterWeb.
4. RESULTADOS
Como já indicado, os resultados alcançados com o uso conjunto do InfoClusterAutores e
do InfoClusterWeb, foram o significativo aumento da velocidade de operação e de
recuperação e exibição das informações, e da disponibilização da ferramenta na Internet, o
que torna possível o acesso multiusuário via Web.
Na nova versão, a página de abertura do InfoClusterWeb5 apresenta a página de índice
representada na Figura 3.
A pequena janela na parte superior permite escolher o nome de um autor, o que também
pode ser feito clicando na inicial do nome, no primeiro bloco. Na segunda opção, aparece uma
lista de nomes, na qual pode ser selecionado o nome desejado. Em ambos os casos, o nome de
autor escolhido apresenta-se – eventualmente em suas diversas grafias – com a quantidade de
publicações correspondentes (ver Figura 4 A).
4
INFOCLUSTER W EB
Type author initial:
Go!
Authors per name initial
A(1239) B(1321) C(1922) D(459) E(128) F(1035) G(856) H(231) I(82) J(185) K(208) L(870) M(1893) N(469) O(503)
.
P(1028) Q(82) R(1041) S(2528) T(481) U(31) V(542) W(152) X(33) Y(39) Z(105)
Authors per publication count
1(9338) 2(2984) 3(1386) 4(888) 5(492) 6(380) 7(268)
16(53) 17(39) 18(45) 19(30) 20(47) 21(39) 22(35)
31(11) 32(17) 33(14) 34(21) 35(17) 36(11) 37(12)
46(7)
47(10)
48(7)
49(3) 50(6) 51(2) 52(8)
61(1)
62(7)
63(2)
64(2) 65(3) 67(5) 68(5)
77(2)
78(2)
79(2)
80(1) 81(3) 82(1) 84(1)
106(1) 109(2) 110(1) 112(1) 113(2) 116(2) 117(1)
143(1) 152(1) 153(1) 165(1) 173(1) 176(1) 178(1)
8(227)
23(34)
38(8)
53(7)
69(1)
85(1)
118(2)
182(1)
9(166) 10(110) 11(101) 12(85) 13(80) 14(68) 15(62)
24(26) 25(21) 26(32) 27(25) 28(19) 29(18) 30(13)
39(9)
40(4)
41(10) 42(7) 43(9) 44(7) 45(4)
54(7)
55(4)
56(3)
57(2) 58(2) 59(5) 60(4)
70(3)
71(5)
72(2)
73(5) 74(5) 75(1) 76(3)
86(3)
90(4)
91(1)
92(2) 93(1) 98(2) 102(3)
119(2) 121(2) 123(2) 126(1) 127(1) 132(1) 135(1)
190(1) 203(1) 212(1) 276(1) 314(1)
Figura 3. Abertura do índice do InfoClusterWeb.
O primeiro bloco indica a quantidade de autores cujo nome começa por uma determinada
letra. O segundo bloco indica para um certo número de publicações quantos autores (entre
parênteses) publicaram esse número de artigos, comunicações, etc. Exemplo: 1(9338) indica
que 9338 autores produziram uma publicação só, e 314(1) indica que um único autor
produziu 314 publicações.
As referências bibliográficas das publicações podem ser exibidas clicando no ícone
correspondente.
Clicando no ícone Cluster correspondente ao nome MORHY, LAURO (com 14
publicações) abre-se uma nova janela, que mostra o nome escolhido acompanhado da relação
de autores que publicaram em co-autoria, indicando o numero total de publicações de cada um
deles e o número de publicações em co-autoria com o autor que poderiamos chamar de
“tronco da árvore” (ver Figura 4 B - fragmento).
No exemplo escolhido, pode-se identificar o número de publicações conjuntas de Mohry,
L. e Buarque, Cristovam e/ou Buarque, Cristovam Ricardo Cavalcante (aparentemente, uma
publicação com o mesmo autor, embora com grafia diferente).
A visualização da(s) referência(s) dos trabalhos publicados em co-autoria pode ser feita,
seja clicando nas publicações em co-autoria (‘Coautored’, na Figura 4 B) ou pesquisando na
base de dados que reúne a produção intelectual dos pesquisadores e docentes da Universidade
de Brasília, no período 1994-2003 (ver ROBREDO e OLIVEIRA, 2003, citados
anteriormente), mediante uma simples pesquisa booleana do tipo: “Morhy AND Buarque
AND Cristovam”.
O resultado da pesquisa pode ser visto na Figura 5.
Observa-se que as técnicas infométricas aplicadas, além de fornecer a resposta à pergunta
formulada na pesquisa, está mostrando que o mesmo trabalho (mesmos autores, mesmo título,
mesma referência) foi contado duas vezes.
Por quê? Porque no levantamento da produção intelectual da UnB, no ano de 2002, o
artigo foi registrado como relativo à produção científica de dois centros/departamentos
diferentes (Centro de Desenvolvimento Sustentável - CDS e Departamento de Sociologia –
SOL do Instituto de Ciências Sociais – ICS) , por ter um ou mais co-autores que a eles
pertencem.
5
(A)
INFOCLUSTER W EB
Type author initial:
morhy
Name
Cluster Publications Total publications
MORHY, L.
48
MORHY, LAURO
14
(B)
NFOCLUSTER W EB
Type author initial:
Main author
MORHY, LAURO with 14 publication(s).
Name
Cluster Publications Geral Coauthored
BARBARO, KÁTIA CRISTINA
11
1
BLOCH JÚNIOR, CARLOS
86
1
BORGHETTI, FABIAN
15
2
BUARQUE, CRISTOVAM
1
1
BUARQUE, CRISTOVAM RICARDO CAVALCANTI
152
1
BUCKERIDGE, MARCOS SILVEIRA
2
1
Figura 4.- Exibição do ‘cluster’ de co-autores a partir de um autor escolhido, com indicação da
produção intelectual de cada um deles.
Produção Científica, Técnica e Artística 1994 a 2003
Resultado da pesquisa
Ordenar por Autor - Título
Total encontrado: 2
Exibindo de 1 a 2
CDS 02(07)045
SILVA, MARINA; NOVAES, WASHINGTON; BUARQUE, CRISTOVAM RICARDO CAVALCANTI; CAMARGO,
ASPASIA; MORHY, LAURO; CASTRO, EDNA RAMOS; BURSZTYN, MARCEL.
A questão amazônica: em busca de um projeto. In: MORHY, LAURO (ed.). Brasil em questão: a universidade e
a eleição presidencial. Brasília DF: UnB, 2002.
Produção Científica
ICSSOL02(07)016
SILVA, MARINA; NOVAES, WASHINGTON; BUARQUE, CRISTOVAM; CAMARGO, ASPASIA; MORHY, LAURO;
CASTRO, EDNA RAMOS; BURSZTYN, MARCEL.
A questão amazônica: em busca de um projeto. In: MORHY, LAURO (ed.). Brasil em questão: a universidade e
a eleição presidencial. Brasília DF: Universidade de Brasília, 2002.
Produção Científica
Figura 5. Resultado da pesquisa “Morhy AND Buarque AND Cristovam”, na base de dados
que reúne a produção intelectual dos pesquisadores e docentes da Universidade de Brasília
(1994-2003).
Ao alertar sobre a necessidade de usar alguma espécie de filtro ou mecanismo de
crítica dos dados estatísticos que serviram de base para a pesquisa, a ferramenta infométrica
utilizada respondeu à nossa pesquisa e nos alertou sobre um provável erro na metodologia
estatística. Assim, a infometria, ao apontar para algo mais do que foi solicitado, mostra seu
potencial para apoiar ações de vigília ou enriquecer ferramentas de data mining.
6
Para cercar mais o problema observado, foram realizadas outras buscas, na mesma base,
formuladas combinando aspectos temáticas que caracterizam o conteúdo do artigo, com os
outros co-autores. As estratégias de busca foram as seguintes
Universidade AND eleição AND presidencial AND <AUTOR>,
onde <AUTOR> representa os nomes <Bursztyn>, <Aspásia>, < Silva AND Marina>,
<Washington> e < Castro AND Edna>. Os resultados os mesmos mostrados na Figura 5.
Mas imaginemos outros trabalhos com quatro, oito ou dez autores trabalhando em
quatro, oito ou dez departamentos diferentes, cujos trabalhos entrariam como produção dos
respectivos departamentos...
Embora talvez fosse imprudente tirar-se uma conclusão generalizada a partir desse
exemplo, o menos que se pode concluir é que as metodologias de coleta de dados passadas
pela Coordenação de Aperfeiçoamento do Pessoal de Ensino Superior – CAPES (EXECAPES
e, posteriormente, Coleta) às Instituições Federais de Ensino Superior – IFES, mesmo
representando um louvável impulso ao registro da produção intelectual das universidades
brasileiras, mereceriam alguns aprimoramentos.
5. OUTRAS APLICAÇÕES
Citemos outros exemplos de aplicação das técnicas infométricas, ainda na área
acadêmica, como o acompanhamento, avaliação e gestão do desempenho e gestão dos
recursos humanos, que, com um pouco de imaginação, podem-se estender à fundamentação
das políticas de incentivo à pesquisa e a inovação. O cruzamento dos dados e informações
referentes a pesquisadores e docentes e/ou aos grupos de pesquisa oficiais ou não com o perfil
do interesse dos mesmos, extraído da análise infométrica dos temas de suas pesquisas,
publicações, orientações e outras atividades permitem montar facilmente um banco de
conhecimentos sobre recursos humanos que muito pode ajudar as pessoas mais aptas e mais
adequadas para exercer determinadas funções ou assumir responsabilidades necessárias para a
entidade ou para o país. Obviamente o modelo é extensível ao mundo corporativo. Basta fazer
um registro formalizado dos dados pessoais, de sua história de suas capacidades, de seus
conhecimentos, de sua personalidade, de seus hobbies, e montar um banco de dados e
desenvolver ou adaptar uma ferramenta infométrica semelhante à aqui apresentada.
Outro exemplo importante de aplicação das técnicas infométricas encontra-se na
organização de léxicos e vocabulários especializados. Já em meados da década de 70, um
estudo que visava identificar grupos de termos com afinidades semânticas, objetivando a
construção estruturada de vocabulários controlados do tipo tesauro, com a decorrente
melhoria da qualidade da indexação e da recuperação da informação, mostrou que os termos
significativos podiam ser organizados dentro de círculos concêntricos, mais ou menos disantes de um termo principal com o qual apresentavam algum tipo de afinidade (ROBREDO,
1974).
O desenvolvimento da informática deu um grande impulso aos estudos de co-ocorrência de palavras e termos, abrindo o caminho ao cálculo das ocorrências e coocorrências (associações binárias) dos termos significativos e à indexação automática, que,
entre outros avanços, modificaram radicalmente o processamento, armazenagem e uso da
informação e do conhecimento. (Ver, por exemplo: WITTAKER, 1989; POLANCO, 1993,
1995; ROBREDO, 1983, 1994, 1997, apud ROBREDO, 2000.)
A importância das análises de freqüência de uso de termos significativos sós ou
associados com outros (coocorrências) pode ser ilustrada mediante um exemplo próximo de
todos nós. Imaginemos que alguém, nas décadas de 60 e 70, buscasse informações que
falassem alguma coisa sobre transporte e álcool. Certamente encontraria informações sobre o
transporte de álcool, pela estrada em caminhões, por trem. De repente, uns anos mais tarde, a
quantidade de publicações localizadas a partir dos mesmos temas, não somente aumentou,
7
mas apontou para um fato novo: o alcool como combustível usado nos meios de transporte.
Havia nascido o Pro-Alcool. Poucos anos depois, a literatura sobre o assunto torna-se mais
escassa. O Pro-Alcool tinha sido desmontado... Mais na frente, agora, novo aumento de
publicações e... novos termos associados. É a ressurreição do alcool como combustível para
todo tipo de veículo e surgimento de novos combustíveis (gás, biodiesel, etc.). Em resumo, o
acompanhamento da variação da freqüência de uso de determinados temas definidos por um
pequeno número de descritores ou palavras-chave, junto com a variação dos grupos em que
estes se reúnem no transcurso do tempo, permite monitorar as atividades de um setor, e/ou
descobrir tendências.
Esse exemplo nos leva a falar das curvas estocásticas. Elas baseiam-se no princípio de
que todos os processos e sistemas – de fato, pensando bem, tudo pode-se associar a algum
tipo de processo ou sistema –, surgem, crescem até um certo nível a partir do qual o
crescimento torna-se cada vez mais lento, até parar e, depois de um certo tempo... ninguém
lembra mais de que existiram. A Figura 6 é uma representação genérica desse tipo de curvas,
extremamente útil para acompanhar inúmeros processos no decorrer do tempo. Em outros
termos, para montar e interpretar séries históricas.
Figura 6.- Curva estocástica ou curva em S.
Observe-se que, em qualquer ponto da curva, pode surgir um fato novo, suscetível de
modificar completamente o traçado da curva do processo que estava sendo estudado. A
detecção dessas variações não previstas, nas curvas estocásticas, aliada a análise infométrica
das ocorrências dos termos significativos em publicações técnicas ou nos registros de
patentes, ao permitir ‘seguir’ ou monitorar os caminhos do mercado ou de um concorrente,
abrem um espaço de grande interesse para a chamada infometria inferencial, para as vigílias
tecnológicas, estratégicas, etc. Em suma, para uma inteligência competitiva, com bases mais
sólidas para orientar decisões e escolhas.
Os resultados de um estudo realizado no início da década de 70, financiado pela
indústria francesa do vidro, mostrou o interesse de identificar parâmetros para tomada de
decisão quanto à conveniência de investir em pesquisa para lançamento de novos produtos,
em função do grau de avanço dos concorrentes na corrida para a introdução no mercado de
um produto similar (ROBREDO,1970). A pesquisa restringiu-se a um certo número de
produtos e processos, em relação aos quais foram registradas, no decorrer de meses e anos, a
variação no número de patentes requeridas e as datas de lançamento no mercado dos novos
produtos.
O estudo foi desenvolvido com base na premissa de que o número de patentes
solicitadas por uma companhia industrial cresce desenhando uma curva em forma de S, até
atingir um ponto crítico – definido de acordo com o nível de consistência e maturidade de
8
seus processos de pesquisa e capacidade de desenvolvimento e inovação – que é seguido por
um decréscimo regular. Foi possível estabelecer assim uma correlação entre o número de
patentes requeridas e o ponto da curva em que o lançamento dos novos produtos ocorria, e
como conseqüência definir um programa otimizado de pesquisa e inovação... que deu certo.
Lembremos, ainda, para encerrar esta Seção, que a infometria, com seus aglomerados
(ou clusters) temáticos, é um poderoso auxiliar na conceituação e construção dos mapas de
tópicos, chamados a desempenhar um papel importantíssimo no processo de desenvolvimento
da Web semântica.
6. CONCLUSÃO
Todas essas idéias, exemplos e realizações se enquadram perfeitamente na
sistematização elaborada por SOLLA PRICE (1976) sobre a evolução da ciência, que ele
mesmo sintetiza assim:
"Se as coisas evoluem de acordo com um quadro conhecido previamente e se podemos
determinar em que ponto da curva evolutiva situa-se determinado fenômeno, em certo
momento, [...] então seremos capazes de prever razoavelmente - supondo que fatos
inesperados não intervenham - como as coisas provavelmente acontecerão."
Encerraremos com um convite à reflexão.
Se comparados os respectivos desenvolvimentos da infometria e da econometria é
impressionante o impacto desta última na sociedade contemporânea: seis econometristas
laureados com o Prêmio Nobel entre 1969 e 2003 ! 6. Será que teremos um dia um cientista da
informação, com um forte viés infométrico, entre os laureados com o Prêmio Nobel? Ou
teremos ainda que esperar muito tempo para que os políticos entendam que mais importante
que o capital é o conhecimento e a inteligência?
7. REFERENCIAS BIBLIOGRAFICAS
BAI, Ying. L’Intelligence Compétitive (IC) dans le cadre de la mondialisation : influence des
«soft technologies» sur la méthodologie de l’IC. Marseille: Université Paul Cézanne Aix
Marseille III, 2006. (Thèse de Doctorat – Sciences de l’Information.) Disponível em
http://ms161u22.u-3mrs.fr/crrm/web/sommaire_texte.php3
BAR-ILAN, J.; PERITZ, B.C. Informetrics Theories and Methods for Exploring the Internet: An
Analytical Survey of Recent Research Literature. Library Trends, v.50, n.3, Winter 2002,
p.372-392.
BRAGA, G.M. Informação, ciência, política científica: o pensamento de Derek de Solla Price,
Ciência da Informação. v.3, n,.2, p.155-177, 1974.
BRUNEAU, J.M.; MARCON, C. Information stratégique informelle: le potentiel relationnel d’une
organisation. In: Séminaire Veille Stratégique, Scientifique & Technologique 2006: Systèmes
d’information élaboré, bibliométrie, linguistique, intélligence économique. Lille, 16-17 jan
2006.
Communications... Disponível em http://atlas.init.fr/COLLOQUES/-VSST2006/
VSST2006.htm.
COURTIAL, Jean-Pierre. Introduction à la cientométrie: de la bibliométrie à la veille
technologique. Paris: Anthropos-Économica, 1990.
FAPESP. Indicadores de Ciência, Tecnologia e Inovação em São Paulo 2004. v.1, cap.5, Análise
da produção científica a partir de indicadores bibliométricos. São Paulo SP: FAPESP, 2005. p.
5-1 – 5-44.
GLÄNTZEL, W. Coauthorship Patterns and Trends in the Sciences (1980-1988): A Bibliometric
Study with Implications for Database Indexing and Search Strategies. Libray Trends, v.50, n.3,
Winter 2002, p.461-473.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Documentation: format for
bibliographic information exchange on magnetic tape. 2.ed. Geneva: ISO. 1981 (ISO 2709-1981).
KESSLER, M.M. Bibliographic coupling between scientific papers. American Documentation. v.14,
p.20-25,1993
9
KING, J. A review of bibliometrics and other science indicators and their role in resarch evaluation.
Journal of Information Science. v.13, p.261-276,1987.
LIMA, A.C.C.; FIGUEIREDO, N.M. de. Seleção e aquisição: da visão clássica à aplicação de técnicas
bibliométricas. Ciência da Informação. v.13, n,.2, p.137-150, 1984.
LESCA, H. Veille anticipative stratégique: vers une gestion des connaissances tacites dans les petites e
moyennes entreprises e industries. In: Séminaire Veille Stratégique, Scientifique &
Technologique 2006: Systèmes d’information élaboré, bibliométrie, linguistique, intélligence
économique). Lille, 16-17 jan 2006.
Communications... Disponível em
http://atlas.init.fr/COLLOQUES/VSST2006/ VSST2006.htm>.
POLANCO, X. et al. À la recherche de la diversité perdue: est-il possible de mettre en évidence des
élements hétérogènes d’un front de recherche ? In: Journées d’Étude sur les Systèms
d’Information Élaborée: Analyse et Produits Bibliométriques, Information Stratégique, Veille
Technologique et Aide à la Décision. 1993, Île Rousse, Corse. Travaux...1993.
POLANCO, Xavier. Aux sources de la scientométrie. Solaris, n.2, Presses Universitaires de Rennes,
1995.
ROBREDO, Jaime. La documentation scientifique e technique en tant qu’outil pour une
prospective em matière de recherche. Paris: Institut du Verre, 1970.
ROBREDO, Jaime. Étude des assotiations réelles entre descripteurs en vue d’améliorer la qualité de
l’indexage. Information et Documentation, v.4, p.3-30, 1974.
ROBREDO, Jaime. Otimização dos processos de indexação dos documentos e de recuperação da
informação mediante o uso de instrumento de controle terminológico. Ciência da Informação,
v.11, n.1, p.3-18,1983.
ROBREDO, Jaime. Indexação automática de textos. In: Encontro Nacional de Pesquisa em Ciência da
Informação e Biblioteconomia, 1994 (I ENANCIB), Belo Horizonte MG, Anais... Belo
Horizonte MG: ANCIB, 1994, p.15-17.
ROBREDO, Jaime. Indexação automática e infometria: um casamento que está dando certo. In:
Congresso Brasileiro de Biblioteconomia e Documentação, 18. 1997, São Luís MA. Anais...,
1997 (Mídia eletrônica).
ROBREDO, Jaime. On informetrics as a tool for forecasting. In: International Conference of the
International Society on Scientometrics and Informetrics, 5th. Proceedings..., 1995. Medford:
Learned Information, 1995.
ROBREDO, Jaime; CUNHA, Murilo B. da. Aplicação de técnicas infométricas para identificar a
abrangência do léxico básico que caracteriza os processos de indexação e recuperação da
informação. Ciência da Informação, v.27, n.1, p.11-27,1998.
ROBREDO, Jaime. Infometria e Ciência da Informação. In: LUBISCO, Nídia L.M; BRANDÃO,
Lídia M.B. Brandão. (orgs.). Informação e Informática. Salvador BA: EDUFBA, 2000. p.81118.
ROBREDO, Jaime; OLIVEIRA, Leandro Rodor de. Novo modelo de processamento e difusão da
produção científica, técnica e artística da Universidade de Brasília In: Encontro Nacional de
Pesquisa em Ciência da Informação, 2003, (V ENANCIB). Belo Horizonte MG. Anais... Belo
Horizonte MG: Escola de Ciência da Informação da UFMG, 2003. (Meio eletrônico).
ROBREDO, Jaime; CANTANHEDE, Roberto Silva. Identificação automática de grupos de pesquisa
mediante o estudo infométrico de clusters de autores e co-autores. In: VI Encontro Nacional de
Pesquisa em Ciência da Informação, 2005, (VI ENANCIB). Florianópolis SC. Anais...
Florianópolis SC: Programa de Pós-graduação em Ciência da Informação, da Universidade
Federal de Santa Catarina, 2005. (Meio eletrônico).
ROSTAING, Hervé. La bibliométrie et ses techniques. Paris: Sciences de la Société; CRRM, 2005.
Disponível em http://crrm.u-3mrs.fr/vrs_fr/livres/bibliome.htm
SAMIER, Henri. La veille stratégique sur l’internet. Paris: Hermes Sciences. 2001.
SOLLA PRICE, Derek de. General theory of bibliometrics and other cumulative advantage processes.
Journal of the American Society for Information Science, v.2, n.1, p.73-74, 1976.
VERNA,Gerard. La veille technologique: une ‘’ardente nécessité’’. Université Laval, 1993
Disponível em http://www.fsa.ulaval.ca/personnel/vernag/PUB/Veille.html
VERNA,Gérard; FERRADAS, César. Ética e Inteligência Económica. Centrum Católica, Lima,
Peru. 2001 Disponível em http://www.fsa.ulaval.ca/personnel/VernaG/PUB/Etica_IE.htm
10
WHITTAKER. J. Creativity and conformity in science: titles, keywords and co-word analysis. Social
Studies in Science, v.19, p.473-496, 1989.
WOUTERS, P.; LEYERSDORFF, L: Has Price’s dream come true? : is scientometrics a hard science?
Scientometrics, v.31, n.2, p.193-222, 1994
8. NOTAS
1
Os dados utilizados para a construção da base foram fornecidos pelo Decanato de Pesquisa e Pósgraduação da Universidade de Brasília – UnB/DPP, a partir das aplicações EXECAPES e Coleta. A
conceituação, desenvolvimento, implementação, motor de busca, etc. da base encontra-se descrita
num trabalho anterior (ROBREDO e OLIVEIRA, 2003) e pode ser acessada em
http://www.ssrrinfo.com.br/data/psq.
2
Ente pode ser um autor, uma publicação ou, com certas restrições, um tema. O ente tema é
denominado “palavra” e é um ente um pouco especial, pois pode ocorrer polissemia, sinonímia...
Autor + Publicação Instanciação do autor.
De fato, pode-se instanciar tudo com tudo (nível binário), embora, pela razão apontada acima, possa
ser mais prudente não tratar as palavras como os outros entes.
3
O ganho de desempenho da versão Web é também favorecido pela reformulação das queries feitas ao
banco de dados. Na versão Java, cada objeto participante na consulta faz uma ou mais consultas por
conta própria, resultando num número total variável, sendo que essas consultas poderiam ainda se
desdobrar no SGBD. Na versão Web, apenas uma consulta é feita, e seu desdobramento ocorre
apenas no SGBD. (Sobre HSQLDB, ver SIMPSON, Blaine; TOUSSI, Fred (eds.). HSQL Database
Engine: HSQLDB User Guide. Copyright 2002-2005 HSQLDB Development Group.
http://www.hsqldb.org/web/-hsqlDocsFrame.html . [Consultado em: 22/07/05]).
4
A diferenciação de gênero entre ‘a SQL’ e ‘o MySQL’ faz sentido, pois SQL significa Structured
Query Language – de onde o feminino –, diferente do produto da Microsoft (ou Micro$oft ?) SQLServer, embora o jargão de banca use ‘o SQL’ indistintamente, talvez por ser um padrão ANSI – de
onde o masculino. Quanto a ‘o MySQL’, este refere-se ao produto MySQL, que é ‘o SGBD’
(Sistema Gerenciador de Banco de Dados). Assim, usamos ‘a SQL’ (linguagem) para não confundir
o padrão ANSI-SQL com o SQL-Server (produto proprietário).
5
O InfoCluster Web pode ser acessado no endereço http://ssrrinfo.homeip.net:8080/infoclusterweb/ ou
http://201.22.148.96:8080/infoclusterweb/.
6
A econometria pode ser definida como ‘a medida da economia’. É um domínio dessa ciência social
aplicada que se serve de métodos estatísticos para o estudo empírico de teorias e relações
econômicas. É uma combinação da economia, matemática, estatística, estatística econômica e teoria
econômica. (Wikipedia, Econometrics, apud Economic Expert.com, 2005).
Infometria e cientometria também poderiam ser definidas, respectivamente, como a `medida da
informação` e do ‘comportamento da ciência’. São domínios de ciência da informação, que também
é uma ciência social aplicada que se serve de métodos estatísticos e matemáticos, mas com uma
profunda fundamentação teórica.
11
Download

utilização de técnicas infométricas na organização de bancos de