SAPO
(Science Authomatic Press Observer):
Construindo um barômetro
da ciência e tecnologia na mídia
Carlos Vogt§, Marcelo Knobel§, Yurij Castelfranchi§#,
Rafael Evangelista§, Vilson Gartner*
I wish to God these calculations had
been executed by steam…
Charles Babbage, 1821
A comunicação e a difusão do saber,
e também a discussão pública das
teorias
[…]
percebidas
não
como
foram
valores.
sempre
Pelo
contrário: elas se tornaram valores.
Paolo Rossi, 2000
O
princípio
basilar
da
ciência
acadêmica é que os resultados da
pesquisa devem ser públicos. […] A
instituição fundamental da ciência,
então, è o sistema de comunicação
John Ziman, 1987
§ Labjor – Laboratório de Estudos Avançados em Jornalismo, Universidade Estadual de Campinas (SP)
#
SISSA – International School for Advanced Studies, Trieste, Itália.
* SOLIS – Cooperativa de Soluções Livres, Lajeado (RS)
1
Prólogo: não há ciência sem comunicação
Sua vida era envolta em lenda. Diziam que já estava há uma década tentando descobrir o
segredo de uma vasilha de porcelana, provavelmente chinesa. Tinha gasto tudo que possuía.
Acabada a lenha, havia destruído a cerca da casa e depois os móveis, para alimentar o forno onde
pesquisava a cozimento da cerâmica. Assim, Bernard de Palissy (cerca 1510-1590) acabou na
miséria, obcecado por aquele sonho. Cúmulo do azar, morreu na Bastilha, vítima das perseguições
contra os huguenotes, sem descobrir o segredo daquela porcelana. Antes, porém, teve tempo de se
tornar um dos maiores ceramistas de sua época, e um celebre filósofo natural. Estudou minerais e
fósseis, hidrologia e agronomia, fisiologia das plantas e anatomia. Se orgulhava de não saber
escrever em hebraico nem em latim: às “línguas retóricas” dos doutos, declarava preferir sua
própria “língua rústica”, o francês, porque, dizia, a ciência era destinada “a todos os homens de
França”. Em seu ateliê, em Paris, Palissy deu, por dez anos, conferências sobre artes e ciências. O
público de curiosos e intelectuais pagava entrada para assistir: uma coroa. Mas dizem que o filósofo
apostava o preço do bilhete: reembolsaria a todos caso as teorias que expunha se revelassem
erradas. Grande divulgador e brilhante filósofo natural, Palissy, meio século antes de Galileu,
escreveu livros de ciência em língua vulgar. E inventou, ante litteram, as conferências públicas de
ciência.
A história de Palissy (e, mais tarde, a de Galileu) não representa um caso à parte. É apenas
um exemplo, dentre tantos, da relação indissociável entre ciência e comunicação (Eisenstein, 1998).
Seja por meio de epistolários ou conferências públicas, de livros ou revistas, de museus, coleções,
tábuas anatômicas, seja, hoje em dia, por meio softwares, listas de discussão e open archives,
congressos, workshops, newtorks de pesquisa: a ciência, em cada uma de suas fases, sempre foi
fortemente ligada a formas variadas de difusão, arquivamento, discussão da informação e do
conhecimento. É fácil concordar com o historiador da ciência Paolo Rossi, que diz que a ciência
nasce quando a comunicação do conhecimento – que era considerada intrinsecamente negativa no
âmbito dos saberes herméticos e alquímicos – se transforma num valor:
A comunicação e a difusão do saber, e também a discussão pública das teorias (que, para nós, são práticas
comuns) não foram sempre percebidas como valores. Pelo contrário: elas se tornaram valores. À
comunicação como valor sempre se contrapôs – desde as origens do pensamento europeu – uma imagem
diferente do saber: como iniciação, como um patrimônio que somente poucos podem alcançar (Rossi,
2000, p.18).
2
Aliás, podemos dizer, com John Ziman, que não há ciência sem comunicação:
o princípio basilar da ciência acadêmica é que os resultados da pesquisa devem ser públicos. Qualquer
coisa que os cientistas pensem ou digam como indivíduos, suas descobertas não podem ser consideradas
como pertencentes ao conhecimento científico se não forem relatadas e gravadas de forma permanente. A
instituição fundamental da ciência é, então, o sistema de comunicação (Ziman, 1987; p. 80)
Se isso sempre foi verdade, hoje é mais ainda. E não só. Se nunca houve ciência sem
comunicação, hoje muitos estudiosos começam a dizer que tampouco há ciência sem sua
divulgação e comunicação ao público. A comunicação pública da ciência desempenha um papel
central nas sociedades contemporâneas, não somente no sentido, enfatizado e bem estudado, da
importância do conhecimento científico para a formação dos cidadãos e para a gestão das
democracias, mas também por uma necessidade, menos estudada e talvez menos confessável, da
própria ciência. Uma necessidade interna, fisiológica, imprescindível, intrínseca ao novo panorama
em que ciência e tecnologia se desenvolvem hoje. Se carreira, patrocínio, proteção aos cientistas
sempre foram ligadas, pelo menos em parte, às suas capacidades de comunicar, é verdade que
antigamente, pelo menos até as primeiras décadas do século XX, grande parte das decisões
relevantes para a ciência eram tomadas, de forma substancial, no interior das comunidades
científicas. As interações com o resto da sociedade, embora importantes para garantir recursos ou
para interagir com o mundo da indústria, eram laterais, posteriores em certa medida à atividade
científica: os cientistas, embora às vezes com pouco recursos, podiam viver na “torre de marfim”
(Greco, 2002). Hoje, alguma decisões relevantes para a vida profissional e para o trabalho dos
cientistas, bem como parte dos posicionamentos sobre como se faz pesquisa ou como se avalia sua
qualidade, são tomadas com a participação de diferentes sujeitos, nem todos cientistas ou
especialistas: são políticos, burocratas, empresários, militares, religiosos, movimentos sociais,
consumidores e associações de pacientes que pedem, e frequentemente obtêm, o direito e a
legitimidade para participar de decisões relevantes para o desenvolvimento da ciência. Esse
processo, bastante complexo e ainda pouco estudado, parece ter começado após as guerras mundiais
e se aprofundou a partir da década de 1990. Os cientistas, às vezes com relutância, estão cada vez
mais precisando aprender como sair de seus laboratórios e de suas universidade para se
comunicarem com grupos sociais variados:
3
A comunicação dirigida ao público não especialista (ou aos públicos) se tornou então relevante para
a própria ciência. […] [A comunicação pública] antes era uma atividade opcional, hoje está se tornando
uma necessidade para ciência. Se o cientista “acadêmico”, até o início do sec. XX, poderia, se assim
desejasse, comunicar a ciência para os não especialistas, hoje o cientista “pós-acadêmico” deve fazé-lo.
(Greco, 2002).
A interação entre a ciência e os variados tipos de público é hoje, então, uma exigência social,
e não somente um filantrópico desejo de democratizar o conhecimento, nem somente debe-se ao
efeito da importância da tecnologia em nossas vidas. A sociedade precisa de informações científicas
e a ciência precisa se comunicar com a sociedade como um todo (Greco, 2002; Castelfranchi, 2002;
Greco, 2004).
A separação entre a comunicação entre pares científicos e aquela voltada ao público leigo
tornou-se menos drástica. Eis então que estudá-las representa um instrumento de grande valor para
o estudo da ciência e da tecnologia na sociedade. Hoje, os fluxos comunicativos entre a
tecnociência e as demais instituições envolvem um continuum de interações entre os cientistas e
variados grupos sociais. Tanto a atividade epistemológica dos cientistas hoje, quanto a formulação
de políticas públicas para C&T, são profundamente interligadas à comunicação e às representações
sociais (Vogt et al., 2005; Vogt & Polino, 2003).
Por essas razões, os temas complexos da cultura científica, como também da participação
social em C&T, da percepção e representação da C&T, da presença da ciência na mídia, não só
estão no centro do interesse de sociólogos, historiadores e estudiosos de opinião pública, como
também, cada vez mais, passam a ter relevância para comunidades diversas de cientistas, políticos e
policy makers, empresários, educadores, comunicadores e movimentos sociais.
1. Introdução: ciência e mídia
Não é um acaso, então, que a bibliografia sobre percepção pública da C&T 1 e sobre ciência e
tecnologia na mídia - tanto a latino-americana quanto a européia e norte-americana2 - seja
bastante rica e extensa. Os diferentes instrumentos de análise de textos já desenvolvidos no âmbito
dos estudos da linguagem, da semiótica, da opinião pública, da sociologia e até da antropologia, já
foram aplicados à análise da mídia impressa, radiofônica e televisiva (Bauer & Gaskell, 2002).
Particularmente, a análise de conteúdo (Bardin, 1997; Neuendorf, 2002) e a análise de discurso
1
Veja, por ex., Vogt & Polino, 2003
2
Por ex., Nelkin, 1987; Gregory & Miller,1998, Guimarães, 2001
4
(Flick, 1998; Orlandi, 1999) são utilizadas freqüentemente para investigar a comunicação pública,
seu impacto, conteúdo, práticas discursivas, mensagens explícitas e implícitas. Para utilizar tais
instrumentos, o requisito mais fundamental é, sem dúvida, dispor de um bom corpus (coerente,
confiável, bem selecionado e organizado) de textos a serem analisados.
Não só. Também fora do contexto acadêmico são inúmeras as situações em que se precisa
de corpus de textos midiáticos selecionados, estruturados em base de dados e mensuráveis do ponto
de vista quantitativo. Empresas com base científico-tecnológica ou instituições públicas ligadas à
P&D, saúde e meio ambiente, estão sempre interessadas em medir sua visibilidade na mídia.
Institutos públicos e privados podem precisar analisar o impacto e a repercussão de seus releases
para imprensa, ou de seus posicionamentos públicos. Editores e administradores de jornais podem
precisar de instrumentos quantitativos para comparar suas políticas editoriais com a de outros
jornais. O peso relativo dado a diferentes tipologias de notícias e de conteúdos, o andamento ao
longo do ano do tipo e qualidade das matérias publicadas, podem ser dados importantes. Os
próprios jornalistas profissionais podem ter interesse em uma análise qualitativa e quantitativa que
compare a cobertura que realizaram com a de colegas sobre assuntos ou eventos similares.
Por isso, ao longo dos últimos três anos, fizemos o esforço de desenvolver um sistema de
coleta, seleção, organização e mensuração da presença e do impacto da Ciência, Tecnologia &
Inovação (CT&I) na mídia3. Trata-se de um banco de dados integrado com indicadores
quantitativos, medidos automaticamente, da presença e do impacto das questões ligadas a CT&I em
alguns dos jornais brasileiros de maior tiragem. Achamos que tal tecnologia pode representar um
instrumento valioso, tanto para pesquisas acadêmicas quanto como ponto de partida para o
desenvolvimento de produtos e aplicações tecnológicas destinadas a entidades públicas e empresas.
O SAPO pode oferecer à comunidade de pesquisadores, de variadas áreas, informações diárias
sobre a cobertura da mídia em CT&I, permitindo enxergar não só quanto este tema freqüenta o
leitor, mas também como o leitor o freqüenta nas páginas dos jornais (Vogt et. al., 2005).
2. Um SAPO na mídia
Nosso objetivo foi desenvolver um sistema que integrasse informações sobre Ciência,
Tecnologia e Inovação divulgadas na mídia nacional e que permitisse uma avaliação da cobertura
3 O trabalho recebeu apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), sendo financiado no
ambito do projeto “Ciência & Tecnologia, Comunicação e Sociedade: Questões de CT&I na Mídia Nacional”,
Processo FAPESP N. 02/08321-6.
5
jornalística tanto em termos quantitativos (indicadores de freqüência, impacto, aprofundamento
etc.) quanto qualitativos (fornecer um corpus arquivado e organizado de textos que permitam
análise de conteúdo, de discurso e similares). Além disso, a proposta foi fornecer para comunidades
de pesquisadores nacionais e internacionais um instrumento que pudesse, uma vez refinado e
aperfeiçoado, estabelecer critérios comuns, oferecendo metodologias e indicadores-padrão para
estudos de ciência na mídia, permitindo assim comparações nacionais e internacionais, estudos
transversais e longitudinais em vários periódicos etc.
O sistema se constitui de (veja Fig. 1):
1. Um conjunto de algoritmos especificamente preparados para a extração e cópia do texto
integral (disponibilizado em sua versão eletrônica) de alguns dos jornais brasileiros de maior
tiragem e difusão. O sistema está ativado, por enquanto, para acompanhamento automático de
alguns dos maiores diários brasileiros: O Globo (RJ), Jornal do Brasil (RJ), Folha de S. Paulo
(SP), e O Estado de S. Paulo (SP). Porém, uma interface para inserção manual de dados
permite, caso seja necessário, incluir matérias oriundas de outros veículos.
2. Um sistema de classificação e filtragem de matérias, capaz de selecionar de forma automática
aqueles textos que tratem de temas relacionados às ciências; políticas científico-tecnológicas e
para inovação; biomedicina e meio ambiente. Veremos a seguir qual é a eficiência desse sistema
de seleção e quais critérios guiam a escolha das matérias a selecionar.
3. Um banco de dados estruturado e um buscador inteligente que, organizam e gerenciam, a
partir de vários metadados (veículo, caderno, data, fonte, autor, gênero jornalístico etc.),
matérias selecionadas como sendo “de ciência”. Nesse banco é possível fazer diversas consultas
como:
•Notícias por assunto (grande área, área, palavras-chaves)
•Notícias por autor
•Notícias por fonte (agências, assessorias de comunicação institucionais etc.)
•Notícias por período de tempo (dia, semana, mês, ano, com possibilidade de se realizarem
estudos de evolução temporal de notícias sobre um determinado tema)
De acordo com exigências uso específicas, tanto de pesquisa quanto de empresas, novas buscas
podem ser facilmente modificadas e adaptadas.
4. Um conjunto de equações capazes de gerar indicadores sobre a frequência, relevância e
outras características do material coletado e armazenado.
6
Ao usuário do sistema, então, é possível verificar quais temas científicos são objeto de maior
interesse para a imprensa brasileira, como esses assuntos são tratados e em que seção do jornal
aparecem mais freqüentemente. Ao pesquisador cadastrado é possível também utilizar os textos
completos para análise de conteúdo ou de discurso.
Decidimos dar prioridade aos textos publicados na mídia diária impressa (disponibilizados
online), porque é a mais analisada em estudos clássicos. Exemplificando, isso significa coletar para
o sistema todo o conteúdo de uma edição diária de jornais como a Folha de S.Paulo, disponível no
endereço http://www.uol.com.br/fsp e, ao mesmo tempo, deixar de fora o conteúdo da FolhaonLine,
disponível no endereço http://www.folha.uol.com.br/. Embora os dois conteúdos guardem íntima
relação – parte do conteúdo do jornal impresso é uma reformulação do publicado na agência de
notícias do jornal – nos limitarmos ao jornal impresso (mesmo em sua versão na Internet) significa
nos utilizarmos de uma amostra menor e de controle e comparação mais fácil com pesquisas
tradicionais. Ao mesmo tempo, a coleta desse material – muitas vezes restrito a assinantes – é
tecnicamente mais difícil se comparada ao conteúdo das agências, muitas vezes já disponível e
padronizado em formatos como o RSS.
2.1 Estrutura e funcionamento do sistema
O projeto apresentou, desde o princípio, características e necessidades voltadas para o
ambiente da internet. Dessa forma, a solução tecnológica adotada
também foi baseada em
ferramentas voltadas para essa plataforma. A linguagem de programação utilizada foi o PHP
juntamente com o Framework MIOLO, base de dados Postgres, servidor de páginas Apache e
sistema operacional GNU/Linux4.
Dentre os desafios iniciais, estava o fato de conseguir desenvolver um software que aliasse
facilidade de uso e versatilidade para acompanhar as mudanças constantes nas formatações de
conteúdos online. Assim, seria imprescindível criar um sistema amplamente configurável que
permitisse ainda a fácil inclusão de novos veículos no futuro.
É através da interface web que são definidas as configurações dos veículos, localização (endereço
web) dos textos, informações sobre os identificadores dos conteúdos nas matérias, filtros, entre
outros.
Tomando por base análises preliminares feitas nos sites dos veículos abrangidos no projeto, foram
definidas as questões relativas ao armazenamento dos dados. Em seguida, o passo seguinte foi a
4 Toda a implementação tecnológica do projeto foi realizada com o apoio da cooperativa SOLIS (Cooperativa de
Soluções Livres), baseada em Lajeado (RS).
7
criação de protótipos que fizessem a captura dessas informações e validassem ou apontassem
mudanças necessárias na base de dados modelada originalmente. Finalizada essa etapa, partiu-se
para a criação do sistema propriamente dito, com todas as suas telas, regras de negócios, além de
vários algoritmos (pequenos programas) responsáveis pela coleta e seleção de dados. Estes também
continham um desafio interessante, a necessidade de se fazer a autenticação automática em alguns
sites para se ter acesso ao seu conteúdo.
Os algoritmos, por sua vez, são agendados e executados automaticamente pelo sistema
operacional. Juntamente com o processo de coleta dos dados nos sites, o sistema executa o processo
de filtragem e, mediante filtros e pesos atribuídos previamente, é feita a extração de dados e seleção
automática ou o descarte das matérias. Todo esse processo acontece sem a necessidade de
intervenção humana, a qual somente será necessária para revisão e descarte definitivo do material
coletado, além de melhorias nos filtros para o sistema.
Por fim, a interface web permite ainda acesso às matérias, visualização de gráficos,
acompanhamento diário dos processos executados pelos algoritmos e pesquisa nos conteúdos, que
pode, inclusive, ser armazenada para utilização posterior.
De modo resumido, o sistema opera da seguinte maneira: os sites dos jornais brasileiros são
percorridos diariamente, as matérias são coletadas a partir de marcadores - observados pela leitura
do código publicado - e armazenadas em uma base de dados. A base de notícias é assim atualizada
diariamente de forma automática.
Um sistema de filtros, dinamicamente definidos e que podem ser atualizados ou adaptados
para exigências específicas, permite a seleção automática das notícias relevantes. Esse filtro opera a
partir de pontuações previamente atribuídas a uma série de palavras-chaves. Esse pontos são
somados e cada matéria recebe um score. Uma vez selecionadas as matérias de forma automática,
elas são arquivadas no banco de dados de maneira organizada, sendo a elas acrescentado um
conjunto de metadados.
Fig. 1: Estrutura esquemática do sistema de coleta
e classificação das matérias no banco de dados
8
2.2. Mecanismo de seleção e classificação
O esquema de funcionamento dos filtros é extremamente simples. Seu uso, adequado à fase
atual de implementação do projeto, terá que ser refinado e revisado, por meio da utilização de
técnicas de Inteligência Artificial (redes neuronais, redes bayesianas, campos de proximidade
semântica etc.). Porém, mesmo em sua forma simplificada, os filtros permitem identificar, com um
bom nível de confiabilidade, as matérias relativas às ciências naturais e, com o auxílio de
codificadores5, podem também ser valiosos na análise de matérias sobre ciências humanas e sociais.
Antes de descrever em detalhes o funcionamento dos filtros e do sistema de seleção, é
importante esclarecer como definimos um protocolo qualitativo para seleção do material: como
estabelecer de forma clara o que é “ciência” e o que não é “ciência” nos jornais? Uma matéria sobre
o novo modelo de Ipod é “inovação tecnológica”? Uma matéria acerca de como adubar melhor um
pomar é ciências biológicas? E uma entrevista com uma nutricionista? E uma coluna sobre
cosméticos?
2.3 Protocolo: o que definimos como “ciência e tecnologia nos jornais”?
Muitas das pesquisas clássicas6, consideram como “ciência e tecnologia na mídia” somente as
matérias que são “eivadas de conteúdo referente à C&T”7. Vários estudos caminham nesse sentido,
selecionando apenas às matérias que dedicam-se à explicação de termos e conceitos científicos ou
que são apenas a descrição de novas descobertas. Esse tipo de texto quase sempre é facilmente
identificável e encontra-se encurralado em páginas ou cadernos com a explicita denominação, que
remetem à ciência, tecnologia, saúde ou meio ambiente. Com essa abordagem limitada, identificar a
“ciência” nos jornais é bastante simples e, ao mesmo tempo, pouco útil. Porque não cabem nessa
seleção, por exemplo, cartas de leitores que, não divulgando nem explicando nada sobre
transgênicos, expressam suas opiniões, valores, crenças a respeito de um tema importante em que a
ciência entra na vida política e social do país. Também não cabem grandes discussões, que
aparecem em páginas opinativas do jornal, em colunas econômicas ou nos artigos políticos, sobre
5 Na análise de conteúdo, se chama codificação o processo de classificação das unidades de texto a serem analisados
(em nosso caso, as matérias coletadas pelo sistema), baseado nas categorias que foram previamente estabelecidas (por
ex.: data, título, diário, gênero jornalístico, fonte, área temática etc.). São chamados de codificadores os sujeitos
treinados para efetuar tal classificação das matérias em categorias. Em boa parte do texto a seguir o sistema de
codificação de que trataremos é extremamente simples, devendo os codificadores simplesmente classificarem as
unidades de texto como sendo de “CT&I” (selecionadas) ou “Não de CT&I” (não selecionadas).
6 Bucchi & Mazzolini, 2003; Dutt & Garg, 2000; Einsiedel, 1992.
7 Vogt & Marques de Melo, 2001
9
decisões estratégicas no setor de inovação tecnológica ou política energética, por exemplo. Não
cabem artigos e matérias que aparecem em cadernos tão diferentes como o de esportes, cidades ou
cultura, onde a ciência não vem “divulgada” ou noticiada factualmente e, sim, debatida ou, como é
mais comum, apropriada, utilizada como metáfora, imaginada, veículo de discussões sobre
temáticas tão disparatadas como sexualidade e eleições, novelas das oito ou campeonatos mundiais.
Nossa opção foi estudar a ciência enquanto cultura: um grande ecossistema de símbolos,
idéias, histórias, fatos, noções, que circulam e agitam a sociedade e tem, portanto, um fortíssimo
reflexo midiático. A ciência “divulgada” é só a ponta do iceberg da ciência presente na mídia. Para
medir e entender o peso real da cultura científica nas sociedade contemporâneas, é importante então
analisar a presença da ciência em sua totalidade e interpretar o jornalismo científico em seu sentido
mais amplo.
Eis então que nosso protocolo para seleção das matérias “de ciência” foi mais complexo que
o usual. Treinamos os codificadores8, e preparamos o mecanismo de seleção da máquina, de forma
que escolhessem matérias de “ciência, tecnologia e meio ambiente” com as seguintes caraterísticas:
-
Não são selecionadas matérias sobre todos os produtos tecnológicos (novos modelos de
celular, computador etc.) mas, ao contrário, somente matérias relativas a avanços em
tecnologias de ponta ligados a pesquisa (como nanotecnologia, biologia molecular etc.).
Obviamente, inclui-se também temas de tecnologia aerospacial, matérias sobre
astronautas etc.
-
São selecionadas as grandes discussões sobre políticas e impacto da CT&I (por ex.:
poluição electromagnética, transgênicos, TV digital etc.)
-
Ciências da vida inclui medicina. E, com esta, também políticas de saúde, empresas
farmacêuticas, investimento em pesquisa e saúde, matérias sobre gripe aviária, Aids,
políticas dos remédios, patentes, novas vacinas etc.
-
Ciências não implica somente matérias onde algum conteúdo científico é explicado e
divulgado, mas também editoriais, colunas, artigos, cartas onde temas fortemente ligados
à ciência e tecnologia são debatidos, comentados etc. Por exemplo, aborto, clonagem,
poluição, política nuclear (e tratados internacionais sobre proliferação nuclear) etc.
-
Consideramos como matérias sobre meio ambiente – e, portanto, estão incluídas - não
somente a divulgação de pesquisa sobre ecologia ou biodiversidade mas também
políticas ambientais e tratados internacionais, desmatamento, invasão de parques
8 Veja nota 2.
10
protegidos por lei, criação de reservas, usinas elétricas, energias alternativas, estudos de
impacto ambiental etc.
-
Consideramos como “de ciência” também as matérias sobre ciências humanas e sociais,
o que significa, muitas vezes, considerar matérias de comportamento ou sobre política
que dêem voz a pesquisadores dessas áreas. A economia também é considerada uma das
ciências humanas, porém, não incluem-se matérias que apenas expõem dados
econômicos (valore da cesta básica deste mês, diminuição da taxa de desemprego etc.),
mas apenas aqueles que trazem algum tipo de discussão sobre teorias econômicas,
modelos de desenvolvimento, novas pesquisas, globalização etc. De maneira similar, as
ciências políticas são consideradas, mas não selecionaremos matérias, por exemplo, que
simplesmente forneçam dados sobre as porcentagem de indicação de voto para diferentes
candidatos a uma eleição na última enquete eleitoral e, sim, discussões sobre filosofia
política, divulgação de pesquisas acadêmicas etc. É importante ressaltar, porém, que,
neste trabalho, analisaremos exclusivamente o funcionamento do sistema no que
concerne à sua seleção de matérias de ciências naturais e exatas: os dados a seguir
(sobre fidedignidade, porcentagem de matérias sobre CT&I etc) são calculados então
somente levando em conta temas como ciências exatas, biomedicina, meio ambiente,
inovação e políticas tecnológicas etc. Existem motivos para isso. O protocolo de seleção,
no caso da ciências humanas e sociais, é bastante mais complexo e a quantidade de
matérias para analisar nos jornais muito elevada, levando a uma margem de discordância
entre codificadores humanos também alta. Ao mesmo tempo, as análises preliminares
indicam que o sistema de filtros por palavras-chaves que desenvolvemos, apesar de
serem – também no caso das ciências humanas e sociais – um instrumento útil para fazer
uma pré-seleção das matérias, não têm um grau tão elevado de eficácia. Decidimos,
então, avaliá-lo e utilizá-lo mais profundamente na próxima etapa do projeto, quando
disporemos de instrumentos mais sofisticados de seleção automática, tais como as
mencionadas redes bayesianas.
Com esta definição ampla em mente, construímos um sistema de seleção automática, que
descrevemos a seguir, e compararemos, posteriormente, sua performance com a seleção feita por
codificadores treinados.
As matérias de cada jornal passam por cinco filtros, ou listas de palavras-chaves. Cada
palavra-chave um seu peso numérico: termos técnicos de determinadas disciplinas ou palavras que
11
descrevem a prática científica têm um peso elevado (por exemplo: “Neurônio”=4,
“Nanotecnologia”=5 e assim por diante). Essas palavras estão agrupadas em cinco conjuntos
(filtros) diferentes.
Figura 2: Os cinco filtros usados para seleção das matérias
Outras palavras, que costumam comparecer em matérias de caráter científico, mas que
também são de uso comum na linguagem geral, têm um peso baixo (“atmosfera”=1; “física”=1
etc.).
Figura 3: Exemplos de palavra chaves e sua pontuação
Passando pelos filtros, cada matéria adquire uma pontuação (score) dada pela soma dos
pesos de cada palavra chave encontrada (calculada uma vez só). As matérias que somam pontuação
superior a 16, são selecionadas pela máquina como sendo de CT&I. As que ficam abaixo de 10 são
12
classificadas como “descartadas”. Todas as matérias que ficam na área intermédia (9<score<17),
são classificadas como “não revisadas”, precisando, nesta fase de evolução do projeto, do
acompanhamento de um codificador para ser confirmadas ou rejeitadas. Como veremos, tais
matérias não passam de 4% do total.
Figura 4 Exemplos de matérias rejeitadas pelo sistema
Porém, esse score tem limitações no que se refere à capacidade de selecionar as matérias.
Por isso, além desse tipo de pontuação linear, desenvolvemos, de forma experimental, uma
pontuação de tipo fatorial (que chamamos de “score teste”): os pesos de todas as palavras
encontradas não são somados e, sim, multiplicados, e o resultado total (que cresce
exponencialmente) é dividido pelo número total de palavras contidas na matéria. Esse segundo tipo
de pontuação têm duas vantagens:
a) Matérias extremamente curtas como notas, legendas de imagens científicas, citações etc, que
contêm poucas palavras (ou seja, têm poucas chances de serem selecionadas pela simples soma
de pontos), podem ter um “score teste” alto. Isso acontece porque a pontuação computada é
dividida pelo número de caracteres contido na respectiva matéria, o que torna o score teste mais
comparativo, já que o tamanho da matéria é relativizado.
b) Utilizando esse parâmetro como indicador de relevância das matérias, o que importa não é tanto
a presença de uma palavra ou outra, mas sim a presença simultânea de palavras com
13
pontoação>1 , o que pode ajudar a selecionar matérias com base em seus campos semânticos, de
forma similar (embora mais rudimentar) à feita nas redes de bayesianas ou em instrumentos de
Inteligência Artificial.
A escolha das palavras-chaves para a seleção de notícias não foi fácil. Inicialmente,
experimentamos uma lista bastante extensa de termos, com o objetivo de “capturar” o maior
número possível de matérias. No entanto, os arquivos típicos de palavras-chaves utilizadas, por
exemplo no âmbito da biblioteconomia, são, por um lado, de grande dimensão (o Vocabulário
Controlado USP têm cerca de 25 mil verbetes), por outro lado, quase completamente inúteis: o
conjunto de palavras-chaves utilizadas para classificação em arquivos de revistas científicas ou
bibliotecas compartilha só em mínima parte a bagagem lexical típica da divulgação na mídia.
Termos como “processos estocásticos” ou “geometria algébrica”, que são perfeitamente
adequados para identificar e classificar artigos científicos, praticamente nunca são utilizados em
matérias jornalísticas, nem quando tratam exatamente dos assuntos identificados por tais termos.
Por essas razões, uma abordagem baseada na construção de um vocabulário exaustivo de
termos técnicos se mostrou pouco produtiva: muitas matérias eram incorporadas ao sistema, mas
não havia sido definido nenhum parâmetro a partir do qual fosse possível identificar quais eram de
maior interesse para os objetivos deste projeto. A opção foi, então, delimitar um número muito mais
restrito de palavras, facilmente manejável e passível de atualização e aperfeiçoamento dinâmico,
atribuindo a essas a pontuação mencionada acima, o que facilita a definição do perfil das matérias
que se quer coletar. Vale ressaltar que essa lista não pretende ser exaustiva e nem equanimemente
abranger todas as áreas da ciência. Não é importante ter termos técnicos ligados a todas as áreas de
conhecimento que um jornal possa tratar, nem ter termos igualmente distribuídos entre várias áreas
(medicina, química etc). O importante é ter um conjunto mínimo de termos qualquer que sejam
caraterísticos da linguagem de matérias de divulgação ou das que tratam de ciência, política
científica, meio ambiente etc, e que sejam, ao mesmo tempo, menos freqüentes em matérias que
tratam de outros argumentos. Assim, obviamente, “DNA” ou “transgênicos” podem ser termos
importantes, mas “eletrofisiologia” e “antiproton” não necessariamente (pois não são tão
caraterísticos ou comuns). Do mesmo modo, podem também não ser tão importantes palavras como
“teoria”, “modelo”, “física”, porque, apesar de serem caraterísticas e comuns em descrições
científicas, não são específicas ou endêmicas só de matérias que tratam de ciência.
14
3. Confiabilidade do sistema de coleta e seleção
3.1 Confiabilidade do sistema de coleta
Para verificar a correspondência entre o material coletado pelo sistema e o que é publicado
nos jornais, comparamos matérias contidas no banco de dados em três “semanas construídas” (os
sete dias da semana, porém escolhidos casualmente num intervalo de seis meses de disponibilidade
do jornal) para os quatro jornais coletados, com o material disponível também na versão impressa
dos jornais, para comparação. Após ajustamentos iniciais nos veículos de coleta (alguns jornais
mudaram sua produção, introduziram ou eliminaram cadernos etc), conseguimos coletar todos os
cadernos de todos os jornais com um excelente nível de correspondência entre o material no banco
de dados e o que sai nas bancas. É importante ressaltar, porém, que:
a) O sistema somente coleta textos: imagens, charges, tiras, publicidades etc não fazem
parte do corpus coletado
b) Há algumas diferenças entre a versão impressa do jornal que um assinante recebe em sua
casa e a versão que o mesmo assinante pode acessar no site do jornal como sendo a
versão “impressa”. Por exemplo, a versão “impressa” disponível online, conterá, em
alguns casos, mais cadernos que qualquer versão física comprada nas bancas, pois esta
última só tem o caderno local correspondente à cidade de residência (do Rio de Janeiro,
Niterói, Campinas, São Paulo etc.), enquanto a versão online pode ter todos.
c) Há outra pequenas porém interessantes diferenças entre versão impressa e sua “cópia”
online. Algumas matérias da versão impressa disponível no site são extremamente
parecidas com o que saiu realmente no papel, porém não idênticas: o título e o primeiro
parágrafo podem ser ligeiramente diferentes ou, às vezes, o tamanho ligeiramente
ajustado. Isso, provavelmente, deve-se a modificações de última hora ocorridas durante a
diagramação e edição final do jornal, devido a exigências de publicidade ou de notícias
de última hora, e que foram executadas de forma diferente em diferentes versões
impressas do jornal.
Feitas tais ressalvas, podemos afirmar que a confiabilidade do sistema de coleta é extremamente
alta. Estimamos as divergências entre o corpus coletado e o que sai na versão de papel em menos de
1% do material total, excetuando obviamente os cadernos locais, que não estão todos disponíveis na
versão para assinante.
A coerência do corpus é garantida, sendo que o sistema envia mensagem de alerta quando não
consegue coletar parte ou totalidade de alguns cadernos (devido, por exemplo, à queda do servidor).
15
Resta importante, obviamente, checar periodicamente que cada jornal não eliminou cadernos ou
criou novos, mudou a estrutura de arquivação dos velhos etc. Dentro dessas limitações, o sistema
demostrou ter um ótimo nível de confiabilidade quanto à coleta integral do corpus textual dos
veículos.
3.2 Confiabilidade do sistema de seleção
Para analisar a confiabilidade da classificação de matérias “de ciência” do sistema, efetuamos
diferentes tipos de análise:
a) nível de concordância entre humanos e máquina quanto às matérias descartadas
b) nível de concordância entre humanos e máquina quanto as matérias selecionadas
c) situação e composição das matérias que o sistema armazena na categoria não revisadas
d) intercoder reliability entre máquina e humanos. Essa análise será realizada para garantir que o
nível de concordância entre a máquina e humanos sobre quais matérias são “de ciência” não
será menor que o nível de concordância entre dois codificadores.
a) Porcentagem de acertos do sistema ao descartar matérias não ligadas a ciência
Primeiramente, efetuamos vários pré-testes em duplo cego: dois codificadores humanos,
separados e sem comunicação mas tendo passado pelo mesmo tipo de treinamento, analisaram a
mesma edição de um jornal (em sua versão impressa), escolhendo quais matérias eram relacionadas
(de acordo com o protocolo e definição descrita anteriormente) com ciência, tecnologia, meio
ambiente, e quais deveriam ser descartadas. O resultado foi que a avaliação de dois operadores
humanos diferia em média em 3% das matérias analisadas.
Na segunda fase, 1700 matérias, publicadas nos quatro veículos e descartadas pelo sistema
foram analisadas pelos mesmos codificadores humanos, em busca de eventuais matérias que se
enquadrasse em nosso protocolo. O resultado foi que menos de 0.5% das matérias descartadas pelo
sistema eram potencialmente relevantes sob o olhar dos codificadores (Tab. 1). Repetimos os testes
com mais 2000 matérias, obtendo o mesmo resultado.
Mas, como explicar ser a concordância entre humanos de 97% e, entre estes e a máquina ser
maior que 99%? A razão disso é que o sistema não coloca na categoria “descartadas” todas as
matérias não ligadas a ciência. Uma pequena parte das matérias que não se enquadra na definição
que estabelecemos fica na categoria “não revisadas” (aquela que possui um score intermediário)
criando-se, assim, uma zona cinza, o que diminui sensivelmente a margem de erro tanto para
categoria “descartadas” quanto para a de “selecionadas”.
16
Dias
Veículos
analisados
2/1/2006
FSP
26/1/2006 FSP e EST
15/1/2006 FSP e EST
1/9 a 3/9/2005 FSP e JB
TOT
TOT. Matérias
N. Discordâncias
%
descartadas
100
317
413
870
1700
com codificador humano
0
1
1
4
6
Concordância
100%
99.7%
99.8%
99.5%
99.65%
Tabela 1: Matérias descartadas pelo sistema e porcentagem de concordância com a classificação
feita por um codificador humano
Outra caraterística interessante ressaltar é relativa ao tipo de matérias que causam diferença
na seleção feita por dois codificadores humanos ou na diferença de seleção entre um codificador e a
máquina. No caso dos humanos, boa parte dos desacordos (matérias que foram descartadas por um
e selecionadas por outro) estavam ligados a falhas de leitura: o codificador lia apressadamente
matérias vindas de partes do jornal em que ele/a não esperava alto conteúdo científico (esporte,
crônica de cidades, cartas de leitores, colunas de política ou economia etc.) e não se dava conta de
que uma matéria que, pelo título, parecia tratar de economia, política ou esporte, tocava na verdade
em temas ligados à ciência. No caso da máquina, quase todas as matérias tocando temas de ciência
eram selecionadas ou pelo menos colocadas em “não revisadas”, enquanto que as poucas matérias
erroneamente descartadas (ou seja, que os operadores humanos consideraram ligadas à ciência)
eram quase todas de dois tipos:
a) matérias com poucos caracteres, como legendas de imagens, listas de notas breves
(consideradas, em seu conjunto, como uma matéria, mas sendo apenas umas das notas relativa à
ciência) ou frases isoladas. Esse foi um dos fatores que levou à construção do score teste
experimental discutido acima.
b) matérias ligadas à ciência mas não divulgando conteúdo científico e, sim, discutindo aspectos
culturais, filosóficos ou sociais da ciência, contendo, então pouquíssimas palavras-chaves de
cunho científico.
O sistema é então, em certa medida, mais confiável que os operadores humanos, pois nunca se
deixa influenciar pela colocação ou título da matéria a ser analisada, sendo necessário porém refinar
sua eficiência nos casos discutidos acima.
17
b) Porcentagem de acertos do sistema ao selecionar matérias de ciência
No caso de matérias selecionadas a situação é mais complexa pois, se é bastante fácil treinar
codificadores para excluir matérias que claramente não se relacionem com temas científicos, muito
mais difícil é definir um protocolo claro que delimite eficientemente quando uma matéria
jornalística tem muita relação com ciência e tecnologia.
Demonstremos o problema com um exemplo: consideramos, para os veículos Folha de S.
Paulo e Jornal do Brasil, os dias entre 1/9/2005 e 14/9/2005, período em que o sistema armazenou
como “selecionadas” um total de 145 matérias. Analisadas por um codificador, sete dessas matérias
foram julgadas como não sendo sobre ciência, ou contendo termos científicos somente usados como
metáforas e não como tema de base. Isso corresponde a uma porcentagem de concordância entre
máquina e humano de cerca de 95%. Porém, o mesmo codificador encontrou mais 10 matérias que
tratavam, sim, de ciência, mas só marginalmente ou somente em pequena parte de seu texto.
Levando em conta estas, a porcentagem de concordância baixa para 88%.
Dias
analisados
22/1 a
26/1/2006
Semana
construída
1/9 a
14/9/2005
TOT
TOT.
Veículos
Mat.
N. Discordâncias (e matérias parcialmente
ligadas à CT&I)
% Concord.
Selec.
FSP e EST
62
4 (+8)
93.5% (81%)
FSP, EST
115
3
97%
FSP, JB
145
7 (+10)
95% (88%)
322
14 (+18)
96% (90%)
Tab. 2: Matérias selecionadas pelo sistema como sendo de CT&I e porcentagem de concordância
com um codificador humano (em parêntese, a mesma quantidade contabilizando como
discordâncias as matérias que, de acordo com o codificador, só tratam de ciência marginalmente
ou em trechos muito pequenos.
Voltaremos, mais tarde, a abordar as implicações disso para o nível de confiabilidade do
sistema. Por enquanto, basta ressaltar alguns fatos:
18
–
O nível de desacordo entre máquina e humanos é, de qualquer maneira, não superior a 10% das
matérias selecionadas. Esse valor corresponde a menos de 1% das matérias totais do jornal, ou
seja, poucas unidades por dia.
–
O fato da máquina selecionar como sendo “de ciência” textos que só em pequenos trechos
tratam efetivamente de temas ligados à CT&I não deve necessariamente ser considerado um
erro do sistema de seleção, por duas razões: por um lado, a estrutura de editoração da maioria
dos diários é feita de tal forma que colunas contendo muitas pequenas notícias (por exemplo:
colunas sociais, colunas de eventos da cidade, notícias breves de política ou economia) sejam
tratadas como uma única matérias. Se uma única notícia for de ciência, nosso sistema,
corretamente, deve selecioná-la mas, infelizmente, não pode fazer isso a não ser pegando o
inteiro texto: o erro não deve ser corrigido na seleção e, sim, na fase de coleta, ou seja na
subdivisão do texto em mais notícias. Por outro lado, quando há grandes reportagens que só em
pequena parte mencionam temas de CT&I, nem sempre é claro, para um codificadore humano,
se o sistema “errou” em selecioná-las. Se estamos interessados em medir como e quanto a
ciência permeia a cultura, a política, a economia, o fato, por exemplo, de encontrar, dentro de
uma matéria que trata de um comício eleitoral, algumas linhas explicitando a posição do
candidato sobre transgênicos, protocolo de Kyoto ou fontes de energia, pode ser relevante. È por
estas razões que um segundo codificador avaliou de forma bastante diferente as matérias
corretamente selecionadas ou erradas, com uma porcentagem de acordo com o primeiro
codificador de cerca de 92%: a seleção ou rejeiçãodeste tipo de matérias não é somente um
problema para a máquina .
c) Matérias que o sistema armazena na categoria “não revisadas”
Entram nestas categorias os textos cuja pontuação fica numa “zona cinza” que não permite
afirmar, com nível suficiente de confiabilidade, se devem ou não ser selecionados como “de CT&I”.
Trata-se, então, de matérias (cerca 5% do total, poucas unidades para cada dia de coleta) para as
quais é necessária a supervisão de um codificador humano. Também são matérias que,
normalmente, os codificadores humanos têm mais dificuldades em classificar. Uma análise
preliminar de tais matérias (Tab. 3) mostra que um codificador humano considera como sendo de
CT&I, em média, 45% delas.
19
TOT. Matérias
Dias analisados
Veículos
04/01/2006
6 e 7/01/2006
JB e FSP
JB e FSP
FSP e EST
16/1 a 18/1/2006
1/10 a 8/10 2005
10/2 a 17/2 2006
TOT
JB, EST
JB
na cat. “não
revisadas”
10
27
N. Matérias
consideradas ligadas à
% de CT&I
CT&I por codificador
humano
6
60%
16
59%
42
20
48%
113
47
239
40
26
108
35%
55%
45%
Tab. 3: Análise das matérias classificadas como “não revisadas” pelo sistema
3.2 Intercoder reliability
Os níveis de acordo percentual medidos acima são bastante notáveis, mostrando que as
matérias que a máquina seleciona são consideradas relevantes por codificadores humanos treinados
em pelo menos 95% dos casos, enquanto que as matérias descartadas são confirmadas como tais
pelos humanos em mais de 99% dos casos. Apesar disso, tais porcentagens não podem ser
consideradas um bom indicador do nível de confiabilidade de nosso sistema, não só por causa das
matérias contidas na “zona cinza”, que precisam de supervisão humana.
Como mostrado por vários autores, uma simples porcentagem de acordo médio não é um
indicador confiável do chamado intercoder agreement, ou intercoder reliability, porque não leva
em conta os casos nos quais a concordância entre os pesquisadores pode ser simples fruto do acaso:
Despite its simplicity and widespread use, there is consensus in the methodological literature that percent
agreement is a misleading and inappropriately liberal measure of intercoder agreement (at least for
nominal-level variables); if it is reported at all the researcher must justify its value in the context of the
attributes of the data and analyses at hand (Lombard et al., 2005)
Por exemplo, se o codificador A seleciona suas matérias baseado em lançar uma moeda,
descartando todas as que coincidem com cara, enquanto o B descarta todas as matérias que
coincidem, em seu lançamento de moeda, com coroa, os dois terão uma porcentagem de acordo, no
caso de um número bastante elevado de matérias analisadas, de cerca de 50%. Porém, a
fidedignidade dessa concordância é nenhuma, já que todas as decisões foram mero fruto do acaso.
Além disso, operadores humanos, em sua primeira fase de treinamento, selecionavam como sendo
“de ciência” de 2 a 10 matérias em 100. A porcentagem de acordo total era sempre superior a 90%,
20
ou seja aparentemente satisfatória. Na verdade, quando se examinavam as matérias selecionadas,
logo percebia-se que o acordo sobre estas últimas era insignificante: os codificadores não tinham
problemas em concordar sobre a grande maioria de matérias a serem descartadas, mas sobre poucas
“de ciência”, justamente as relevantes, tinham opiniões tão discordes que, às vezes, pouco mais que
a metade das matérias selecionadas coincidia.
Assim sendo, há acordo entre pesquisadores de que medir de forma rigorosa esta reliability,
ou índice de fidedignidade ou de confiabilidade (Bauer & Gaskell, 2002) é condição absolutamente
necessária, embora não suficiente, para conferir validade a pesquisas baseadas em seleção e
categorização de textos e que tal quantidade não pode ser medida por meio de porcentagens de
acordo.
Vários indicadores estatísticos, e talvez umas dúzias de métodos diferentes, foram propostos
para avaliar a inter-coder reliability (Popping, 1998). De acordo com a maioria dos estudiosos,
indicadores de uso clássico em estatística (tais como o alpha de Cronbach, o r de Pearson, ou o quiquadrado) também não são adequados para avaliar o nível de concordância entre dois ou mais
codificadores de um corpus textual. Mais confiáveis e freqüentemente utilizados na área de análise
de conteúdo são os chamados Pi de Scott (1955), K de Cohen, alpha de Krippendorf e o método de
Holsti (1969). Utilizamos aqui o primeiro, de uso particularmente simples em casos, como o nosso,
de dois codificadores utilizando variáveis binárias (Matéria Selecionada/Rejeitada). De acordo com
a maioria das pesquisas, valores de Pi acima de 80% são considerados extremamente bons para
confiabilidade de uma seleção e classificação de textos. Valores de Pi > 65% são considerados
razoaveis, enquanto valores muito abaixo disso indicam duas possíveis tipologias de problema,
codificadores mal treinados, ou protocolo de seleção ambíguo ou mal definido:
It is widely acknowledged that intercoder reliability is a critical component of content analysis, and that
although it does not insure validity, when it is not established properly, the data and interpretations of the
data can not be considered valid. As Neuendorf (2002) notes, "given that a goal of content analysis is to
identify and record relatively objective (or at least intersubjective) characteristics of messages, reliability
is paramount. Without the establishment of reliability, content analysis measures are useless" (p. 141).
[…] Interjudge reliability is often perceived as the standard measure of research quality. High levels of
disagreement among judges suggest weaknesses in research methods, including the possibility of poor
operational definitions, categories, and judge training (Lombard et al., 2005).
21
Em nosso caso, vimos que os próprios codificadores dificilmente conseguiam valores bons
para Pi. Em suas primeiras fases de treinamento, os codificadores selecionaram, a partir de um
estoque de cerca de 1100 textos, matérias de ciência com uma porcentagem de concordância acima
de 90%. Porém, quando Pi era calculado, mostrava valores extremamente baixos.
Codificadores cuidadosamente treinados - graças a discussões sobre cada caso duvidoso -, nivelados
numa definição empírica razoavelmente coerente e estável chegaram a ter valores de Pi satisfatórios
Dia
analisado
2/07/2006
23/7/2006
23/7/2006
Média
Veículos
% Concordância
PI
FSP
EST
FSP
94%
93%
98%
95%
50%
29.5%
71.5%
50%
Tab. 4: % de Concordância e Pi de Scott entre dois codificadores em sua primeira fase de
treinamento
Dia
analisado
7/11/2004
23/7/2006
Prova
18/08/2004
12/03/2006
02/07/2006
TOT e
Média
TOT.
Veículos
Matérias
% Concordância
PI
FSP
FSP
examinadas
137
181
93%
98%
77%
85%
EST
156
91%
67%
GLO
FSP
49
154
96%
95%
84%
58%
677
95%
74%
Tab. 5: % de Concordância e Pi de Scott entre dois codificadores que já concluíram treinamento
A performance do sistema passou por algo análogo: numa primeira fase de teste, em que as
palavras-chaves dos filtros tinham sido ajustadas somente na base de garantir que a maioria das
matérias de C,T&I fossem selecionadas, e que ficassem como rejeitadas praticamente só matérias
que não tratassem de ciências, a máquina mostrava uma boa porcentagem de concordância com os
codificadores, mas péssimos valores de Pi (Tab. 6).
22
Dia
analisado
12/03/2006
TOT.
Veículos
Matérias
% Concordância
PI
JB
examinadas
121
96%
43%
Tab. 6: % de Concordância entre codificador e sistema e Pi de Scott, antes do refinamento dos
filtros
Dia
analisado
23/07/2006
TOT.
Veículos
Matérias
% Concordância
PI
FSP
examinadas
181
92%
65%
Tab. 7: % de Concordância entre codificador e sistema e Pi de Scott, depois do refinamento dos
filtros
Por um lado, tais valores relativamente baixos para Pi são, obviamente, ligados, como
mencionado acima, ao fato que nosso universo de análise (CT&I e cultura científica nos jornais)
não é algo identificável de forma rígida, que não se mistura e confunde com a produção cultural
geral da mídia. Nossa definição de temas ligados à ciência é razoável, mas com uma margem de
ambigüidade intrínseca: trata-se de uma ambigüidade epistemológica, não ligada a definição
operativa vaga e confusa. Isso leva a uma margem de erro dos operadores humanos (para matéerias
selecionadas) entre 2 e 5%.
Por outro lado, é interessante ver como o sistema automático não só é, no mínimo, tão
confiável quanto os codificadores humanos, como também não sofre da inconstância e variabilidade
ligada ao treinamento de cada indivíduo. Sua seleção não é baseada nos mesmos princípios que a de
um codificador humano, porém é pelo menos tão confiável quanto esta e mais constante: uma vez
aceita como razoável a performance da máquina em selecionar e quantificar a ciência na mídia, essa
se torna universalmente reproduzível. Não é mais necessário transmitir e interpretar protocolos
bastante complexos e, em parte, ambíguos sobre como definir o que é ciência na mídia; nem é
preciso ensiná-los para pessoas diferentes e que precisam de muitos dias de treinamento.
3.3 Eficiência e eficácia do SAPO
Resumindo, o estado atual dos filtros permite uma avaliação excelente da quantidade de
matérias relacionadas à ciência. SAPO fornece, com notável eficiência e eficácia, um corpus de
textos selecionados automaticamente (pode chegar a baixar e classificar mais de 15000 matérias por
23
dia). SAPO precisa de supervisão humana somente para poucas unidade de texto por dia para cada
jornal. Até na ausência de supervisão, os dados quantitativos fornecidos pelo barometro de
indicadores de SAPO têm uma margem de erro total não maior que ±3%:
a) a máquina é boa quanto codificadores humanos treinados para descartar matérias não
consideradas “de ciência” dentro do corpus coletado, sendo sua margem de “erro” na escolha
(<0.5%) menor que a discordância entre dois humanos treinados quanto a o que não considerar
“de ciência” na mídia
b) a margem de incerteza sobre a definição de quais matérias levar em conta como sendo “sobre ou
de ciências” é maior, chegando a quase 10% das matérias selecionadas (que são 3-4% do total) e
cerca 40-60% das “não revisadas”) (que são 3-5% do total). Isso implica, como mencionado
acima, uma margem de erro porcentual total da ordem de 2-3%.
Uma parte deste erro é devido ao sistema de seleção extremamente simples utilizado, por
palavras-chaves: será então minimizado numa próxima fase do projeto, em que campos semânticos,
associações de palavras e redes bayesanas serão implementadas para seleção. Mas uma parte do
erro é intrínseca à definição e sentido amplo que decidimos, propositalmente, dar ao tema ciência na
mídia. Demos à ciência a dimensão cultural, complexa e profunda que ela tem nas sociedades
contemporâneas. Ou seja, estamos utilizando uma definição em que a ciência, como toda atividade
cultural, não tem paredes impermeáveis que a possam separar de um jeito simples, mecânico e
inevitável, do resto da produção cultural.
4. Aplicações do SAPO
4.1 Barômetro e Índice de CT&I na mídia
O primeiro produto alcançado ao longo do desenvolvimento do Projeto SAPO é o Índice de
CT&I, com o qual, à semelhança de outros índices nas áreas econômica, social e financeira, se pode
avaliar de maneira quantitativa a penetração de tópicos de CT&I nos meios de comunicação e,
conseqüentemente, no dia a dia da sociedade.
Nesta primeira fase foram desenvolvidos quatro indicadores quantitativos, que futuramente
serão integrados num “barômetro” de indicadores e finalmente deverão compor também um Índice
de composição complexa e, ao mesmo tempo, simples e compreensível. São calculados e
apresentados graficamente de forma automática pelo sistema Os primeiros três são indicadores já
afirmados entre os pesquisadores de estudos da mídia, enquanto o quarto foi desenvolvido por nós e
sua aplicabilidade e utilidade estão sendo analisadas em um trabalho específico.
Chamamos N_Tot o número total de matérias que foram publicadas num determinado dia
24
por um determinado veículo. Por exemplo, para diários de grande porte como Folha de S. Paulo e
Estado de S. Paulo, N tende a assumir valores na faixa de 150 a 180. Chamamos P_Tot o número
total de palavras contidas num determinado diário num determinado dia. Chamaremos então
N_selecionadas o número de matérias selecionadas, para um determinado dia em determinado veículo,
e P_selecionadas o número total de palavras nelas contidas. A partir destes valores, que nosso sistema
calcula diariamente para cada veículo coletado, definimos os seguintes indicadores numéricos:
1. Indicador de “massa” na mídia, M. Representa simplesmente o número absoluto de
matérias de CT&I publicadas em cada veículo analisado, num determinado dia:
M = N_selecionadas
Sua análise temporal permite evidenciar de forma automática os momentos em que existe uma
“epidemia mídiatica” sobre CT&I, permitindo apontar estudos de caso interessantes. Por exemplo,
analisando o Indicador de massa diário, ao longo de um intervalo temporal de um mês, não foi
difícil identificar a tendência da Folha de S. Paulo e do Estado de S. Paulo em ter um maior
número de artigos “de ciência” nos domingos (que correspondem à publicação dos cadernos
culturais) e – em menor medida – em dias de semana que correspondem a cadernos de saúde, meio
ambiente etc. Além disso, foi fácil identificar, pelos picos do indicador de massa, recorrências,
aniversários ou pequenas epidemias mídiaticas (Figura 5a e 5b), tais como o aniversário da
descoberta da estrutura do DNA, por Watson & Crick.
Figura 5a e 5b Uso do Indicador de Massa na identificação de casos
midiáticos
25
O uso do Indicador M, calculado não diariamente e, sim, como média sobre intervalos
maiores (por exemplo, mensais) permite, por sua vez, avaliar o espaço dedicado em média
pelos jornais à C&T.
2. Indicador de “freqüência”, f. Representa a quantidade relativa, ou seja a porcentagem
de matérias de CT&I sobre o total de matérias publicadas no veículo:
f = M/ N_Tot
Pode ser considerado como um indicador de “atenção” dada por um determinado veículo a
questões de CT&I. Permite, de forma melhor que o valor absoluto, “de massa”, uma
comparação da atenção dada, no mesmo veículo, a outros tópicos, como esportes, economia,
lazer etc. Como veremos, seus valores oscilam normalmente entre 1% e 10%, com picos de
em dias específicos caraterizados pela presença de cadernos intensamente “habitados” pela
CT&I. Este indicador, tendo valor relativo, é fundamental para uma comparação do
comportamento de diferentes jornais. Além disso, também se revela de grande utilidade em
sinalizar casos midiáticos: em alguns dias, onde as matérias do jornal aumentam, a
freqüência, mais que o número absoluto de matérias, pode alerta para algo que esteja
acontecendo (Fig. 6)
Figura 6. Exemplo do Indicador de Freqüência
26
3. Indicador de “densidade” na mídia, d. Representa o espaço relativo que as matérias de
CT&I ocupam em cada veículo analisado, ou seja a porcentagem de caracteres dedicada
à CT&I:
d = P_selecionadas /P_Tot
Figura 7. Indicador de densidade na mídia (média semanal)
4. Indicador de aprofundamento na mídia, A. Representa o peso relativo que o veículo dá a
matérias de CT&I em comparação a matéria “média” do jornal:
A = d/f
Quando este índice é acima de 1, significa que o veículo está publicando matérias de ciência
e tecnologia que são, em média, de tamanho maior que o das matérias em geral. Trata-se,
então, de um indicador do tipo de política editorial e cultural do jornal. A<1 tende a
significar uma política editorial que vê ciência e tecnologia, de maneira geral, como notícias
ou artigos breves. Quando – como por exemplo tende a ser o caso da Folha de S. Paulo –
27
A>1, significa que, em média, o jornal trata ciência e tecnologia freqüentemente na forma de
editoriais, colunas ou reportagem de tamanho médio maior que a matéria geral no jornal.
Figura 8. Indicador de aprofundamento
Tais indicadores, como já mencionado, não somente representam instrumentos fundamentais
para estudos de mídia (e podem ser facilmente adaptados para analisar não somente C&T mas
qualquer tópico de interesse dentro do banco de dados), como também podem ser transformados em
produtos e serviços de uso diário para empresas, instituições, jornais e profissionais interessados em
um acompanhamento qualitativo de sua atuação na mídia.
4.2 Outras aplicações
Um produto gerado a partir do sistema SAPO é o Índice Fapesp, projetado para permitir
avaliar ao longo do tempo como a imagem pública da Fundação evolui. Enriquecendo e
complementando o atual clipping organizado pela própria Fapesp, o banco de dados deste projeto
permite que correlações de vários tipos sejam feitas, a critério da Fundação.
Além desse, diversos outros produtos podem ser obtidos a partir do SAPO e fornecido a variados
usuários, de acordo suas demandas. Por exemplo, SAPO pode ajudar em:
–
Avaliar e medir tendências gerais na cobertura de diferentes temáticas
–
Fazer análise de cobertura de casos midiáticos novos (como transgênicos, clonagem etc.);
estudo da evolução temporal de uma notícia; cobertura longitudinal de temas “clássicos”
(câncer, espaço, informática etc); estudo de percepção e reposta do público (por exemplo, as
secções de Carta do Leitor); correlação entre tipo de cobertura de um determinado tema e outras
variáveis
28
–
Medir notícias sobre produtos relativos às inovações tecnológicas na indústria do
entretenimento
–
Notícias sobre saúde e sua repercussão na sociedade
–
Etc.
5. Conclusões: SAPO como ajuda nos estudos de ciência na mídia
Como mencionamos acima, a adaptação e aplicação do sistema para vários veículos, ou para
vários idiomas, pode, além de baixar o custo de pesquisas deste tipo, permitir construir estudos
transversais e longitudinais confiáveis, não sendo necessário o treinamento de novas pessoas a cada
ano e a conseqüente dúvida sobre coerência e estabilidades dos protocolos de pesquisa.
Obviamente, podem ser discutidos e criticados os critérios que o sistema usa para selecionar
as matérias, como podem ser criticados e discutidos os de qualquer pesquisa deste tipo. Porém, vale
a pena ressaltar um fato: uma vez decidido um protocolo de seleção, a vantagem de ele ser único,
constante e coerente, independente do treinamento das pessoas, é bastante grande.
Uma analogia pode explicar melhor a idéia. Indicadores quantitativos ligados a fenômenos
sociais e culturais são sempre, obviamente, fruto de escolhas negociadas, legitimas e arbitrárias.
Inventar como medir de 0 a 100 a “qualidade de vida” e comparar o número obtido no Rio de
Janeiro, Calcutá, Amsterdã e Cincinnati, é claramente algo arbitrário. Vale mais pontos ter uma
escola primária para cada X crianças ou um hospital cada Y habitantes? É mais negativa a poluição
sonora e visual em um bairro ou a ausência de um parque público? Obviamente, tais considerações
podem variar profundamente de pesquisador a pesquisador, de acordo com a situação social do país
em que ele vive, com sua história, como também com suas crenças religiosas, seus valores políticos
e inúmeros outros fatores, inclusive o fato de que algumas questões (riscos ambientais, por
exemplo) só vem sendo discutidas (e descobertas) recentemente. Porém, a decisão negociada,
conjunta, que grupos de pesquisadores podem chegar a tomar para definir indicadores como o
Índice de Desenvolvimento Humano (IDH) tem sua utilidade: no momento em que todos usam o
mesmo método para medir uma mesma quantidade, por arbitrária que essa seja, isso permite
comparação internacional e medição de tendências de algo que, se obviamente não representa
“desenvolvimento humano”, é algo que, em seu movimento ao longo de uma escala temporal e
espacial, é ligado a avanços ou recuos importantes nas formas de gestão das cidades e nas condições
de vida.
29
Da mesma forma, os índices que produzimos não pretendem ser um reflexo exato sobre o
quanto de ciência é divulgado na mídia. Representam recorte específico, a partir de critérios
discutíveis, porém fixos, que, a partir do momento em que são adotados e mensurados
historicamente, adquirem sentido e passam a indicar flutuações e processos interessantes.
O SAPO já se mostra um instrumento bastante valioso para a reflexão e pesquisa sobre o
quanto e como ciência, tecnologia e inovação aparecem na mídia impressa. Como procuramos
mostrar nesse trabalho, contudo, parece claro que alguns ajustes e evoluções possíveis do sistema
aqui apontadas poderiam torna-lo um instrumento de referência para a pesquisa desses temas.
Nesse sentido, dois caminhos principais podem ser apontados. O primeiro, e mais evidente,
é a integração de novos veículos ao sistema, para que a amostra de pesquisa seja mais representativa
e diversificada. O segundo é o uso de inteligência artificial para a seleção das matérias consideradas
“de ciência”. Nesta primeira fase, optamos por utilizar um conjunto de palavras-chaves que
procuramos tornar representativas de quais matérias o protocolo definido pretende selecionar. Essa
tarefa foi realizada empiricamente e por aproximação, ou seja, com palavras sendo adicionadas ou
retiradas de modo a que a seleção feita pudesse ser bastante próxima da seleção feita por humanos a
partir do protocolo definido – o que provamos ter conseguido. Utilizando inteligência artificial,
contudo, essa seleção será ainda mais precisa, pois será o padrão de escolha definido pelo protocolo
que caberá à maquina repetir em sua seleção.
De qualquer forma, porém, o sistema já conta com um desenvolvimento bastante maduro
principalmente no que se refere ao armazenamento e qualificação das matérias inseridas (sendo isso
feito de maneira automática ou manual). Isso significa um considerável ganho em termos de
facilidade, agilidade e precisão para pesquisa. A informatização do corpus de análise torna possível
a busca e correlação por palavras e por itens de descrição de cada matéria (como gênero, caderno
etc). Além disso, torna possível a mensuração mais precisa de características medidas antes de
maneira precária (o tamanho das matérias passa a ser medido por número de caracteres ou palavra e
não mais por centímetro-coluna).
A criação de índices, derivados de informações coletadas cotidianamente, é outra qualidade
que se origina da informatização do corpus. Como mostramos, é possível gerar um conjunto muito
interessante de informações estatísticas capazes de identificar “cronicidades” e “epidemias”
relativas à frequência do tema CT&I na mídia.
30
6. BIBLIOGRAFIA
BARDIN, L. Análise de conteúdo. Lisboa: Edições 70, 1977.
BAUER, M.W.; GASKELL, G. Pesquisa qualitativa com texto, imagem e som. Um manual
prático. Petrópolis, RJ: Vozes, 2002.
BUCCHI, M.; MAZZOLINI, R., “Big science, little news: science coverage in the Italian
daily press, 1946–1997”, Public Understanding of Science, 12, 2003; p. 7-24.
CASTELFRANCHI, Y. Scientists to the streets: Science, politics and the public moving towards
new osmoses. Jcom, Vol. 1, n. 2, Trieste: Junho 2002.
DUTT, B.; GARG, K.C., “An overview of science and technology coverage in Indian
English-language dailies”, Public Understanding of Science, 9, 2000; p. 123-140.
EINSIEDEL, E, “Framing science and technology in the Canadian press”, Public
Understanding of Science, 1992; p. 189-101.
EISENSTEIN, E. A revolução da cultura impressa: os primórdios da Europa Moderna. São
Paulo: Ática, 1998.
FLICK, U. An introduction to qualitative research. Londres: SAGE Publications, 1998.
GRECO P. Communicating in the post-academic era of science. Jcom, Vol. 1, n. 1, Trieste, Março
2002. Disponível em: <http://jcom.sissa.it/editorial/edit0101.pdf>.
GRECO, P. “Il modello Venezia. La comunicazione nell’era post-accademica della scienza”, em:
La comunicazione della scienza, Atti del I e II Convegno Nazionale, Roma: ZadigRoma, 2004
GREGORY, J., MILLER, S. Science in public. Communication, culture, and credibility. New
York: Plenum Press, 1998.
GUIMARÃES, E. (Org). Produção e Circulação do Conhecimento: Política, Ciência,
Divulgação. Campinas, Pontes Editores: 2001
GUIMARÃES, E. (Org). Produção e Circulação do Conhecimento: Estado, Mídia e Sociedade.
Campinas, Pontes Editores: 2001
HOLSTI, O.R. Content analysis for the social sciences and humanities. Reading, MA: AddisonWesley, 1969.
LOMBARD, M.; SNYDER-DUCH, J.; CAMPANELLA, C. “Practical Resources for Assessing
and Reporting Intercoder Reliability in Content Analysis Research Projects”, 2005. Em:
http://www.temple.edu/mmc/reliability/
NELKIN, D. Selling science: How the press covers science and technology. New York: W.H.
Freeman and Company, 1987.
NEUENDORF, K. A. The content analysis guidebook. Thousand Oaks, CA: Sage, 2002.
31
ORLANDI, E. Análise do Discurso: princípios e procedimentos. Campinas: Pontes, 1999.
POPPING, R. On agreement indices for nominal data. In Willem E. Saris & Irmtraud N. Gallhofer
(Eds.). Sociometric research: Volume 1, data collection and scaling (pp. 90-105). New York: St.
Martin’s Press, 1998.
ROSSI, P. La nascita della scienza moderna in Europa. Roma-Bari: Laterza, 2000.
SCOTT, W. Reliability of content analysis: The case of nominal scale coding. Public Opinion
Quarterly, 17, 321-325, 1955.
VOGT, C.; KNOBEL, M.; EVANGELISTA, R.; PALLONE, S.; CASTELFRANCHI, Y.
“Percepção Pública da Ciência e Tecnologia: uma Abordagem Metodológica para São Paulo”. Em:
Landi, F. (Org.). Indicadores de Ciência, Tecnologia e Inovação do Estado de São Paulo - 2004.
São Paulo, FAPESP: 2005, cap. 12.
VOGT, C.; MARQUES DE MELO, J.; et al. “C&T na mídia impressa brasileira: tendências
evidenciadas na cobertura nacional dos jornais diários sobre ciência & tecnologia (biênio 20002001)”. Em: Guimaraes, E. (Org). Produção e Circulação do Conhecimento: Política, Ciência,
Divulgação. Campinas: Pontes Editores, 2001.
VOGT, C.A.: POLINO, C. (Orgs.) Percepção pública da ciência: Resultados da pesquisa na
Argentina, Brasil, Espanha e Uruguai. Campinas, SP: Editora da UNICAMP; São Paulo: FAPESP,
2003.
ZIMAN, J. Il lavoro dello scienziato, Roma-Bari: Laterza, 1987 (Ed. original: An introduction to
science studies; The philosophical and social aspects of science and technology. Cambridge:
Cambr. Univ. Press, 1984).
ZIMAN, J. Real Science: What it is, and what it means. Cambridge: Cambr. Univ. Press, 2000.
32
Download

I wish to God these calculations had been - Labjor