DA COMUNICAÇÃO CIENTÍFICA AO CONHECIMENTO PÚBLICO:
ARTIGOS CIENTÍFICOS DIGITAIS COMO BASES DE
CONHECIMENTOS
VI ENANCIB – Encontro da Associação Nacional de Pesquisa e Pósgraduação em Ciência da Informação, UFSC, Florianópolis, SC,
nov.2005
Equipe de pesquisa
Carlos H. Marcondes, [email protected]
Marília A. R. Mendonça,[email protected]
Departamento de Ciência da Informação
Luciana R. Malheiros, [email protected]
Departamento de Fisiologia e Farmacologia
Henrique Mendonça e Vera Rolim, bolsistas de IC
1
Universidade Federal Fluminense, Niterói – RJ, Brasil
QUESTÕES


“Os diferentes fragmentos de informação contidos nos
diferentes trabalhos primários precisam ser reunidos e
fundidos numa só peça, compondo uma coerente
máquina intelectual” (ZIMAN, 1979, p. 135).
Meadows (1999, p. 127), comentando os impactos da
tecnologia da informação sobre o artigo científico,
assim se expressa: “talvez seja possível no futuro,
incluir software apropriado que permita fazer deduções
a partir dos dados e informações, acrescentando assim
a estes uma função de conhecimento”.
 Convergência CIÊNCIA DA INFORMAÇÃO,
FILOSOFIA DA CIÊNCIA, EPISTEMOLOIA DA
CIÊNCIA, CIÊNCIAS DA SAÚDE, CIÊNCIA DA
COMPUTAÇÃO
2
CENÁRIO SEMANTIC GRID (DE ROURE, 2001)


“knowledge acquisition set the challenge of getting hold of
the information that is around, and turning it into
knowledge by making it usable. This might involve for
instance, making tacit knowledge explicit, identifying gaps
in the knowledge already held, acquiring and integrating
knowledge from multiple sources (e.g. different experts, or
distribuited sources on the web), or acquiring knowledge
from unstructured media (e.g. natural language or
diagrams” (DE ROURE, 2001, p. 56.).
“Exemples are the integration of authoring and reviewing
processes in on-line documents. Such environments allow
structured discussions of the evolution and development of
an idea, paper or concept. The structured discussion is
another annotation that can be held in perpetuity. This
means that the reason for a position in a paper or design
choice is linked to the object of discussion itself” (DE
ROURE, 2001, p. 59.)
3
QUESTÕES

Papel central dos periódicos na comunicação científica

TIs aplicadas para prover acesso a textos completos
de documentos, não ao seu conteúdo

Comunicação científica depende da produção de textos,
leitura, interpretação e citação

Periódicos científicos publicados na Web são baseados
no modelo impresso
4
PROBLEMA

É possível publicar artigos científicos na Web
simultaneamente como texto e em formato legível
por programas, identificando e registrando o
conteúdo do conhecimento novo contido em elementos
tais como Problema, Hipóteses e Conclusões?


Estrutura/representação do novo conhecimento?
Conseqüências para a comunicação científica e para o
desenvolvimento da Ciência?
5
PRESSUPOSTOS


A publicação na Web de artigos científicos pode vir a
ser uma ferramenta cognitiva cujas potencialidades
ainda não estão totalmente avaliadas
Iniciativa Web Semântica (BERNERS-LEE, 2001):
disponibilidade na Web de ontologias científicas, em
especial a UMLS – Unified Medical Language System,
http://www.nlm.nih.gov/pubs/factsheet/umls.html

A Ciência tem um método formal de raciocínio, o
Método Científico

Artigos científicos têm uma estrutura textual
altamente formalizada
6
HIPOTESE
“The text of observational and experimental articles
is usually (but not necessarily) divided into sections
with the headings Introduction, Methods, Results,
and Discussion. This so-called “IMRAD” structure is
not simply an arbitrary publication format, but
rather a direct reflection of the process of
scientific discovery” (http://www.icmje.org)
Os artigos científicos possuem, além da estrutura
textual, chamada aqui de “estrutura superficial”,
uma “estrutura profunda” ou “estrutura de
conhecimento”, que pode ser extraída do texto e
representada em formato legível por programas
7
OBJETIVO GERAL

Explorar as potencialidades deste artefato
sócio-técnico que é o artigo científico quando
publicado na Web, ampliando suas
potencialidades como ferramenta cognitiva
8
OBJETIVOS ESPECÍFICOS


Propor Modelo da “estrutura profunda” ou “estrutura de
conhecimento” dos artigos científicos em XML, ligando a
“estrutura do conhecimento” de um artigo com o
conhecimento já estabelecido (bases de conhecimento e
outros artigos)
Validar o Modelo, analisando artigos do periódico Memórias
do Instituto Oswaldo Cruz
base para o desenvolvimento um editor de textos científicos
que permita publicar eletronicamente não só o texto de artigos
mas também o conhecimento contido neles, em formato
processável por programas;
base também para o desenvolvimento de outras ferramentas
para recuperação semântica e validação de novos conhecimentos
9
XML como linguagem para especificar a
Estrutura de Conhecimento de artigos
científicos




Padrão do W3C – base da iniciativa Web Semântica:
estrutura de documentos digitais legível por pessoas e
por programas
Permite a validação de conjuntos de documentos
através de um DTD ou Schema
Permite a utilização simultânea de diversos
vocabulários através da facilidade de “name spaces”
(http://www.w3.org/TR/1998/WD-xml-names-19980916):
Outras experiências: MathML, CML, SBML

Modelo da “Estrutura do conhecimento” em XML
permitirá seu processamento por programas “agentes
inteligentes”, realização de inferências
10
UMLS – Unified Medical Language System,
http://www.nlm.nih.gov/pubs/factsheet/umls.html

Projeto da National Library of Medicine, EUA,
Combina diversas fontes terminológicas num
único instrumento (MEDLINE, SNOMED International,
Read Codes, etc.)



Estrutura terminológica hierárquica – o Metathesaurus,
com730.000 conceitos, 1.500.000 nomes de conceitos
complementanda por uma estrutura classificatório, a
Semantic Network
Semantic Network agrega os termos do
Metathesaurus em 134 tipos semânticos e 53
tipos de relações (ex. causality, "is a", etc.) entre
termos médicos
11
A iniciativa Web Semântica
LEE, 2001):
(BERNERS-
 Iniciativa do W3C. proposta pela primeira vez por Tim
Berners-Lee inventor da WWW, do Browser, da
linguagem HTML, em fins da década de 90
 Objetivos:
 uma Web não só de documentos legíveis por pessoas, mas também
légíveis por programas;
 estruturar o conteúdo disponível na Web e adicionar valor
semântico à este conteúdo
 documentos eletrônicos conteriam CONHECIMENTO legível por
programas, que permitiriam a estes fazer inferências
 este programas – os “agentes inteligentes” – poderiam ajudar as
pessoas em diferentes tarefas
12
13
Esquema geral do
Método Hipotético
-Dedutivo, tirado de
Conhecimento prévio
Teorias existentes
1
Lacuna, contradição ou problema, novos fenômenos
Marconi & Lakatos, 2004, p.75.
Klahr & Simon (1999, p. 8),
citando Reichenbach:
“a major goal of empirical
work in science is to discover
new phenomena and
generate hypotheses for
describing and explain them”.
Segundo estes autores, as
pesquisas científicas podem
se dar:
-a partir da
busca de novos fenômenos
para se chegar a hipóteses
que os expliquem (1) ou
- a partir de hipóteses que
expliquem um fenômeno,
testá-las para verificar sua
validade ou rejeitá-las (2).
Conjecturas, soluções ou hipóteses
Consequências falseáveiss
Enunciados deduzidos
Técnicas de falseabilidade
Testagem
2
Análise dos resultados
Avaliação das conjecturas, soluções ou hipóteses
Refutação
(rejeição)
Corroboração
Nova teoria
Nova lacuna, contradição ou problema 14
Método Hipotético-Dedutivo, baseado em Marconi &
Lakatos, 2004, p.75.
1.
fatos, ou mais precisamente, fatos problemáticos
2. formalização de um problema de pesquisa ou questão
3. desenvolvimento de uma hipótese, que é uma explicação
provisória para o problema de pesquisa
4. testes empíricos da hipótese
5. análise dos resultados dos testes
6. conclusão: ratificação ou negação da hipótese
15
PESQUISA EMPÍRICA


análise de artigos do periódico eletrônico
Memórias do Instituto Oswaldo Cruz,
http://www.scielo.br/revistas/mioc, visando
identificar no texto elementos de metodologia
científica que poderiam se constituir na
“estrutura de conhecimento” do artigo .
escolha de artigos da relação dos mais visitados,
que consta do “site” do periódico, supostamente
os mais importantes, os que trazem uma
contribuição mais significativa para a Ciência
16
17
METODOLOGIA DE ANÁLISE – “forma” das
hipóteses

“Há várias maneiras de formular hipóteses, mas a mais
comum é “ Se x, então y” (Marconi & Lakatos, 2004,
p.141).


“A hipótese poderá ser simbolizada de duas formas: “Se
x, então y, sob as condições r e s”, ou “Se x1, x2 e x3,
então y” (Marconi & Lakatos, 2004, p.141).
“a scientific explanation consist of two major
“constituints”: an explanandum, a sentence “describing
the phenomenon to be explained” and an explanans, “the
class of those sentences which are adduced to account
for the phenomenon” (Hempel, 1965, p.247).
18
Cont...

“O pensamento pode ser definido como a capacidade de
estabelecer relações por meio do processo de unir e
separar conceitos e objetos ... Pensar é justamente o
processo de descobrir ou realizar associações ou
disjunções, ou seja, traçar relacionamentos” (Máttar
Neto, 2002, p.33).


“Distinguem-se três operações fundamentais do
pensamento, em Lógica: a concepção (ou formação de uma
idéia ou conceito); o juízo (ou afirmação de uma relação
entre duas idéias) e o raciocínio (ou a derivação de uma
relação de conseqüência entre dois ou mais juízos”
(Maciel, 1974, p.27).
“As leis científicas são enunciados gerais que indicam
relações entre dois ou mais fatores”... “em todos os casos
em que se realizam as condições A, serão realizadas as
19
condições B” (Alves-Mazotti, 2002, p. 11)
RESULTADOS INICIAIS – Método de análise

Identificação, no texto dos artigos analisados, de
“Relações” : Antecedente + Tipo de Relação + Conseqüente;
mapeamento dos elementos dessas relações no
“conhecimento estabelecido”
 Antecedente: HPV
termos MESH -> conhecimento estabelecido
 Tipo de Relação: causa
“causes” – T147 da UMLS Semantic Network -> conhecimento
estabelecido
 Conseqüente: lesões
pré-neoplásicas e neoplásicas
termos MESH -> conhecimento estabelecido
• Condição contextual: mulheres, Distrito Federal, Brasil
20
<?xml version="1.0" encoding="ISO8859-1" ?>
<estrutura_de_conhecimento art-id="352387“ fonte=“Lilacs”>
<fato></fato>
<problema><!-- Pergunta ou Questao-->
tipos de HPV prevalentes no grupo testado?
<condicao_contextual>Mulheres</condicao_contextual>
<condicao_contextual>Distrito Federal, Brasil</condicao_contextual>
</problema>
<metodo>
Estudo para ampliar o escopo de uma Hipótese ja estabelecida
<metodologia></metodologia>
</metodo>
<hipotese>
<condicao_de_validade></condicao_de_validade>
<antecedente>
HPV, diversos tipos <!-- Termo MESH-->
</antecedente>
<relacao>
causa ("causes"(T147)/UMLS SN)
</relacao>
<consequente>
lesoes pre-neoplasicas e neoplasicas <!-- Termo MESH-->
</consequente>
</hipotese>
<resultado></resultado>
<conclusao></conclusao>
<citacao>
<referencia_bibliografica></referencia_bibliografica>
<motivo_para_citar></motivo_para_citar>
</citacao>
</estrutura_de_conhecimento>
Modelo, em XML
21
UMLS – Semantic Network – 134 tipos
semanticos e 53 tipos de relações
UI: T147
RL: causes
ABR: CA
RIN: caused_by
RTN: R3.2.2
DEF: Brings about a condition or an effect. Implied here is that an agent, such
as for example, a pharmacologic substance or an organism, has brought about the
effect. This includes induces, effects, evokes, and etiology.
HL: {isa} brings_about
STL: [Bacterium|Pathologic Function];
[Fungus|Pathologic Function];
[Invertebrate|Pathologic Function];
[Manufactured Object|Anatomical Abnormality];
[Manufactured Object|Injury or Poisoning];
[Manufactured Object|Pathologic Function];
[Rickettsia or Chlamydia|Pathologic Function];
[Substance|Anatomical Abnormality];
[Substance|Injury or Poisoning];
[Substance|Pathologic Function];
[Virus|Pathologic Function]
22
RESULTADOS INICIAIS

Identificação, no texto dos artigos analisados,
de “Relações”; a explicação científica enquanto
Relação
• Relações enquanto questões:
Problema
• Relações enquanto respostas provisórias:
Hipótese
• Relações enquanto afirmações ou confirmações:
Conclusão
23
RESULTADOS INICIAIS
 Existência de três níveis de vocabulários nos artigos analisados
(“name spaces” da linguagem XML,
http://www.w3.org/TR/1998/WD-xml-names-19980916):

Termos referentes a Metodologia Científica,
•

Termos referentes a Metodologia Científica específica da área:
•

“problema”, “hipóteses”, “metodologia”, “conclusões”, etc;
“in vitro”, “in vivo”, “polymerase chain reaction”, etc;
Termos referentes a Terminologia específica da área
• “human papillomavirus”, “neoplastic cervical lesions”, etc
 Sempre se conseguiu identificar Relações nos artigos analisados
24
POSSIBILIDADES DE RECUPERAÇÃO
SEMÂNTICA DA INFORMAÇÃO





“que artigos (também) tem hipóteses relacionando HPV como
causa de lesões pré-neoplásicas e neoplásicas em mulheres?”
“que artigos tem hipóteses relacionando outros fatores que
não HPV como causa de lesões pré-neoplásicas e neoplásicas
em mulheres?”
que artigos tem hipóteses relacionando HPV como causa de
lesões pré-neoplásicas e neoplásicas em outros grupos?”
que artigos tem hipóteses relacionando HPV como causa de
outras patologias em mulheres?”
em que diferentes condições contextuais existem artigos com
hipóteses relacionando HPV como causa de lesões préneoplásicas e neoplásicas em mulheres?”
maiores facilidade para revisões estruturadas / medicina
baseada em evidências
25
CONCLUSÕES INICIAIS


“Ciência Normal” (Kuhn); qual a forma da
“novidade científica”?
A Ciência da Informação deve intervir
diretamente na produção do documento
eletrônico pelo autor, procurando estruturá-lo
desde a sua criação
26
“NOVIDADE” CIENTÍFICA

Qual (ou quais) elementos das relações
identificadas é desconhecido?
• Antecedente: ?
• Tipo de Relação:
?
• Conseqüente: ?
• Antecedente + Tipo de Relação + Conseqüente?
• Condição contextual:
?
27
“NOVIDADE” CIENTÍFICA

Qual (ou quais) elementos das relações
identificadas é desconhecido?
“ o antecedente A esta relacionado com o
conseqüente B em que diferentes condições
contextuais?”
• A R B (condição contextual a1)
• A R B (condição contextual a2)
• A R B (condição contextual a3)
• A R B (condição contextual a)
a é uma generalização de a1, a2 e a 3
28
AGENDA DE DESENVOLVIMENTO DA PESQUISA

Pesquisa empírica:






Analisar artigos científicos em outros periódicos em Ciências
da Saúde para validar o modelo
Integrar Problema, Método/metodologia e Conclusões à análise
Estudar a estrutura dos tipos de documentos padronizados em
C. da Saúde como Revisões Sistemáticas, Ensaios Clínicos, etc
Analisar artigos científicos modelares que veiculam
descobertas significativas
Entrevistar autores de artigos
Pesquisa teórica:




Diretrizes para o desenvolvimento de editor de textos
científicos
Motivos para citações?
“Novidade” na Ciência?
Representação da “estrutura de conhecimento” do artigo
científico: RDF? DAML+OIL? OWL?
29
QUESTÕES EM ABERTO / Pesquisa




O Modelo proposto de “estrutura de
conhecimento” é comum a todas as áreas
científicas?
Que tipos de inferências poderão ser feitas
baseadas na “estrutura de conhecimento” de um
artigo científico?
Maior enfoque da representação da informação
nas RELAÇÕES; uma Taxonomia dos Tipos de
Relações em Ciência?
É viável uma Scientific Methodology Markup
Language – SmML?
30
REFERÊNCIAS BIBLIOGRÁFICAS
ALVES_MAZZOTTI, Alda, GEWANDSZNAJDER, Fernando. O
Método nas Ciências naturaais e sociais: pesquisa qunatitativa
e qualitativa. São Paulo : Pioneira Thomson Learning, 2002.
ALVES, Rubem. Filosofia da Ciência: introdução ao jogo e suas
regras. São Paulo : Ed. Brasiliense, 1987
BERNERS-LEE, Tim, HENDLER, James, LASSILA, Ora. The
semantic web. Scientific American, May, 2001. Disponível em
<http://www.scian.com/2001/0501issue/0501berners-lee.html>,
visitado em 24 maio 2001.
DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel.
Research agenda for the Semantic Grid: a future s-Science
infraestructure. (Report commissioned for EPSRC/DTI Core eScience Programme). 2001.
GONZALES DE GOMEZ, Maria Nélida. Comunicação-InformaçãoCognição: interfaces. Mimeo, [s.d.]
HEMPEL, Karl. Aspects fo scientific explanation and other
esssays in the philosophy of sceince. New York : Free Press,
1965.
31
REFERÊNCIAS BIBLIOGRÁFICAS
KLAHR, David; SIMON, Herbert A.. Studies of scientific
discovery: complementary approaches and convergent fidings.
Psycological Bulletin, 124, 5, p.524-543, 1999. Disponível em
<http://www.psy.cmu.edu/psy/faculty/Kands99.pdf>. Acesso em
05 Mar. 2005.
MACIEL, Jarbas. Elementos de teoria geral dos sistemas.
Petrópolis : Vozes, 1974.
MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia
científica. São Paulo : Editora Atlas, 2004.
MATTAR NETO, José Augusto. Metodologia científica na era da
informática. São Paulo : Saraiva, 2002.
MEADOWS, Arthur Jack. A comunicação científica. Brasília :
Briquet de Lemos, 1999.
VELTMAN, Kim H. Towards a Semnatic Web for Culture. Journal
of Digital Information v.4, n. 4, 2004.. Disponível em
http://jodi.ecs.ac.uk/Articles/v4/i04/Veltmen/. Acesso em 24
nov. 2004.
ZIMAN, John. Conhecimento público. Belo Horizonte : Itatiaia, São
32
Paulo : Ed. da Universidade de São Paulo, 1979.
Comentários são benvindos!
[email protected]
http://www.professores.uff.br/marcondes
33
Download

Apresentação - Professores da UFF