DA COMUNICAÇÃO CIENTÍFICA AO CONHECIMENTO PÚBLICO: ARTIGOS CIENTÍFICOS DIGITAIS COMO BASES DE CONHECIMENTOS VI ENANCIB – Encontro da Associação Nacional de Pesquisa e Pósgraduação em Ciência da Informação, UFSC, Florianópolis, SC, nov.2005 Equipe de pesquisa Carlos H. Marcondes, [email protected] Marília A. R. Mendonça,[email protected] Departamento de Ciência da Informação Luciana R. Malheiros, [email protected] Departamento de Fisiologia e Farmacologia Henrique Mendonça e Vera Rolim, bolsistas de IC 1 Universidade Federal Fluminense, Niterói – RJ, Brasil QUESTÕES “Os diferentes fragmentos de informação contidos nos diferentes trabalhos primários precisam ser reunidos e fundidos numa só peça, compondo uma coerente máquina intelectual” (ZIMAN, 1979, p. 135). Meadows (1999, p. 127), comentando os impactos da tecnologia da informação sobre o artigo científico, assim se expressa: “talvez seja possível no futuro, incluir software apropriado que permita fazer deduções a partir dos dados e informações, acrescentando assim a estes uma função de conhecimento”. Convergência CIÊNCIA DA INFORMAÇÃO, FILOSOFIA DA CIÊNCIA, EPISTEMOLOIA DA CIÊNCIA, CIÊNCIAS DA SAÚDE, CIÊNCIA DA COMPUTAÇÃO 2 CENÁRIO SEMANTIC GRID (DE ROURE, 2001) “knowledge acquisition set the challenge of getting hold of the information that is around, and turning it into knowledge by making it usable. This might involve for instance, making tacit knowledge explicit, identifying gaps in the knowledge already held, acquiring and integrating knowledge from multiple sources (e.g. different experts, or distribuited sources on the web), or acquiring knowledge from unstructured media (e.g. natural language or diagrams” (DE ROURE, 2001, p. 56.). “Exemples are the integration of authoring and reviewing processes in on-line documents. Such environments allow structured discussions of the evolution and development of an idea, paper or concept. The structured discussion is another annotation that can be held in perpetuity. This means that the reason for a position in a paper or design choice is linked to the object of discussion itself” (DE ROURE, 2001, p. 59.) 3 QUESTÕES Papel central dos periódicos na comunicação científica TIs aplicadas para prover acesso a textos completos de documentos, não ao seu conteúdo Comunicação científica depende da produção de textos, leitura, interpretação e citação Periódicos científicos publicados na Web são baseados no modelo impresso 4 PROBLEMA É possível publicar artigos científicos na Web simultaneamente como texto e em formato legível por programas, identificando e registrando o conteúdo do conhecimento novo contido em elementos tais como Problema, Hipóteses e Conclusões? Estrutura/representação do novo conhecimento? Conseqüências para a comunicação científica e para o desenvolvimento da Ciência? 5 PRESSUPOSTOS A publicação na Web de artigos científicos pode vir a ser uma ferramenta cognitiva cujas potencialidades ainda não estão totalmente avaliadas Iniciativa Web Semântica (BERNERS-LEE, 2001): disponibilidade na Web de ontologias científicas, em especial a UMLS – Unified Medical Language System, http://www.nlm.nih.gov/pubs/factsheet/umls.html A Ciência tem um método formal de raciocínio, o Método Científico Artigos científicos têm uma estrutura textual altamente formalizada 6 HIPOTESE “The text of observational and experimental articles is usually (but not necessarily) divided into sections with the headings Introduction, Methods, Results, and Discussion. This so-called “IMRAD” structure is not simply an arbitrary publication format, but rather a direct reflection of the process of scientific discovery” (http://www.icmje.org) Os artigos científicos possuem, além da estrutura textual, chamada aqui de “estrutura superficial”, uma “estrutura profunda” ou “estrutura de conhecimento”, que pode ser extraída do texto e representada em formato legível por programas 7 OBJETIVO GERAL Explorar as potencialidades deste artefato sócio-técnico que é o artigo científico quando publicado na Web, ampliando suas potencialidades como ferramenta cognitiva 8 OBJETIVOS ESPECÍFICOS Propor Modelo da “estrutura profunda” ou “estrutura de conhecimento” dos artigos científicos em XML, ligando a “estrutura do conhecimento” de um artigo com o conhecimento já estabelecido (bases de conhecimento e outros artigos) Validar o Modelo, analisando artigos do periódico Memórias do Instituto Oswaldo Cruz base para o desenvolvimento um editor de textos científicos que permita publicar eletronicamente não só o texto de artigos mas também o conhecimento contido neles, em formato processável por programas; base também para o desenvolvimento de outras ferramentas para recuperação semântica e validação de novos conhecimentos 9 XML como linguagem para especificar a Estrutura de Conhecimento de artigos científicos Padrão do W3C – base da iniciativa Web Semântica: estrutura de documentos digitais legível por pessoas e por programas Permite a validação de conjuntos de documentos através de um DTD ou Schema Permite a utilização simultânea de diversos vocabulários através da facilidade de “name spaces” (http://www.w3.org/TR/1998/WD-xml-names-19980916): Outras experiências: MathML, CML, SBML Modelo da “Estrutura do conhecimento” em XML permitirá seu processamento por programas “agentes inteligentes”, realização de inferências 10 UMLS – Unified Medical Language System, http://www.nlm.nih.gov/pubs/factsheet/umls.html Projeto da National Library of Medicine, EUA, Combina diversas fontes terminológicas num único instrumento (MEDLINE, SNOMED International, Read Codes, etc.) Estrutura terminológica hierárquica – o Metathesaurus, com730.000 conceitos, 1.500.000 nomes de conceitos complementanda por uma estrutura classificatório, a Semantic Network Semantic Network agrega os termos do Metathesaurus em 134 tipos semânticos e 53 tipos de relações (ex. causality, "is a", etc.) entre termos médicos 11 A iniciativa Web Semântica LEE, 2001): (BERNERS- Iniciativa do W3C. proposta pela primeira vez por Tim Berners-Lee inventor da WWW, do Browser, da linguagem HTML, em fins da década de 90 Objetivos: uma Web não só de documentos legíveis por pessoas, mas também légíveis por programas; estruturar o conteúdo disponível na Web e adicionar valor semântico à este conteúdo documentos eletrônicos conteriam CONHECIMENTO legível por programas, que permitiriam a estes fazer inferências este programas – os “agentes inteligentes” – poderiam ajudar as pessoas em diferentes tarefas 12 13 Esquema geral do Método Hipotético -Dedutivo, tirado de Conhecimento prévio Teorias existentes 1 Lacuna, contradição ou problema, novos fenômenos Marconi & Lakatos, 2004, p.75. Klahr & Simon (1999, p. 8), citando Reichenbach: “a major goal of empirical work in science is to discover new phenomena and generate hypotheses for describing and explain them”. Segundo estes autores, as pesquisas científicas podem se dar: -a partir da busca de novos fenômenos para se chegar a hipóteses que os expliquem (1) ou - a partir de hipóteses que expliquem um fenômeno, testá-las para verificar sua validade ou rejeitá-las (2). Conjecturas, soluções ou hipóteses Consequências falseáveiss Enunciados deduzidos Técnicas de falseabilidade Testagem 2 Análise dos resultados Avaliação das conjecturas, soluções ou hipóteses Refutação (rejeição) Corroboração Nova teoria Nova lacuna, contradição ou problema 14 Método Hipotético-Dedutivo, baseado em Marconi & Lakatos, 2004, p.75. 1. fatos, ou mais precisamente, fatos problemáticos 2. formalização de um problema de pesquisa ou questão 3. desenvolvimento de uma hipótese, que é uma explicação provisória para o problema de pesquisa 4. testes empíricos da hipótese 5. análise dos resultados dos testes 6. conclusão: ratificação ou negação da hipótese 15 PESQUISA EMPÍRICA análise de artigos do periódico eletrônico Memórias do Instituto Oswaldo Cruz, http://www.scielo.br/revistas/mioc, visando identificar no texto elementos de metodologia científica que poderiam se constituir na “estrutura de conhecimento” do artigo . escolha de artigos da relação dos mais visitados, que consta do “site” do periódico, supostamente os mais importantes, os que trazem uma contribuição mais significativa para a Ciência 16 17 METODOLOGIA DE ANÁLISE – “forma” das hipóteses “Há várias maneiras de formular hipóteses, mas a mais comum é “ Se x, então y” (Marconi & Lakatos, 2004, p.141). “A hipótese poderá ser simbolizada de duas formas: “Se x, então y, sob as condições r e s”, ou “Se x1, x2 e x3, então y” (Marconi & Lakatos, 2004, p.141). “a scientific explanation consist of two major “constituints”: an explanandum, a sentence “describing the phenomenon to be explained” and an explanans, “the class of those sentences which are adduced to account for the phenomenon” (Hempel, 1965, p.247). 18 Cont... “O pensamento pode ser definido como a capacidade de estabelecer relações por meio do processo de unir e separar conceitos e objetos ... Pensar é justamente o processo de descobrir ou realizar associações ou disjunções, ou seja, traçar relacionamentos” (Máttar Neto, 2002, p.33). “Distinguem-se três operações fundamentais do pensamento, em Lógica: a concepção (ou formação de uma idéia ou conceito); o juízo (ou afirmação de uma relação entre duas idéias) e o raciocínio (ou a derivação de uma relação de conseqüência entre dois ou mais juízos” (Maciel, 1974, p.27). “As leis científicas são enunciados gerais que indicam relações entre dois ou mais fatores”... “em todos os casos em que se realizam as condições A, serão realizadas as 19 condições B” (Alves-Mazotti, 2002, p. 11) RESULTADOS INICIAIS – Método de análise Identificação, no texto dos artigos analisados, de “Relações” : Antecedente + Tipo de Relação + Conseqüente; mapeamento dos elementos dessas relações no “conhecimento estabelecido” Antecedente: HPV termos MESH -> conhecimento estabelecido Tipo de Relação: causa “causes” – T147 da UMLS Semantic Network -> conhecimento estabelecido Conseqüente: lesões pré-neoplásicas e neoplásicas termos MESH -> conhecimento estabelecido • Condição contextual: mulheres, Distrito Federal, Brasil 20 <?xml version="1.0" encoding="ISO8859-1" ?> <estrutura_de_conhecimento art-id="352387“ fonte=“Lilacs”> <fato></fato> <problema><!-- Pergunta ou Questao--> tipos de HPV prevalentes no grupo testado? <condicao_contextual>Mulheres</condicao_contextual> <condicao_contextual>Distrito Federal, Brasil</condicao_contextual> </problema> <metodo> Estudo para ampliar o escopo de uma Hipótese ja estabelecida <metodologia></metodologia> </metodo> <hipotese> <condicao_de_validade></condicao_de_validade> <antecedente> HPV, diversos tipos <!-- Termo MESH--> </antecedente> <relacao> causa ("causes"(T147)/UMLS SN) </relacao> <consequente> lesoes pre-neoplasicas e neoplasicas <!-- Termo MESH--> </consequente> </hipotese> <resultado></resultado> <conclusao></conclusao> <citacao> <referencia_bibliografica></referencia_bibliografica> <motivo_para_citar></motivo_para_citar> </citacao> </estrutura_de_conhecimento> Modelo, em XML 21 UMLS – Semantic Network – 134 tipos semanticos e 53 tipos de relações UI: T147 RL: causes ABR: CA RIN: caused_by RTN: R3.2.2 DEF: Brings about a condition or an effect. Implied here is that an agent, such as for example, a pharmacologic substance or an organism, has brought about the effect. This includes induces, effects, evokes, and etiology. HL: {isa} brings_about STL: [Bacterium|Pathologic Function]; [Fungus|Pathologic Function]; [Invertebrate|Pathologic Function]; [Manufactured Object|Anatomical Abnormality]; [Manufactured Object|Injury or Poisoning]; [Manufactured Object|Pathologic Function]; [Rickettsia or Chlamydia|Pathologic Function]; [Substance|Anatomical Abnormality]; [Substance|Injury or Poisoning]; [Substance|Pathologic Function]; [Virus|Pathologic Function] 22 RESULTADOS INICIAIS Identificação, no texto dos artigos analisados, de “Relações”; a explicação científica enquanto Relação • Relações enquanto questões: Problema • Relações enquanto respostas provisórias: Hipótese • Relações enquanto afirmações ou confirmações: Conclusão 23 RESULTADOS INICIAIS Existência de três níveis de vocabulários nos artigos analisados (“name spaces” da linguagem XML, http://www.w3.org/TR/1998/WD-xml-names-19980916): Termos referentes a Metodologia Científica, • Termos referentes a Metodologia Científica específica da área: • “problema”, “hipóteses”, “metodologia”, “conclusões”, etc; “in vitro”, “in vivo”, “polymerase chain reaction”, etc; Termos referentes a Terminologia específica da área • “human papillomavirus”, “neoplastic cervical lesions”, etc Sempre se conseguiu identificar Relações nos artigos analisados 24 POSSIBILIDADES DE RECUPERAÇÃO SEMÂNTICA DA INFORMAÇÃO “que artigos (também) tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?” “que artigos tem hipóteses relacionando outros fatores que não HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?” que artigos tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em outros grupos?” que artigos tem hipóteses relacionando HPV como causa de outras patologias em mulheres?” em que diferentes condições contextuais existem artigos com hipóteses relacionando HPV como causa de lesões préneoplásicas e neoplásicas em mulheres?” maiores facilidade para revisões estruturadas / medicina baseada em evidências 25 CONCLUSÕES INICIAIS “Ciência Normal” (Kuhn); qual a forma da “novidade científica”? A Ciência da Informação deve intervir diretamente na produção do documento eletrônico pelo autor, procurando estruturá-lo desde a sua criação 26 “NOVIDADE” CIENTÍFICA Qual (ou quais) elementos das relações identificadas é desconhecido? • Antecedente: ? • Tipo de Relação: ? • Conseqüente: ? • Antecedente + Tipo de Relação + Conseqüente? • Condição contextual: ? 27 “NOVIDADE” CIENTÍFICA Qual (ou quais) elementos das relações identificadas é desconhecido? “ o antecedente A esta relacionado com o conseqüente B em que diferentes condições contextuais?” • A R B (condição contextual a1) • A R B (condição contextual a2) • A R B (condição contextual a3) • A R B (condição contextual a) a é uma generalização de a1, a2 e a 3 28 AGENDA DE DESENVOLVIMENTO DA PESQUISA Pesquisa empírica: Analisar artigos científicos em outros periódicos em Ciências da Saúde para validar o modelo Integrar Problema, Método/metodologia e Conclusões à análise Estudar a estrutura dos tipos de documentos padronizados em C. da Saúde como Revisões Sistemáticas, Ensaios Clínicos, etc Analisar artigos científicos modelares que veiculam descobertas significativas Entrevistar autores de artigos Pesquisa teórica: Diretrizes para o desenvolvimento de editor de textos científicos Motivos para citações? “Novidade” na Ciência? Representação da “estrutura de conhecimento” do artigo científico: RDF? DAML+OIL? OWL? 29 QUESTÕES EM ABERTO / Pesquisa O Modelo proposto de “estrutura de conhecimento” é comum a todas as áreas científicas? Que tipos de inferências poderão ser feitas baseadas na “estrutura de conhecimento” de um artigo científico? Maior enfoque da representação da informação nas RELAÇÕES; uma Taxonomia dos Tipos de Relações em Ciência? É viável uma Scientific Methodology Markup Language – SmML? 30 REFERÊNCIAS BIBLIOGRÁFICAS ALVES_MAZZOTTI, Alda, GEWANDSZNAJDER, Fernando. O Método nas Ciências naturaais e sociais: pesquisa qunatitativa e qualitativa. São Paulo : Pioneira Thomson Learning, 2002. ALVES, Rubem. Filosofia da Ciência: introdução ao jogo e suas regras. São Paulo : Ed. Brasiliense, 1987 BERNERS-LEE, Tim, HENDLER, James, LASSILA, Ora. The semantic web. Scientific American, May, 2001. Disponível em <http://www.scian.com/2001/0501issue/0501berners-lee.html>, visitado em 24 maio 2001. DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel. Research agenda for the Semantic Grid: a future s-Science infraestructure. (Report commissioned for EPSRC/DTI Core eScience Programme). 2001. GONZALES DE GOMEZ, Maria Nélida. Comunicação-InformaçãoCognição: interfaces. Mimeo, [s.d.] HEMPEL, Karl. Aspects fo scientific explanation and other esssays in the philosophy of sceince. New York : Free Press, 1965. 31 REFERÊNCIAS BIBLIOGRÁFICAS KLAHR, David; SIMON, Herbert A.. Studies of scientific discovery: complementary approaches and convergent fidings. Psycological Bulletin, 124, 5, p.524-543, 1999. Disponível em <http://www.psy.cmu.edu/psy/faculty/Kands99.pdf>. Acesso em 05 Mar. 2005. MACIEL, Jarbas. Elementos de teoria geral dos sistemas. Petrópolis : Vozes, 1974. MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia científica. São Paulo : Editora Atlas, 2004. MATTAR NETO, José Augusto. Metodologia científica na era da informática. São Paulo : Saraiva, 2002. MEADOWS, Arthur Jack. A comunicação científica. Brasília : Briquet de Lemos, 1999. VELTMAN, Kim H. Towards a Semnatic Web for Culture. Journal of Digital Information v.4, n. 4, 2004.. Disponível em http://jodi.ecs.ac.uk/Articles/v4/i04/Veltmen/. Acesso em 24 nov. 2004. ZIMAN, John. Conhecimento público. Belo Horizonte : Itatiaia, São 32 Paulo : Ed. da Universidade de São Paulo, 1979. Comentários são benvindos! [email protected] http://www.professores.uff.br/marcondes 33