Anais do 5º Encontro do Celsul, Curitiba-PR, 2003 (1200-1206) WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS Pedro Luiz CAETANO Filho (Faculdade de Letras da Universidade Federal de Minas Gerais) ABSTRACT: From text, as we conceive it today, to hypertext. From writing with pencil and paper to writing with XML and RDF. From centers to context, from centering in the construction and analysis of anaphoric chains and from autolexical grammar to create context in a hypertext. KEYWORDS: Semantic Web; Centering theory; autolexical theory; linguistics; hypertext. 0. Introdução No início era o verbo. E o verbo virou letra. De letra virou palavra. De palavras, texto. De texto virou hipertexto. Nesta hierarquia? Tenho minhas dúvidas. Estou mais inclinado a pensar que foi numa rede que tudo isso se misturou e se criou. Tal qual o mundo. Feito em sete dias. Numa certa ordem sim, mas numa ordem imposta mais pela necessidade do que pela perfeição do gesto da criação. Com o verbo criamos regras. A gramática, a forma. E, com ela, o sentido, o conteúdo. Por vezes pensamos que poderíamos passar sem a segunda parte do todo, mas não conseguimos. As duas vão de mãos dadas e de par. Com a internet foi a mesma coisa. No começo tínhamos a forma, e com ela, nenhum sentido, a não ser aquele construído pelo leitor quando da navegação ou das buscas, por vezes infrutíferas, através dos mecanismos de busca existentes. Hoje, estamos tentando criar, junto com a forma, o sentido, o conteúdo. É nesta idéia que a WEB semântica se insere e cria novas possibilidades de texto. Mas o que é na realidade a WEB semântica? A definição dada por Berners-Lee (1998) é: “a web semântica é uma rede de dados, num certo sentido, igual a um banco de dados global”. Para ele o foco não é de fazer a máquina se comportar como um ser humano na busca e na construção do sentido da informação, mas é criar conteúdos que a máquina possa entender e interpretar, desse modo, possibilitando à máquina auxiliar o ser humano na criação de novos conteúdos textuais. A idéia é de fazer da máquina um auxiliar na tarefa de gerenciar e manipular os conteúdos textuais, objetivo pelo qual ela foi construída. E não substituir o ser humano como certas vertentes da inteligência artificial propuseram e propõem. Uma outra definição é: meta-linguagem que “define classes, propriedades e sua interelação e, não mais uma sintaxe, que opera diretamente no nível do modelo de dados e, não mais no nível da sintaxe, permitindo às máquinas (o computador) fazer inferências sobre os dados coletados da web” (Dumbill, 2000), com o objetivo de facilitar a interação homem-máquina, partindo do princípio de que se a máquina pode fazer inferências a partir dos conteúdos que encontramos na web, ela pode auxiliar o ser humano na busca e na criação de novos conteúdos. Das definições dadas acima podemos intuir que a escrita de um hipertexto em nada se assemelhará à escrita de um texto como fazemos hoje. O processo é diferente. E não será a transformação de um texto em papel em um texto eletrônico que resolverá o problema. Nem será porque colocamos links num texto que poderemos chamá-lo de hipertexto. Aliás, hoje em dia temos a tendência a chamarmos tudo que possui link como hipertexto. Neste caso um texto em papel é também um hipertexto. E não é bem este o caso. O termo hipertexto foi cunhado por Ted Nelson em 1965 para descrever um conceito fundamental do seu projeto Xanadu, qual seja, o de que todo o conhecimento humano armazenado será acessível de forma simples. Através do quê? De links. Este acesso permitiria a uma pessoa seguir mais uma linha de pensamento do que um só argumento. Isto significa, na leitura de um texto, caberia ao leitor expandir sua visão, acessando outros textos, que teriam a mesma visão do texto sendo lido, como outras visões mais sutis, ou mesmo contrárias. O conceito está mais para uma coleção de textos colocados juntos do que de um texto que referência outros. Em resumo, apesar da digressão imposta aos leitores, é muito importante termos em mente que quando falamos de texto, estamos falando de um conjunto de informações fechadas num todo, que referência outros textos através de notas, referências bibliográficas, etc., mas que não traz junto com ele todos os outros textos a qual o texto primeiro fez referências, etc. Esta idéia primeiramente apareceu num programa chamado Hypercard num Apple Macintosh. Era um programa que trabalhava com o conceito de pilha, onde através de cartões que iam sendo colocados na pilha construíamos todo um espaço informacional, como hoje vemos na web. Único detalhe deste programa é que ele era para um único usuário numa única máquina. É na convergência das idéias internet, interfaces gráficas e distribuição das informações que surge a web. Pedro Luiz CAETANO Filho 1201 O termo Web, formalmente conhecido como WorldWideWeb – www, apareceu em 1990 (BernersLee) para descrever um sistema de informações desenvolvido para a comunidade da física de alta energia no CERN (Centre Européenne pour la Recherche Nucléaire). Composto por dois programas que interagem para se criar o substrato que chamamos de ciberespaço, de um lado o servidor (server) e do outro o cliente (browser), o objetivo era permitir acesso a uma determinada comunidade dispersa por um espaço geográfico grande, acesso e troca de informações sobre física de partículas. O que diferenciou a web, de outros serviços e protocolos gerenciadores destes serviços, foi que esta nova forma de visualizar e manipular a informação não necessitava de conhecimentos específicos de informática nem a utilização de comandos esotéricos para um não iniciado, e permitia, além disso, gráficos, sons e vídeos, criando novas possibilidades. Até um novo termo foi criado para diferenciar textos que traziam estas novas características incorporadas, hipermídia. Do lado do servidor, o novo protocolo que gerencia a web é o HTTP (HyperText Transfer Protocol). Estas quatro letrinhas mesmo que aparece antes do endereço que damos para localizarmos o arquivo que queremos descarregar da internet ou que queremos ler na tela e que começa, salvo algumas poucas exceções, com www.algumacoisa.com. Do lado do cliente apareceram os browsers, estes programas famosos que conhecemos hoje. O que iniciou a revolução, e que foi o precursor para a Netscape e a Microdoft, foi o Mosaic. Este browser reproduziu na web o que as interfaces gráficas já tinham feito nos microcomputadores, o aponta-e-clica. Com o substrato definido, o próximo problema a ser resolvido era: como representar a informação de tal modo que todos que tivessem acesso a este espaço informacional. Não precisamos ir muito longe para isso. Basta criar uma linguagem comum. E qual seria esta? O HTML, ou, para os não iniciados, Hypertext Markup Language. Linguagem baseada num outro sistema desenvolvido para compatibilizar os vários formatos de arquivos então existentes nos editores de texto, o HTML partia do pressuposto que uma boa sintaxe resolveria todos os problemas de representação da informação na tela, um pouco seguindo a idéia expressa na linha gerativa da lingüística e da tecnologia computacional existente na época. A sintaxe resolveria todos os problema da linguagem. Esqueceram do texto. Das estruturas maiores do que a sentença e da explosão exponencial que ela permite. Passos do percurso, que hoje a teoria autolexical e a teoria do centramento vêm tentando resolver. 1. Representação do conhecimento A forma mais básica de representação do conhecimento é o texto propriamente dito. Uma pessoa possui uma determinada informação, que ela deseja comunicar a outros, e utilizando a linguagem natural, o papel e a tinta, ela concretiza esta comunicação. A criação de modelos é uma outra. Ainda outra é criar metalinguagens. E este foi o meio encontrado pelos fabricantes de browsers para resolver o problema de como representar um texto utilizando-se texto (palavras reservadas). A linguagem de marcação da qual o HTML se originou foi o SGML (Standard Generalized Markup Language)1 Por ser muito complexa não foi adotada como padrão para a internet. A necessidade de uma linguagem de marcação de texto que fosse simples e permitisse a criação de links fez do HTML a linguagem que os criadores de documentos para a internet tiveram como recurso. Mas ela não cobria todas as necessidades dos usuários. E até hoje não cobre. Nesta linguagem o criador do documento não pode definir suas próprias marcas de texto, ‘tags’, este é o nome técnico dado. As marcas do HTML são o que chamamos de palavras reservadas numa linguagem de programação. São palavras que contém uma semântica no qual o interpretador da linguagem usa para dar o efeito que queremos que apareça no texto. Exemplo: <a href=“cadastro.html”>Cadastro</a> Esta “tag” ‘<a href=...>’ define um link para um arquivo, uma página, que tem como localizador o nome ‘cadastro.html’. A tag ‘</a>’ fecha a tag ‘<a href=...>’. Outra limitação é que por ser extremamente simples ela não permitia a criação de documentos que fossem atualizados dinamicamente, ou seja, contivesse menus dinâmicos, que aparecessem quando a página já se encontrava construída na tela do usuário, etc. Assim, foi criado algumas extensões do HTML para cobrir estas falhas. O DHTML (Dynamic HTML) foi uma destas variantes. Apesar de permitir a criação de uma determinada movimentação na tela do usuário, não é uma linguagens que denominamos linguagem de metadados, ou seja, linguagem que permita a criação de outras ‘tags’ além das tags já predefinidas. Este já não é o caso do XML. 1 Para uma referência rápida, ver http://www.comciencia.br/reportagens/internet/net08.htm. 1202 WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS O XML (eXtensible Markup Language) permite a criação de ‘tags’ próprias. A criador do documento pode estabelecer qual o nome que marca o bloco. Duas regras são obrigatórias A primeira é que todo documento XML deve ter uma tag que incorpore todo o documento XML. E a segunda é que tendo sido definida uma marca, esta marca deverá ter uma outra marca, que chamamos de marca de fechamento, que tem o mesmo nome da marca de abertura iniciada com uma barra. Exemplo: <documento> <inicio_do_documento>Este é o início do documento.</inicio_do_documento> <corpo_do_documento>Este é o corpo do documento.</corpo_do_documento> <fim_do_documento>Este é a conclusão do documento.</fim_do_documento> </documento> A partir de agora, qualquer programa construído numa linguagem de programação pode usar estas tags e retirar de dentro delas o conteúdo do documento especificado pelas tags. Imagine que temos 50 documentos com estas tags do exemplo acima. Queremos conhecer todos os corpos de documento destes documentos. Bastaria construir um programa que escaneasse os 50 documentos e retirasse deles os textos compreendidos entre as tags ‘<corpo_do_documento>’ e ‘</corpo_do_documento>’. O que o XML permite ao criador do documento é criar uma estrutura arbitraria para seus documentos mas continua não dizendo nada sobre o que esta estrutura significa. ‘<corpo_do_documento>’ pode significar realmente o corpo de um documento como pode significar o nome de um registro de um banco de dados cujo nome é corpo_do_documento. Para realmente expressarmos o significado de um determinado conjunto de tags num documento XML qualquer, precisamos de utilizar uma outra ‘linguagem’. É o RDF (Resource Description Framework). É um conjunto de tuplas, cada uma contendo três objetos, tal como uma frase que contém um sujeito, verbo e objeto (SVO). O mais interessante é que utilizaremos o XML como metalinguagem para definirmos as frases ‘RDF’. Exemplo: <contato rdf:sobre="pedrocaetano"> <nome>Pedro Luiz Caetano Filho</nome> <funcao>Autor</funcao> <email>[email protected]</email> </contato> A estrutura acima é interpretada pelo usuário de acordo da seguinte forma. Feita uma pesquisa onde procuramos quais possíveis hipertextos poderiam conter uma cláusula contento a palavra ‘contato’, temos como retorno o objeto contato que se encontra na página ‘exemplo.org’. Especificando qual ‘tag’ queremos conhecer, receberemos como resultado o texto que se encontra entre as ‘tags’ que foram passadas como parâmetros. Sujeito doc.xml#pedrocaetano doc.xml#pedrocaetano doc.xml#pedrocaetano doc.xml#pedrocaetano Predicado http://www.w3.org/1999/02/12_rdf_sintax_ns#type http://exemplo.org#nome http://exemplo.org#funcao http://exemplo.org#email Objeto http://exemplo.org/contato “Pedro Luiz Caetano Filho” “Autor” “[email protected]” Coisa conhecida para um lingüista esta estrutura. Esta estrutura um caminha natural para descrever a maioria dos dados processados por uma máquina. Sujeito e objeto são identificados por um URI (Universal Resource Identifier – um identificador universal de recurso) tal qual um link na página da web. Os verbos também são identificados por URIs o que permite a qualquer um definir um novo conceito. Utilizando uma URI para cada conceito especifico resolve o problema de vários significados para uma palavra. Cada significada da palavra é uma URI diferente. Ainda nos resta um problema a resolver. O da utilização de cada conceito por entidades diferentes como o mesmo significado. A situação exemplo é a seguinte: imagine uma empresa que utilize a palavra ‘cliente’ no sentido de ‘consignatário’, pois todos seus clientes são pessoas que colocam em consignação seus produtos para ele vender e outra empresa que utiliza a palavra ‘cliente’ para designar todos aqueles que compram produtos fabricados por ela mesma. Aqui temos o uso da palavra ‘cliente’ com dois significados diferentes e também com duas ontologias diferentes. Duas idéias completamente diferentes uma da outra. Como resolver isso. Criando-se ontologias. Uma ontologia é o modo de se criar categorias que são perenes no tempo e são interpretadas do mesmo modo por diferentes estruturas e ambientes. É o conceito Pedro Luiz CAETANO Filho 1203 filosófico de ontologia. Para se criar ontologias, somente XML e RDF não são mais suficientes. O XML permite que uma unidade semântica (nome = <nome></nome> dentro de uma estrutura sintática <pessoa></pessoa> e dentro de outra estrutura sintática <autor></autor>) seja criada em mais de uma estrutura sintática. E XML e RDF juntos não resolvem a ambigüidade. Nestas duas linguagens axiomas, condições e restrições não podem ser especificadas. Por isso a necessidade das ontologias. Existem hoje duas novas propostas de linguagens: 1. OIL (Ontology Inference Layer); and 2. DAML+OIL (DARPA Agent Markup Language + OIL). As duas estendem o esquema RDF com um conjunto de primitivas que permitem a representação de expressões boleanas, axiomas e restrições nas propriedades do documento. A idéia é de que a semântica destas linguagens permita mapear as declarações RDF numa teoria lógica particular. A semântica utilizada em OIL é baseada numa tradução em SHIQ. Já DAML+OIL é baseada em KIF (Knowledge Interchange Format). Uma linguagem desenvolvida para intercâmbio do conhecimento e baseada na lógica de predicados de primeira ordem. Apesar de toda a complicação isto é transparente para quem escreve um texto. Isto se torna aparente quando a decisão de colocar o texto na internet aparece e quando queremos escrever hipertextos e não mais textos. Nesta árdua tarefa existem já algumas ferramentas que nos ajudam a automatizar um pouco este trabalho. Mas a coerência e a coesão na criação da rede hipertextual, como diria Lúcia leão, do labirinto, depende do escritor. 2. WEB semântica, centramento e teoria autolexical A primeira pergunta que nós nos fazemos é: o que tem a ver centramento com teoria autolexical com web semântica. Não é um pouco uma misturada muito grande, para talvez não chegarmos a nada? Estas teorias ajudam a resolver alguns problemas que encontramos hoje em dia na web. Todos aqueles que escrevem hoje para a web encontram-se limitados porque ainda não encontraram um suporte teórico-operacional que os ajude a realmente escrever um hipertexto e não um texto que será colocado na web. Mas quais são estes problemas. Basicamente, são: 1. geração automática de documentos (Perkowitz e Etzioni, 1997); 2. busca da informação; 3. extração da informação; 4. manutenção das páginas (hipertextos). Antes de entramos nos detalhes de um texto escrito utilizando estas idéias temos que saber do que se cada uma destas teorias tratam. O que é a teoria do centramento? A teoria propõe o seguinte: 1. Dado um enunciado Un, o modelo prevê qual será o foco no enunciado Un-1. 2. Quando o foco local é mantido entre enunciados, o modelo prevê que o foco será expresso através de um pronome. 3. Quando um pronome é encontrado, o modelo provê a ordem de preferência sobre os possíveis antecedentes de um enunciado anterior. As seguintes estruturas de dados são usadas: 1. Uma lista parcialmente ordenada de centros ‘forward-looking’ (Cfn) que inclui todas as entidades discursivas no enunciado Un. O primeiro elemento da lista é o ‘centro preferido’ (Cpn). 2. Os centros ‘backward-looking’ (Cbn), o maior elemento do ranking da lista Cfn-1 que está em Cfn. O sistema define uma ordem de preferência quando da troca de tópico. As transições são chamadas de ‘shift’, ‘retain’ e ‘continue’ e diferem baseado nas condições Cbn = Cbn-1 e Cbn = Cpn. No centro da teoria existem duas regras de centramento: Regra 1: Se um membro de Cfn é definido por um pronome em Cfn+1, então Cbn+1 deve ser um pronome. Regra 2: Seqüências de ‘continues’ são preferidas às seqüências de ‘retains’ que são preferidas às seqüências de ‘shifts’. Qual o modelo por trás da teoria do centramento? Dois modelos dão embasamento a esta teoria. O primeiro deles é o modelo em pilha (Grosz et alli, 1995) e o modelo ‘cache’ (Walker, 1994). O primeiro utiliza como estrutura de dados a pilha para empilhar ou desempilhar os focos, ou centros, de um discurso ou texto. O segundo utiliza uma estrutura de dados, a lista, substituindo a pilha. Todos os dois se baseiam nos conceitos de memória de curto termo 1204 WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS (cachê), memória de médio termo (memória de trabalho) e memória de longo termo. Diferenças significativas aparecem entre os dois quanto a sua operacionalização. A utilização da estrutura de dados lista permite uma flexibilização muito maior quando do momento de mudança de foco. Em um, precisamos desempilhar o contexto até então em foco para recuperarmos o foco anterior, ou criar várias pilhas em paralelo, cada uma com um foco diferente e procurarmos em qual pilha se encontra o contexto do foco que queremos recuperar e, no outro, a recuperação se faz pelo acesso à memória de trabalho. Do ponto de vista teórico não tem grandes mudanças, mas do ponto de vista da operacionalização do processo, a segunda estrutura é muito mais facilmente gerenciável. O que é basicamente a teoria lexical? A gramática autolexical, como é conhecida nos meios mais técnicos, é uma variante da gramática gerativa não-transformacional, não derivacional no qual um sistema autônomo de regras caracteriza as várias direções do texto. O modelo requer um lexicon (dicionário – definições das palavras e suas propriedades) e uma grammar (gramática – um conjunto de regras). Ela é não derivacional porque os componentes que a compõem são estáticos. Estes componentes tem o nome de dimensões dentro da teoria. A dimensão é uma perspectiva na organização da informação contida numa expressão lingüística. Cada dimensão é independente da outra. A diferença em relação a outras gramáticas, como por exemplo, a gramática de Montague, é que ela reconhece mais de um nível estrutural e é similar, neste aspecto, à gramática transformacional. Os principais conceitos que existem nesta teoria são: 1. Modularidade 2. Tipos de informação. São basicamente de três tipos. São eles: 2.1. Hierarquias (hierarchies) – é um conjunto ordenado de valores. Ela contém valores (values) que passam em todas as dimensões e possibilitando através da interface a ligação entre as dimensões. Como dito acima as dimensões são independentes uma das outras. O que faz a ligação entre elas é a hierarquia. 2.1.2. Categorias (categories) – são hierarquias com um conjunto desordenado de valores. 2.2. Dimensões (dimensions) – método que a teoria estabeleceu para dividir o texto em vários segmentos manipuláveis. 2.3. Interface (interface) – é a interseção de cada dimensão. É onde as representações do texto são comparadas e onde o lexicon tem todas as informações sobre as palavras e outros elementos lingüísticos. 3. Dimensões: uma dimensão é como a informação contida numa expressão lingüística é organizada. Uma expressão lingüística pode ser analisada estruturalmente de uma série de pontos de vista. Normalmente, lingüistas se concentram somente num aspecto da expressão lingüística, por exemplo, semântica. Na teoria os seguintes pontos de vista são levados em conta: 3.1. Sintaxe (syntax) – dimensão que considera como as unidades estão combinadas para se formar frases. 3.2. Lógico-semântico (logico-semantics) – dimensão que representa a forma lógica do texto. Aqui as unidades são categorizadas pelo tipo lógico. Por tipo lógico entende-se formula, propriedade, operador, quantificador e variável. 3.3. Morfosintático (morphosintax) – dimensão que representa a estrutura interna das palavras. 3.4. Morfofonológico (morphophonology) – dimensão que representa a estrutura interna das palavras do ponto de vista fonológico. 3.5. Discurso (discourse) – dimensão que incorpora todos os aspectos relativos à estrutura discursiva de um enunciado ou texto. Dentre os aspectos levados em consideração estão, por exemplo, responsabilidade do falante, tópico, foco, etc. Mecanismos para lidar com anáfora e entonação fazem também parte desta dimensão. Como, então, a teoria do centramento (Walker, 1994) se encaixa com o modelo autolexical (Schiller, 1997)? Através da dimensão discursiva da teoria autolexical e da lista de centros da teoria do centramento. Existe uma interseção destas duas teorias. O que nos leva a crer que o texto pode ser trabalhado por dois métodos diferentes. Qual a ligação da teoria do centramento com a web semântica? O espaço informacional torna-se espaço de referenciação. Os centros são os referentes do texto, o foco, e as listas de centro construídas durante a execução do processo são as possíveis cadeias anafóricas. Neste momento links podem ser criados baseando nos centros. A partir deste momento um link não é mais um localizador de informação mas um identificador de objetos no espaço discursivo, isto é, no Pedro Luiz CAETANO Filho 1205 espaço da web, e é transformado num elemento de referência modificando modo como vemos e lemos o que se encontra diante de nós na tela. A partir de agora não lidamos mais com simples endereços, mas objetos de um espaço discursivo. A ligação da teoria autolexical com a web semântica passa pela categorização e contextualização. As ontologias podem ser criadas a partir da análise do hipertexto quando objetos do contexto do discurso são definidos. E qual é a influência destas ligações para a escrita do texto e para o autor. Um texto é um espaço discursivo inserido num contexto. O mesmo é válido para um hipertexto. Escrever e ler um hipertexto são processos diferentes, pois o mapeamento cognitivo exigido é diferente. Tanto ler como escrever é hipertextual, mas o modo como concretizamos a escrita nem sempre é hipertextual. O que nos permitiria a teoria lexical é resolver os problemas de busca e extração de informações na web e na geração automática de páginas. A teoria do centramento permitiria a análise do texto, gerando através dos centros, hiperlinks potenciais e redes hipertextuais conjugadas com o contexto criado pela teoria autolexical. Tags XML criariam a marcação dentro do texto dos centros e tópicos e as declarações RDF ligariam as definições semânticas dos centros e redes hipertextuais. Com isso escrever seria lápis, papel, análise do texto e definição do hipertexto. Agora não mais um texto com links simplesmente, mais com links que fazem sentido, economizam tempo e que podem ser lidos na web. Para finalizar vejamos um exemplo e suas diferenças com texto do qual o retirei. XML foi usado para definir os objetos que achei importante quando de uma busca na web sobre centramento. Não defini aqui as declarações RDF que devem acompanhá-lo para termos um hipertexto dentro dos moldes da web semântica. <centramento> O que é a teoria do centramento? A teoria propõe o seguinte: <teoria_centramento> 1. Dado um enunciado U n, o modelo prevê qual será o foco no enunciado U n-1. 2. Quando o foco local é mantido entre enunciados, o modelo prevê que o foco será expresso através de um pronome. 3. Quando um pronome é encontrado, o modelo provê a ordem de preferência sobre os possíveis antecedentes de um enunciado anterior. </teoria_centramento> As seguintes estruturas de dados são usadas: <estruturadados_centramento> 1. Uma lista parcialmente ordenada de centros ‘forward-looking’ (Cfn) que inclui todas as entidades discursivas no enunciado Un. O primeiro elemento da lista é o ‘centro preferido’ (Cpn). 2. Os centros ‘backward-looking’ (Cbn), o maior elemento do ranking da lista Cfn-1 que está em Cfn. </estruturadados_centramento> <transicoes_centramento> O sistema define uma ordem de preferência quando da troca de tópico. As transições são chamadas de ‘shift’, ‘retain’ e ‘continue’ e diferem baseado nas condições Cbn = Cbn-1 e Cbn = Cpn. </transicoes_centramento> No centro da teoria existem duas regras de centramento: <regras_centramento> Regra 1: Se um membro de Cfn é definido por um pronome em Cfn+1, então Cbn+1 deve ser um pronome. Regra 2: Seqüências de ‘continues’ são preferidas às seqüências de ‘retains’ que são preferidas às seqüências de ‘shifts’. </regras_centramento> Qual o modelo por trás da teoria do centramento? <modelos_centramento> Dois modelos dão embasamento a esta teoria. O primeiro deles é o modelo em pilha (Grosz et alli, 1995) e o modelo ‘cache’ (Walker, 1994). O primeiro utiliza como estrutura de dados a pilha para empilhar ou desempilhar os focos, ou centros, de um discurso ou texto. O segundo utiliza uma estrutura de dados, a lista, substituindo a pilha. Todos os dois se baseiam nos conceitos de memória de curto 1206 WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS termo (cachê), memória de médio termo (memória de trabalho) e memória de longo termo. Diferenças significativas aparecem entre os dois quanto a sua operacionalização. A utilização da estrutura de dados lista permite uma flexibilização muito maior quando do momento de mudança de foco. Em um, precisamos desempilhar o contexto até então em foco para recuperarmos o foco anterior, ou criar várias pilhas em paralelo, cada uma com um foco diferente e procurarmos em qual pilha se encontra o contexto do foco que queremos recuperar e, no outro, a recuperação se faz pelo acesso à memória de trabalho. Do ponto de vista teórico não tem grandes mudanças, mas do ponto de vista da operacionalização do processo, a segunda estrutura é muito mais facilmente gerenciável. </modelos_centramento> </centramento> 4. Conclusão Não podemos nos esquecer do ponto de vista da web semântica. Qual seja: o de que ela serve somente como um mecanismo que fornece informações que as máquinas possam entender e processar, permitindo-as comunicar-se entre si. Por isso a necessidade de haver uma concordância entre os personagens que atuam sobre ela da sintaxe e a da semântica a serem utilizadas antes de a operacionalizarem. O que isso nos proporciona, do meu ponto de vista, como estudante de lingüística do texto, é uma tecnologia que permite às máquinas extraírem sentido das informações encontradas na internet, resultando numa web mais útil para os seres humanos. Daí toda a problemática de se estruturar e escrever textos para este ambiente. Eles devem permitir a estas mesmas máquinas auxiliarem-nos, nós leitores, a construirmos sentido nesta massa disforme que hoje temos de informação publicada e publicável. O que temos como certo é que o ferramental teórico necessário para realizarmos mais esta façanha existe. Tanto do ponto de vista informático quanto do ponto de vista lingüístico. A utilização adequada só o futuro dirá. Como próximo passo poderíamos vislumbrar um estudo de corpora do texto. Mas isso fica para uma outra vez. RESUMO: Do texto, como nós o concebemos hoje, ao hipertexto. Da escrita com lápis e papel à escrita com XML e RDF. Dos centros ao contexto. Do centramento na construção e análise das cadeias anafóricas e da gramática autolexical para a criação do contexto no hipertexto. PALAVRAS-CHAVE: Web Semântica; Teoria do Centramento; Teoria autolexical; lingüística; hipertexto. REFERÊNCIAS BIBLIOGRÁFICAS BERNERS-LEE, T. WorldWideWeb: Proposal for a hypertext project. Technical Report, CERN, 1990. <http://info.cern.ch/hypertext/WWW/Proposal.html>. BERNERS-LEE, T. Semantic web road map. <http://www.w3.org/DesignIssues/Semantic.html>. Cited: 14 Out. 1998. DUMBILL, E. The Semantic Web: a primer. O’Reilly and Associates, Inc. Available from Internet: <http://www.xml.com/pub/a/2000/11/01/semanticweb/index.html>. Cited: 1 Nov. 2000 GROSZ, Barbara J., JOSHI, Aravind K. e WEINSTEIN, Scott. Centering: a framework for modeling the local coherence of discourse. Computational Linguistics 21(2), pp. 203-225, Junho 1995. SCHILLER, Eric (1997-99). Introduction to Autolexical Grammar. Published on the Internet by Linguistics Unlimited, Moss Beach CA. <http://www.chessworks.com/ling/papers/autolexical.htm>. Cited: 15 Out. 2002 WALKER, Marilyn A., Centering, Anaphora Resolution, and Discourse Structure. ATT Labs Research (Referência incompleta).