Anais do 5º Encontro do Celsul, Curitiba-PR, 2003 (1200-1206)
WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS
Pedro Luiz CAETANO Filho (Faculdade de Letras da Universidade Federal de Minas Gerais)
ABSTRACT: From text, as we conceive it today, to hypertext. From writing with pencil and paper to
writing with XML and RDF. From centers to context, from centering in the construction and analysis of
anaphoric chains and from autolexical grammar to create context in a hypertext.
KEYWORDS: Semantic Web; Centering theory; autolexical theory; linguistics; hypertext.
0. Introdução
No início era o verbo. E o verbo virou letra. De letra virou palavra. De palavras, texto. De texto
virou hipertexto. Nesta hierarquia? Tenho minhas dúvidas. Estou mais inclinado a pensar que foi numa
rede que tudo isso se misturou e se criou. Tal qual o mundo. Feito em sete dias. Numa certa ordem sim,
mas numa ordem imposta mais pela necessidade do que pela perfeição do gesto da criação. Com o verbo
criamos regras. A gramática, a forma. E, com ela, o sentido, o conteúdo. Por vezes pensamos que
poderíamos passar sem a segunda parte do todo, mas não conseguimos. As duas vão de mãos dadas e de
par.
Com a internet foi a mesma coisa. No começo tínhamos a forma, e com ela, nenhum sentido, a não
ser aquele construído pelo leitor quando da navegação ou das buscas, por vezes infrutíferas, através dos
mecanismos de busca existentes. Hoje, estamos tentando criar, junto com a forma, o sentido, o conteúdo.
É nesta idéia que a WEB semântica se insere e cria novas possibilidades de texto.
Mas o que é na realidade a WEB semântica?
A definição dada por Berners-Lee (1998) é: “a web semântica é uma rede de dados, num certo
sentido, igual a um banco de dados global”. Para ele o foco não é de fazer a máquina se comportar como
um ser humano na busca e na construção do sentido da informação, mas é criar conteúdos que a máquina
possa entender e interpretar, desse modo, possibilitando à máquina auxiliar o ser humano na criação de
novos conteúdos textuais. A idéia é de fazer da máquina um auxiliar na tarefa de gerenciar e manipular os
conteúdos textuais, objetivo pelo qual ela foi construída. E não substituir o ser humano como certas
vertentes da inteligência artificial propuseram e propõem.
Uma outra definição é: meta-linguagem que “define classes, propriedades e sua interelação e, não
mais uma sintaxe, que opera diretamente no nível do modelo de dados e, não mais no nível da sintaxe,
permitindo às máquinas (o computador) fazer inferências sobre os dados coletados da web” (Dumbill,
2000), com o objetivo de facilitar a interação homem-máquina, partindo do princípio de que se a máquina
pode fazer inferências a partir dos conteúdos que encontramos na web, ela pode auxiliar o ser humano na
busca e na criação de novos conteúdos.
Das definições dadas acima podemos intuir que a escrita de um hipertexto em nada se assemelhará
à escrita de um texto como fazemos hoje. O processo é diferente. E não será a transformação de um texto
em papel em um texto eletrônico que resolverá o problema. Nem será porque colocamos links num texto
que poderemos chamá-lo de hipertexto. Aliás, hoje em dia temos a tendência a chamarmos tudo que
possui link como hipertexto. Neste caso um texto em papel é também um hipertexto. E não é bem este o
caso. O termo hipertexto foi cunhado por Ted Nelson em 1965 para descrever um conceito fundamental
do seu projeto Xanadu, qual seja, o de que todo o conhecimento humano armazenado será acessível de
forma simples. Através do quê? De links. Este acesso permitiria a uma pessoa seguir mais uma linha de
pensamento do que um só argumento. Isto significa, na leitura de um texto, caberia ao leitor expandir sua
visão, acessando outros textos, que teriam a mesma visão do texto sendo lido, como outras visões mais
sutis, ou mesmo contrárias. O conceito está mais para uma coleção de textos colocados juntos do que de
um texto que referência outros. Em resumo, apesar da digressão imposta aos leitores, é muito importante
termos em mente que quando falamos de texto, estamos falando de um conjunto de informações fechadas
num todo, que referência outros textos através de notas, referências bibliográficas, etc., mas que não traz
junto com ele todos os outros textos a qual o texto primeiro fez referências, etc.
Esta idéia primeiramente apareceu num programa chamado Hypercard num Apple Macintosh. Era
um programa que trabalhava com o conceito de pilha, onde através de cartões que iam sendo colocados
na pilha construíamos todo um espaço informacional, como hoje vemos na web. Único detalhe deste
programa é que ele era para um único usuário numa única máquina.
É na convergência das idéias internet, interfaces gráficas e distribuição das informações que surge
a web.
Pedro Luiz CAETANO Filho
1201
O termo Web, formalmente conhecido como WorldWideWeb – www, apareceu em 1990 (BernersLee) para descrever um sistema de informações desenvolvido para a comunidade da física de alta energia
no CERN (Centre Européenne pour la Recherche Nucléaire). Composto por dois programas que
interagem para se criar o substrato que chamamos de ciberespaço, de um lado o servidor (server) e do
outro o cliente (browser), o objetivo era permitir acesso a uma determinada comunidade dispersa por um
espaço geográfico grande, acesso e troca de informações sobre física de partículas.
O que diferenciou a web, de outros serviços e protocolos gerenciadores destes serviços, foi que
esta nova forma de visualizar e manipular a informação não necessitava de conhecimentos específicos de
informática nem a utilização de comandos esotéricos para um não iniciado, e permitia, além disso,
gráficos, sons e vídeos, criando novas possibilidades. Até um novo termo foi criado para diferenciar
textos que traziam estas novas características incorporadas, hipermídia.
Do lado do servidor, o novo protocolo que gerencia a web é o HTTP (HyperText Transfer
Protocol). Estas quatro letrinhas mesmo que aparece antes do endereço que damos para localizarmos o
arquivo que queremos descarregar da internet ou que queremos ler na tela e que começa, salvo algumas
poucas exceções, com www.algumacoisa.com.
Do lado do cliente apareceram os browsers, estes programas famosos que conhecemos hoje. O que
iniciou a revolução, e que foi o precursor para a Netscape e a Microdoft, foi o Mosaic. Este browser
reproduziu na web o que as interfaces gráficas já tinham feito nos microcomputadores, o aponta-e-clica.
Com o substrato definido, o próximo problema a ser resolvido era: como representar a informação
de tal modo que todos que tivessem acesso a este espaço informacional. Não precisamos ir muito longe
para isso. Basta criar uma linguagem comum. E qual seria esta? O HTML, ou, para os não iniciados,
Hypertext Markup Language.
Linguagem baseada num outro sistema desenvolvido para compatibilizar os vários formatos de
arquivos então existentes nos editores de texto, o HTML partia do pressuposto que uma boa sintaxe
resolveria todos os problemas de representação da informação na tela, um pouco seguindo a idéia
expressa na linha gerativa da lingüística e da tecnologia computacional existente na época. A sintaxe
resolveria todos os problema da linguagem. Esqueceram do texto. Das estruturas maiores do que a
sentença e da explosão exponencial que ela permite. Passos do percurso, que hoje a teoria autolexical e a
teoria do centramento vêm tentando resolver.
1. Representação do conhecimento
A forma mais básica de representação do conhecimento é o texto propriamente dito. Uma pessoa
possui uma determinada informação, que ela deseja comunicar a outros, e utilizando a linguagem natural,
o papel e a tinta, ela concretiza esta comunicação. A criação de modelos é uma outra. Ainda outra é criar
metalinguagens. E este foi o meio encontrado pelos fabricantes de browsers para resolver o problema de
como representar um texto utilizando-se texto (palavras reservadas).
A linguagem de marcação da qual o HTML se originou foi o SGML (Standard Generalized
Markup Language)1 Por ser muito complexa não foi adotada como padrão para a internet. A necessidade
de uma linguagem de marcação de texto que fosse simples e permitisse a criação de links fez do HTML a
linguagem que os criadores de documentos para a internet tiveram como recurso. Mas ela não cobria
todas as necessidades dos usuários. E até hoje não cobre. Nesta linguagem o criador do documento não
pode definir suas próprias marcas de texto, ‘tags’, este é o nome técnico dado. As marcas do HTML são o
que chamamos de palavras reservadas numa linguagem de programação. São palavras que contém uma
semântica no qual o interpretador da linguagem usa para dar o efeito que queremos que apareça no texto.
Exemplo: <a href=“cadastro.html”>Cadastro</a>
Esta “tag” ‘<a href=...>’ define um link para um arquivo, uma página, que tem como localizador o
nome ‘cadastro.html’. A tag ‘</a>’ fecha a tag ‘<a href=...>’.
Outra limitação é que por ser extremamente simples ela não permitia a criação de documentos que
fossem atualizados dinamicamente, ou seja, contivesse menus dinâmicos, que aparecessem quando a
página já se encontrava construída na tela do usuário, etc. Assim, foi criado algumas extensões do HTML
para cobrir estas falhas. O DHTML (Dynamic HTML) foi uma destas variantes. Apesar de permitir a
criação de uma determinada movimentação na tela do usuário, não é uma linguagens que denominamos
linguagem de metadados, ou seja, linguagem que permita a criação de outras ‘tags’ além das tags já
predefinidas. Este já não é o caso do XML.
1
Para uma referência rápida, ver http://www.comciencia.br/reportagens/internet/net08.htm.
1202
WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS
O XML (eXtensible Markup Language) permite a criação de ‘tags’ próprias. A criador do
documento pode estabelecer qual o nome que marca o bloco. Duas regras são obrigatórias A primeira é
que todo documento XML deve ter uma tag que incorpore todo o documento XML. E a segunda é que
tendo sido definida uma marca, esta marca deverá ter uma outra marca, que chamamos de marca de
fechamento, que tem o mesmo nome da marca de abertura iniciada com uma barra.
Exemplo: <documento>
<inicio_do_documento>Este é o início do documento.</inicio_do_documento>
<corpo_do_documento>Este é o corpo do documento.</corpo_do_documento>
<fim_do_documento>Este é a conclusão do documento.</fim_do_documento>
</documento>
A partir de agora, qualquer programa construído numa linguagem de programação pode usar estas
tags e retirar de dentro delas o conteúdo do documento especificado pelas tags. Imagine que temos 50
documentos com estas tags do exemplo acima. Queremos conhecer todos os corpos de documento destes
documentos. Bastaria construir um programa que escaneasse os 50 documentos e retirasse deles os textos
compreendidos entre as tags ‘<corpo_do_documento>’ e ‘</corpo_do_documento>’. O que o XML
permite ao criador do documento é criar uma estrutura arbitraria para seus documentos mas continua não
dizendo nada sobre o que esta estrutura significa.
‘<corpo_do_documento>’ pode significar realmente o corpo de um documento como pode
significar o nome de um registro de um banco de dados cujo nome é corpo_do_documento.
Para realmente expressarmos o significado de um determinado conjunto de tags num documento
XML qualquer, precisamos de utilizar uma outra ‘linguagem’. É o RDF (Resource Description
Framework). É um conjunto de tuplas, cada uma contendo três objetos, tal como uma frase que contém
um sujeito, verbo e objeto (SVO). O mais interessante é que utilizaremos o XML como metalinguagem
para definirmos as frases ‘RDF’.
Exemplo: <contato rdf:sobre="pedrocaetano">
<nome>Pedro Luiz Caetano Filho</nome>
<funcao>Autor</funcao>
<email>[email protected]</email>
</contato>
A estrutura acima é interpretada pelo usuário de acordo da seguinte forma. Feita uma pesquisa
onde procuramos quais possíveis hipertextos poderiam conter uma cláusula contento a palavra ‘contato’,
temos como retorno o objeto contato que se encontra na página ‘exemplo.org’. Especificando qual ‘tag’
queremos conhecer, receberemos como resultado o texto que se encontra entre as ‘tags’ que foram
passadas como parâmetros.
Sujeito
doc.xml#pedrocaetano
doc.xml#pedrocaetano
doc.xml#pedrocaetano
doc.xml#pedrocaetano
Predicado
http://www.w3.org/1999/02/12_rdf_sintax_ns#type
http://exemplo.org#nome
http://exemplo.org#funcao
http://exemplo.org#email
Objeto
http://exemplo.org/contato
“Pedro Luiz Caetano Filho”
“Autor”
“[email protected]”
Coisa conhecida para um lingüista esta estrutura. Esta estrutura um caminha natural para descrever
a maioria dos dados processados por uma máquina. Sujeito e objeto são identificados por um URI
(Universal Resource Identifier – um identificador universal de recurso) tal qual um link na página da web.
Os verbos também são identificados por URIs o que permite a qualquer um definir um novo conceito.
Utilizando uma URI para cada conceito especifico resolve o problema de vários significados para uma
palavra. Cada significada da palavra é uma URI diferente.
Ainda nos resta um problema a resolver. O da utilização de cada conceito por entidades diferentes
como o mesmo significado. A situação exemplo é a seguinte: imagine uma empresa que utilize a palavra
‘cliente’ no sentido de ‘consignatário’, pois todos seus clientes são pessoas que colocam em consignação
seus produtos para ele vender e outra empresa que utiliza a palavra ‘cliente’ para designar todos aqueles
que compram produtos fabricados por ela mesma. Aqui temos o uso da palavra ‘cliente’ com dois
significados diferentes e também com duas ontologias diferentes. Duas idéias completamente diferentes
uma da outra.
Como resolver isso. Criando-se ontologias. Uma ontologia é o modo de se criar categorias que são
perenes no tempo e são interpretadas do mesmo modo por diferentes estruturas e ambientes. É o conceito
Pedro Luiz CAETANO Filho
1203
filosófico de ontologia. Para se criar ontologias, somente XML e RDF não são mais suficientes. O XML
permite que uma unidade semântica (nome = <nome></nome> dentro de uma estrutura sintática
<pessoa></pessoa> e dentro de outra estrutura sintática <autor></autor>) seja criada em mais de uma
estrutura sintática. E XML e RDF juntos não resolvem a ambigüidade. Nestas duas linguagens axiomas,
condições e restrições não podem ser especificadas. Por isso a necessidade das ontologias.
Existem hoje duas novas propostas de linguagens:
1. OIL (Ontology Inference Layer); and
2. DAML+OIL (DARPA Agent Markup Language + OIL).
As duas estendem o esquema RDF com um conjunto de primitivas que permitem a representação
de expressões boleanas, axiomas e restrições nas propriedades do documento. A idéia é de que a
semântica destas linguagens permita mapear as declarações RDF numa teoria lógica particular. A
semântica utilizada em OIL é baseada numa tradução em SHIQ. Já DAML+OIL é baseada em KIF
(Knowledge Interchange Format). Uma linguagem desenvolvida para intercâmbio do conhecimento e
baseada na lógica de predicados de primeira ordem.
Apesar de toda a complicação isto é transparente para quem escreve um texto. Isto se torna
aparente quando a decisão de colocar o texto na internet aparece e quando queremos escrever hipertextos
e não mais textos. Nesta árdua tarefa existem já algumas ferramentas que nos ajudam a automatizar um
pouco este trabalho. Mas a coerência e a coesão na criação da rede hipertextual, como diria Lúcia leão, do
labirinto, depende do escritor.
2. WEB semântica, centramento e teoria autolexical
A primeira pergunta que nós nos fazemos é: o que tem a ver centramento com teoria autolexical
com web semântica. Não é um pouco uma misturada muito grande, para talvez não chegarmos a nada?
Estas teorias ajudam a resolver alguns problemas que encontramos hoje em dia na web. Todos
aqueles que escrevem hoje para a web encontram-se limitados porque ainda não encontraram um suporte
teórico-operacional que os ajude a realmente escrever um hipertexto e não um texto que será colocado na
web.
Mas quais são estes problemas. Basicamente, são:
1. geração automática de documentos (Perkowitz e Etzioni, 1997);
2. busca da informação;
3. extração da informação;
4. manutenção das páginas (hipertextos).
Antes de entramos nos detalhes de um texto escrito utilizando estas idéias temos que saber do que
se cada uma destas teorias tratam.
O que é a teoria do centramento?
A teoria propõe o seguinte:
1. Dado um enunciado Un, o modelo prevê qual será o foco no enunciado Un-1.
2. Quando o foco local é mantido entre enunciados, o modelo prevê que o foco será expresso
através de um pronome.
3. Quando um pronome é encontrado, o modelo provê a ordem de preferência sobre os
possíveis antecedentes de um enunciado anterior.
As seguintes estruturas de dados são usadas:
1. Uma lista parcialmente ordenada de centros ‘forward-looking’ (Cfn) que inclui todas as
entidades discursivas no enunciado Un. O primeiro elemento da lista é o ‘centro preferido’
(Cpn).
2. Os centros ‘backward-looking’ (Cbn), o maior elemento do ranking da lista Cfn-1 que está em
Cfn.
O sistema define uma ordem de preferência quando da troca de tópico. As transições são chamadas
de ‘shift’, ‘retain’ e ‘continue’ e diferem baseado nas condições Cbn = Cbn-1 e Cbn = Cpn.
No centro da teoria existem duas regras de centramento:
Regra 1: Se um membro de Cfn é definido por um pronome em Cfn+1, então Cbn+1 deve ser um
pronome.
Regra 2: Seqüências de ‘continues’ são preferidas às seqüências de ‘retains’ que são preferidas às
seqüências de ‘shifts’.
Qual o modelo por trás da teoria do centramento?
Dois modelos dão embasamento a esta teoria. O primeiro deles é o modelo em pilha (Grosz et alli,
1995) e o modelo ‘cache’ (Walker, 1994). O primeiro utiliza como estrutura de dados a pilha para
empilhar ou desempilhar os focos, ou centros, de um discurso ou texto. O segundo utiliza uma estrutura
de dados, a lista, substituindo a pilha. Todos os dois se baseiam nos conceitos de memória de curto termo
1204
WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS
(cachê), memória de médio termo (memória de trabalho) e memória de longo termo. Diferenças
significativas aparecem entre os dois quanto a sua operacionalização. A utilização da estrutura de dados
lista permite uma flexibilização muito maior quando do momento de mudança de foco. Em um,
precisamos desempilhar o contexto até então em foco para recuperarmos o foco anterior, ou criar várias
pilhas em paralelo, cada uma com um foco diferente e procurarmos em qual pilha se encontra o contexto
do foco que queremos recuperar e, no outro, a recuperação se faz pelo acesso à memória de trabalho. Do
ponto de vista teórico não tem grandes mudanças, mas do ponto de vista da operacionalização do
processo, a segunda estrutura é muito mais facilmente gerenciável.
O que é basicamente a teoria lexical?
A gramática autolexical, como é conhecida nos meios mais técnicos, é uma variante da gramática
gerativa não-transformacional, não derivacional no qual um sistema autônomo de regras caracteriza as
várias direções do texto.
O modelo requer um lexicon (dicionário – definições das palavras e suas propriedades) e uma
grammar (gramática – um conjunto de regras). Ela é não derivacional porque os componentes que a
compõem são estáticos. Estes componentes tem o nome de dimensões dentro da teoria. A dimensão é uma
perspectiva na organização da informação contida numa expressão lingüística. Cada dimensão é
independente da outra. A diferença em relação a outras gramáticas, como por exemplo, a gramática de
Montague, é que ela reconhece mais de um nível estrutural e é similar, neste aspecto, à gramática
transformacional.
Os principais conceitos que existem nesta teoria são:
1. Modularidade
2. Tipos de informação. São basicamente de três tipos. São eles:
2.1. Hierarquias (hierarchies) – é um conjunto ordenado de valores. Ela contém valores
(values) que passam em todas as dimensões e possibilitando através da interface a ligação entre as
dimensões. Como dito acima as dimensões são independentes uma das outras. O que faz a ligação entre
elas é a hierarquia.
2.1.2. Categorias (categories) – são hierarquias com um conjunto desordenado de
valores.
2.2. Dimensões (dimensions) – método que a teoria estabeleceu para dividir o texto em
vários segmentos manipuláveis.
2.3. Interface (interface) – é a interseção de cada dimensão. É onde as representações do
texto são comparadas e onde o lexicon tem todas as informações sobre as palavras e outros elementos
lingüísticos.
3. Dimensões: uma dimensão é como a informação contida numa expressão lingüística é
organizada. Uma expressão lingüística pode ser analisada estruturalmente de uma série de pontos de vista.
Normalmente, lingüistas se concentram somente num aspecto da expressão lingüística, por exemplo,
semântica. Na teoria os seguintes pontos de vista são levados em conta:
3.1. Sintaxe (syntax) – dimensão que considera como as unidades estão combinadas para se
formar frases.
3.2. Lógico-semântico (logico-semantics) – dimensão que representa a forma lógica do
texto. Aqui as unidades são categorizadas pelo tipo lógico. Por tipo lógico entende-se formula,
propriedade, operador, quantificador e variável.
3.3. Morfosintático (morphosintax) – dimensão que representa a estrutura interna das
palavras.
3.4. Morfofonológico (morphophonology) – dimensão que representa a estrutura interna das
palavras do ponto de vista fonológico.
3.5. Discurso (discourse) – dimensão que incorpora todos os aspectos relativos à estrutura
discursiva de um enunciado ou texto. Dentre os aspectos levados em consideração estão, por exemplo,
responsabilidade do falante, tópico, foco, etc. Mecanismos para lidar com anáfora e entonação fazem
também parte desta dimensão.
Como, então, a teoria do centramento (Walker, 1994) se encaixa com o modelo autolexical
(Schiller, 1997)?
Através da dimensão discursiva da teoria autolexical e da lista de centros da teoria do centramento.
Existe uma interseção destas duas teorias. O que nos leva a crer que o texto pode ser trabalhado por dois
métodos diferentes.
Qual a ligação da teoria do centramento com a web semântica?
O espaço informacional torna-se espaço de referenciação. Os centros são os referentes do texto, o
foco, e as listas de centro construídas durante a execução do processo são as possíveis cadeias anafóricas.
Neste momento links podem ser criados baseando nos centros. A partir deste momento um link não é
mais um localizador de informação mas um identificador de objetos no espaço discursivo, isto é, no
Pedro Luiz CAETANO Filho
1205
espaço da web, e é transformado num elemento de referência modificando modo como vemos e lemos o
que se encontra diante de nós na tela.
A partir de agora não lidamos mais com simples endereços, mas objetos de um espaço discursivo.
A ligação da teoria autolexical com a web semântica passa pela categorização e contextualização.
As ontologias podem ser criadas a partir da análise do hipertexto quando objetos do contexto do discurso
são definidos.
E qual é a influência destas ligações para a escrita do texto e para o autor.
Um texto é um espaço discursivo inserido num contexto. O mesmo é válido para um hipertexto.
Escrever e ler um hipertexto são processos diferentes, pois o mapeamento cognitivo exigido é diferente.
Tanto ler como escrever é hipertextual, mas o modo como concretizamos a escrita nem sempre é
hipertextual. O que nos permitiria a teoria lexical é resolver os problemas de busca e extração de
informações na web e na geração automática de páginas.
A teoria do centramento permitiria a análise do texto, gerando através dos centros, hiperlinks
potenciais e redes hipertextuais conjugadas com o contexto criado pela teoria autolexical.
Tags XML criariam a marcação dentro do texto dos centros e tópicos e as declarações RDF
ligariam as definições semânticas dos centros e redes hipertextuais.
Com isso escrever seria lápis, papel, análise do texto e definição do hipertexto. Agora não mais um
texto com links simplesmente, mais com links que fazem sentido, economizam tempo e que podem ser
lidos na web.
Para finalizar vejamos um exemplo e suas diferenças com texto do qual o retirei. XML foi usado
para definir os objetos que achei importante quando de uma busca na web sobre centramento. Não defini
aqui as declarações RDF que devem acompanhá-lo para termos um hipertexto dentro dos moldes da web
semântica.
<centramento>
O que é a teoria do centramento?
A teoria propõe o seguinte:
<teoria_centramento>
1. Dado um enunciado U n, o modelo prevê qual será o foco no enunciado U n-1.
2. Quando o foco local é mantido entre enunciados, o modelo prevê que o foco será expresso através de
um pronome.
3. Quando um pronome é encontrado, o modelo provê a ordem de preferência sobre os possíveis
antecedentes de um
enunciado anterior.
</teoria_centramento>
As seguintes estruturas de dados são usadas:
<estruturadados_centramento>
1. Uma lista parcialmente ordenada de centros ‘forward-looking’ (Cfn) que inclui todas as
entidades
discursivas no enunciado Un. O primeiro elemento da lista é o ‘centro preferido’ (Cpn).
2. Os centros ‘backward-looking’ (Cbn), o maior elemento do ranking da lista Cfn-1 que está
em Cfn.
</estruturadados_centramento>
<transicoes_centramento>
O sistema define uma ordem de preferência quando da troca de tópico. As transições são
chamadas de
‘shift’, ‘retain’ e ‘continue’ e diferem baseado nas condições Cbn = Cbn-1 e Cbn = Cpn.
</transicoes_centramento>
No centro da teoria existem duas regras de centramento:
<regras_centramento>
Regra 1:
Se um membro de Cfn é definido por um pronome em Cfn+1, então Cbn+1 deve
ser um
pronome.
Regra 2:
Seqüências de ‘continues’ são preferidas às seqüências de ‘retains’ que são
preferidas às
seqüências de ‘shifts’.
</regras_centramento>
Qual o modelo por trás da teoria do centramento?
<modelos_centramento>
Dois modelos dão embasamento a esta teoria. O primeiro deles é o modelo em pilha (Grosz
et alli, 1995)
e o modelo ‘cache’ (Walker, 1994). O primeiro utiliza como estrutura de dados a pilha para
empilhar ou
desempilhar os focos, ou centros, de um discurso ou texto. O segundo utiliza uma estrutura
de dados, a
lista, substituindo a pilha. Todos os dois se baseiam nos conceitos de memória de curto
1206
WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR TEXTOS
termo (cachê),
memória de médio termo (memória de trabalho) e memória de longo termo. Diferenças
significativas
aparecem entre os dois quanto a sua operacionalização. A utilização da estrutura de dados
lista permite
uma flexibilização muito maior quando do momento de mudança de foco. Em um,
precisamos
desempilhar o contexto até então em foco para recuperarmos o foco anterior, ou criar várias
pilhas em
paralelo, cada uma com um foco diferente e procurarmos em qual pilha se encontra o
contexto do foco
que queremos recuperar e, no outro, a recuperação se faz pelo acesso à memória de trabalho.
Do ponto de
vista teórico não tem grandes mudanças, mas do ponto de vista da operacionalização do
processo, a
segunda estrutura é muito mais facilmente gerenciável.
</modelos_centramento>
</centramento>
4. Conclusão
Não podemos nos esquecer do ponto de vista da web semântica. Qual seja: o de que ela serve
somente como um mecanismo que fornece informações que as máquinas possam entender e processar,
permitindo-as comunicar-se entre si. Por isso a necessidade de haver uma concordância entre os
personagens que atuam sobre ela da sintaxe e a da semântica a serem utilizadas antes de a
operacionalizarem.
O que isso nos proporciona, do meu ponto de vista, como estudante de lingüística do texto, é uma
tecnologia que permite às máquinas extraírem sentido das informações encontradas na internet, resultando
numa web mais útil para os seres humanos.
Daí toda a problemática de se estruturar e escrever textos para este ambiente. Eles devem permitir
a estas mesmas máquinas auxiliarem-nos, nós leitores, a construirmos sentido nesta massa disforme que
hoje temos de informação publicada e publicável.
O que temos como certo é que o ferramental teórico necessário para realizarmos mais esta façanha
existe. Tanto do ponto de vista informático quanto do ponto de vista lingüístico. A utilização adequada só
o futuro dirá.
Como próximo passo poderíamos vislumbrar um estudo de corpora do texto. Mas isso fica para
uma outra vez.
RESUMO: Do texto, como nós o concebemos hoje, ao hipertexto. Da escrita com lápis e papel à escrita
com XML e RDF. Dos centros ao contexto. Do centramento na construção e análise das cadeias
anafóricas e da gramática autolexical para a criação do contexto no hipertexto.
PALAVRAS-CHAVE: Web Semântica; Teoria do Centramento; Teoria autolexical; lingüística;
hipertexto.
REFERÊNCIAS BIBLIOGRÁFICAS
BERNERS-LEE, T. WorldWideWeb: Proposal for a hypertext project. Technical Report, CERN, 1990.
<http://info.cern.ch/hypertext/WWW/Proposal.html>.
BERNERS-LEE, T. Semantic web road map. <http://www.w3.org/DesignIssues/Semantic.html>. Cited:
14 Out. 1998.
DUMBILL, E. The Semantic Web: a primer. O’Reilly and Associates, Inc. Available from Internet:
<http://www.xml.com/pub/a/2000/11/01/semanticweb/index.html>. Cited: 1 Nov. 2000
GROSZ, Barbara J., JOSHI, Aravind K. e WEINSTEIN, Scott. Centering: a framework for modeling the
local coherence of discourse. Computational Linguistics 21(2), pp. 203-225, Junho 1995.
SCHILLER, Eric (1997-99). Introduction to Autolexical Grammar. Published on the Internet by
Linguistics Unlimited, Moss Beach CA. <http://www.chessworks.com/ling/papers/autolexical.htm>.
Cited: 15 Out. 2002
WALKER, Marilyn A., Centering, Anaphora Resolution, and Discourse Structure. ATT Labs Research
(Referência incompleta).
Download

WEB SEMÂNTICA: NOVAS POSSIBILIDADES DE SE CRIAR