Equipe Tycho Brahe
Manual do usuário1
Mapa do corpus e utilização das ferramentas
Cristiane Namiuti
1. Apresentação2
O CTB (Corpus Tycho Brahe) é um corpus eletrônico de autores portugueses
nascidos entre o século 15 e 19. Atualmente os textos estão disponíveis em
duas verssões, uma ortograficamente transcrita e a outra morfologicamente
anotada.3
2. Elaborando o CTB
Os textos do Corpus Tycho Brahe são transcritos ortograficamente através de
passos automáticos, como a digitalização de cada texto por um scanner, e
manuais, como a correção dos erros causados na leitura automática bem como
a inserção de marcas/códigos computacionais necessários para sua posterior
submição à ferramenta de anotação morfológica, tagger.
Após a digitalização dos textos ortograficamente transcritos e inserção
manual da anotação/codificação do texto, ele deve ser submetido ao script
verifcomments.pl que verifica se a anotação inserida manualmente não contem
erros.
Sanados os erros eventuais, o texto estará pronto para ser etiquetado.
Então, o próximo passo deverá ser a etiquetagem morfológica.
Logo que se obtem o texto etiquetado pelo tagger, se faz a conferência e
correção das etiquetas com o auxílio da ferramenta lex-mod que impede o
corretor de inserir novos erros.
Para o uso da ferramenta lex-mod o texto em sua versão etiquetada
(texto.tcc) deve ter sua extensão transformada de .tcc a .lex através dos
comandos:
1. mv texto.tcc texto.lex
2. addblurb texto.lex
O texto.lex, depois de ter suas etiquetas checadas, deve ser submetido ao
script 'lex-clean-up' que retirará as etiquetas erradas que foram
1 Este manual teve como base um primeiro mapeamento da estrutura dos diretórios de
armazenamento do corpus e das ferramentas. Este primeiro mapeamento foi feito por Patrícia
Abdo e supervisionado por Helena Britto.
2 Este manual foi elaborado para auxiliar os pesquisadores da equipe Tycho Brahe que
alimentaram o Corpus editando os textos em formato eletrônico e os submetendo às ferramentas
computacionais desde 1999 até 2004 quando começou a ser implementada uma nova e mais
flexível metodologia de anotação
(ver:http://www.ime.usp.br/~tycho/corpus/manual/prep/manual_2005_completo.html)
3 Em breve será disponibilizada uma terceira versão dos textos: a versão anotada
sintaticamente, a qual tomará como texto base o texto etiquetado morfologicamente.
corrigidas. Neste momento trocamos sua extensão novamente, de 'texto.lex'
passa a 'texto_pos.txt'. Este último já é a versão final do texto
etiquetado.
3. Onde está o corpus? Onde estão as ferramentas? Como devemos proceder ao
acessar o computador do laboratório?
3.1 Primeiros Passos
Para encontrar os textos nas máquinas do projeto Tycho Brahe, ou inserir
novos textos, temos que acessar o diretório textos que está dentro do
diretório tycho que por sua vez está dentro do diretório projects.
Para acessar o diretório projects se deve primeiramente acessar a conta de
usuário nas máquinas Linux da sala do projeto, e, abrir a caixa de comandos
- o terminal ou konsole (similar ao Prompt DOS do windows) - clicando no
botão direito do mouse.
Ao abrir o terminal
o usuário estará dentro da sua pasta pessoal, então
deverá subir dois diretórios - home e $4 e entrar no diretório/pasta
projects que se encontra na raíz ($) conforme os passos abaixo:
(1) No terminal escrever: cd /
[#$ usuário#]: cd /
(enter)
Então, estará na raíz.
(2) Para entrar em projects escrever: cd projects
[#$#] cd projects (enter)
Dentro de [#$projects#] estão os seguintes diretórios:
•
•
•
Relatório 2001
fono
tycho
3.2 Diretório tycho
Dentro de tycho estão, entre outras coisas, o corpus e as ferramentas
automáticas distribuídos conforme nos seguintes diretórios:
•
•
•
•
•
•
•
documentation
historico-reunioes
manual
Tagger0.2
Data-tools
penn-ut
textos
4 $ é o símbolo utilizado para designar a RAIZ do computador.
3.3 tycho/textos
O diretório textos é o diretório onde ficam os textos do corpus Tycho Brahe
nas suas diferentes versões.
Este diretório é composto de 2 subdiretórios:
released e working
3.3.1 Diretório working
Em working se encontram os textos nas suas versões não finais. Este é o
diretório em que se trabalha o texto.
Dentro de working os textos estão distribuídos nos seguintes diretórios:
•
ortho-files: onde se encontram as versões não finais dos textos
ortograficamente transcrito em formato '.txt'
• tagged-files: onde se encontram as versões não finais dos textos
etiquetados.
Dentro de tagged-files existe o subdiretório: lex - onde se encontram os
textos etiquetados em correção.
3.3.2 Diretório released
Em released se encontram os textos em suas versões finais já submetidos à
checagem por meio das ferramentas verifcomments.prl, verifitags.prl e lexclean-up.
Dentro de released os textos estão distribuídos nos seguintes diretórios:
•
•
ortho-files: onde se encontram as versões finais dos textos
ortograficamente transcrito em formato '.txt' e '.html' em 2
subdiretórios: 1) txt-verifcomments onde estão os textos
ortograficamente transcritos com os comentários já checados e
prontos para serem submetidos ao Tagger. 2) html-verifcomments
onde estão os textos ortograficamente transcritos em formato
html
com os comentários já checados e prontos para colocá-los
na internet
tagged-files - Onde se encontram as verssões finais dos textos
etiquetados (_pos.txt). Neste diretório existem 3 subdiretórios:
1)txt-veriftags - onde se encontram as versões finais em .txt dos
textos etiquetados, já com as etiquetas conferidas pelo veriftags
ou pela correção com o lex-mod seguido da submissão ao lex-cleanup5. 2) html-veriftags - onde se encontram as versões finais dos
5 Uma vez que os textos etiquetados sofrem um processo de correção manual julgou-se
nescessário a criação de programas que controlassem
corrigido sem a ferramenta lex-mod, para conferir se
corretamente, usava-se o 'veriftags.prl' porém, quando
lex-mod o passo do veriftags tornou-se desnecessário e
texto.lex ao lex-clean-up.
esta correção. Quando o texto era
todas as etiquetas estavam escritas
a correção passou a ser feita com o
um novo passo se deu, a submição do
textos etiquetados transformadas em html. 3)Tok26, - onde se
encontram as versões finais em .txt dos textos etiquetados já
formatados pelo Tok2 e prontos para a busca de dados.
3.4 Tagger02
- neste diretório encontra-se o subdiretório bin onde estão as ferramentas
i) ortotag.prl, ii) verifcomments.prl, iii) veriftags.prl e iv) Tok2.prl.
- os demais subdiretórios e arquivos são relevantes apenas do ponto de
vista computacional.
3.5 Data-tool
Neste diretório se guarda alguns dos scripts para busca de dados. Aí estão
entre outros os seguintes scripts:
•
•
•
•
•
getclitics-finite.pl
getclitics-infinitival.pl
getinterpolation.pl
getnegpro.pl
getposs.pl
E também o tagout.pl que retira as etiquetas dos outputs de dados.
3.6 penn-ut
Neste diretório se encontra:
(i) o script addblurb que formata o arquivo '.lex' para ser corrigido com a
ferramenta 'lexicon-mod' (lex-mod).
(ii) o script da ferramenta de auxílio para a correção das etiquetas dos
textos: o lex-mod.
(ii) o script do lex-clean-up que retira as etiquetas erradas marcadas por
\* ao serem corrigidas com o auxílio da ferramenta lex-mod.
Os demais arquivos são importantes apenas computacionalmente.
4. Usando as ferramentas do corpus Tycho Brahe
4.1 Como utilizar as ferramentas verifcomments, ortotag e veriftags.
Primeiramente deve-se acessar projects/tycho/Tagger0.2/bin.
• cd /projects/tycho/Tagger0.2/bin/
6 Tok2.prl é uma ferramenta, desenvolvida pelo professor Marcelo Finger, que formata o texto
de forma que cada sentença corresponda a uma linha.
PS: TODOS OS COMANDOS EM QUE NÃO ESTÁ EXPLICITADO O LUGAR DE APLICAÇÃO
DEVERÃO SER APLICADOS NA CAIXA DE COMANDO DO LINUX: O TERMINAL.
4.1.1 Verifcomments. Preparando o texto para ser etiquetado.
Dentro do diretório bin aplicar o comando:
perl verifcomments.prl
arquivo' [enter]
projects/tycho/textos/working/orthofiles/'nome
do
Quando há erro na anotação, aparece uma lista apontando o número da linha e
o erro ali existente. Neste caso temos que:
(1) abrir o texto a ser verificado no editor de texto emacs:
emacs -q projects/tycho/textos/working/orthofiles/'texto.txt' [enter]
(2) Dentro do emacs: (i) abrir a linha de comando apertando simultâneamente
a tecla Esc e a tecla x; (ii) escrever o seguinte comando: goto-line
[enter], (iii) em seguida digitar o número da linha que contém um erro e
precionar [enter]; (iv) corrigir o problema no texto.txt e também na sua
versão html.
(3) Repetir os passos descritos em (2) o número de linhas que contém erros.
(4) Para salvar as alterações no emacs apertar simultaneamente as teclas:
ctrl-x-s
4.1.2 Ortotag. Etiquetando o texto.
Também dentro do diretório Tagger02/bin aplicar o comando (tudo numa mesma
linha):
perl ortotag.prl
/projecs/tycho/textos/released/orthofiles/txtverifcomments/'texto.txt'
[enter]
O arquivo de saída será o texto etiquetado (texto.tcc) que aparecerá
automaticamente no mesmo diretório do texto fonte, ou seja do 'input'
(txtverifcomments), após concluída à etiquetagem.
O Texto etiquetado deve ter ainda sua extensão '.tcc' transformada em
'.lex' e ser transportado para o diretório woking/tagged-files/lex para a
correção das etiquetas.
•
Ainda no diretório Tagger02/bin/ escrever:(tudo numa mesma linha)
mv
/projecs/tycho/textos/release/ortofiles/textverifcomments/texto.tcc
projecs/tycho/textos/woking/tagged-files/lex/texto.lex
/
Após ter sua extenção trocada o 'texto.lex'
deve ser formatado pelo
comando addblurb para que possa ser submetido à ferramenta de auxílio à
correção de etiquetas:
•
Primeiramente deve-se acessar o diretório penn-ut:
cd /projects/tycho/penn-ut/
•
Seguidamente aplicar o comando:
./adblurb /projecs/tycho/textos/woking/tagged-files/lex/'texto.lex'
4.1.3 Conferindo as etiquetas morfológicas: lexicon-mod, lex-clean-up &
veriftags
Após ter sido etiquetado, o texto tem suas etiquetas corrigidas manualmente
por um pesquisador, porém a correção das etiquetas morfológicas foi feita
de duas maneiras na primeira fase da construção do corpus: com o auxílio da
ferramenta lexicon mode cuja a função é impedir que se insira erros no
texto e sem o auxílio desta ferramenta. No último caso o texto deve ser
submetido à verificação de etiquetas pelo script 'veriftags.prl'.
(1) lexicon mod (lex-mod)
Para ativar a ferramenta lex-mod o texto deve ser aberto no editor 'emacs'
com um atributo ou atalho que reinvidique a ferramenta de auxílio à
correção. O comando para abrir o texto.lex e ativar a ferramenta deve ser
aplicado no terminal do linux estando nescessáriamente dentro do diretório
/lex/ :
tb-emacs texto.lex &7 [enter]
A ferramenta não permite que se apague nada no texto, e, também não
permite que se insira nada além de etiquetas. Ao corrigir uma etiqueta
errada ela apenas recebe uma marcação e só pode ser removida pelo script
lex-clean-up.
(2)lex-clean-up.
Para limpar o texto.lex retirando as etiquetas corrigidas temos que
submetê-lo ao lex-clean-up. Esta ferramenta também está localizada no
diretório penn-ut para a ativar temos que estar dentro do diretório pennut
(como quando acessamos o addblurb):
cd /projects/tycho/pennut/
Em seguida, já no diretório pennut chamar o script, o input e um output do
texto:(tudo numa mesma linha)
./lex-clean-up
/projecs/tycho/textos/woking/tagged-files/lex/'texto.lex'
> /projecs/tycho/textos/released/tagged-files/txtveriftags/texto_pos.txt
(3) veriftags:
7 O & é nescessário para não se travar a janela do terminal.
Este passo deve ser feito no final da correção das etiquetas, quando esta
não foi feita com a ferramenta lexicon-mod.
Primeiro passo: o texto com as etiquetas corrigidas deve ser copiado no
diretório veriftags trocando sua extensão para a verificação final das
etiquetas:
cp texto.tcc ../veriftags/texto_pos.txt
Então, deve-se voltar ao diretório bin:
cd /projects/tycho/Tagger0.2/bin/
Lá aplicar o seguinte comando:
perl verifitags.prl
projects/tycho/textos/woking/tagged-files/veriftags/texto_pos.txt
[enter]
- Aparecerá uma lista apontando o número das linhas que contém erros,
então:
A primeira coisa a se fazer é abrir o texto a ser verificado no emacs:
emacs -q
/projects/tycho/textos/working/tagged-files/veriftags/texto_pos.txt
[enter]
Depois se deve seguir com o mesmo procedimento que se faz ao corrigir os
erros apontados pelo 'verifcomments' no texto ortograficamente transcrito.
E então, copiá-lo para o diretório /released/tagged-files/txt_veriftags/
cp /projects/tycho/textos/working/tagged-files/veriftags/texto_pos.txt
/projects/tycho/textos/released/tagged-files/txt_veriftags/texto_pos.txt
[enter]
4.2 Formatando o texto etiquetado morfologicamente para a seleção de
dados. Tok2.prl.
4.2.1 Tok2
O script Tok2.prl é uma ferramenta desenvolvida para formatar o texto
etiquetado de modo que cada linha corresponda a uma sentença. A linha de
comando que se deve escrever no terminal também deverá ser executada quando
dentro de /Tagger0.2/bin/ especificando o input e um output:
perl tok2.prl
projects/tycho/textos/released/tagged-file/txt_veriftags/texto_pos.txt
projects/tycho/textos/released/tagged-file/Tok2/texto_tok2.txt[enter]
Uma vez que os comandos de busca de dados seleciona apenas as linhas que
contém os algorítimos da busca, julgamos necessário a submição do texto ao
Tok2 para que possamos recuperar automaticamente o máximo de contexto
discursivo em que cada dado lingüístico é atestado.
5. Como usar as ferramentas de busca criadas para as pesquisas
desenvolvidas no âmbito do projeto temático Padrões Rítmicos.
Diretório Data_Tools: Scripts em perl8
PASSOS
1. Escolha o diretório em que irá salvar os dados.
2. Entre neste diretório pelo terminal e escreva:
perl (o nome do script.pl) texto.txt (arquivo de entrada) texto(primeiro
elemento para nomear o(s) arquivo(s) de saída9
3. Pressione a tecla 'enter' para obter os dados no(s) arquivo(s) de saída.
Exemplo.:
perl getclitics.pl melo_tcc.txt mel <enter>
Arquivos de saída:
• mel-0Vcl.txt
• mel-0Vse.txt
• mel-Vcl.txt
• mel-clV.txt
• mel-Vse.txt
• mel-seV.txt
4. Hora de tirar as etiquetas com tagout.pl
Uma vez obtidos os dados que interessam, pode-se retirar
morfológicas das palavras usando o script tagout.pl.
as etiquetas
Exemplo:
perl tagout texto.txt texto-tagout.txt <enter>
Input: [clV-mel] Dado: as/CL publicará/VB-R: Deus/NPR as/CL publicará/VBR ./.
Output: [clV-mel] Dado: as publicará: Deus as publicará .
8 Scripts implementados/elaborados por Cristiane Namiuti.
9 A maioria dos scripts deste diretório abrem mais de um arquivo de saída, portanto,
escreve-se apenas um código que identifique o texto de onde vem os dados, pois, o script do
programa insere o restante do nome automáticamente de acordo com o tipo de dado.
Download

Equipe Tycho Brahe Manual do usuário1 Mapa do corpus e