Equipe Tycho Brahe Manual do usuário1 Mapa do corpus e utilização das ferramentas Cristiane Namiuti 1. Apresentação2 O CTB (Corpus Tycho Brahe) é um corpus eletrônico de autores portugueses nascidos entre o século 15 e 19. Atualmente os textos estão disponíveis em duas verssões, uma ortograficamente transcrita e a outra morfologicamente anotada.3 2. Elaborando o CTB Os textos do Corpus Tycho Brahe são transcritos ortograficamente através de passos automáticos, como a digitalização de cada texto por um scanner, e manuais, como a correção dos erros causados na leitura automática bem como a inserção de marcas/códigos computacionais necessários para sua posterior submição à ferramenta de anotação morfológica, tagger. Após a digitalização dos textos ortograficamente transcritos e inserção manual da anotação/codificação do texto, ele deve ser submetido ao script verifcomments.pl que verifica se a anotação inserida manualmente não contem erros. Sanados os erros eventuais, o texto estará pronto para ser etiquetado. Então, o próximo passo deverá ser a etiquetagem morfológica. Logo que se obtem o texto etiquetado pelo tagger, se faz a conferência e correção das etiquetas com o auxílio da ferramenta lex-mod que impede o corretor de inserir novos erros. Para o uso da ferramenta lex-mod o texto em sua versão etiquetada (texto.tcc) deve ter sua extensão transformada de .tcc a .lex através dos comandos: 1. mv texto.tcc texto.lex 2. addblurb texto.lex O texto.lex, depois de ter suas etiquetas checadas, deve ser submetido ao script 'lex-clean-up' que retirará as etiquetas erradas que foram 1 Este manual teve como base um primeiro mapeamento da estrutura dos diretórios de armazenamento do corpus e das ferramentas. Este primeiro mapeamento foi feito por Patrícia Abdo e supervisionado por Helena Britto. 2 Este manual foi elaborado para auxiliar os pesquisadores da equipe Tycho Brahe que alimentaram o Corpus editando os textos em formato eletrônico e os submetendo às ferramentas computacionais desde 1999 até 2004 quando começou a ser implementada uma nova e mais flexível metodologia de anotação (ver:http://www.ime.usp.br/~tycho/corpus/manual/prep/manual_2005_completo.html) 3 Em breve será disponibilizada uma terceira versão dos textos: a versão anotada sintaticamente, a qual tomará como texto base o texto etiquetado morfologicamente. corrigidas. Neste momento trocamos sua extensão novamente, de 'texto.lex' passa a 'texto_pos.txt'. Este último já é a versão final do texto etiquetado. 3. Onde está o corpus? Onde estão as ferramentas? Como devemos proceder ao acessar o computador do laboratório? 3.1 Primeiros Passos Para encontrar os textos nas máquinas do projeto Tycho Brahe, ou inserir novos textos, temos que acessar o diretório textos que está dentro do diretório tycho que por sua vez está dentro do diretório projects. Para acessar o diretório projects se deve primeiramente acessar a conta de usuário nas máquinas Linux da sala do projeto, e, abrir a caixa de comandos - o terminal ou konsole (similar ao Prompt DOS do windows) - clicando no botão direito do mouse. Ao abrir o terminal o usuário estará dentro da sua pasta pessoal, então deverá subir dois diretórios - home e $4 e entrar no diretório/pasta projects que se encontra na raíz ($) conforme os passos abaixo: (1) No terminal escrever: cd / [#$ usuário#]: cd / (enter) Então, estará na raíz. (2) Para entrar em projects escrever: cd projects [#$#] cd projects (enter) Dentro de [#$projects#] estão os seguintes diretórios: • • • Relatório 2001 fono tycho 3.2 Diretório tycho Dentro de tycho estão, entre outras coisas, o corpus e as ferramentas automáticas distribuídos conforme nos seguintes diretórios: • • • • • • • documentation historico-reunioes manual Tagger0.2 Data-tools penn-ut textos 4 $ é o símbolo utilizado para designar a RAIZ do computador. 3.3 tycho/textos O diretório textos é o diretório onde ficam os textos do corpus Tycho Brahe nas suas diferentes versões. Este diretório é composto de 2 subdiretórios: released e working 3.3.1 Diretório working Em working se encontram os textos nas suas versões não finais. Este é o diretório em que se trabalha o texto. Dentro de working os textos estão distribuídos nos seguintes diretórios: • ortho-files: onde se encontram as versões não finais dos textos ortograficamente transcrito em formato '.txt' • tagged-files: onde se encontram as versões não finais dos textos etiquetados. Dentro de tagged-files existe o subdiretório: lex - onde se encontram os textos etiquetados em correção. 3.3.2 Diretório released Em released se encontram os textos em suas versões finais já submetidos à checagem por meio das ferramentas verifcomments.prl, verifitags.prl e lexclean-up. Dentro de released os textos estão distribuídos nos seguintes diretórios: • • ortho-files: onde se encontram as versões finais dos textos ortograficamente transcrito em formato '.txt' e '.html' em 2 subdiretórios: 1) txt-verifcomments onde estão os textos ortograficamente transcritos com os comentários já checados e prontos para serem submetidos ao Tagger. 2) html-verifcomments onde estão os textos ortograficamente transcritos em formato html com os comentários já checados e prontos para colocá-los na internet tagged-files - Onde se encontram as verssões finais dos textos etiquetados (_pos.txt). Neste diretório existem 3 subdiretórios: 1)txt-veriftags - onde se encontram as versões finais em .txt dos textos etiquetados, já com as etiquetas conferidas pelo veriftags ou pela correção com o lex-mod seguido da submissão ao lex-cleanup5. 2) html-veriftags - onde se encontram as versões finais dos 5 Uma vez que os textos etiquetados sofrem um processo de correção manual julgou-se nescessário a criação de programas que controlassem corrigido sem a ferramenta lex-mod, para conferir se corretamente, usava-se o 'veriftags.prl' porém, quando lex-mod o passo do veriftags tornou-se desnecessário e texto.lex ao lex-clean-up. esta correção. Quando o texto era todas as etiquetas estavam escritas a correção passou a ser feita com o um novo passo se deu, a submição do textos etiquetados transformadas em html. 3)Tok26, - onde se encontram as versões finais em .txt dos textos etiquetados já formatados pelo Tok2 e prontos para a busca de dados. 3.4 Tagger02 - neste diretório encontra-se o subdiretório bin onde estão as ferramentas i) ortotag.prl, ii) verifcomments.prl, iii) veriftags.prl e iv) Tok2.prl. - os demais subdiretórios e arquivos são relevantes apenas do ponto de vista computacional. 3.5 Data-tool Neste diretório se guarda alguns dos scripts para busca de dados. Aí estão entre outros os seguintes scripts: • • • • • getclitics-finite.pl getclitics-infinitival.pl getinterpolation.pl getnegpro.pl getposs.pl E também o tagout.pl que retira as etiquetas dos outputs de dados. 3.6 penn-ut Neste diretório se encontra: (i) o script addblurb que formata o arquivo '.lex' para ser corrigido com a ferramenta 'lexicon-mod' (lex-mod). (ii) o script da ferramenta de auxílio para a correção das etiquetas dos textos: o lex-mod. (ii) o script do lex-clean-up que retira as etiquetas erradas marcadas por \* ao serem corrigidas com o auxílio da ferramenta lex-mod. Os demais arquivos são importantes apenas computacionalmente. 4. Usando as ferramentas do corpus Tycho Brahe 4.1 Como utilizar as ferramentas verifcomments, ortotag e veriftags. Primeiramente deve-se acessar projects/tycho/Tagger0.2/bin. • cd /projects/tycho/Tagger0.2/bin/ 6 Tok2.prl é uma ferramenta, desenvolvida pelo professor Marcelo Finger, que formata o texto de forma que cada sentença corresponda a uma linha. PS: TODOS OS COMANDOS EM QUE NÃO ESTÁ EXPLICITADO O LUGAR DE APLICAÇÃO DEVERÃO SER APLICADOS NA CAIXA DE COMANDO DO LINUX: O TERMINAL. 4.1.1 Verifcomments. Preparando o texto para ser etiquetado. Dentro do diretório bin aplicar o comando: perl verifcomments.prl arquivo' [enter] projects/tycho/textos/working/orthofiles/'nome do Quando há erro na anotação, aparece uma lista apontando o número da linha e o erro ali existente. Neste caso temos que: (1) abrir o texto a ser verificado no editor de texto emacs: emacs -q projects/tycho/textos/working/orthofiles/'texto.txt' [enter] (2) Dentro do emacs: (i) abrir a linha de comando apertando simultâneamente a tecla Esc e a tecla x; (ii) escrever o seguinte comando: goto-line [enter], (iii) em seguida digitar o número da linha que contém um erro e precionar [enter]; (iv) corrigir o problema no texto.txt e também na sua versão html. (3) Repetir os passos descritos em (2) o número de linhas que contém erros. (4) Para salvar as alterações no emacs apertar simultaneamente as teclas: ctrl-x-s 4.1.2 Ortotag. Etiquetando o texto. Também dentro do diretório Tagger02/bin aplicar o comando (tudo numa mesma linha): perl ortotag.prl /projecs/tycho/textos/released/orthofiles/txtverifcomments/'texto.txt' [enter] O arquivo de saída será o texto etiquetado (texto.tcc) que aparecerá automaticamente no mesmo diretório do texto fonte, ou seja do 'input' (txtverifcomments), após concluída à etiquetagem. O Texto etiquetado deve ter ainda sua extensão '.tcc' transformada em '.lex' e ser transportado para o diretório woking/tagged-files/lex para a correção das etiquetas. • Ainda no diretório Tagger02/bin/ escrever:(tudo numa mesma linha) mv /projecs/tycho/textos/release/ortofiles/textverifcomments/texto.tcc projecs/tycho/textos/woking/tagged-files/lex/texto.lex / Após ter sua extenção trocada o 'texto.lex' deve ser formatado pelo comando addblurb para que possa ser submetido à ferramenta de auxílio à correção de etiquetas: • Primeiramente deve-se acessar o diretório penn-ut: cd /projects/tycho/penn-ut/ • Seguidamente aplicar o comando: ./adblurb /projecs/tycho/textos/woking/tagged-files/lex/'texto.lex' 4.1.3 Conferindo as etiquetas morfológicas: lexicon-mod, lex-clean-up & veriftags Após ter sido etiquetado, o texto tem suas etiquetas corrigidas manualmente por um pesquisador, porém a correção das etiquetas morfológicas foi feita de duas maneiras na primeira fase da construção do corpus: com o auxílio da ferramenta lexicon mode cuja a função é impedir que se insira erros no texto e sem o auxílio desta ferramenta. No último caso o texto deve ser submetido à verificação de etiquetas pelo script 'veriftags.prl'. (1) lexicon mod (lex-mod) Para ativar a ferramenta lex-mod o texto deve ser aberto no editor 'emacs' com um atributo ou atalho que reinvidique a ferramenta de auxílio à correção. O comando para abrir o texto.lex e ativar a ferramenta deve ser aplicado no terminal do linux estando nescessáriamente dentro do diretório /lex/ : tb-emacs texto.lex &7 [enter] A ferramenta não permite que se apague nada no texto, e, também não permite que se insira nada além de etiquetas. Ao corrigir uma etiqueta errada ela apenas recebe uma marcação e só pode ser removida pelo script lex-clean-up. (2)lex-clean-up. Para limpar o texto.lex retirando as etiquetas corrigidas temos que submetê-lo ao lex-clean-up. Esta ferramenta também está localizada no diretório penn-ut para a ativar temos que estar dentro do diretório pennut (como quando acessamos o addblurb): cd /projects/tycho/pennut/ Em seguida, já no diretório pennut chamar o script, o input e um output do texto:(tudo numa mesma linha) ./lex-clean-up /projecs/tycho/textos/woking/tagged-files/lex/'texto.lex' > /projecs/tycho/textos/released/tagged-files/txtveriftags/texto_pos.txt (3) veriftags: 7 O & é nescessário para não se travar a janela do terminal. Este passo deve ser feito no final da correção das etiquetas, quando esta não foi feita com a ferramenta lexicon-mod. Primeiro passo: o texto com as etiquetas corrigidas deve ser copiado no diretório veriftags trocando sua extensão para a verificação final das etiquetas: cp texto.tcc ../veriftags/texto_pos.txt Então, deve-se voltar ao diretório bin: cd /projects/tycho/Tagger0.2/bin/ Lá aplicar o seguinte comando: perl verifitags.prl projects/tycho/textos/woking/tagged-files/veriftags/texto_pos.txt [enter] - Aparecerá uma lista apontando o número das linhas que contém erros, então: A primeira coisa a se fazer é abrir o texto a ser verificado no emacs: emacs -q /projects/tycho/textos/working/tagged-files/veriftags/texto_pos.txt [enter] Depois se deve seguir com o mesmo procedimento que se faz ao corrigir os erros apontados pelo 'verifcomments' no texto ortograficamente transcrito. E então, copiá-lo para o diretório /released/tagged-files/txt_veriftags/ cp /projects/tycho/textos/working/tagged-files/veriftags/texto_pos.txt /projects/tycho/textos/released/tagged-files/txt_veriftags/texto_pos.txt [enter] 4.2 Formatando o texto etiquetado morfologicamente para a seleção de dados. Tok2.prl. 4.2.1 Tok2 O script Tok2.prl é uma ferramenta desenvolvida para formatar o texto etiquetado de modo que cada linha corresponda a uma sentença. A linha de comando que se deve escrever no terminal também deverá ser executada quando dentro de /Tagger0.2/bin/ especificando o input e um output: perl tok2.prl projects/tycho/textos/released/tagged-file/txt_veriftags/texto_pos.txt projects/tycho/textos/released/tagged-file/Tok2/texto_tok2.txt[enter] Uma vez que os comandos de busca de dados seleciona apenas as linhas que contém os algorítimos da busca, julgamos necessário a submição do texto ao Tok2 para que possamos recuperar automaticamente o máximo de contexto discursivo em que cada dado lingüístico é atestado. 5. Como usar as ferramentas de busca criadas para as pesquisas desenvolvidas no âmbito do projeto temático Padrões Rítmicos. Diretório Data_Tools: Scripts em perl8 PASSOS 1. Escolha o diretório em que irá salvar os dados. 2. Entre neste diretório pelo terminal e escreva: perl (o nome do script.pl) texto.txt (arquivo de entrada) texto(primeiro elemento para nomear o(s) arquivo(s) de saída9 3. Pressione a tecla 'enter' para obter os dados no(s) arquivo(s) de saída. Exemplo.: perl getclitics.pl melo_tcc.txt mel <enter> Arquivos de saída: • mel-0Vcl.txt • mel-0Vse.txt • mel-Vcl.txt • mel-clV.txt • mel-Vse.txt • mel-seV.txt 4. Hora de tirar as etiquetas com tagout.pl Uma vez obtidos os dados que interessam, pode-se retirar morfológicas das palavras usando o script tagout.pl. as etiquetas Exemplo: perl tagout texto.txt texto-tagout.txt <enter> Input: [clV-mel] Dado: as/CL publicará/VB-R: Deus/NPR as/CL publicará/VBR ./. Output: [clV-mel] Dado: as publicará: Deus as publicará . 8 Scripts implementados/elaborados por Cristiane Namiuti. 9 A maioria dos scripts deste diretório abrem mais de um arquivo de saída, portanto, escreve-se apenas um código que identifique o texto de onde vem os dados, pois, o script do programa insere o restante do nome automáticamente de acordo com o tipo de dado.