UFPB – Universidade Federal da Paraíba
MINICURSO: Introdução ao GoldVarb X: uso e interpretação
PÚBLICO-ALVO: Alunos e Professores de Letras (20 vagas)
PROFESSORA: Josane Moreira de Oliveira (UEFS)
Data: 14 e 15 de julho de 2014
Carga horária: 8 horas/aula
PLANO DE ENSINO
1 OBJETIVOS
a) Conhecer e utilizar a ferramenta GoldVarb X;
b) Codificar, processar e analisar dados linguísticos;
c) Desenvolver habilidades para a interpretação dos resultados emitidos pelo GoldVarb X.
2 CONTEÚDO PROGRAMÁTICO

A sociolinguística quantitativa

O corpus

O GoldVarb X
o Origem
o Instalação
o Uso

Arquivos de dados

Grupos de fatores

Arquivo de especificações

Arquivo de condições

Arquivo de células

Varbrul – pesos relativos
o Interpretação dos resultados
o Apresentação dos resultados – tabelas e gráficos
3 METODOLOGIA

Exposição participada com direcionamento dos conteúdos para a aplicação prática a partir do uso
do programa GoldVarb X no computador.
4 AVALIAÇÃO

Avaliação processual considerando a frequência e a participação efetiva dos alunos nas aulas;

Exercícios constantes;

Processamento de dados das pesquisas dos alunos.
REFERÊNCIAS

CEDERGREN, H. J.; SANKOFF, D. Variable rules: performance as a statistical reflection of
competence. Language, 50:2. 1974, p. 333-355.

GUY, G. R. Advanced varbrul analysis. In: FERRARA, K; BROWN, B.; WALTERS, K.;
BAUGH, J. (Ed.). Linguistic change and contact. Austin: University of Texas, 1988, p. 124-136.

GUY, G. R.; ZILLES, A. M. Sociolinguística quantitativa: instrumental de análise. São Paulo:
Parábola, 2007.

MILROY, L.; GORDON, M. Sociolinguistics: method and interpretation. Oxford: Blackwell,
2003.

MOLLICA, M. C.; BRAGA, M. L. (Org.). Introdução à sociolinguística: o tratamento da variação.
São Paulo: Contexto, 2004.

PAOLILLO, J. Analyzing linguistic variation: statistical models and methods. Stanford CA: CSLI,
2002.

RAND, D. & SANKOFF, D. GoldVarb: a variable rule application for Macintosh. 1990.

ROBINSON, J.; LAWRENCE, H.; TAGLIAMONTE, S. GoldVarb 2001: a multivariate analysis
application for Windows. User’s manual. 2001.

SANKOFF, D. Linguistic variation: models and methods. New York: Academic Press, 1978.

SANKOFF, D.; LABOV, W. On the uses of variable rules. Language in Society, 8 (2). 1979, p.
189-222. SANKOFF, D. Variable rules. In: AMMON, U.; DITTMAR, N.; MATTHEIR, K. J.
(Ed.). Sociolinguistics: an international handbook of the science of language and society.
Berlin/New York: De Gruyter, 1988, p. 984-998.

SANKOFF, D.; TAGLIAMONTE, S.; SMITH, E. GoldVarb X – a multivariate analysis
application. 2005. Toronto: Department of Linguistics; Ottawa: Department of Mathematics.
Disponível em: http://individual.utoronto.ca/tagliamonte/ Goldvarb/GV_index.htm#ref. Acesso em:
20 out. 2011.

SCHERRE, M. M. P.; CARDOSO, C. R. Guia rápido do GoldVarb X. Disponível em:
http://geasunb.blogspot.com.br/. Acesso em: 6 fev. 2014.

TAGLIAMONTE, S. A. Analyzing sociolinguistic variation. Cambridge: Cambridge University
Press, 2006.
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
A sociolinguística quantitativa
Muito antiga é a constatação de que a língua se diversifica em seu uso. A visão da língua como um
sistema heterogêneo e instável prioriza uma análise linguística voltada para o estudo de modos alternativos
de dizer a mesma coisa. A sociolinguística postula que a condição normal de uma comunidade de fala é a
heterogeneidade e que essa heterogeneidade é estruturada.
A diversificação linguística está documentada tanto diatópica como socialmente. As línguas
humanas estão em constante variação. Algumas variações se propagam gradativamente por períodos mais
ou menos longos em diversos eixos sociais e podem levar a mudanças. Como é praticamente impossível a
demarcação exata e nítida de fronteiras geográficas e sociais, é preferível falar em tendências a empregos
de certas formas linguísticas motivadas por condicionamentos vários.
Tendo sido largamente demonstrado e discutido o caráter social da língua, já se dispõe de um
campo da ciência linguística especificamente voltado para a covariação entre fenômenos linguísticos e
sociais, a sociolinguística, equivalente, para outros, a uma dialectologia urbana ou vertical. Por ser
impossível desvincular a língua de sua função sócio-comunicativa, a sociolinguística é entendida como um
espaço de investigação interdisciplinar que estuda e correlaciona aspectos dos sistemas linguísticos e dos
sistemas sociais, focalizando empregos concretos da língua.
Labov (1972) questiona a justificativa para a dicotomia linguística versus sociolinguística, uma vez
que é de todos conhecido – sobretudo depois de Saussure – o fato de que a língua é essencialmente um
sistema de comunicação social, mas admite o uso desse termo “sociolinguística”, para que se diferenciem
estudos baseados em dados intuitivos (linguísticos) daqueles baseados em dados reais obtidos através de
gravações de interações orais ou de recolha de textos escritos (sociolinguísticos).
Entretanto a razão maior para que se distingam esses dois tipos de estudo da língua parece residir
nos objetivos, pois, enquanto a chamada linguística interna, sobretudo o estruturalismo e o gerativismo,
busca estudar e descrever um sistema homogêneo e abstrato de língua, a sociolinguística – ou linguística
externa –, focalizando a língua no contexto em que se concretiza, analisa a heterogeneidade do sistema.
Além de ocupar-se da diversidade da língua nas situações ou contextos em que ocorre, diversidade esta
atestada seja na variação, seja na mudança linguística, a sociolinguística procede também ao estudo dos
juízos e das atitudes do falante sobre o comportamento verbal não só dele próprio mas também da sua
comunidade de fala.
A sociolinguística apresenta uma relação estreita com a área da linguística histórica, uma vez que,
estudando a variação da língua dentro da estrutura social da comunidade em que ocorre, identifica e prevê
processos de mudança em curso, que, obviamente, são decorrentes dessas variações.
Ora, sendo a língua um meio de interação entre o indivíduo e a sociedade em que ele atua, está
claro que há forças sociais que agem sobre essa interação. E é esse relacionamento casual entre língua e
sociedade que constitui o objeto de análise da sociolinguística.
Labov (1972) insiste na relação entre língua e sociedade e na possibilidade, virtual e real, de
investigar e descrever a sistematicidade da variação existente e própria das línguas. O modelo de análise
linguística proposto pelo autor é também rotulado de “sociolinguística quantitativa”, pois, como, em se
tratando de variação, não se pode reduzir os fatos a uma questão de tudo ou nada, opera com números e
tratamento estatístico dos dados coletados.
O problema central que se coloca para a teoria da variação é a avaliação do quantum com que cada
categoria postulada contribui para a realização de uma ou outra das variantes linguísticas em concorrência.
Na verdade, na fala concreta, a operação de uma regra variável é o resultado da atuação simultânea de
vários fatores, ou seja, as categorias não são isoladas, pelo contrário, elas se apresentam conjugadas.
É através de modelos quantitativos que se podem estabelecer correlações entre fatos linguísticos e
socioculturais, o que proporciona uma melhor visão da variação da língua, que é descrita em termos de
regras variáveis, às quais se podem atribuir valores probabilísticos (ou pesos relativos) que predizem a
ocorrência das variantes independentemente do corpus observado1.
1
Os resultados finais da análise propiciariam a formulação de regras gramaticais variáveis. Trata-se, portanto, de um sistema
linguístico de probabilidades (composto de formas em relação de concorrência). Dessa forma, seria incorporado à gramática o
Os fatores que desencadeiam a mudança linguística são numerosos e diversificados; podem ser
explícitos e perceptíveis, ou, ao contrário, invisíveis e inacessíveis à percepção do falante. Podem ainda ser
externos ou internos ao sistema da língua (MARCHELLO-NIZIA et alii, 2003).
A sociolinguística, como disciplina independente e com uma metodologia própria, desenvolveu-se
principalmente a partir dos anos 60, nos Estados Unidos e no Canadá. Seu objetivo é descrever a relação
entre os fatos linguísticos e os fatos sociais, portanto exteriores à língua, tais como idade, sexo/gênero,
nível de escolarização, classe social, etnia, profissão, contexto estilístico ou situacional etc.
A variável ‘idade’ revela-se de fundamental importância no estudo dos fenômenos variáveis, uma
vez que é essa variável que vai indicar se determinado fenômeno de variação linguística está estável ou
está em progresso num estudo em tempo aparente. Também se sabe que, nos eixos sociais, por exemplo,
em geral, os falantes mais jovens são mais inovadores e os falantes mais velhos costumam preservar
formas mais antigas.
A variável ‘sexo/gênero’ é também focalizada pela sociolinguística, pois, do ponto de vista social,
homens e mulheres têm papéis diferentes e estão, portanto, expostos a situações diversas. Assim, esse fator
pode influenciar a escolha de uma ou outra forma linguística. Estudos comprovam que, nos processos de
variação estável, são os homens que utilizam as variantes inovadoras, porém, nos casos de mudança, são as
mulheres que estão à frente do processo.
A variável ‘escolaridade’ mostra-se pertinente, por exemplo, no momento em que se observa a
existência de formas linguísticas de prestígio ou estigmatizadas. Há fenômenos que são alvo do ensino
escolar e outros que não o são. Como as gramáticas escolares e os manuais de ensino e estudo da língua
julgam as formas estigmatizadas rotulando-as de “erros” ou “vícios de linguagem”, o grau de instrução do
falante pode condicioná-lo ao uso de determinada(s) forma(s) linguística(s). Também essa variável se
revela importante quando do estudo da língua escrita.
A ‘classe’ ou o ‘grupo social’ ou o ‘nível socioeconômico’ a que o falante pertence se reflete
também na sua linguagem. Quanto mais estratificada socialmente uma comunidade, maior o índice de
variação das formas linguísticas. Os estudos sociolinguísticos de Labov mostram que muitas inovações
linguísticas surgem nas camadas mais populares e sobem pela escala social. A mudança começa a se
efetivar nas classes intermediárias, pois, quando uma variante concorrente, normalmente não prestigiada,
atinge as classes mais altas, muito provavelmente a mudança se implementa. Outros estudos, porém,
mostram resultados diversos que refletem, provavelmente, diferentes formas de organização social.
A ‘etnia’ é também uma variável considerada pelos sociolinguistas. É sobretudo em estudos da
variação na língua inglesa da América que esse fator tem se tornado mais conhecido para a explicação de
fenômenos variáveis. No caso do português do Brasil, entretanto, essa variável não tem sido muito
considerada.
Para a sociolinguística, pode haver uma correlação entre o tipo de atividade profissional
desenvolvida por uma pessoa ao longo de sua vida e a necessidade do uso de formas linguísticas de
prestígio. Assim, tem-se considerado também a variável ‘profissão’ para compreender fenômenos
variáveis, uma vez que há profissões que se servem mais da língua do que outras. Entre falantes que atuam
em profissões do primeiro tipo (por exemplo, professores, advogados, jornalistas...), podem ocorrer mais
variantes de prestígio, já que têm acesso mais direto e mais constante ao código linguístico, o que pode não
acontecer com falantes que exercem profissões do segundo tipo.
A variável ‘estilo de fala’ diz respeito à forma como as pessoas se comunicam sobre determinado
assunto em determinado lugar, observadas as relações sociais particulares entre elas. Os falantes possuem
um repertório linguístico que varia a depender do local, do interlocutor, do assunto, do ambiente. Em
situações descontraídas, mais informais, entre pessoas com as quais se tem mais intimidade, é comum que
se usem formas linguísticas vernáculas, ao passo que em ambientes de maior formalidade, entre pessoas
que não se conhecem ou de posições hierárquicas diferentes, em situações de consciência da própria
linguagem, os falantes são capazes de adaptar sua maneira de falar e usar com maior frequência variantes
de prestígio. Ou seja, a fala formal se aproxima mais da norma standard e a fala informal dela se afasta,
deixando transparecer o coloquial, espontâneo. Diferenças de contexto formal e informal levam os falantes
a empregar, respectivamente, estilos também formais ou informais. É através do estilo informal, que deixa
transparecer mais o vernáculo, que muitas mudanças se implementam.
conceito de regra variável – ao lado das regras categóricas da linguística estrutural e gerativo-transformacional –, cuja aplicação
apresentaria uma frequência condicionada a fatores internos e/ou externos à língua.
No estudo da mudança linguística, Weinreich, Labov & Herzog (1968) formulam cinco questões
teóricas centrais: os condicionamentos, a transição, o encaixamento, a avaliação e a sua implementação.
Esses cinco problemas são explicados resumidamente a seguir:
a) o problema dos condicionamentos (the constraint problem) – alguns fatores determinam
mudanças possíveis numa dada direção. Assim, cada restrição pressupõe uma explicação que
diz respeito à causa da mudança. Pode-se, então, saber quais são as mudanças possíveis e se são
de ordem universal;
b) o problema da transição (the transition problem) – essa questão objetiva responder como uma
língua muda, ou seja, como ela passa de um estágio para outro. Isso implica também a
transmissão de regras de uma geração a outra e, portanto, a localização social do falante na
comunidade de fala. Numa escala social, há grupos mais inovadores e menos inovadores.
Localizar que grupo lidera a mudança é também, portanto, uma questão crucial. Há que se
levantar hipóteses para o funcionamento de cada nível linguístico num estudo sincrônico e
diacrônico, na tentativa de entender os sistemas intermediários, que dizem muito mais sobre as
mudanças do que os estágios inicial e final;
c) o problema do encaixamento (the embedding problem) – deve-se observar como uma mudança
se encaixa no sistema linguístico e na matriz social da comunidade. Há que se investigar como
uma mudança pode desencadear outra, num ‘efeito dominó’, dentro do sistema linguístico;
d) o problema da avaliação (the evaluation problem) – a avaliação social diz respeito à forma
como os falantes julgam a mudança e qual o efeito desse julgamento sobre a mudança. Isso
implica o nível de atenção do falante em relação à fala;
e) o problema da implementação (the actuation problem) – a propagação da mudança se dá em
determinados ambientes estruturais e se difunde progressivamente a partir de ambientes mais
favoráveis. Há que se investigar que fatores propiciam que uma determinada mudança ocorra
em uma língua em uma determinada época e não em outra. Essa parece ser a questão mais
difícil a ser respondida pela teoria. Para a sua resolução deve ser considerada a combinação dos
resultados para todos os problemas anteriores.
Conjugando, pois, estudos sincrônicos e diacrônicos (de longa e de curta duração) tem-se mais
embasamento para uma descrição fiel e segura de uma dada língua. Todavia, devido ao fato de não ser
possível resolver determinados problemas históricos, já que os dados são fragmentados, pode-se utilizar a
observação empírica do presente para explicar o passado e do passado para explicar o presente. Essa
observação pode ser produtiva na medida em que está baseada no princípio do uniformitarismo (LABOV,
1994). Ele é uma condição necessária à reconstrução histórica assim como o uso do presente é necessário
para explicar o passado, já que as forças e restrições que regem as mudanças numa língua no presente são
as mesmas que impulsionaram mudanças já concluídas.
Finalmente, não há distinção entre origem e propagação da mudança (LABOV, 1975), pois uma
língua só muda quando uma forma foi transmitida de um falante para outro e foi aceita como uma
convenção social.
Enfim, os objetivos desse tipo de análise são descrever e analisar a variação numa língua,
depreendendo a sistematização que lhe é inerente e comparando os resultados das análises com vistas à
projeção de possíveis rumos que as variantes tomarão.
Assim, a concepção e o alcance do modelo sociolinguístico são, ao mesmo tempo, sincrônicos e
diacrônicos, uma vez que toda mudança implica uma variação. Nesse modelo, a estrutura de uma língua
somente será totalmente entendida à medida que se compreendam efetivamente os processos históricos de
sua configuração.
Teoricamente, uma amostra sincrônica de dados, isto é, dados de um tempo real na história de uma
língua, permite estudar a dinâmica da mudança em curso de implementação, dado que um estado de língua
é a face sincrônica da mudança linguística. Entretanto, procedendo a um recorte transversal da amostra
sincrônica em função da faixa etária dos informantes, acrescenta-se uma dimensão diacrônica à análise.
Assim, tem-se o que se chama de tempo aparente.
O tempo aparente serve como um procedimento através do qual se pode projetar o tempo real
futuro, ou seja, estudando-se a transição e a implementação de variáveis – uma análise acurada de uma
comunidade sociolinguística com seu componente de variação e de mudança –, pode-se dimensionar
historicamente uma variável, não só em relação ao passado mas também em relação a um possível
comportamento no futuro.
Analisando a correlação entre as variantes e os fatores internos e considerando o fator idade, podese observar a estratificação das mesmas. Se, por exemplo, a variante inovadora for mais frequente entre
falantes mais jovens, decrescendo em relação à idade dos outros informantes, tem-se indícios de uma
mudança em progresso.
Uma vez aventada a hipótese de mudança com base em dados do tempo aparente, pode-se proceder
também a uma análise histórica da variável no tempo real, isto é, deve-se recorrer a dados de outra(s)
sincronia(s) para que, através de comparações, se possa melhor entender o valor e a direção da variável na
comunidade (LABOV, 1994).
Em tempo real, o estudo da mudança possibilita analisar aspectos que não podem ser detectados em
tempo aparente e permite distinguir mudanças que se produzem gradualmente em toda a comunidade das
que caracterizam a trajetória de comportamento linguístico individual (PAIVA & DUARTE, 2003).
Os estudos no tempo real de longa duração – que requerem um interstício de séculos – apresentam
dificuldades quanto à coleta de dados, sobretudo de épocas pretéritas, pois não há registros orais e os
escritos não são tão sistemáticos. É aí que se exige do pesquisador uma maior atenção para que consiga
fazer um bom uso dos chamados “maus” dados (LABOV, 1994; PAIVA & DUARTE, 2003).
Já os estudos no tempo real de curta duração – geralmente com um interstício de duas ou três
décadas – fornecem evidências mais seguras sobre o estatuto dos padrões de variação em um dado
momento da língua e podem se apresentar de duas maneiras, estudo de tendência (trend study) ou estudo
de painel (panel study) (LABOV, 1994). O primeiro compara em sincronias diferentes uma mesma
comunidade de fala, ou seja, gravam-se informantes diferentes de uma mesma comunidade em momentos
diferentes, com o intuito de depreender a direcionalidade do sistema na comunidade e a relação entre as
mudanças linguísticas (sua propagação, estabilização ou recuo) e a configuração social de um grupo.
Assim, focaliza-se a continuidade/descontinuidade na própria língua, que pode se refletir no
comportamento do indivíduo. O segundo estuda o comportamento linguístico dos mesmos informantes em
momentos sincrônicos diferentes, com o intuito de distinguir mudança geracional de mudança na
comunidade. Nesse tipo de estudo, está em jogo a continuidade/descontinuidade no comportamento
linguístico do indivíduo sem reflexos no sistema (LABOV, 1994).
Assim, correlacionando fatores linguísticos e extralinguísticos, sincrônicos e diacrônicos, tenta-se
desvendar o mistério da variação e da mudança.
Como bem colocam Paiva & Duarte (2003), conjugando esses tipos diferentes de estudo, obtêm-se
subsídios para a questão da implementação e do encaixamento da mudança. Ao comparar duas sincronias,
surgem indícios para a identificação de como uma dada mudança progride na língua, qual a sua trajetória
estrutural e social e quais as relações de causa e efeito entre diferentes processos de mudança. Ou seja, esse
confronto permite descobrir como as mudanças estão associadas entre si, já que não são frutos do acaso.
Teoricamente, quando uma mudança se implementa, ela não só é consequência mas também possibilita o
aparecimento de outra, isto é, faz parte de uma matriz de mudanças mais gerais. Enfim, pressupõe-se que
as mudanças nas línguas naturais não são isoladas ou independentes.
A metodologia da teoria da variação constitui uma ferramenta que pode ser usada para o estudo de
qualquer fenômeno variável nos diversos níveis e manifestações linguísticas. É mais um instrumento que
se apresenta ao linguista para o entendimento das línguas humanas.
(Extraído de: OLIVEIRA, Josane Moreira de. O futuro da língua portuguesa ontem e hoje: variação e
mudança. Rio de Janeiro: UFRJ, Faculdade de Letras, 2006. Tese de Doutorado em Língua Portuguesa. p.
44-51)
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
O corpus
Uma análise sociolinguística é uma análise quantitativa de dados. Por isso, a escolha do corpus é
muito importante no trabalho. Claro que é preciso primeiramente dedicar-se a um determinando fenômeno
linguístico variável e proceder à leitura de material bibliográfico sobre o tema!
Em se tratando de língua falada, escolhe-se uma comunidade de fala. Buscam-se, a seguir,
informantes que dela sejam representativos. Um dos critérios é ser nascido no local, filho de pais do local e
que não tenha se afastado por muito tempo do local. Daí é preciso equilibrar as células quanto ao
sexo/gênero, quanto à faixa etária, quanto à escolarização etc. Segue um exemplo de estratificação dos
informantes de uma comunidade:
Nome
Pedro
João
Mário
André
Antônio
Júlio
Joaquim
Mateus
Felipe
Carlos
Manuel
Ricardo
Homens
Faixa etária
1
1
1
1
2
2
2
2
3
3
3
3
Escolaridade
S
S
N
N
S
S
N
N
S
S
N
N
Nome
Maria
Ana
Paula
Andréia
Júlia
Carla
Joana
Alice
Cláudia
Vera
Marta
Adriana
Mulheres
Faixa etária
1
1
1
1
2
2
2
2
3
3
3
3
Escolaridade
S
S
N
N
S
S
N
N
S
S
N
N
Assim teríamos 24 informantes, sendo 12 homens e 12 mulheres, 12 escolarizados e 12 analfabetos,
8 da faixa 1 (25 a 35 anos), 8 da faixa 2 (36 a 55 anos) e 8 da faixa 3 (56 anos ou mais).
Daí faríamos as gravações e levantaríamos os dados do fenômeno sob análise controlando essas
informações.
Em se tratando de língua escrita, também os dados devem ser controlados. Por exemplo,
trabalhando com jornais, teríamos de controlar qual o jornal, qual o tipo de texto, qual a cidade, qual a data
etc. para controlar essas informações na coleta dos dados.
É muito importante colocar essas informações de forma abreviada, mas decodificável, após o dado.
Montado o corpus, passa-se ao levantamento e à codificação dos dados para a análise quantitativa.
Trabalha-se com códigos (de preferência mnemônicos) que alimentarão o Programa GoldVarb. Veremos
como fazer isso mais adiante!
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Exercício 1
Instalando o GoldVarb X
1. Crie uma nova pasta com o nome GoldVarb X na sua Área de Trabalho (Desktop) usando o botão
direito do mouse.
2. Baixe o Programa da Internet (GOLDVARB30B3), digitando-o no Google. Os links são:
http://individual.utoronto.ca/tagliamonte/Goldvarb/GV_index.htm
ou
http://individual.utoronto.ca/tagliamonte/goldvarb.htm. O manual da versão anterior (GoldVarb
2001)
pode
ser
encontrado
em:
http://www.york.ac.uk/depts/lang/webstuff/goldvarb/manual/manualOct2001.html (não há manual
para a versão X).
3. Você já tem todos os arquivos executáveis do programa!
Utilizando o GoldVarb X
1. Dê um duplo click na Pasta GoldVarb X e um duplo click na primeira pasta GoldVarb30b3.
Depois, dê um duplo click no aplicativo GoldVarb.
2. Vá ao menu e clique em File. Então crie um arquivo de dados (New – New Tokens) ou abra um
arquivo já existente (Open).
3. Aí você pode começar a digitar os seus dados. Primeiro coloque a cadeia de codificação precedida
de ( . Após a cadeia de codificação, dê um espaço e coloque o seu dado. Não feche os parênteses.
Cada dado (com a respectiva cadeia) deve vir em uma linha diferente. Deixe uma linha em branco
entre os dados.
(I2d3i2PpbA/AddPaU//S7EJnA Tal comissão VAI FAZER uma espécie de radiografia
do INPS para apontar ao Sr. Júlio Barata os males que afetam o mastodôntico
instituto. [T2 J 70 SSA]
(F1c3i2FpnE/XndPaU//S7EJnC Êste, se a comissão nomeada pelo Ministro fôr de
bons clínicos, SERÁ o diagnóstico. [T2 J 70 SSA]
É bom destacar o dado examinado dentro do contexto. A variável dependente deve ser sempre a
primeira na cadeia de codificação. Ao final do exemplo, coloque a fonte (localização) do dado. Nos
exemplos acima, T2 é texto 2, J é jornal, 70 é anos 70 e SSA é Salvador. Ao terminar, dê um nome
ao arquivo (File, Save As). A extensão desse arquivo é .tkn (de token, que significa dado). Da
próxima vez, para abrir o seu arquivo de dados, clique em File, Open e selecione o arquivo a ser
aberto. Ao digitar os dados, não use parênteses (se for o caso, substitua-os por colchetes). Também
não use barras (se for o caso, substitua-as por traço).
Você pode digitar os dados no Word e usá-los depois no GoldVarb X. Você pode copiar e colar
todo o arquivo ou salvá-lo no Word como Texto sem formatação. Neste caso, ele terá a extensão
.txt. Então, na hora de abri-lo no GoldVarb X, é preciso selecionar (ao lado da linha do nome do
arquivo) All Files em vez de Token Files. Lembre-se de salvar o arquivo como .tkn, para facilitar o
uso posteriormente. Use File – Save As e dê um nome. Ele será .tkn.
4. Como codificar os dados
a) comece pela variável dependente
b) evite repetir muito os mesmos símbolos
c) evite num mesmo grupo maiúsculas e minúsculas
d) tente colocar um código que lembre o fator especificado (código mnemônico)
e) nunca use caracteres do tipo “inserir símbolos”
Exemplo de codificação:
Grupos de fatores
G1: Variável dependente
G2: Conjugação verbal
G3: Paradigma verbal
G4: Tipo de sujeito
G5: Tipo de futuro
G6: Sexo/gênero do informante
G7: Faixa etária
G8: Escolaridade
Variantes
Futuro simples (farei)
Futuro perifrástico (vou fazer)
Presente (faço)
1ª conjugação
2ª conjugação
3ª conjugação
Regular
Irregular
Agente (eu lavarei os pratos)
Experienciador (eu verei a luz)
Paciente (o livro será lido)
Não se aplica (haverá paz)
Próximo
Distante
Indefinido
Feminino
Masculino
25 a 35 anos
45 a 55 anos
65 anos em diante
Nível superior
Nível médio
Nível fundamental
Códigos
F
I
P
1
2
3
r
i
A
E
P
/
p
d
i
M
H
1
2
3
s
m
f
Agora, prepare os seus dados. Crie os seus grupos de fatores e codifique os dados num papel à
parte. Cada grupo de fatores corresponde a uma coluna no programa (o GoldVarb X aceita até 120
colunas). Mantenha sempre em mãos os seus grupos de fatores num papel separado.
É bom ler o texto:
SCHERRE, M. M. P.; NARO, A. J. Análise quantitativa e tópicos de interpretação do Varbrul. In:
MOLLICA, M. C.; BRAGA, M. L. (Org.). Introdução à sociolinguística: o tratamento da variação. São
Paulo: Contexto, 2004, p. 147-177.
Os arquivos do GoldVarb X:
Os arquivos lidos pelo GoldVarb X têm extensões .tkn, .res, .cnd, .cel.
.tkn: arquivos de dados
.cnd: arquivos de condições
.cel: arquivos de células
.res: arquivos de resultados (especificações, percentagens, pesos relativos, tabulações cruzadas...)
Todos os resultados gerados pelo programa durante uma sessão ficam em um arquivo .res nas janelas
abaixo ou ao lado da janela do arquivo de dados. Se quiser mantê-los, precisará salvá-los em Save As.
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Exercício 2
Arquivo de dados pronto (.tkn)
Agora que o arquivo de dados (tokens) está pronto, você precisa criar o arquivo de especificações,
ou seja, precisa informar ao programa todos os seus grupos e todos os fatores de cada grupo.
Observação: para inserir algum comentário sobre os dados, você pode usar o ponto e vírgula (;) no
início da linha. Exemplo:
(P2r1 Eu LAVO os pratos depois.
; neste exemplo, considera-se que o presente tem valor de futuro, já que indica uma ação que ocorrerá após
o ato de fala.
(F1i3 Ele VIRÁ mais cedo hoje.
Exemplo de arquivo de dados no GoldVarb X:
Criando o arquivo de especificações e checando erros de codificação
Para criar o seu arquivo de especificações, na tela principal, clique em Tokens e, a seguir, em
Generate Factor Specifications. Clique em OK. Aparecerá uma telinha com o número total de dados.
Clique em Ok. A seguir, aparecerá uma tela com os grupos, os valores e o Default. Cada grupo tem um
Default, um fator que deve ser um dos fatores daquele grupo. Pode ser qualquer fator, é apenas uma
referência para o programa saber qual o fator mais esperado por você. Confira se os grupos têm pelo
menos 2 fatores e se os valores estão corretos. Se houver erros de codificação, é preciso corrigi-los. Você
pode ver todo o arquivo de especificações também clicando em Tokens – Show Factor Specifications.
Verifique se em cada grupo há pelo menos 2 fatores. Se houver algum grupo com apenas 1 fator,
acrescente mais um fator qualquer. Depois, clique em Modify Group.
Agora vá à tela dos dados e clique em Tokens – No recode (não recodificar). Aparecerá a tela com
o arquivo de condições, em que constam todos os grupos de fatores. Você fará a primeira rodada com
todos os grupos e todos os fatores para um resultado inicial.
Na tela do arquivo de condições, clique em Cell – Load cells to memory. O programa perguntará se
quer gerar o arquivo de células a partir do arquivo de dados e do arquivo de condições em tela. Clique em
Yes. Aparecerá então uma telinha com o total de dados e de linhas checados. Clique em Ok. Aparecerá
outra tela com Choose application value(s). O programa pede a regra de aplicação. Ele apresenta a ordem
das variantes (variável dependente) na ordem em que aparecem no arquivo de dados.
Você pode mudar essa ordem, a depender do que esteja estudando. Por exemplo, estudando o
futuro verbal, temos 4 variantes (futuro simples – F, futuro perifrástico com ir no presente – I, futuro
perifrástico com ir no futuro – R e presente do indicativo – P). Pela ordem em que aparecem nos dados, o
programa me mostra: PIFR. Mas prefiro a ordem FIRP. Então posso alterar. Clique em OK e aparecerá o
primeiro arquivo de resultados, com os percentuais. Salve-o como Save As e faça uma primeira análise.
Aparecem também um telinha com o total de células (clique em OK) e uma tela com o arquivo .cel (que
não nos interessa). Eis uma imagem do arquivo de células com os percentuais:
Imprima o seu arquivo de células para fazer uma primeira análise. Possivelmente, haverá alguns
KnockOuts. O KnockOut acontece sempre que há regra categórica (0% ou 100% dos dados) em algum
fator. Eles terão de ser retirados da rodada, mas fornecem uma informação linguística importantíssima.
Não deixe de informar, na sua análise, os casos categóricos! Pode acontecer também o Singleton Group,
grupo que contém apenas um fator. Este também deve ser retirado da rodada.
Vejamos um exemplo desses casos em um arquivo de células:
• CELL CREATION • 07/02/2014 19:00:41 ••••••••••••••••••••••••••••••••••••••••••
Name of token file: A Tarde1.tkn
Name of condition file: Untitled.cnd
(
(1 (P (COL 1 P))
(I (COL 1 I))
(F (COL 1 F))
(I (COL 1 R)))
(2)
(3)
(4)
(5)
(8)
(12)
(14)
(15)
(16)
(17)
)
Number of cells: 410
Application value(s): FIP
Total no. of factors: 39
Group
F
I
P
Total
%
---------------------------------------------1 (2)
F
I
P
2
N
126
55
81
262 42.5
%
48.1
21.0
30.9
4
N
%
22
25.6
19
22.1
45
52.3
86
13.9
3
N
%
37
35.2
46
43.8
22
21.0
105
17.0
1
N
%
137
83.5
8
4.9
19
11.6
164
26.6
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------2 (3)
F
I
P
3
N
190
91
125
406 65.8
%
46.8
22.4
30.8
6
N
%
120
69.0
17
9.8
37
21.3
174
28.2
4
N
%
11
34.4
18
56.2
3
9.4
32
5.2
1
N
%
1
20.0
2
40.0
2
40.0
5
0.8
Total N
322
128
167
617
%
52.2
20.7
27.1
----------------------------------------------
3 (4)
1
N
%
F
79
31.3
I
86
34.1
P
87
34.5
252
40.8
2
N
%
224
71.6
25
8.0
64
20.4
313
50.7
3
N
%
19
36.5
17
32.7
16
30.8
52
8.4
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------4 (5)
F
I
P
r
N
97
100
116
313 50.7
%
31.0
31.9
37.1
i
N
%
225
74.0
28
9.2
51
16.8
304
49.3
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------5 (8)
F
I
P
A
N
65
91
94
250 42.0
%
26.0
36.4
37.6
E
N
%
157
60.4
34
13.1
69
26.5
260
43.7
P
N
%
82
96.5
1
1.2
2
2.4
85
14.3
Total N
304
126
165
595
%
51.1
21.2
27.7
---------------------------------------------6 (12)
F
I
P
P
N
78
97
107
282 45.7
%
27.7
34.4
37.9
E
N
%
35
50.0
17
24.3
18
25.7
70
11.3
F
N
%
208
78.8
14
5.3
42
15.9
264
42.8
C
N
%
1
100.0
0
0.0
0
0.0
1
0.2
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------7 (14)
F
I
P
P
N
123
42
103
268 43.4
%
45.9
15.7
38.4
X
N
%
143
59.6
74
30.8
23
9.6
240
38.9
I
N
%
44
51.8
9
10.6
32
37.6
85
13.8
A
N
%
11
50.0
3
13.6
8
36.4
22
3.6
D
N
%
1
50.0
0
0.0
1
50.0
2
0.3
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------8 (15)
F
I
P
o
N
50
31
34
115 18.6
%
43.5
27.0
29.6
i
N
%
84
63.6
17
12.9
31
23.5
132
21.4
u
N
%
153
50.3
66
21.7
85
28.0
304
49.3
d
N
%
35
53.0
14
21.2
17
25.8
66
10.7
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------9 (16)
F
I
P
c
N
322
128
167
617 100.0
%
52.2
20.7
27.1
* Singleton Group *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------10 (17)
F
I
P
T
N
10
9
22
41
6.6
%
24.4
22.0
53.7
M
N
%
231
59.2
96
24.6
63
16.2
390
63.2
N
N
%
34
27.0
16
12.7
76
60.3
126
20.4
E
N
%
9
100.0
0
0.0
0
0.0
9
1.5
* KnockOut *
A
N
%
20
95.2
1
4.8
0
0.0
21
3.4
* KnockOut *
H
N
%
12
80.0
0
0.0
3
20.0
15
2.4
* KnockOut *
Q
N
%
0
0.0
1
33.3
2
66.7
3
0.5
* KnockOut *
R
N
%
4
40.0
5
50.0
1
10.0
10
C
N
%
2
100.0
0
0.0
0
0.0
2
1.6
0.3
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------TOTAL N
322
128
167
617
%
52.2
20.7
27.1
Name of new cell file: .cel
Como dito antes, para a rodada final, o arquivo de células precisa estar sem nenhum problema.
Precisamos resolver os casos de No Factors, de Singleton Group e de Knockouts.
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Exercício 3
Como interpretar os resultados do arquivo de células
Como já se disse, o 1º arquivo de células, no caso de ter havido algum problema (KnockOut,
Singleton Group ou No Factors), deve ser guardado, pois o problema deve ser comentado na análise dos
dados. Todavia esse arquivo terá de ser refeito até que não haja mais problemas. Só então ele poderá ser
submetido ao cálculo dos pesos relativos.
O arquivo de células já permite uma análise dos dados, pois ele informa a quantidade de
ocorrências e os percentuais para cada variante em relação a cada fator considerado nos grupos de fatores.
Por exemplo, observe os resultados do grupo abaixo, extraído do arquivo de células anterior:
---------------------------------------------4 (5)
F
I
P
r
N
97
100
116
313 50.7
%
31.0
31.9
37.1
i
N
%
225
74.0
28
9.2
51
16.8
304
49.3
Total N
322
128
167
617
%
52.2
20.7
27.1
----------------------------------------------
Este Grupo (Paradigma verbal) possui 2 fatores (r = verbo regular / i = verbo irregular).
Transformando esses resultados em tabela, temos:
Paradigma
verbal
Verbo regular
Verbo irregular
Total
Tabela 1: Variação na expressão do futuro na escrita e paradigma verbal
Futuro simples
Futuro perifrástico
Presente
No de
dados
97
225
322
Percentual
31%
74%
No de
dados
100
28
128
Percentual
32%
9%
No de
dados
116
51
167
Total
Percentual
37%
17%
313
304
617
Assim, podemos ver que o futuro simples foi mais utilizado (52%) do que o futuro perifrástico
(21%) e do que o presente (27%) em toda a amostra, que contém 617 dados. Comparando os dois
paradigmas verbais, vemos que nos verbos irregulares prevaleceu o futuro simples, enquanto que os verbos
regulares foram mais usados com o futuro perifrástico e com o presente.
Este é só um exemplo. A estruturação e a leitura da tabela podem variar, a depender do que se
queira chamar à atenção.
Mas, voltemos aos problemas! Para retirar os casos de Singleton Group, No Factors e KnockOut,
devemos recodificar os dados. Nos casos de Singleton Group e de No Factors, os grupos devem ser,
simplesmente, retirados na recodificação. No primeiro caso, trata-se de um grupo em que só um fator
ocorreu; no segundo, trata-se de um grupo em que nenhum dos fatores ocorreu.
Exemplo de Singleton Group:
---------------------------------------------9 (16)
F
I
P
c
N
322
128
167
617 100.0
%
52.2
20.7
27.1
* Singleton Group *
Total N
322
128
167
617
%
52.2
20.7
27.1
----------------------------------------------
Este grupo, ‘Tipo de jornal’, possui 2 fatores: culto (c) e popular (p). Como os dados dessa amostra
foram todos do jornal considerado culto (ainda não tinham sido codificados os dados do jornal popular), os
617 dados (total da amostra) apareceram codificados com o fator c (100%) dos dados. Observe que no total
o programa continua dizendo (como na tabela anterior) que há futuro simples em 52% dos dados, futuro
perifrástico em 21% dos dados e presente em 27% dos dados. Simplesmente não há como considerar esse
grupo, pois não há cálculo algum a fazer. Eis o que o programa informa com a expressão “Singleton
Group”. Quando da recodificação, devemos excluir o grupo 16 (atual 9).
Exemplo de No factors:
--------------------------------17 (18)
* No Factors *
---------------------------------
Suponha que este grupo seja ‘Tipo de sujeito’, com 3 fatores: sujeito animado (A), sujeito
inanimado (I) e “não se aplica” (/). Os casos de não se aplica devem ser codificados com uma barra (/).
Neste grupo, seriam casos de “não se aplica” os dados em que há sujeito oracional (DEVERÁ ser
considerado que o homem é um ser mortal) ou em que há oração sem sujeito (VAI HAVER muitos
problemas). Com o “não se aplica” (/), dizemos ao programa que nesses casos não há como dizer se o
sujeito é animado ou não animado, ou seja, nesses casos, essa classificação NÃO SE APLICA. E o
programa retira da rodada (dos cálculos) esses dados. Ele nem os enxerga.
Agora suponha que nessa amostra só ocorreram exemplos de “não se aplica”, ou seja, em todos os
dados houve sujeito oracional ou oração sem sujeito. Assim, a mensagem No Factors informa que não
houve nenhum fator, ou seja, não houve A (sujeito animado) nem I (sujeito inanimado). Dessa forma, o
programa não tem como informar nada. Com essa mensagem, ele nos diz: o que você quer que eu faça
nesse grupo se não há nada codificado (nem A nem I)? Quando da recodificação, o grupo 18 (atual 17)
deve ser excluído.
Como recodificar os dados – retirando grupos
Para recodificar os dados retirando grupos (depois veremos como retirar apenas fatores e como
agrupar fatores), os passos são os seguintes:
1. Na tela dos dados (Tokens) e clique em Recode setup
2. Aparece uma tela Generate conditions for recoding:
3. Clique no Grupo 1 (o grupo da variável dependente) e ele vai ficar azul. Então clique ao lado
em Recode
4. Na tela ao lado aparecem os fatores, repita os que quer manter e modifique os que quer
recodificar (no exemplo, digite P I F I). Assim, estamos recodificando R como I (ou seja, os
casos de irei fazer estarão juntos com os casos de vou fazer, como futuro perifrástico)
5. A seguir, clique no Grupo 2 da tela à esquerda e clique em Copy (esse grupo será mantido sem
alterações)
6. Repita a mesma operação com todos os grupos, exceto com os grupos a serem excluídos (no
caso do exemplo, ignore os grupos 16 – Singleton Group e 18 – No factors, pulando-os)
7. A seguir, clique em Ok e aparecerá um novo arquivo de condições
8. Aparecerá uma nova tela, com o arquivo de condições;
9. Clique em Cells – Load cells to memory
10. Aparecerá uma tela dizendo que há células na memória e o programa pergunta se você quer
descartá-las (clique em Yes)
11. Aparece outra tela perguntando se você quer criar um novo arquivo de células a partir dos
dados e das condições em tela (clique em Yes)
12. Aparecerá uma tela pedindo a regra de aplicação (digite FIP e clique em Ok)
13. O programa então apresenta o novo arquivo de células sem os grupos excluídos
14. Veja o seu novo arquivo de células sem os grupos excluídos (eles não constarão nem do arquivo
de condições nem dos resultados)
Atenção: o programa gera o novo arquivo embaixo do anterior (a não ser que o tenhamos salvado).
Assim, é preciso cuidado pra olhar o último arquivo!
Vejamos o arquivo de células que estamos tomando como exemplo. Eis o arquivo após a
recodificação:
• CELL CREATION • 07/02/2014 19:52:36 ••••••••••••••••••••••••••••••••••••••••••
Name of token file: A Tarde1.tkn
Name of condition file: Untitled.cnd
(
(1 (P (COL 1 P))
(I (COL 1 I))
(F (COL 1 F))
(I (COL 1 R)))
(2)
(3)
(4)
(5)
(8)
(12)
(14)
(17)
)
Number of cells:
Application value(s):
Total no. of factors:
301
FIP
34
Group
F
I
P
Total
%
---------------------------------------------1 (2)
F
I
P
2
N
126
55
81
262 42.5
%
48.1
21.0
30.9
4
N
%
22
25.6
19
22.1
45
52.3
86
13.9
3
N
%
37
35.2
46
43.8
22
21.0
105
17.0
1
N
%
137
83.5
8
4.9
19
11.6
164
26.6
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------2 (3)
F
I
P
3
N
190
91
125
406 65.8
%
46.8
22.4
30.8
6
N
%
120
69.0
17
9.8
37
21.3
174
28.2
4
N
%
11
34.4
18
56.2
3
9.4
32
5.2
1
N
%
1
20.0
2
40.0
2
40.0
5
0.8
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------3 (4)
F
I
P
1
N
79
86
87
252 40.8
%
31.3
34.1
34.5
2
N
%
224
71.6
25
8.0
64
20.4
313
50.7
3
N
%
19
36.5
17
32.7
16
30.8
52
8.4
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------4 (5)
F
I
P
r
N
97
100
116
313 50.7
%
31.0
31.9
37.1
i
N
%
225
74.0
28
9.2
51
16.8
304
49.3
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------5 (8)
F
I
P
A
N
65
91
94
250 42.0
%
26.0
36.4
37.6
E
N
%
157
60.4
34
13.1
69
26.5
260
43.7
P
N
%
82
96.5
1
1.2
2
2.4
85
14.3
Total N
304
126
165
595
%
51.1
21.2
27.7
---------------------------------------------6 (12)
F
I
P
P
N
78
97
107
282 45.7
%
27.7
34.4
37.9
E
N
%
35
50.0
17
24.3
18
25.7
70
11.3
F
N
%
208
78.8
14
5.3
42
15.9
264
42.8
C
N
%
1
100.0
0
0.0
0
0.0
1
0.2
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------7 (14)
F
I
P
P
N
123
42
103
268 43.4
%
45.9
15.7
38.4
X
N
%
143
59.6
74
30.8
23
9.6
240
38.9
I
N
%
44
51.8
9
10.6
32
37.6
85
13.8
A
N
%
11
50.0
3
13.6
8
36.4
22
3.6
D
N
%
1
50.0
0
0.0
1
50.0
2
0.3
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------8 (17)
F
I
P
T
N
10
9
22
41
6.6
%
24.4
22.0
53.7
M
N
%
231
59.2
96
24.6
63
16.2
390
63.2
N
N
%
34
27.0
16
12.7
76
60.3
126
20.4
E
N
%
9
100.0
0
0.0
0
0.0
9
1.5
* KnockOut *
A
N
%
20
95.2
1
4.8
0
0.0
21
3.4
* KnockOut *
H
N
%
12
80.0
0
0.0
3
20.0
15
2.4
* KnockOut *
Q
N
%
0
0.0
1
33.3
2
66.7
3
0.5
* KnockOut *
R
N
%
4
40.0
5
50.0
1
10.0
10
C
N
%
2
100.0
0
0.0
0
0.0
2
1.6
0.3
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
---------------------------------------------TOTAL N
322
128
167
617
%
52.2
20.7
27.1
Name of new cell file: .cel
Não há mais Singleton Group nem No Factors. Restam só os KnocKouts. Vejamos como resolvêlos.
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Exercício 4
Como recodificar os dados – retirando fatores ou juntando fatores de um mesmo grupo
Tomando como exemplo o arquivo de células anterior, observe o Grupo 6 (antigo 12):
---------------------------------------------6 (12)
F
I
P
P
N
78
97
107
282 45.7
%
27.7
34.4
37.9
E
N
%
35
50.0
17
24.3
18
25.7
70
11.3
F
N
%
208
78.8
14
5.3
42
15.9
264
42.8
C
N
%
1
100.0
0
0.0
0
0.0
1
0.2
* KnockOut *
Total N
322
128
167
617
%
52.2
20.7
27.1
----------------------------------------------
O fator C (verbo cognitivo) apresenta KnockOut. Ou seja, no único caso em que houve esse tipo de
verbo, ocorreu futuro simples (100%). Devemos informar isso na análise e retirar esse dado desse grupo.
Assim, veremos a variação apenas entre verbos de processo (P), verbos de evento (E) e verbos de estado
físico (F).
Para fazer isso, siga os seguintes passos (alguns dos quais vimos anteriormente quando da retirada
de grupos inteiros):
1. Na tela dos dados, vá em Tokens e clique em Recode setup
2. Aparece uma telinha perguntando se quer salvar ou não o arquivo de condições anterior (clique
em Don’t save)
3. Aparece uma tela para recodificação (Generate conditions for recoding...)
4. Clique no Grupo 1 (o grupo da variável dependente) e ele vai ficar azul. Então clique ao lado
em Recode e digite P I F I (ele vai manter esse grupo substituindo R por I)
5. Clique no Grupo 2 e a seguir em Copy
6. Repita a mesma operação com todos os grupos que você quer manter
7. Já vimos que os grupos a serem excluídos devem ser pulados
8. No caso do grupo 12, do qual queremos excluir o fator C, clique em Recode
9. Na tela ao lado, digite P E F / (assim manteremos P E F e excluímos o dado de C, que tinha
knockout)
10. No caso de excluir mais de um fator no mesmo grupo, continue colocando a barra (/) para os
fatores a serem excluídos;
11. Façamos o mesmo com o Grupo 14, para excluir o D (digite na tela ao lado P X I A /)
12. Devemos excluir também o Grupo 17 (Gênero textual), que apresentou muitos knockouts
13. Clique em Ok e terá o novo arquivo de células (imprima-o e analise-o) sem problemas
14. Agora os seus dados já estão prontos para a rodada final do Varbrul (pesos relativos)
Acontece que temos 3 variantes e o programa só faz rodadas binárias para gerar os pesos relativos.
Nossa opção aqui é deixar de lado o presente do indicativo e rodar o futuro simples e o futuro perifrástico.
Essa decisão é feita com base em análises linguísticas. Como o futuro perifrástico é a forma inovadora,
será a regra de aplicação, de acordo com o seguinte raciocínio: queremos ver quais os contextos de entrada
da forma inovadora na escrita.
Veremos como fazer isso mais tarde!
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Exercício 5
Há outra opção para a retirada dos casos de KnockOut. Em vez de retirar fatores, podemos
reagrupar os fatores dentro de um mesmo grupo. Por exemplo, podemos juntar P1 (= eu) e P4 (= nós)
como 1ª pessoa, P2 (= tu) e P5 (= vós) como 2ª pessoa e P3 (= ele) e P6 (= eles) como 3ª pessoa. Neste
caso, ignoraremos o número (singular ou plural).
Podemos também reagrupar fatores de grupos diferentes. Por exemplo, em vez de ter 2 grupos – um
com a conjugação verbal (1ª, 2ª e 3ª) e outro com o paradigma verbal (verbo regular e verbo irregular) –,
podemos transformá-los em um só grupo: 1ª conj. reg., 1ª conj. irreg., 2ª conj. reg., 2ª conj. irreg., 3ª conj.
reg. e 3ª conj. irreg. Assim, em vez de 2 grupos com 3 fatores cada, temos um grupo só com 6 fatores.
Optar pela retirada dos fatores ou pelo reagrupamento depende de uma análise linguística. Aí, como
cada caso é um caso, vale a intuição linguística e o conhecimento do fenômeno e da língua sob análise.
Vimos como excluir fatores. A seguir, veremos como reagrupar fatores.
Como recodificar os dados – reagrupando fatores de grupos diferentes
Comandos AND e OR
Os comandos AND e OR não estão disponíveis na versão do GoldVarb X, mas podemos usá-los na
versão do GoldVarb 2001.
AND
Por exemplo, considerando os grupos de fatores exemplificados abaixo:
Grupos de fatores
G1: Variável dependente
G2: Conjugação verbal
G3: Paradigma verbal
G4: Tipo de sujeito
G5: Sexo/gênero do informante
Variantes
Futuro simples (farei)
Futuro perifrástico (vou fazer)
Presente (faço)
1ª conjugação
2ª conjugação
3ª conjugação
Regular
Irregular
Agente (eu lavarei os pratos)
Experienciador (eu verei a luz)
Paciente (o livro será lido)
Não se aplica (haverá paz)
Feminino
Masculino
Códigos
F
I
P
1
2
3
r
i
A
E
P
/
M
H
Podemos juntar os fatores dos grupos 2 e 3 da seguinte forma:






Verbos regulares de 1ª conjugação (1 + r)
Verbos irregulares de 1ª conjugação (1 + i)
Verbos regulares de 2ª conjugação (2 + r)
Verbos irregulares de 2ª conjugação (2 + i)
Verbos regulares de 3ª conjugação (3 + r)
Verbos irregulares de 3ª conjugação (3 + i)
Para fazer isso (no GoldVarb 2001), vá ao Action – Recode Setup da janela de Tokens. Clique no
Grupo 2 e clique em AND. O programa então pede o outro grupo. Selecione o Grupo 3. Observe que na
tabela do lado direito (com as novas condições) aparece o AND com uma linha em branco e os dois grupos
selecionados a seguir. Na tabela do lado esquerdo (original), clique em 1 (Grupo2) e em r (Grupo 3).
Depois clique em 1 (Grupo 2) e em i (Grupo 3). Clique em 2 (Grupo 2) e em r (Grupo 3). Depois combine
2 com i. Faça o mesmo com o 3 (com r e depois com i). Assim, você fez todas as combinações propostas
acima, juntando os dois grupos. Observe na tabela ao lado direito as novas combinações. Na linha em
branco do AND, preencha cada combinação com um novo código. Por exemplo: 1 + r = 1; 2 + r = 2; 3 + r
= 3; 1 + i = U; 2 + i = D; 3 + i = T. Clique então em Finish current operation. O programa pede então uma
condição para que essa operação acabe. Digite qualquer símbolo (por exemplo, a letra X). Prossiga com a
recodificação, copiando ou excluindo os demais grupos, como visto em aulas anteriores. Aparecerá o novo
arquivo de condições com os grupos unidos pelo AND.
Daí é só rodar o novo arquivo de células: View – Results – Load Cells to Memory. Você verá o
novo arquivo de condições e o arquivo de células. No caso da exemplificação aqui apresentada, houve dois
knockouts com a nova codificação. Os fatores U (verbos irregulares de 1ª conjugação) e T (verbos
irregulares de 3ª conjugação) apresentaram 100% de futuro simples. Teríamos de retirar esses knockouts,
obviamente. Mas, por enquanto, observe apenas a junção dos grupos 2 e 3. Veja que o GoldVarb chamou
esse novo grupo de New (novo):
CELL CREATION
=============
Name of token file: C:\Documents and Settings\Josane\Desktop\Goldvarb\JOT90.tkn
Name of condition file: Untitled.cnd
(
(1)
(2)
(3)
(4 (6 (COL 4 6))
(3 (COL 4 3))
(/ (COL 4 4)))
(0 (T (AND (COL 5 i) (COL 6 3) ))
Grupo novo com o AND
(D (AND (COL 5 i) (COL 6 2) ))
(U (AND (COL 5 i) (COL 6 1) ))
(3 (AND (COL 5 r) (COL 6 3) ))
(2 (AND (COL 5 r) (COL 6 2) ))
(1 (AND (COL 5 r) (COL 6 1) ))
(1 (ELSEWHERE)))
(10)
(16 (a (COL 16 a))
(n (COL 16 n))
(/ (COL 16 i)))
(17 (U (COL 17 U))
(O (COL 17 O))
(I (COL 17 I))
(F (COL 17 F))
(/ (COL 17 P)))
(20)
)
Number of cells: 68
Application value(s): IF
Total no. of factors: 28
Group
I
F
Total %
--------------------------------1 (2)
4
N
3
8
11 15
%
27
72
2
N
%
7
25
20
74
27
39
3
N
%
5
27
13
72
18
26
1
N
%
2
15
11
84
13
18
Total N
17
52
69
%
24
75
--------------------------------2 (3)
b
N
1
1
2
2
%
50
50
d
N
%
10
29
24
70
34
49
c
N
%
2
14
12
85
14
20
t
N
%
3
21
11
78
14
20
i
N
%
1
20
4
80
5
7
Total N
17
52
69
%
24
75
--------------------------------3 (4)
6
N
4
14
18 27
%
22
77
3
N
%
13
27
35
72
48
72
Total N
17
49
66
%
25
74
--------------------------------4 (new)
3
N
1
4
5
7
%
20
80
1
N
%
10
27
27
72
37
53
D
N
%
4
22
14
77
18
26
2
N
%
2
40
3
60
5
7
U
N
%
0
N
%
0
T
0
3
3
4
* KnockOut *
1
1
1
* KnockOut *
100
0
100
Total N
17
52
69
%
24
75
--------------------------------5 (10)
P
N
1
14
15 22
%
6
93
A
N
%
9
31
20
68
29
43
E
N
%
5
22
17
77
22
33
Total N
%
15
22
51
77
66
Grupo novo com o AND
--------------------------------6 (16)
a
N
15
49
64 94
%
23
76
n
N
%
1
25
3
75
4
5
Total N
16
52
68
%
23
76
--------------------------------7 (17)
U
N
9
28
37 54
%
24
75
O
N
%
5
38
8
61
13
19
I
N
%
1
20
4
80
5
7
F
N
%
2
15
11
84
13
19
Total N
17
51
68
%
25
75
--------------------------------8 (20)
S
N
11
27
38 55
%
28
71
R
N
%
6
19
25
80
31
44
Total N
17
52
69
%
24
75
--------------------------------Total N
17
52
69
%
24
75
Name of new cell file: Untitled.cel
O mesmo pode ser feito, por exemplo, para cruzar as variáveis sexo/gênero e faixa etária, ou para
cruzar as variáveis sexo/gênero e escolaridade.
OR
Para usar o comando OR, o procedimento é o mesmo para o comando AND. A diferença é apenas
semântica: AND significa E e OR significa OU. Só uma reflexão linguística indicará os casos em que
devemos usar um ou outro.
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Exercício 6
Como obter os pesos relativos
Para a rodada binária Futuro perifrástico X Futuro simples, precisamos excluir os dados de
Presente. Assim, vamos recodificar os dados, colocando / no fator P do primeiro grupo. É preciso lembrar
que as alterações anteriores precisam ser mantidas. A nova regra de aplicação é I F. Assim, o nosso novo
arquivo células é:
• CELL CREATION • 07/02/2014 20:21:46 ••••••••••••••••••••••••••••••••••••••••••
Name of token file: A Tarde1.tkn
Name of condition file: Untitled.cnd
(
(1 (/ (COL 1 P))
(I (COL 1 I))
(F (COL 1 F))
(I (COL 1 R)))
(2)
(3)
(4)
(5)
(8)
(12 (P (COL 12 P))
(E (COL 12 E))
(F (COL 12 F))
(/ (COL 12 C)))
(14 (P (COL 14 P))
(X (COL 14 X))
(I (COL 14 I))
(A (COL 14 A))
(/ (COL 14 D)))
)
Number of cells:
Application value(s):
Total no. of factors:
167
IF
23
Group
I
F
Total
%
-------------------------------------1 (2)
I
F
2
N
55
126
181 40.2
%
30.4
69.6
1
N
%
8
5.5
137
94.5
145
32.2
4
N
%
19
46.3
22
53.7
41
9.1
3
N
%
46
55.4
37
44.6
83
18.4
Total N
128
322
450
%
28.4
71.6
-------------------------------------2 (3)
I
F
3
N
91
190
281 62.4
%
32.4
67.6
4
N
%
18
62.1
11
37.9
29
6.4
6
N
%
17
12.4
120
87.6
137
30.4
1
N
%
2
66.7
1
33.3
3
0.7
Total N
128
322
450
%
28.4
71.6
-------------------------------------3 (4)
I
F
3
N
17
19
36
8.0
%
47.2
52.8
2
N
%
25
10.0
224
90.0
249
55.3
1
N
%
86
52.1
79
47.9
165
36.7
Total N
128
322
450
%
28.4
71.6
-------------------------------------4 (5)
I
F
i
N
28
225
253 56.2
%
11.1
88.9
r
N
%
100
50.8
97
49.2
197
43.8
Total N
128
322
450
%
28.4
71.6
-------------------------------------5 (8)
I
F
E
N
34
157
191 44.4
%
17.8
82.2
A
N
%
91
58.3
65
41.7
156
36.3
P
N
%
1
1.2
82
98.8
83
19.3
Total N
126
304
430
%
29.3
70.7
-------------------------------------6 (12)
I
F
E
N
17
35
52 11.6
%
32.7
67.3
P
N
%
97
55.4
78
44.6
175
39.0
F
N
%
14
6.3
208
93.7
222
49.4
Total N
128
321
449
%
28.5
71.5
-------------------------------------7 (14)
I
F
X
N
74
143
217 48.3
%
34.1
65.9
I
N
%
9
17.0
44
83.0
53
11.8
P
N
42
123
165
36.7
A
%
25.5
74.5
N
%
3
21.4
11
78.6
14
3.1
Total N
128
321
449
%
28.5
71.5
-------------------------------------TOTAL N
128
322
450
%
28.4
71.6
Name of new cell file: .cel
Com este arquivo pronto, podemos proceder à rodada para gerar os pesos relativos. Para tanto,
nesse novo arquivo de percentagens (.res), clique em Cells – Binomial, Up and Down. Aparecerá nosso
novo arquivo .res, com os pesos relativos (logo abaixo do arquivo de percentagens)!
• BINOMIAL VARBRUL • 07/02/2014 20:29:33 •••••••••••••••••••••••••••••••••••••••
Name of cell file: .cel
Averaging by weighting factors.
Threshold, step-up/down: 0.050001
Stepping up...
---------- Level # 0 ---------Run # 1, 1 cells:
Convergence at Iteration 2
Input 0.284
Log likelihood = -268.696
---------- Level # 1 ---------Run # 2, 4 cells:
Convergence at Iteration 6
Input 0.228
Group # 1 -- 2: 0.597, 1: 0.166, 4: 0.745, 3: 0.808
Log likelihood = -227.458 Significance = 0.000
Run # 3, 4 cells:
Convergence at Iteration 5
Input 0.265
Group # 2 -- 3: 0.570, 4: 0.819, 6: 0.282, 1: 0.847
Log likelihood = -249.486 Significance = 0.000
Run # 4, 3 cells:
Convergence at Iteration 5
Input 0.233
Group # 3 -- 3: 0.746, 2: 0.269, 1: 0.782
Log likelihood = -220.284 Significance = 0.000
Run # 5, 2 cells:
Convergence at Iteration 5
Input 0.239
Group # 4 -- i: 0.284, r: 0.766
Log likelihood = -224.550 Significance = 0.000
Run # 6, 4 cells:
Convergence at Iteration 7
Input 0.197
Group # 5 -- E: 0.470, A: 0.851, P: 0.048
Log likelihood = -209.363 Significance = 0.000
Run # 7, 4 cells:
Convergence at Iteration 5
Input 0.209
Group # 6 -- E: 0.648, P: 0.825, F: 0.204
Log likelihood = -205.705 Significance = 0.000
Run # 8, 5 cells:
Convergence at Iteration 5
Input 0.281
Group # 7 -- X: 0.570, I: 0.344, P: 0.467, A: 0.412
Log likelihood = -264.605 Significance = 0.045
Add Group # 6 with factors EPF
---------- Level # 2 ---------Run # 9, 13 cells:
Convergence at Iteration 8
Input 0.195
Group # 1 -- 2: 0.586, 1: 0.299, 4: 0.566, 3: 0.645
Group # 6 -- E: 0.626, P: 0.779, F: 0.247
Log likelihood = -200.445 Significance = 0.015
Run # 10, 13 cells:
Convergence at Iteration 7
Input 0.198
Group # 2 -- 3: 0.549, 4: 0.786, 6: 0.326, 1: 0.887
Group # 6 -- E: 0.618, P: 0.818, F: 0.215
Log likelihood = -195.936 Significance = 0.000
Run # 11, 10 cells:
Convergence at Iteration 8
Input 0.198
Group # 3 -- 3: 0.559, 2: 0.367, 1: 0.684
Group # 6 -- E: 0.652, P: 0.764, F: 0.255
Log likelihood = -196.203 Significance = 0.000
Run # 12, 7 cells:
Convergence at Iteration 8
Input 0.203
Group # 4 -- i: 0.392, r: 0.637
Group # 6 -- E: 0.617, P: 0.773, F: 0.254
Log likelihood = -199.980 Significance = 0.001
Run # 13, 12 cells:
Convergence at Iteration 13
Input 0.177
Group # 5 -- E: 0.547, A: 0.713, P: 0.105
Group # 6 -- E: 0.639, P: 0.729, F: 0.286
Log likelihood = -197.565 Significance = 0.000
Run # 14, 14 cells:
Convergence at Iteration 5
Input 0.208
Group # 6 -- E: 0.640, P: 0.822, F: 0.207
Group # 7 -- X: 0.535, I: 0.411, P: 0.485, A: 0.484
Log likelihood = -204.949 Significance = 0.681
Add Group # 3 with factors 321
---------- Level # 3 ---------Run # 15, 31 cells:
Convergence at Iteration 8
Input 0.187
Group # 1 -- 2: 0.564, 1: 0.359, 4: 0.475, 3: 0.622
Group # 3 -- 3: 0.545, 2: 0.379, 1: 0.670
Group # 6 -- E: 0.640, P: 0.740, F: 0.277
Log likelihood = -193.058
Significance = 0.099
Run # 16, 28 cells:
Convergence at Iteration 8
Input 0.184
Group # 2 -- 3: 0.547, 4: 0.796, 6: 0.328, 1: 0.892
Group # 3 -- 3: 0.580, 2: 0.361, 1: 0.689
Group # 6 -- E: 0.628, P: 0.756, F: 0.266
Log likelihood = -186.211 Significance = 0.000
Run # 17, 18 cells:
Convergence at Iteration 10
Input 0.198
Group # 3 -- 3: 0.571, 2: 0.390, 1: 0.649
Group # 4 -- i: 0.445, r: 0.570
Group # 6 -- E: 0.634, P: 0.744, F: 0.275
Log likelihood = -195.266 Significance = 0.178
Run # 18, 24 cells:
Convergence at Iteration 12
Input 0.168
Group # 3 -- 3: 0.518, 2: 0.377, 1: 0.678
Group # 5 -- E: 0.520, A: 0.722, P: 0.121
Group # 6 -- E: 0.655, P: 0.652, F: 0.344
Log likelihood = -189.201 Significance = 0.001
Run # 19, 28 cells:
Convergence at Iteration 8
Input 0.197
Group # 3 -- 3: 0.569, 2: 0.366, 1: 0.684
Group # 6 -- E: 0.644, P: 0.759, F: 0.260
Group # 7 -- X: 0.535, I: 0.432, P: 0.482, A: 0.432
Log likelihood = -195.548 Significance = 0.727
Add Group # 2 with factors 3461
---------- Level # 4 ---------Run # 20, 66 cells:
Convergence at Iteration 8
Input 0.173
Group # 1 -- 2: 0.565, 1: 0.354, 4: 0.470, 3: 0.631
Group # 2 -- 3: 0.545, 4: 0.804, 6: 0.327, 1: 0.904
Group # 3 -- 3: 0.557, 2: 0.375, 1: 0.673
Group # 6 -- E: 0.623, P: 0.730, F: 0.289
Log likelihood = -182.872 Significance = 0.086
Run # 21, 43 cells:
Convergence at Iteration 10
Input 0.184
Group # 2 -- 3: 0.545, 4: 0.797, 6: 0.329, 1: 0.915
Group # 3 -- 3: 0.592, 2: 0.387, 1: 0.649
Group # 4 -- i: 0.439, r: 0.578
Group # 6 -- E: 0.612, P: 0.734, F: 0.287
Log likelihood = -185.113 Significance = 0.148
Run # 22, 50 cells:
Convergence at Iteration 12
Input 0.158
Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878
Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683
Group # 5 -- E: 0.525, A: 0.696, P: 0.143
Group # 6 -- E: 0.633, P: 0.660, F: 0.343
Log likelihood = -181.010 Significance = 0.008
Run # 23, 60 cells:
Convergence at Iteration 8
Input 0.184
Group # 2 -- 3: 0.547, 4:
Group # 3 -- 3: 0.587, 2:
Group # 6 -- E: 0.623, P:
Group # 7 -- X: 0.521, I:
Log likelihood = -185.859
0.792, 6: 0.328, 1: 0.896
0.361, 1: 0.687
0.753, F: 0.269
0.427, P: 0.495, A: 0.518
Significance = 0.872
Add Group # 5 with factors EAP
---------- Level # 5 ---------Run # 24, 95 cells:
Convergence at Iteration 13
Input 0.154
Group # 1 -- 2: 0.541, 1: 0.408, 4: 0.443, 3: 0.599
Group # 2 -- 3: 0.545, 4: 0.782, 6: 0.334, 1: 0.889
Group # 3 -- 3: 0.530, 2: 0.375, 1: 0.679
Group # 5 -- E: 0.519, A: 0.675, P: 0.174
Group # 6 -- E: 0.633, P: 0.653, F: 0.349
Log likelihood = -179.247 Significance = 0.322
Run # 25, 66 cells:
Convergence at Iteration 13
Input 0.158
Group # 2 -- 3: 0.543, 4: 0.775, 6: 0.341, 1: 0.902
Group # 3 -- 3: 0.556, 2: 0.393, 1: 0.647
Group # 4 -- i: 0.443, r: 0.573
Group # 5 -- E: 0.523, A: 0.696, P: 0.146
Group # 6 -- E: 0.618, P: 0.636, F: 0.365
Log likelihood = -180.066 Significance = 0.177
Run # 26, 95 cells:
Convergence at Iteration 12
Input 0.157
Group # 2 -- 3: 0.545, 4: 0.765, 6: 0.339, 1: 0.881
Group # 3 -- 3: 0.551, 2: 0.370, 1: 0.681
Group # 5 -- E: 0.521, A: 0.702, P: 0.141
Group # 6 -- E: 0.627, P: 0.652, F: 0.351
Group # 7 -- X: 0.531, I: 0.415, P: 0.486, A: 0.520
Log likelihood = -180.443 Significance = 0.769
No remaining groups significant
Groups selected while stepping up: 6 3 2 5
Best stepping up run: #22
--------------------------------------------Stepping down...
---------- Level # 7 ---------Run # 27, 167 cells:
Convergence at Iteration 14
Input 0.155
Group # 1 -- 2: 0.538, 1: 0.440,
Group # 2 -- 3: 0.546, 4: 0.774,
Group # 3 -- 3: 0.546, 2: 0.388,
Group # 4 -- i: 0.456, r: 0.556
Group # 5 -- E: 0.513, A: 0.689,
Group # 6 -- E: 0.618, P: 0.631,
Group # 7 -- X: 0.522, I: 0.437,
Log likelihood = -178.400
---------- Level # 6 ---------Run # 28, 118 cells:
Convergence at Iteration 13
4: 0.418, 3: 0.563
6: 0.335, 1: 0.903
1: 0.656
P: 0.165
F: 0.369
P: 0.486, A: 0.560
Input 0.157
Group # 2 -- 3: 0.543, 4:
Group # 3 -- 3: 0.562, 2:
Group # 4 -- i: 0.446, r:
Group # 5 -- E: 0.520, A:
Group # 6 -- E: 0.614, P:
Group # 7 -- X: 0.528, I:
Log likelihood = -179.619
0.767, 6: 0.341, 1: 0.902
0.392, 1: 0.647
0.569
0.701, P: 0.143
0.630, F: 0.371
0.426, P: 0.486, A: 0.509
Significance = 0.489
Run # 29, 115 cells:
Convergence at Iteration 13
Input 0.163
Group # 1 -- 2: 0.531, 1: 0.456, 4: 0.425, 3: 0.547
Group # 3 -- 3: 0.528, 2: 0.390, 1: 0.657
Group # 4 -- i: 0.459, r: 0.553
Group # 5 -- E: 0.509, A: 0.723, P: 0.132
Group # 6 -- E: 0.636, P: 0.619, F: 0.374
Group # 7 -- X: 0.540, I: 0.428, P: 0.474, A: 0.467
Log likelihood = -186.554 Significance = 0.001
Run # 30, 131 cells:
Convergence at Iteration 14
Input 0.161
Group # 1 -- 2: 0.549, 1: 0.427, 4: 0.454, 3: 0.544
Group # 2 -- 3: 0.546, 4: 0.771, 6: 0.334, 1: 0.914
Group # 4 -- i: 0.400, r: 0.627
Group # 5 -- E: 0.523, A: 0.684, P: 0.160
Group # 6 -- E: 0.594, P: 0.663, F: 0.349
Group # 7 -- X: 0.524, I: 0.444, P: 0.482, A: 0.563
Log likelihood = -182.830 Significance = 0.013
Run # 31, 152 cells:
Convergence at Iteration 13
Input 0.154
Group # 1 -- 2: 0.541, 1: 0.409, 4: 0.446, 3: 0.598
Group # 2 -- 3: 0.546, 4: 0.776, 6: 0.334, 1: 0.891
Group # 3 -- 3: 0.534, 2: 0.375, 1: 0.677
Group # 5 -- E: 0.517, A: 0.681, P: 0.171
Group # 6 -- E: 0.624, P: 0.646, F: 0.356
Group # 7 -- X: 0.524, I: 0.428, P: 0.486, A: 0.571
Log likelihood = -178.807 Significance = 0.385
Run # 32, 133 cells:
Convergence at Iteration 11
Input 0.175
Group # 1 -- 2: 0.564, 1: 0.374, 4: 0.451, 3: 0.607
Group # 2 -- 3: 0.546, 4: 0.802, 6: 0.326, 1: 0.914
Group # 3 -- 3: 0.570, 2: 0.386, 1: 0.655
Group # 4 -- i: 0.468, r: 0.541
Group # 6 -- E: 0.609, P: 0.723, F: 0.297
Group # 7 -- X: 0.512, I: 0.450, P: 0.494, A: 0.571
Log likelihood = -182.402 Significance = 0.019
Run # 33, 140 cells:
Convergence at Iteration 11
Input 0.163
Group # 1 -- 2: 0.532, 1: 0.441, 4: 0.422, 3: 0.572
Group # 2 -- 3: 0.546, 4: 0.768, 6: 0.334, 1: 0.922
Group # 3 -- 3: 0.580, 2: 0.378, 1: 0.664
Group # 4 -- i: 0.432, r: 0.587
Group # 5 -- E: 0.486, A: 0.756, P: 0.120
Group # 7 -- X: 0.532, I: 0.411, P: 0.481, A: 0.568
Log likelihood = -181.503 Significance = 0.046
Run # 34, 107 cells:
Convergence at Iteration 13
Input 0.156
Group # 1 -- 2: 0.538, 1:
Group # 2 -- 3: 0.545, 4:
Group # 3 -- 3: 0.544, 2:
Group # 4 -- i: 0.452, r:
Group # 5 -- E: 0.515, A:
Group # 6 -- E: 0.625, P:
Log likelihood = -178.759
0.443, 4: 0.412, 3: 0.561
0.780, 6: 0.335, 1: 0.902
0.388, 1: 0.656
0.561
0.685, P: 0.168
0.635, F: 0.364
Significance = 0.868
Cut Group # 7 with factors XIPA
---------- Level # 5 ---------Run # 35, 66 cells:
Convergence at Iteration 13
Input 0.158
Group # 2 -- 3: 0.543, 4: 0.775, 6: 0.341, 1: 0.902
Group # 3 -- 3: 0.556, 2: 0.393, 1: 0.647
Group # 4 -- i: 0.443, r: 0.573
Group # 5 -- E: 0.523, A: 0.696, P: 0.146
Group # 6 -- E: 0.618, P: 0.636, F: 0.365
Log likelihood = -180.066 Significance = 0.462
Run # 36, 66 cells:
Convergence at Iteration 14
Input 0.165
Group # 1 -- 2: 0.531, 1: 0.462, 4: 0.409, 3: 0.545
Group # 3 -- 3: 0.520, 2: 0.392, 1: 0.655
Group # 4 -- i: 0.453, r: 0.560
Group # 5 -- E: 0.511, A: 0.717, P: 0.136
Group # 6 -- E: 0.645, P: 0.628, F: 0.365
Log likelihood = -187.281 Significance = 0.001
Run # 37, 74 cells:
Convergence at Iteration 14
Input 0.162
Group # 1 -- 2: 0.550, 1: 0.428, 4: 0.449, 3: 0.543
Group # 2 -- 3: 0.545, 4: 0.777, 6: 0.336, 1: 0.916
Group # 4 -- i: 0.397, r: 0.631
Group # 5 -- E: 0.525, A: 0.680, P: 0.162
Group # 6 -- E: 0.599, P: 0.666, F: 0.345
Log likelihood = -183.187 Significance = 0.013
Run # 38, 95 cells:
Convergence at Iteration 13
Input 0.154
Group # 1 -- 2: 0.541, 1: 0.408, 4: 0.443, 3: 0.599
Group # 2 -- 3: 0.545, 4: 0.782, 6: 0.334, 1: 0.889
Group # 3 -- 3: 0.530, 2: 0.375, 1: 0.679
Group # 5 -- E: 0.519, A: 0.675, P: 0.174
Group # 6 -- E: 0.633, P: 0.653, F: 0.349
Log likelihood = -179.247 Significance = 0.332
Run # 39, 79 cells:
Convergence at Iteration 10
Input 0.175
Group # 1 -- 2: 0.564, 1: 0.376, 4: 0.448, 3: 0.605
Group # 2 -- 3: 0.545, 4: 0.803, 6: 0.327, 1: 0.912
Group # 3 -- 3: 0.568, 2: 0.386, 1: 0.655
Group # 4 -- i: 0.465, r: 0.545
Group # 6 -- E: 0.615, P: 0.723, F: 0.296
Log likelihood = -182.608 Significance = 0.022
Run # 40, 81 cells:
Convergence at Iteration 11
Input 0.165
Group # 1 -- 2: 0.530, 1: 0.448, 4: 0.412, 3: 0.569
Group # 2 -- 3: 0.545, 4: 0.779, 6: 0.334, 1: 0.920
Group # 3 -- 3: 0.576, 2: 0.379, 1: 0.663
Group # 4 -- i: 0.424, r: 0.597
Group # 5 -- E: 0.489, A: 0.754, P: 0.119
Log likelihood = -182.192 Significance = 0.036
Cut Group # 1 with factors 2143
---------- Level # 4 ---------Run # 41, 36 cells:
Convergence at Iteration 14
Input 0.167
Group # 3 -- 3: 0.530, 2: 0.397, 1: 0.647
Group # 4 -- i: 0.449, r: 0.566
Group # 5 -- E: 0.519, A: 0.723, P: 0.122
Group # 6 -- E: 0.640, P: 0.629, F: 0.366
Log likelihood = -188.353 Significance = 0.001
Run # 42, 42 cells:
Convergence at Iteration 13
Input 0.164
Group # 2 -- 3: 0.543, 4: 0.770, 6: 0.340, 1: 0.915
Group # 4 -- i: 0.390, r: 0.639
Group # 5 -- E: 0.532, A: 0.694, P: 0.137
Group # 6 -- E: 0.595, P: 0.666, F: 0.346
Log likelihood = -184.156 Significance = 0.017
Run # 43, 50 cells:
Convergence at Iteration 12
Input 0.158
Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878
Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683
Group # 5 -- E: 0.525, A: 0.696, P: 0.143
Group # 6 -- E: 0.633, P: 0.660, F: 0.343
Log likelihood = -181.010 Significance = 0.177
Run # 44, 43 cells:
Convergence at Iteration 10
Input 0.184
Group # 2 -- 3: 0.545, 4: 0.797, 6: 0.329, 1: 0.915
Group # 3 -- 3: 0.592, 2: 0.387, 1: 0.649
Group # 4 -- i: 0.439, r: 0.578
Group # 6 -- E: 0.612, P: 0.734, F: 0.287
Log likelihood = -185.113 Significance = 0.008
Run # 45, 43 cells:
Convergence at Iteration 10
Input 0.168
Group # 2 -- 3: 0.542, 4: 0.776, 6: 0.341, 1: 0.920
Group # 3 -- 3: 0.593, 2: 0.384, 1: 0.653
Group # 4 -- i: 0.413, r: 0.611
Group # 5 -- E: 0.494, A: 0.763, P: 0.106
Log likelihood = -183.521 Significance = 0.035
Cut Group # 4 with factors ir
---------- Level # 3 ---------Run # 46, 24 cells:
Convergence at Iteration 12
Input 0.168
Group # 3 -- 3: 0.518, 2: 0.377, 1: 0.678
Group # 5 -- E: 0.520, A: 0.722, P: 0.121
Group # 6 -- E: 0.655, P: 0.652, F: 0.344
Log likelihood = -189.201 Significance = 0.001
Run # 47, 27 cells:
Convergence at Iteration 14
Input 0.170
Group # 2 -- 3: 0.548, 4: 0.761, 6: 0.336, 1: 0.865
Group # 5 -- E: 0.554, A: 0.687, P: 0.122
Group # 6 -- E: 0.610, P: 0.737, F: 0.285
Log likelihood = -189.412 Significance = 0.000
Run # 48, 28 cells:
Convergence at Iteration 8
Input 0.184
Group # 2 -- 3: 0.547, 4: 0.796, 6: 0.328, 1: 0.892
Group # 3 -- 3: 0.580, 2: 0.361, 1: 0.689
Group # 6 -- E: 0.628, P: 0.756, F: 0.266
Log likelihood = -186.211 Significance = 0.008
Run # 49, 28 cells:
Convergence at Iteration 10
Input 0.170
Group # 2 -- 3: 0.547, 4: 0.774, 6: 0.333, 1: 0.892
Group # 3 -- 3: 0.582, 2: 0.344, 1: 0.712
Group # 5 -- E: 0.484, A: 0.785, P: 0.093
Log likelihood = -186.140 Significance = 0.008
All remaining groups significant
Groups eliminated while stepping down:
Best stepping up run: #22
Best stepping down run: #43
7
1
4
Vejamos agora como interpretar esses resultados:
O programa começa com o Stepping up. No nível 0, ele apresenta o input inicial (0.284), que
corresponde ao percentual total da regra de aplicação (28,4% para a variante I – futuro perifrástico). O
input “representa o nível geral de uso de determinado valor da variável dependente” (GUY; ZILLES, 2007,
p. 238).
Em seguida, o programa apresenta vários níveis de análise. No nível 1, ele roda cada grupo
isoladamente. No nível 2, roda os grupos dois a dois; no nível 3, cruza os grupos três a três e assim por
diante. Nesta rodada, o programa identificou os pesos no nível 5 da rodada, após constatar que não há mais
grupos significativos. Assim, ele selecionou como estatisticamente significativos, nesta ordem, os grupos
6, 3, 2 e 5. E indica que os melhores resultados estão na tabela 22.
No remaining groups significant
Groups selected while stepping up: 6 3 2 5
Best stepping up run: #22
---------------------------------------------
Eis os melhores resultados:
Run # 22, 50 cells:
Convergence at Iteration 12
Input 0.158
Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878
Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683
Group # 5 -- E: 0.525, A: 0.696, P: 0.143
Group # 6 -- E: 0.633, P: 0.660, F: 0.343
Log likelihood = -181.010 Significance = 0.008
Embora os grupos apareçam em ordem crescente aqui, a análise deve considerar a ordem de
seleção. Assim, são importantes para a aplicação da regra de futuro perifrástico: 1º o tipo de verbo (grupo
6), 2º a conjugação verbal (grupo 3), 3º a pessoa verbal (grupo 2) e o tipo de sujeito (grupo 5).
Observemos que o input final foi de 0.158, ou seja, o programa corrigiu algum desequilíbrio na
amostra. O log likelihood foi de -181.010 e o nível de significância foi 0.008. O log likelihood, logaritmo
de verossimilhança, mede a aproximação entre o modelo e os dados observados. Seu valor varia em função
da quantidade de dados e o número de aplicações do modelo em cada célula (para mais detalhes, cf. GUY;
ZILLES, 2007). Quanto maior o log likelihood, maior a robustez dos dados. O nível de significância é o
nível de confiabilidade dos resultados. Para as ciências humanas, o nível máximo aceitável é de 0.050. No
nosso caso, os resultados são confiáveis!
Após a seleção do Stepping up, o programa começa o Stepping down. Aqui, ele começa com todos
os grupos e vai retirando cada um, depois retira dois, depois retira três e assim por diante. É como se fosse
a prova dos nove dos cálculos. Ao final, apresenta os grupos eliminados, após constatar não existirem mais
grupos relevantes:
All remaining groups significant
Groups eliminated while stepping down:
Best stepping up run: #22
Best stepping down run: #43
7
1
4
Neste caso, ele eliminou os grupos 7, 1 e 4, exatamente os que não foram selecionados no Stepping
up. E volta a dizer que os melhores resultados estão nas tabelas 22 e 43, cujos pesos relativos são os
mesmos para todos os fatores:
Run # 22, 50 cells:
Convergence at Iteration 12
Input 0.158
Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878
Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683
Group # 5 -- E: 0.525, A: 0.696, P: 0.143
Group # 6 -- E: 0.633, P: 0.660, F: 0.343
Log likelihood = -181.010 Significance = 0.008
Run # 43, 50 cells:
Convergence at Iteration 12
Input 0.158
Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878
Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683
Group # 5 -- E: 0.525, A: 0.696, P: 0.143
Group # 6 -- E: 0.633, P: 0.660, F: 0.343
Log likelihood = -181.010 Significance = 0.177
Observação importante: acontece às vezes de um grupo ser selecionado e depois ser descartado. Isso indica
que o programa não tem certeza da sua importância. Vale a pena olhar o comportamento desse grupo em
cada rodada (run) em que ele aparece e verificar se há grandes mudanças nos pesos dos seus fatores.
Detectada essa mudança repentina de pesos, observe o grupo de fatores que foi adicionado na rodada, pois,
possivelmente, ocorre interação (para mais informações, cf. GUY; ZILLES, 2007).
De posse dos resultados, agora é só montar as tabelas com os resultados de cada grupo (número de
ocorrências/total, percentual e peso relativo) e explicá-los linguisticamente, sempre à luz de uma teoria
linguística e da intuição do pesquisador, começando sempre pela hipótese aventada. Os números sozinhos
nada dizem, é preciso que expliquemos por que tal(is) variável(is) e/ou tal(is) fator(es) favorece(m) ou
desfavorece(m) a aplicação da regra! Não esqueça de colocar exemplos na análise! Lembre-se também de
apresentar os casos categóricos (knockouts). Normalmente, usamos apenas duas casas decimais (com
aproximação matemática) e eliminamos o zero inicial. Ex: Grupo 5, fator A (sujeito agente), o peso é
0.696; dizemos então que é .70. Recomenda-se também o uso de gráficos ilustrativos, sobretudo para
variáveis sociais.
Para ver uma análise sociolinguística pronta, vejamos o artigo a seguir, em que, além dos resultados
vistos aqui (para o jornal A Tarde), há os resultados para mais duas rodadas, uma do jornal Correio da
Bahia e outra do jornal Tribuna da Bahia. O trabalho foi apresentado no XV Congresso da ALFAL, em
agosto de 2008, em Montevideo.
Agora, bom trabalho nas suas pesquisas!
XV Congreso Internacional de la Asociación de Linguística y Filología de América Latina – ALFAL (Montevideo, 18 a 21 de
agosto de 2008)
Qual o futuro da Bahia?
Josane Moreira de Oliveira2
(Universidade Estadual de Feira de Santana / Brasil)
Introdução
A expressão do futuro verbal na história do português é um fenômeno variável tanto na fala quanto
na escrita. Para exprimir o tempo posterior ao momento da fala, podem-se usar as seguintes variantes: a) o
futuro simples (eu farei isso amanhã); b) o futuro perifrástico com haver de no presente + infinitivo (eu hei
de fazer isso amanhã); c) o futuro perifrástico com haver de no futuro + infinitivo (eu haverei de fazer isso
amanhã); d) o futuro perifrástico com ir no presente + infinitivo (eu vou fazer isso amanhã); e) o futuro
perifrástico com ir no futuro + infinitivo (eu irei fazer isso amanhã); f) o presente (eu faço isso amanhã).
As perífrases com haver de + infinitivo perduram até o século XIX, quando começam a ceder espaço para
as perífrases com ir + infinitivo. O presente do indicativo parece ter um contexto bastante próprio e tem se
mantido, ao longo do tempo, mais ou menos estável (OLIVEIRA, 2006). Já o processo de mudança futuro
simples > futuro perifrástico com ir + infinitivo está bastante avançado (e mesmo já quase concluído) na
modalidade falada e começa a invadir a modalidade escrita. Essa variação não é exclusiva do português; é
atestada em muitas outras línguas. O uso do verbo ir como auxiliar de futuro combinado com o infinitivo e
a gramaticalização dessa forma perifrástica são documentados também em inglês (I am going to sleep), em
francês (Je vais dormir) e em espanhol (Yo voy a dormir), por exemplo. Todavia, mesmo sendo esse
fenômeno bastante conhecido e não discriminado pelos falantes, as gramáticas tradicionais e os manuais
escolares de língua portuguesa ainda registram apenas o futuro simples. Com base em dados
contemporâneos de jornais baianos (A Tarde, Tribuna da Bahia e Correio da Bahia) direcionados a
públicos distintos, investiga-se a implementação da forma perifrástica na escrita considerada culta ou
padrão, tomando como quadro teórico-metodológico a sociolinguística quantitativa laboviana e a hipótese
da gramaticalização nos moldes propostos por Hopper & Traugott (2003).
1. Quadro teórico
A sociolinguística variacionista pressupõe que a variação é inerente a toda e qualquer língua e não é
aleatória ou fortuita. Ao contrário, é condicionada por fatores linguísticos e sociais. Ou seja, tanto a
2
Participaram desta pesquisa as estudantes Isabella Almeida de Souza e Viviane Moreira de Oliveira, a quem agradeço pela
valiosa colaboração, respectivamente, na coleta e na digitação dos dados.
variação como a mudança linguísticas têm ligações estreitas com fenômenos extralinguísticos que as
condicionam.
O funcionalismo linguístico analisa a língua enquanto fenômeno comunicativo e discursivo. Sendo
a noção de tempo uma categoria linguística e suas relações com o tempo cronológico uma função da
comunicação e do discurso, uma abordagem funcionalista pode embasar teoricamente a análise da
expressão de futuro no português, que pode ser realizada através de formas simples ou de formas
analíticas/perifrásticas.
O tempo futuro expressa a expectativa de alguma ação (processo ou evento) a ser verificada mais
tarde, após o ato de fala. Ele tem um valor temporal que não permite expressar uma modalidade factual,
pois só aceita asserções segundo a avaliação feita pelo falante da (im)possibilidade de ocorrência de um
estado de coisas. Assim, há um valor modal aliado ao fator temporal no futuro que compromete a
determinação do valor de verdade da proposição enunciada. Segundo Câmara Jr. (1957, p. 223), a
categoria de futuro não ocorre “pela necessidade da expressão temporal; concretizam-no certas
necessidades modais, de sorte que o futuro começa como modo muito mais do que como tempo”.
O ciclo de alternância entre formas simples e formas perifrásticas de futuro é uma constante na
história das línguas românicas. Já no próprio latim, o futuro desinencial adveio de formas modais analíticas
(cantare habeo > cantar hei > cantarei). Para Câmara Jr., a nova forma de futuro criada ainda no latim
desempenha três funções na língua: a) marca o modo; b) marca tempo com matiz modal; e c) marca tempo.
O autor fala em gramaticalização do futuro modal em futuro temporal.
Neste trabalho, admite-se a hipótese de que o processo que aconteceu no latim (forma analítica >
forma sintética) está sendo invertido no português atual (forma sintética > forma analítica) a partir da
gramaticalização do verbo ir, que passa, já em estágios anteriores da língua, de forma plena a marca
morfossintática de futuro.
A perífrase é a forma verbal inovadora, que convive com a forma simples (conservadora). Trata-se,
pois, de um fenômeno variável no português em que a variante perifrástica, concorrente da forma sintética
para codificar a função que situa a ação ou o processo à direita do ponto da fala, é muito pouco
discriminada. E a entrada do verbo ir como auxiliar na perífrase para expressar o futuro vem encontrando
resposta positiva entre os falantes.
Os verbos de movimento, em geral, são polissêmicos e superpõem, dentre outras, as noções de
espaço e de tempo. O verbo ir é um dos verbos mais polissêmicos e, pois, um dos mais ‘gramaticalizáveis’.
Na construção perifrástica com o infinitivo, ele tende a se transformar em auxiliar (HEINE, 1993; BYBEE
et alii, 1994; HEINE & KUTEVA, 2002), quer dizer, num instrumento gramatical para a expressão do
tempo futuro. Essa tendência, bem conhecida no inglês, no francês e no espanhol, pode ser constatada
também em português, em que, na fala, o processo de substituição da forma de futuro simples pela forma
perifrástica ir + infinitivo está quase concluído (OLIVEIRA, 2006).
2. Amostra e metodologia
Por meio da análise controlada de dados coletados em jornais contemporâneos baianos, com base
na sociolinguística laboviana, verifica-se a implementação da perífrase com ir + infinitivo, identificando-se
os contextos linguísticos do seu espraiamento. Nesta pesquisa, observa-se o papel de alguns grupos de
fatores (medido em termos de percentuais e de pesos relativos – a partir da ferramenta GoldVarb): a) a
extensão fonológica do verbo; b) a conjugação verbal; c) o paradigma verbal; d) a pessoa verbal; e) o tipo
de sujeito; f) a animacidade do sujeito; g) o papel temático do sujeito; h) o tipo de verbo; i) a transitividade
verbal; j) a presença/ausência de clíticos; k) a natureza semântica do verbo; l) a indicação de tempo futuro
fora do verbo; m) a projeção de futuridade; n) o paralelismo sintático-discursivo; o) o tipo de periódico; e
p) o gênero textual.
Foram examinados: a) dois exemplares do jornal A Tarde, de 07/06/07 e de 03/08/07, considerado
um periódico direcionado a um público mais elitizado; b) dois exemplares do jornal Correio da Bahia, de
28/11/07 e de 20/12/07, considerado um periódico direcionado à classe média; e c) dois exemplares do
jornal Tribuna da Bahia, de 23/08/07 e de 08 e 09/12/07, considerado um periódico mais popular.
Foram coletados, inicialmente, 2575 dados de quatro variantes: futuro simples, futuro perifrástico
com ir + infinitivo, futuro perifrástico com haver de + infinitivo e presente. Como só houve 4 dados com
haver de + infinitivo, todos num mesmo exemplar de periódico, essas ocorrências foram retiradas da
amostra final. Quanto à perífrase com ir + infinitivo, houve 27 ocorrências com o verbo ir no futuro, que,
pela sua baixa frequência, foram computadas juntamente com as formas de ir no presente + infinitivo.
Assim, os resultados encontrados estão apresentados na Tabela 1:
Tabela 1: Distribuição das variantes na língua escrita por periódico
Variantes
A Tarde
Futuro simples
Ir + infinitivo
Presente
Total
473
49%
197
20%
306
31%
976
Periódico
Correio da
Bahia
624
66%
145
16%
173
18%
942
Total
Tribuna da
Bahia
339
52%
146
22%
168
26%
653
1436
56%
488
19%
647
25%
2571
Para esta comunicação, em particular, foram excluídas as formas de presente com valor de futuro,
embora tenham apresentado percentuais maiores que a forma perifrástica, por duas razões: a) com base em
resultados de trabalhos anteriores (OLIVEIRA, 2006), essa variante possui contextos bem específicos,
mantém índices de uso mais ou menos estáveis na história da língua e está à margem da concorrência
futuro simples X futuro perifrástico; e b) objetiva-se verificar, aqui, a implementação da forma perifrástica
em substituição à forma de futuro na língua escrita, já que na língua falada esse processo já se encontra em
fase de compleição (OLIVEIRA, 2006).
Assim, considerando apenas os dados das variantes em concorrência (1924 dados), a distribuição é
a seguinte:
Tabela 2: Redistribuição das variantes na língua escrita por periódico
Variantes
A Tarde
Futuro simples
Ir + infinitivo
Total
473
71%
197
29%
670
Periódico
Correio da
Bahia
624
81%
145
19%
769
Tribuna da
Bahia
339
70%
146
30%
485
Numa análise inicial, olhando os dados globalmente, embora predomine o futuro simples na escrita
jornalística, pode-se verificar que a concorrência entre as duas variantes é documentada nos três
periódicos, e em índices bastante próximos (variando de 19% a 30% o percentual de uso da forma
perifrástica), conforme ilustra o Gráfico 1, a seguir:
Gráfico 1: Variantes por periódico (percentuais)
100
90
80
70
60
50
40
30
20
10
0
Futuro simples
Futuro perifrástico
A Tarde
Correio da
Bahia
Tribuna da
Bahia
3. Análise dos dados
Primeiramente, os dados foram submetidos a uma rodada que considerou os diferentes periódicos
como uma variável independente com o objetivo de verificar o papel desse grupo de fatores, que não foi
selecionado pelo GoldVarb. A regra de aplicação foi o uso da forma perifrástica, variante inovadora em
fase de implementação na modalidade escrita da língua. Dos 1924 dados, 488 (25%) foram de perífrase.
De todos os grupos controlados, nove foram selecionados, nesta ordem: 1. natureza semântica do verbo; 2.
gênero textual; 3. pessoa verbal; 4. paradigma verbal; 5. paralelismo sintático-discursivo; 6. tipo de verbo;
7. indicação de tempo futuro fora do verbo; 8. papel temático do sujeito; e 9. tipo de sujeito.
O fato de a variável ‘tipo de periódico’ não ter sido selecionada significa que não há diferença
estatística significativa entre o uso da perífrase e o tipo de jornal, ou seja, ela está presente nos três
periódicos, independentemente de ser o jornal mais ou menos elitizado. E essa informação, embora
contrarie a hipótese inicial (a de que haveria mais perífrase no periódico mais popular e menos perífrase no
periódico mais elitizado), é muito importante para medir o grau de implementação dessa forma na escrita
jornalística baiana.
Embora estatisticamente não seja relevante o tipo de jornal, linguisticamente é importante verificar
as diferenças dos resultados dos três periódicos para conhecer os contextos iniciais de espraiamento da
variante analisada. Assim, foram feitas rodadas separadas, por periódico, e o resultado está ilustrado na
Tabela 3, a seguir:
Tabela 3: Dados de perífrase por periódico
Ocorrências/Total
Percentual
Input inicial
Significância
Grupos
selecionados
A Tarde
197/670
29%
.29
0,037
1. Natureza
semântica do verbo
2. Paradigma verbal
3. Pessoa verbal
4. Gênero textual
5. Papel temático do
sujeito
6. Tipo de verbo
7. Animacidade do
sujeito
Correio da Bahia
145/769
19%
.19
0,027
1. Natureza
semântica do verbo
2. Gênero textual
3. Paralelismo
sintático-discursivo
4. Pessoa verbal
5. Paradigma verbal
6. Transitividade
verbal
7. Tipo de sujeito
8. Extensão
fonológica do verbo
Tribuna da Bahia
146/485
30%
.30
0,021
1. Natureza
semântica do verbo
2. Paradigma verbal
3. Pessoa verbal
4. Projeção de
futuridade
5. Tipo de sujeito
6. Indicação de tempo
futuro fora do verbo
De acordo com os resultados do GoldVarb, no periódico mais elitizado, a perífrase se implementa
na escrita com verbos que expressam ação ou processo, verbos regulares, com sujeito de 1ª pessoa, em
textos do tipo colunas, quadrinhos, resumos e manchetes, com sujeito [+ agente], com o verbo ser e com
sujeito [+ animado]. No periódico considerado intermediário, o contexto de entrada da forma inovadora é
com verbos que também indicam ação ou processo, em textos do tipo matéria e resumo, em ocorrências
isoladas, também com sujeito de 1ª pessoa, também com verbos regulares, com verbos intransitivos, com
sujeitos oracionais ou desinenciais e com verbos extensos fonologicamente (3 sílabas ou mais). Quanto ao
jornal mais popular, a forma perifrástica é mais usada com verbos cognitivos, também com verbos
regulares, também com sujeito de 1ª pessoa, para expressar um futuro imediato (com ação a ser realizada
nas próximas 24 horas), também com sujeitos oracionais e na presença de uma oração adverbial.
Nos três jornais analisados, três grupos foram selecionados em comum: a natureza semântica do
verbo, o paradigma verbal e a pessoa verbal. Os resultados para essas variáveis estão apresentados e
comentados a seguir.
3.1. Natureza semântica do verbo
Esse grupo de fatores controla o tipo semântico dos verbos, distribuindo-os em verbos que indicam
processo, ação ou movimento, verbos que denotam evento, verbos de estado e verbos cognitivos ou que
expressam um estado psicológico. Seguem exemplos de cada um desses tipos de verbo:
Processo
(1) Foi tão bom e tão aplaudido o show do cantor Billy Paul em Salvador, que, a pedido, ele está
retornando para o Othon, onde VAI SE APRESENTAR durante jantar na noite de terça-feira,
fazendo uma homenagem toda especial aos namorados. [AT 1, c.2, p.2, col.]
Evento
(2) (...) os climatologistas dizem o que VAI ACONTECER se o aumento global continuar no ritmo
atual. [CB 1, c.4, p.10, not.]
Estado
(3) Mesmo suspenso, Alysson ainda VAI FICAR de molho por um mês, depois de sofrer diante do
Coritiba uma luxação no cotovelo. [AT 2, ec, p.5, not.]
Cognição
(4) Ao invés de metê-los na cadeia, arruma-se uma fórmula deles se saírem numa boa à custa do
torcedor otário que VAI PENSAR, certamente, que o Bahia, o Vitória, a Catuense e tantos outros
times baianos serão beneficiados. [TB1, c.1, p.2, mat.]
A hipótese levantada para esse grupo era a de que o futuro perifrástico se implementasse pelos
verbos que denotam processo, já que o verbo ir, sendo um verbo de movimento, exprime uma ação que
envolve dois momentos, o de partida e o de chegada. A literatura sobre a gramaticalização do verbo ir
mostra que o fenômeno ocorre principalmente com esse tipo de verbos, já que implicam alteração entre
dois momentos temporais. Esperava-se também que os verbos de estado inibissem o uso do futuro
perifrástico, favorecendo, portanto, o emprego do futuro simples, como atestado por outros trabalhos,
como, por exemplo, o de Malvar (2003).
Em dois tipos de jornal (A Tarde e Correio da Bahia), os resultados encontrados revelam que, de
fato, o maior percentual e o maior peso relativo de uso do futuro perifrástico ocorrem com verbos que
indicam processo, seguidos dos verbos que denotam evento, como se vê na Tabela 4, a seguir:
Tabela 4: Uso da perífrase e natureza semântica do verbo por periódico
Fator
A Tarde
Oc./Total
PR
%
Evento
24/87
.51
27%
Processo
146/257
.56
56%
Estado
27/324
.45
8%
Cognição
0/2
0%
Oc. = ocorrências
Correio da Bahia
Oc./Total
PR
%
29/152
.63
19%
99/219
.74
45%
15/396
.31
3%
2/2
100%
PR = Peso relativo
Tribuna da Bahia
Oc./Total
PR
%
21/56
.64
37%
96/191
.66
50%
24/232
.32
10%
5/6
.91
83%
Já no periódico Tribuna da Bahia, contrariando a hipótese aventada, o maior percentual e o maior
peso relativo ocorrem para os verbos cognitivos, seguidos dos verbos que expressam um processo e dos
que denotam evento. Mas os dados com verbos cognitivos são muito poucos para que explicações mais
conclusivas sejam dadas. Houve dois dados apenas no jornal A Tarde (ambos com futuro simples) e no
jornal Correio da Bahia (ambos com futuro perifrástico). No jornal Tribuna da Bahia, houve seis dados,
cinco dos quais com a perífrase.
Assim, deixando de lado os verbos cognitivos, por ora, o que se pode dizer é que, na escrita
jornalística baiana, a mudança se implementa pelos verbos que indicam processo, seguidos dos verbos que
denotam evento, sendo os verbos de estado os que mantêm o futuro simples, o que condiz com a literatura
sobre o processo de gramaticalização do verbo ir.
3.2. Paradigma verbal
Esta variável distribui os dados em dois grupos: os que contêm um verbo que segue o paradigma
geral (verbos regulares) e os que apresentam um verbo de padrão especial (verbos irregulares),
considerando, pois, o critério morfológico. Por exemplo, são verbos regulares “cantar”, “beber” e “partir” e
são irregulares os verbos “estar”, “trazer” e “pedir”. Supondo que há uma mudança em curso no sentido de
o futuro perifrástico substituir o futuro simples, aventou-se a hipótese de que esse processo avançaria
primeiro nas formas regulares e depois nas irregulares. Essa hipótese se confirma nos dados dos três tipos
de periódico, tanto em termos percentuais como em pesos relativos, conforme evidenciado na Tabela 5:
Tabela 5: Uso da perífrase e paradigma verbal por periódico
Fator
A Tarde
Oc./Total
PR
%
Regular
158/303
.69
52%
Irregular
39/367
.34
10%
Oc. = ocorrências
Correio da Bahia
Oc./Total
PR
%
113/333
.61
33%
32/436
.42
7%
PR = Peso relativo
Tribuna da Bahia
Oc./Total
PR
%
117/231
.68
50%
29/254
.33
11%
São os verbos regulares os que favorecem a aplicação da regra de perífrase, ficando o futuro
simples mais restrito aos verbos irregulares, ou seja, os que têm um padrão morfológico especial. Esses
verbos, segundo Bybee (2003), por terem uma frequência alta de uso na língua, resistem a mudanças e,
sendo estocados na memória do falante como únicos (especiais), mantêm o futuro simples, pois não
seguem padrões gerais.
3.3. Pessoa verbal
Como mencionado frequentemente na literatura sobre a expressão do futuro verbal em português,
as formas de presente e de perífrase com ir + infinitivo exprimem um maior grau de certeza da realização
do estado de coisas no futuro. Essa maior possibilidade ou maior probabilidade de acontecimento de algo
está intimamente ligada ao envolvimento ou comprometimento do falante em relação ao enunciado que
profere. Assim, assumiu-se como hipótese que os sujeitos de primeira pessoa favoreceriam o uso da forma
inovadora, expressando um maior investimento para a concretização da ação futura.
Observem-se os exemplos a seguir:
(5) O leitor me desculpe, mas não VOU FAZER o histórico porque precisaria de pesquisar mais a
fundo. [TB 1, c.1, p.2, mat.]
(6) Já estamos a par da reintegração desde segunda-feira, VAMOS VER quais as propostas do
governo do Estado e da Suzano na reunião de amanhã... [AT 2, c.1, p.12, mat.]
Os resultados encontrados nesta pesquisa estão apresentados na Tabela 6:
Tabela 6: Uso da perífrase e pessoa verbal por periódico
Fator
A Tarde
Oc./Total
PR
%
P1
3/4
.90
75%
P3
138/426
.54
32%
P4
21/33
.73
63%
P6
35/206
.37
16%
Oc. = ocorrências
Correio da Bahia
Tribuna da Bahia
Oc./Total
PR
Oc./Total
PR
%
%
12/15
9/14
.85
.88
80%
64%
97/529
.48
102/322
.51
18%
31%
14/19
13/22
.87
.89
73%
59%
22/206
.47
22/127
.34
10%
17%
PR = Peso relativo
Como se pode ver na Tabela 6, a primeira pessoa (P1 = eu; P4 = nós) apresenta maior peso relativo
e maior percentual no uso da perífrase. Esse fato revela um maior comprometimento do sujeito com a
realização do processo verbal a se concretizar no futuro.
Note-se que os dados de primeira pessoa são muito poucos em relação aos de terceira pessoa, mais
típicos nesse tipo de escrita. Em geral, os dados de 1ª pessoa aparecem em citações de fala para ilustrar os
textos jornalísticos. De qualquer forma, percebe-se que o jornalista não corrige a fala dos entrevistados,
pelo menos no que tange ao fenômeno aqui estudado, o que corrobora o fato de que a perífrase está para a
fala assim como o futuro simples está para a escrita (pelo menos a escrita formal).
Em pesquisa anterior (OLIVEIRA, 2006), foram analisados dados de fala de informantes
considerados cultos, isto é, todos com nível superior completo e os resultados apontam a preferência de uso
da forma perifrástica em detrimento da forma simples. Comparando os resultados gerais de fala e escrita
(ambas as modalidades em sua forma considerada culta ou padrão), observa-se uma inversão parcial no uso
das variantes concorrentes. Veja-se a Tabela 7, a seguir, com o acréscimo dos dados de jornais de 2007:
Tabela 7: Comparação de dados de fala e de escrita
Variantes
Fala*
EF
DID
DID
(anos 70)
(anos 70)
(anos 90)
Futuro
82
25
5
simples
19%
13%
4%
Futuro
358
164
137
perifrástico
81%
87%
96%
440
189
142
Total
3
* Dados do Projeto NURC
** Só textos de editoriais
EF = elocução formal
DID = diálogo entre informante e documentador
Jornais**
(anos 70)
71
91%
7
9%
78
Escrita
Jornais**
(anos 90)
51
73%
19
27%
70
Jornais
(2007)
1436
75%
488
25%
1924
Analisando a Tabela 7, percebe-se que os dados confirmam a inversão parcial das duas variantes
em relação às modalidades da língua: o futuro perifrástico é mais usado na fala e o futuro simples é mais
usado na escrita. Comparando os dados dos anos 70 com os dados dos anos 90, observa-se um aumento no
uso da perífrase na fala e um decréscimo no uso do futuro simples na escrita. Ou seja, o uso da perífrase é
quase categórico na fala e começa a se implementar na escrita.
Conclusões
A partir do controle de vários grupos de fatores linguísticos e extralinguísticos, com o intuito de
verificar os contextos de condicionamento do uso das variantes ‘futuro simples’ e ‘futuro perifrástico’,
constatou-se que o futuro simples ainda prevalece na língua escrita jornalística. Todavia a forma
perifrástica vem se implementando na modalidade escrita e o seu contexto de entrada é o que envolve
verbos que exprimem processo/ação/movimento, verbos regulares e sujeitos de 1ª pessoa (sobretudo
quando há dados de fala reproduzidos nos jornais). Considerando três tipos de jornais voltados para
públicos diferentes, percebeu-se que o periódico mais popular (Tribuna da Bahia) é o que mais usa a forma
inovadora (30%), mas é o periódico considerado intermediário (Correio da Bahia, visto na sociedade
3
Projeto de Estudo da Norma Urbana Culta das Principais Cidades Brasileiras, desenvolvido em Salvador, Recife, Rio de
Janeiro, São Paulo e Porto Alegre.
soteropolitana como conservador) o que mais usa a forma de futuro simples (81%). Estatisticamente,
porém, não há diferença significativa entre o uso das formas concorrentes e os tipos de jornal analisados.
Este trabalho apresenta resultados parciais de pesquisa desenvolvida a partir de 2007 com textos
jornalísticos, mas, comparando-os com resultados de pesquisa anterior (OLIVEIRA, 2006), mantém-se a
hipótese da inversão parcial entre fala e escrita quanto ao uso das variantes inovadora e conservadora.
Resta saber se, com a ampliação do corpus, os resultados se mantêm próximos. Pretende-se também
verificar a implementação do futuro perifrástico em outros tipos de escrita, como, por exemplo, em
redações escolares.
Referências
BYBEE, J. Mechanisms of change in grammaticization: the role of frequency. In: JOSEPH, B. D.;
JANDA, R. D. (Ed.) The handbook of historical linguistics. Oxford: Blackwell, 2003, p. 602-623.
BYBEE, J. et alii. The evolution of grammar: tense, aspect, and modality in the languages of the world.
Chicago: Chicago University Press, 1994.
CÂMARA JR., J. M. Uma forma verbal portuguesa – estudo estilístico e gramatical. Tese apresentada no
concurso para a cadeira de Língua Portuguesa da Faculdade de Filosofia. Rio de Janeiro: Jornal do
Comércio/Rodrigues & Cia., 1957.
FLEISCHMAN, S. The future in thought and language – diachronic evidence from Romance. Cambridge:
Cambridge University Press, 1982.
HEINE, B. Auxiliaries: cognitive forces and grammaticalization. New York: Oxford University Press,
1993.
HEINE, B.; KUTEVA, T. World lexicon of grammaticalization. Cambridge: Cambridge University Press,
2002.
HOPPER, P. J. & TRAUGOTT, E. Grammaticalization. Cambridge: Cambridge University Press, 2003
[1993].
MALVAR, E. O presente do futuro no português oral do Brasil. Ottawa: University of Ottawa, 2003 (Tese
de Doutorado).
MARCHELLO-NIZIA, C. Grammaticalisation et changement linguistique. Bruxelas: De Boeck, 2006.
OLIVEIRA, J. M. O futuro da língua portuguesa ontem e hoje: variação e mudança. Rio de Janeiro:
UFRJ, 2006 (Tese de Doutorado).
UFPB – Curso GoldVarb X
Profa. Josane Oliveira
Mais gráficos
Para finalizar o nosso curso, vejamos mais alguns exemplos de tabelas e gráficos diferentes.
Trabalho: Abralin em Cena Espírito Santo (Vitória, 26-29/05/09)
Título: A expressão do futuro verbal no português escrito de Angola
Tabela 1: Distribuição das variantes
Variantes
Ocorrências
Futuro simples
246
65%
Ir + infinitivo
90
24%
Presente
41
11%
Total
377
Gráfico 1: Variantes (percentuais)
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Futuro simples
Futuro perifrástico
Angola
Tabela 4: Uso da perífrase e extensão fonológica do verbo
Fator
1 sílaba
2 sílabas
3 sílabas
4 ou + sílabas
Ocorrências
9 / 102
30 / 145
33 / 58
18 / 31
Percentual
8%
20%
56%
58%
Peso Relativo
.36
.45
.67
.82
Gráfico 2: Uso da perífrase e extensão fonológica do verbo (pesos relativos)
1001
.90
.
80
.
70
60
.
.50
.
40
.30
.
20
.10
0
Perífrase
1 sílaba
2 sílabas
3 sílabas
4 ou + sílabas
Trabalho: XIII Colóquio da Lusofonia (V Encontro Açoriano) – Florianópolis (5-9 abril 2010)
Título: O futuro da língua portuguesa em três cantos do mundo: Angola, Brasil e Portugal
Tabela 2: Novos resultados
Angola
Brasil
246
445
73%
71%
90
186
27%
29%
336
631
Futuro simples
Ir + infinitive
Total de dados
Portugal
496
65%
271
35%
767
Gráfico 1: Uso do futuro verbal nos três países
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
73%
71%
65%
Futuro simples
27%
Angola
29%
Brasil
35%
Portugal
Futuro perifrástico
Trabalho: Tese de Doutorado
Título: O futuro da língua portuguesa ontem e hoje: variação e mudança.
Tabela 1: Distribuição das variantes na língua escrita por séculos
Séculos
XIII
XIV
XV
XVI
XVII
XVIII
Futuro simples
18
433
65
681
358
105
54,5% 91,9% 81,3% 87,4% 74,4% 83,3%
Haver de + infinitivo
15
31
12
90
108
13
45,5%
6,6%
15%
11,6% 22,5% 10,3%
Ir + infinitivo
6
1
3
4
5
1,3%
1,2%
0,4%
0,8%
4%
Presente
1
2
5
11
3
0,2%
2,5%
0,6%
2,3%
2,4%
Total
33
471
80
779
481
126
Variantes
XIX
91
85,8%
6
5,8%
8
7,5%
1
0,9%
106
XX4
122
75,3%
3
1,9%
26
16%
11
6,8%
162
Gráfico 1: Distribuição das variantes na língua escrita por séculos (percentuais)
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Futuro simples
Haver de + infinitivo
Ir + infinitivo
Presente
XIII
XIV
XV
XVI
XVII XVIII XIX
XX
Tabela 2: Distribuição geral das variantes na década de 70
Variantes
Tipo de texto
Oral
Escrito
EFs
DIDs
Jornais
82 (17%) 25 (11%) 71 (88%)
Futuro simples
2 (2%)
Perífrase haver presente + infinitivo
1 (1%)
Perífrase haver futuro + infinitivo
355 (72%) 164 (73%)
5 (6%)
Perífrase ir presente + infinitivo
3 (1%)
2 (2%)
Perífrase ir futuro + infinitivo
51 (19%) 37 (16%)
1 (1%)
Presente
491
226
82
Total
4
Total
178
2
1
524
5
89
799
Para o século XX, estão sendo considerados apenas os dados de língua escrita, para uma coerência na comparação com os
outros séculos, que não dispõem de dados de língua falada. Os dados orais do século XX são analisados na seção seguinte.
Gráfico 3: Variantes por tipo de texto na década de 90 (percentuais)
100%
80%
FS
FP
PR
60%
40%
20%
0%
DID
Jornais
Gráfico 5: Faixa etária em EFs e DIDs – anos 70 (pesos relativos)
.100
.80
.60
EF
DID
.40
.20
.0
Faixa 1
Faixa 2
Faixa 3
Gráfico 6: Procedência geográfica em EFs e DIDs – anos 70 (percentuais)
100%
80%
60%
Salvador
Rio de Janeiro
40%
20%
0%
EF
DID
Gráfico 9: Procedência geográfica em DIDs – anos 70 e 90 (percentuais)
100%
80%
60%
Salvador
Rio de Janeiro
40%
20%
0%
Anos 70
Variáveis
Anos 90
Quadro 9: Dados demográficos de Salvador e do Rio de Janeiro
Salvador
Rio de Janeiro
Censo 70
Censo 91
Censo 70
Censo 91
População residente
1.007.195
2.075.272
4.251.918
5.480.772
População imigrada
297.584
646.821
1.800.822
1.517.232
População alfabetizada
650.679
1.467.593
3.283.600
4.255.625
IDH – Municipal
0,580
0,793
0,702
0,808
IDH – Educação
0,639
0,758
0,707
0,800
IDH – Renda
0,698
0,952
0,940
0,965
Séculos
Oc.
%
Tabela 48: Distribuição do presente ao longo do tempo na escrita
Séc.
Séc.
Séc.
Séc.
Séc.
Séc.
Séc.
Séc.
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
1
2
5
11
3
1
11
0,2%
2,5%
0,6%
2,3%
2,4%
0,9%
6,8%
Tabela 61: Síntese dos resultados do século XX (percentuais)
Amostra
Futuro simples
Futuro perifrástico
Presente
Fala 70: EFs
17%
73%
10%
Salvador
20%
65%
15%
Rio de Janeiro
14%
78%
8%
Fala 70: DIDs
11%
73%
16%
Salvador
28%
54%
18%
Rio de Janeiro
9%
75%
16%
Fala 90: DIDs
3%
82%
15%
Salvador
89%
11%
Rio de Janeiro
4%
79%
17%
Escrita 70: jornais
90%
9%
1%
Salvador
97%
3%
Rio de Janeiro
85%
13%
2%
Escrita 90: jornais
65%
23%
12%
Salvador
60%
24%
16%
Rio de Janeiro
71%
20%
9%
Agora, mãos à obra e bom trabalho! Espero ter ajudado! Contato: [email protected].