UFPB – Universidade Federal da Paraíba MINICURSO: Introdução ao GoldVarb X: uso e interpretação PÚBLICO-ALVO: Alunos e Professores de Letras (20 vagas) PROFESSORA: Josane Moreira de Oliveira (UEFS) Data: 14 e 15 de julho de 2014 Carga horária: 8 horas/aula PLANO DE ENSINO 1 OBJETIVOS a) Conhecer e utilizar a ferramenta GoldVarb X; b) Codificar, processar e analisar dados linguísticos; c) Desenvolver habilidades para a interpretação dos resultados emitidos pelo GoldVarb X. 2 CONTEÚDO PROGRAMÁTICO A sociolinguística quantitativa O corpus O GoldVarb X o Origem o Instalação o Uso Arquivos de dados Grupos de fatores Arquivo de especificações Arquivo de condições Arquivo de células Varbrul – pesos relativos o Interpretação dos resultados o Apresentação dos resultados – tabelas e gráficos 3 METODOLOGIA Exposição participada com direcionamento dos conteúdos para a aplicação prática a partir do uso do programa GoldVarb X no computador. 4 AVALIAÇÃO Avaliação processual considerando a frequência e a participação efetiva dos alunos nas aulas; Exercícios constantes; Processamento de dados das pesquisas dos alunos. REFERÊNCIAS CEDERGREN, H. J.; SANKOFF, D. Variable rules: performance as a statistical reflection of competence. Language, 50:2. 1974, p. 333-355. GUY, G. R. Advanced varbrul analysis. In: FERRARA, K; BROWN, B.; WALTERS, K.; BAUGH, J. (Ed.). Linguistic change and contact. Austin: University of Texas, 1988, p. 124-136. GUY, G. R.; ZILLES, A. M. Sociolinguística quantitativa: instrumental de análise. São Paulo: Parábola, 2007. MILROY, L.; GORDON, M. Sociolinguistics: method and interpretation. Oxford: Blackwell, 2003. MOLLICA, M. C.; BRAGA, M. L. (Org.). Introdução à sociolinguística: o tratamento da variação. São Paulo: Contexto, 2004. PAOLILLO, J. Analyzing linguistic variation: statistical models and methods. Stanford CA: CSLI, 2002. RAND, D. & SANKOFF, D. GoldVarb: a variable rule application for Macintosh. 1990. ROBINSON, J.; LAWRENCE, H.; TAGLIAMONTE, S. GoldVarb 2001: a multivariate analysis application for Windows. User’s manual. 2001. SANKOFF, D. Linguistic variation: models and methods. New York: Academic Press, 1978. SANKOFF, D.; LABOV, W. On the uses of variable rules. Language in Society, 8 (2). 1979, p. 189-222. SANKOFF, D. Variable rules. In: AMMON, U.; DITTMAR, N.; MATTHEIR, K. J. (Ed.). Sociolinguistics: an international handbook of the science of language and society. Berlin/New York: De Gruyter, 1988, p. 984-998. SANKOFF, D.; TAGLIAMONTE, S.; SMITH, E. GoldVarb X – a multivariate analysis application. 2005. Toronto: Department of Linguistics; Ottawa: Department of Mathematics. Disponível em: http://individual.utoronto.ca/tagliamonte/ Goldvarb/GV_index.htm#ref. Acesso em: 20 out. 2011. SCHERRE, M. M. P.; CARDOSO, C. R. Guia rápido do GoldVarb X. Disponível em: http://geasunb.blogspot.com.br/. Acesso em: 6 fev. 2014. TAGLIAMONTE, S. A. Analyzing sociolinguistic variation. Cambridge: Cambridge University Press, 2006. UFPB – Curso GoldVarb X Profa. Josane Oliveira A sociolinguística quantitativa Muito antiga é a constatação de que a língua se diversifica em seu uso. A visão da língua como um sistema heterogêneo e instável prioriza uma análise linguística voltada para o estudo de modos alternativos de dizer a mesma coisa. A sociolinguística postula que a condição normal de uma comunidade de fala é a heterogeneidade e que essa heterogeneidade é estruturada. A diversificação linguística está documentada tanto diatópica como socialmente. As línguas humanas estão em constante variação. Algumas variações se propagam gradativamente por períodos mais ou menos longos em diversos eixos sociais e podem levar a mudanças. Como é praticamente impossível a demarcação exata e nítida de fronteiras geográficas e sociais, é preferível falar em tendências a empregos de certas formas linguísticas motivadas por condicionamentos vários. Tendo sido largamente demonstrado e discutido o caráter social da língua, já se dispõe de um campo da ciência linguística especificamente voltado para a covariação entre fenômenos linguísticos e sociais, a sociolinguística, equivalente, para outros, a uma dialectologia urbana ou vertical. Por ser impossível desvincular a língua de sua função sócio-comunicativa, a sociolinguística é entendida como um espaço de investigação interdisciplinar que estuda e correlaciona aspectos dos sistemas linguísticos e dos sistemas sociais, focalizando empregos concretos da língua. Labov (1972) questiona a justificativa para a dicotomia linguística versus sociolinguística, uma vez que é de todos conhecido – sobretudo depois de Saussure – o fato de que a língua é essencialmente um sistema de comunicação social, mas admite o uso desse termo “sociolinguística”, para que se diferenciem estudos baseados em dados intuitivos (linguísticos) daqueles baseados em dados reais obtidos através de gravações de interações orais ou de recolha de textos escritos (sociolinguísticos). Entretanto a razão maior para que se distingam esses dois tipos de estudo da língua parece residir nos objetivos, pois, enquanto a chamada linguística interna, sobretudo o estruturalismo e o gerativismo, busca estudar e descrever um sistema homogêneo e abstrato de língua, a sociolinguística – ou linguística externa –, focalizando a língua no contexto em que se concretiza, analisa a heterogeneidade do sistema. Além de ocupar-se da diversidade da língua nas situações ou contextos em que ocorre, diversidade esta atestada seja na variação, seja na mudança linguística, a sociolinguística procede também ao estudo dos juízos e das atitudes do falante sobre o comportamento verbal não só dele próprio mas também da sua comunidade de fala. A sociolinguística apresenta uma relação estreita com a área da linguística histórica, uma vez que, estudando a variação da língua dentro da estrutura social da comunidade em que ocorre, identifica e prevê processos de mudança em curso, que, obviamente, são decorrentes dessas variações. Ora, sendo a língua um meio de interação entre o indivíduo e a sociedade em que ele atua, está claro que há forças sociais que agem sobre essa interação. E é esse relacionamento casual entre língua e sociedade que constitui o objeto de análise da sociolinguística. Labov (1972) insiste na relação entre língua e sociedade e na possibilidade, virtual e real, de investigar e descrever a sistematicidade da variação existente e própria das línguas. O modelo de análise linguística proposto pelo autor é também rotulado de “sociolinguística quantitativa”, pois, como, em se tratando de variação, não se pode reduzir os fatos a uma questão de tudo ou nada, opera com números e tratamento estatístico dos dados coletados. O problema central que se coloca para a teoria da variação é a avaliação do quantum com que cada categoria postulada contribui para a realização de uma ou outra das variantes linguísticas em concorrência. Na verdade, na fala concreta, a operação de uma regra variável é o resultado da atuação simultânea de vários fatores, ou seja, as categorias não são isoladas, pelo contrário, elas se apresentam conjugadas. É através de modelos quantitativos que se podem estabelecer correlações entre fatos linguísticos e socioculturais, o que proporciona uma melhor visão da variação da língua, que é descrita em termos de regras variáveis, às quais se podem atribuir valores probabilísticos (ou pesos relativos) que predizem a ocorrência das variantes independentemente do corpus observado1. 1 Os resultados finais da análise propiciariam a formulação de regras gramaticais variáveis. Trata-se, portanto, de um sistema linguístico de probabilidades (composto de formas em relação de concorrência). Dessa forma, seria incorporado à gramática o Os fatores que desencadeiam a mudança linguística são numerosos e diversificados; podem ser explícitos e perceptíveis, ou, ao contrário, invisíveis e inacessíveis à percepção do falante. Podem ainda ser externos ou internos ao sistema da língua (MARCHELLO-NIZIA et alii, 2003). A sociolinguística, como disciplina independente e com uma metodologia própria, desenvolveu-se principalmente a partir dos anos 60, nos Estados Unidos e no Canadá. Seu objetivo é descrever a relação entre os fatos linguísticos e os fatos sociais, portanto exteriores à língua, tais como idade, sexo/gênero, nível de escolarização, classe social, etnia, profissão, contexto estilístico ou situacional etc. A variável ‘idade’ revela-se de fundamental importância no estudo dos fenômenos variáveis, uma vez que é essa variável que vai indicar se determinado fenômeno de variação linguística está estável ou está em progresso num estudo em tempo aparente. Também se sabe que, nos eixos sociais, por exemplo, em geral, os falantes mais jovens são mais inovadores e os falantes mais velhos costumam preservar formas mais antigas. A variável ‘sexo/gênero’ é também focalizada pela sociolinguística, pois, do ponto de vista social, homens e mulheres têm papéis diferentes e estão, portanto, expostos a situações diversas. Assim, esse fator pode influenciar a escolha de uma ou outra forma linguística. Estudos comprovam que, nos processos de variação estável, são os homens que utilizam as variantes inovadoras, porém, nos casos de mudança, são as mulheres que estão à frente do processo. A variável ‘escolaridade’ mostra-se pertinente, por exemplo, no momento em que se observa a existência de formas linguísticas de prestígio ou estigmatizadas. Há fenômenos que são alvo do ensino escolar e outros que não o são. Como as gramáticas escolares e os manuais de ensino e estudo da língua julgam as formas estigmatizadas rotulando-as de “erros” ou “vícios de linguagem”, o grau de instrução do falante pode condicioná-lo ao uso de determinada(s) forma(s) linguística(s). Também essa variável se revela importante quando do estudo da língua escrita. A ‘classe’ ou o ‘grupo social’ ou o ‘nível socioeconômico’ a que o falante pertence se reflete também na sua linguagem. Quanto mais estratificada socialmente uma comunidade, maior o índice de variação das formas linguísticas. Os estudos sociolinguísticos de Labov mostram que muitas inovações linguísticas surgem nas camadas mais populares e sobem pela escala social. A mudança começa a se efetivar nas classes intermediárias, pois, quando uma variante concorrente, normalmente não prestigiada, atinge as classes mais altas, muito provavelmente a mudança se implementa. Outros estudos, porém, mostram resultados diversos que refletem, provavelmente, diferentes formas de organização social. A ‘etnia’ é também uma variável considerada pelos sociolinguistas. É sobretudo em estudos da variação na língua inglesa da América que esse fator tem se tornado mais conhecido para a explicação de fenômenos variáveis. No caso do português do Brasil, entretanto, essa variável não tem sido muito considerada. Para a sociolinguística, pode haver uma correlação entre o tipo de atividade profissional desenvolvida por uma pessoa ao longo de sua vida e a necessidade do uso de formas linguísticas de prestígio. Assim, tem-se considerado também a variável ‘profissão’ para compreender fenômenos variáveis, uma vez que há profissões que se servem mais da língua do que outras. Entre falantes que atuam em profissões do primeiro tipo (por exemplo, professores, advogados, jornalistas...), podem ocorrer mais variantes de prestígio, já que têm acesso mais direto e mais constante ao código linguístico, o que pode não acontecer com falantes que exercem profissões do segundo tipo. A variável ‘estilo de fala’ diz respeito à forma como as pessoas se comunicam sobre determinado assunto em determinado lugar, observadas as relações sociais particulares entre elas. Os falantes possuem um repertório linguístico que varia a depender do local, do interlocutor, do assunto, do ambiente. Em situações descontraídas, mais informais, entre pessoas com as quais se tem mais intimidade, é comum que se usem formas linguísticas vernáculas, ao passo que em ambientes de maior formalidade, entre pessoas que não se conhecem ou de posições hierárquicas diferentes, em situações de consciência da própria linguagem, os falantes são capazes de adaptar sua maneira de falar e usar com maior frequência variantes de prestígio. Ou seja, a fala formal se aproxima mais da norma standard e a fala informal dela se afasta, deixando transparecer o coloquial, espontâneo. Diferenças de contexto formal e informal levam os falantes a empregar, respectivamente, estilos também formais ou informais. É através do estilo informal, que deixa transparecer mais o vernáculo, que muitas mudanças se implementam. conceito de regra variável – ao lado das regras categóricas da linguística estrutural e gerativo-transformacional –, cuja aplicação apresentaria uma frequência condicionada a fatores internos e/ou externos à língua. No estudo da mudança linguística, Weinreich, Labov & Herzog (1968) formulam cinco questões teóricas centrais: os condicionamentos, a transição, o encaixamento, a avaliação e a sua implementação. Esses cinco problemas são explicados resumidamente a seguir: a) o problema dos condicionamentos (the constraint problem) – alguns fatores determinam mudanças possíveis numa dada direção. Assim, cada restrição pressupõe uma explicação que diz respeito à causa da mudança. Pode-se, então, saber quais são as mudanças possíveis e se são de ordem universal; b) o problema da transição (the transition problem) – essa questão objetiva responder como uma língua muda, ou seja, como ela passa de um estágio para outro. Isso implica também a transmissão de regras de uma geração a outra e, portanto, a localização social do falante na comunidade de fala. Numa escala social, há grupos mais inovadores e menos inovadores. Localizar que grupo lidera a mudança é também, portanto, uma questão crucial. Há que se levantar hipóteses para o funcionamento de cada nível linguístico num estudo sincrônico e diacrônico, na tentativa de entender os sistemas intermediários, que dizem muito mais sobre as mudanças do que os estágios inicial e final; c) o problema do encaixamento (the embedding problem) – deve-se observar como uma mudança se encaixa no sistema linguístico e na matriz social da comunidade. Há que se investigar como uma mudança pode desencadear outra, num ‘efeito dominó’, dentro do sistema linguístico; d) o problema da avaliação (the evaluation problem) – a avaliação social diz respeito à forma como os falantes julgam a mudança e qual o efeito desse julgamento sobre a mudança. Isso implica o nível de atenção do falante em relação à fala; e) o problema da implementação (the actuation problem) – a propagação da mudança se dá em determinados ambientes estruturais e se difunde progressivamente a partir de ambientes mais favoráveis. Há que se investigar que fatores propiciam que uma determinada mudança ocorra em uma língua em uma determinada época e não em outra. Essa parece ser a questão mais difícil a ser respondida pela teoria. Para a sua resolução deve ser considerada a combinação dos resultados para todos os problemas anteriores. Conjugando, pois, estudos sincrônicos e diacrônicos (de longa e de curta duração) tem-se mais embasamento para uma descrição fiel e segura de uma dada língua. Todavia, devido ao fato de não ser possível resolver determinados problemas históricos, já que os dados são fragmentados, pode-se utilizar a observação empírica do presente para explicar o passado e do passado para explicar o presente. Essa observação pode ser produtiva na medida em que está baseada no princípio do uniformitarismo (LABOV, 1994). Ele é uma condição necessária à reconstrução histórica assim como o uso do presente é necessário para explicar o passado, já que as forças e restrições que regem as mudanças numa língua no presente são as mesmas que impulsionaram mudanças já concluídas. Finalmente, não há distinção entre origem e propagação da mudança (LABOV, 1975), pois uma língua só muda quando uma forma foi transmitida de um falante para outro e foi aceita como uma convenção social. Enfim, os objetivos desse tipo de análise são descrever e analisar a variação numa língua, depreendendo a sistematização que lhe é inerente e comparando os resultados das análises com vistas à projeção de possíveis rumos que as variantes tomarão. Assim, a concepção e o alcance do modelo sociolinguístico são, ao mesmo tempo, sincrônicos e diacrônicos, uma vez que toda mudança implica uma variação. Nesse modelo, a estrutura de uma língua somente será totalmente entendida à medida que se compreendam efetivamente os processos históricos de sua configuração. Teoricamente, uma amostra sincrônica de dados, isto é, dados de um tempo real na história de uma língua, permite estudar a dinâmica da mudança em curso de implementação, dado que um estado de língua é a face sincrônica da mudança linguística. Entretanto, procedendo a um recorte transversal da amostra sincrônica em função da faixa etária dos informantes, acrescenta-se uma dimensão diacrônica à análise. Assim, tem-se o que se chama de tempo aparente. O tempo aparente serve como um procedimento através do qual se pode projetar o tempo real futuro, ou seja, estudando-se a transição e a implementação de variáveis – uma análise acurada de uma comunidade sociolinguística com seu componente de variação e de mudança –, pode-se dimensionar historicamente uma variável, não só em relação ao passado mas também em relação a um possível comportamento no futuro. Analisando a correlação entre as variantes e os fatores internos e considerando o fator idade, podese observar a estratificação das mesmas. Se, por exemplo, a variante inovadora for mais frequente entre falantes mais jovens, decrescendo em relação à idade dos outros informantes, tem-se indícios de uma mudança em progresso. Uma vez aventada a hipótese de mudança com base em dados do tempo aparente, pode-se proceder também a uma análise histórica da variável no tempo real, isto é, deve-se recorrer a dados de outra(s) sincronia(s) para que, através de comparações, se possa melhor entender o valor e a direção da variável na comunidade (LABOV, 1994). Em tempo real, o estudo da mudança possibilita analisar aspectos que não podem ser detectados em tempo aparente e permite distinguir mudanças que se produzem gradualmente em toda a comunidade das que caracterizam a trajetória de comportamento linguístico individual (PAIVA & DUARTE, 2003). Os estudos no tempo real de longa duração – que requerem um interstício de séculos – apresentam dificuldades quanto à coleta de dados, sobretudo de épocas pretéritas, pois não há registros orais e os escritos não são tão sistemáticos. É aí que se exige do pesquisador uma maior atenção para que consiga fazer um bom uso dos chamados “maus” dados (LABOV, 1994; PAIVA & DUARTE, 2003). Já os estudos no tempo real de curta duração – geralmente com um interstício de duas ou três décadas – fornecem evidências mais seguras sobre o estatuto dos padrões de variação em um dado momento da língua e podem se apresentar de duas maneiras, estudo de tendência (trend study) ou estudo de painel (panel study) (LABOV, 1994). O primeiro compara em sincronias diferentes uma mesma comunidade de fala, ou seja, gravam-se informantes diferentes de uma mesma comunidade em momentos diferentes, com o intuito de depreender a direcionalidade do sistema na comunidade e a relação entre as mudanças linguísticas (sua propagação, estabilização ou recuo) e a configuração social de um grupo. Assim, focaliza-se a continuidade/descontinuidade na própria língua, que pode se refletir no comportamento do indivíduo. O segundo estuda o comportamento linguístico dos mesmos informantes em momentos sincrônicos diferentes, com o intuito de distinguir mudança geracional de mudança na comunidade. Nesse tipo de estudo, está em jogo a continuidade/descontinuidade no comportamento linguístico do indivíduo sem reflexos no sistema (LABOV, 1994). Assim, correlacionando fatores linguísticos e extralinguísticos, sincrônicos e diacrônicos, tenta-se desvendar o mistério da variação e da mudança. Como bem colocam Paiva & Duarte (2003), conjugando esses tipos diferentes de estudo, obtêm-se subsídios para a questão da implementação e do encaixamento da mudança. Ao comparar duas sincronias, surgem indícios para a identificação de como uma dada mudança progride na língua, qual a sua trajetória estrutural e social e quais as relações de causa e efeito entre diferentes processos de mudança. Ou seja, esse confronto permite descobrir como as mudanças estão associadas entre si, já que não são frutos do acaso. Teoricamente, quando uma mudança se implementa, ela não só é consequência mas também possibilita o aparecimento de outra, isto é, faz parte de uma matriz de mudanças mais gerais. Enfim, pressupõe-se que as mudanças nas línguas naturais não são isoladas ou independentes. A metodologia da teoria da variação constitui uma ferramenta que pode ser usada para o estudo de qualquer fenômeno variável nos diversos níveis e manifestações linguísticas. É mais um instrumento que se apresenta ao linguista para o entendimento das línguas humanas. (Extraído de: OLIVEIRA, Josane Moreira de. O futuro da língua portuguesa ontem e hoje: variação e mudança. Rio de Janeiro: UFRJ, Faculdade de Letras, 2006. Tese de Doutorado em Língua Portuguesa. p. 44-51) UFPB – Curso GoldVarb X Profa. Josane Oliveira O corpus Uma análise sociolinguística é uma análise quantitativa de dados. Por isso, a escolha do corpus é muito importante no trabalho. Claro que é preciso primeiramente dedicar-se a um determinando fenômeno linguístico variável e proceder à leitura de material bibliográfico sobre o tema! Em se tratando de língua falada, escolhe-se uma comunidade de fala. Buscam-se, a seguir, informantes que dela sejam representativos. Um dos critérios é ser nascido no local, filho de pais do local e que não tenha se afastado por muito tempo do local. Daí é preciso equilibrar as células quanto ao sexo/gênero, quanto à faixa etária, quanto à escolarização etc. Segue um exemplo de estratificação dos informantes de uma comunidade: Nome Pedro João Mário André Antônio Júlio Joaquim Mateus Felipe Carlos Manuel Ricardo Homens Faixa etária 1 1 1 1 2 2 2 2 3 3 3 3 Escolaridade S S N N S S N N S S N N Nome Maria Ana Paula Andréia Júlia Carla Joana Alice Cláudia Vera Marta Adriana Mulheres Faixa etária 1 1 1 1 2 2 2 2 3 3 3 3 Escolaridade S S N N S S N N S S N N Assim teríamos 24 informantes, sendo 12 homens e 12 mulheres, 12 escolarizados e 12 analfabetos, 8 da faixa 1 (25 a 35 anos), 8 da faixa 2 (36 a 55 anos) e 8 da faixa 3 (56 anos ou mais). Daí faríamos as gravações e levantaríamos os dados do fenômeno sob análise controlando essas informações. Em se tratando de língua escrita, também os dados devem ser controlados. Por exemplo, trabalhando com jornais, teríamos de controlar qual o jornal, qual o tipo de texto, qual a cidade, qual a data etc. para controlar essas informações na coleta dos dados. É muito importante colocar essas informações de forma abreviada, mas decodificável, após o dado. Montado o corpus, passa-se ao levantamento e à codificação dos dados para a análise quantitativa. Trabalha-se com códigos (de preferência mnemônicos) que alimentarão o Programa GoldVarb. Veremos como fazer isso mais adiante! UFPB – Curso GoldVarb X Profa. Josane Oliveira Exercício 1 Instalando o GoldVarb X 1. Crie uma nova pasta com o nome GoldVarb X na sua Área de Trabalho (Desktop) usando o botão direito do mouse. 2. Baixe o Programa da Internet (GOLDVARB30B3), digitando-o no Google. Os links são: http://individual.utoronto.ca/tagliamonte/Goldvarb/GV_index.htm ou http://individual.utoronto.ca/tagliamonte/goldvarb.htm. O manual da versão anterior (GoldVarb 2001) pode ser encontrado em: http://www.york.ac.uk/depts/lang/webstuff/goldvarb/manual/manualOct2001.html (não há manual para a versão X). 3. Você já tem todos os arquivos executáveis do programa! Utilizando o GoldVarb X 1. Dê um duplo click na Pasta GoldVarb X e um duplo click na primeira pasta GoldVarb30b3. Depois, dê um duplo click no aplicativo GoldVarb. 2. Vá ao menu e clique em File. Então crie um arquivo de dados (New – New Tokens) ou abra um arquivo já existente (Open). 3. Aí você pode começar a digitar os seus dados. Primeiro coloque a cadeia de codificação precedida de ( . Após a cadeia de codificação, dê um espaço e coloque o seu dado. Não feche os parênteses. Cada dado (com a respectiva cadeia) deve vir em uma linha diferente. Deixe uma linha em branco entre os dados. (I2d3i2PpbA/AddPaU//S7EJnA Tal comissão VAI FAZER uma espécie de radiografia do INPS para apontar ao Sr. Júlio Barata os males que afetam o mastodôntico instituto. [T2 J 70 SSA] (F1c3i2FpnE/XndPaU//S7EJnC Êste, se a comissão nomeada pelo Ministro fôr de bons clínicos, SERÁ o diagnóstico. [T2 J 70 SSA] É bom destacar o dado examinado dentro do contexto. A variável dependente deve ser sempre a primeira na cadeia de codificação. Ao final do exemplo, coloque a fonte (localização) do dado. Nos exemplos acima, T2 é texto 2, J é jornal, 70 é anos 70 e SSA é Salvador. Ao terminar, dê um nome ao arquivo (File, Save As). A extensão desse arquivo é .tkn (de token, que significa dado). Da próxima vez, para abrir o seu arquivo de dados, clique em File, Open e selecione o arquivo a ser aberto. Ao digitar os dados, não use parênteses (se for o caso, substitua-os por colchetes). Também não use barras (se for o caso, substitua-as por traço). Você pode digitar os dados no Word e usá-los depois no GoldVarb X. Você pode copiar e colar todo o arquivo ou salvá-lo no Word como Texto sem formatação. Neste caso, ele terá a extensão .txt. Então, na hora de abri-lo no GoldVarb X, é preciso selecionar (ao lado da linha do nome do arquivo) All Files em vez de Token Files. Lembre-se de salvar o arquivo como .tkn, para facilitar o uso posteriormente. Use File – Save As e dê um nome. Ele será .tkn. 4. Como codificar os dados a) comece pela variável dependente b) evite repetir muito os mesmos símbolos c) evite num mesmo grupo maiúsculas e minúsculas d) tente colocar um código que lembre o fator especificado (código mnemônico) e) nunca use caracteres do tipo “inserir símbolos” Exemplo de codificação: Grupos de fatores G1: Variável dependente G2: Conjugação verbal G3: Paradigma verbal G4: Tipo de sujeito G5: Tipo de futuro G6: Sexo/gênero do informante G7: Faixa etária G8: Escolaridade Variantes Futuro simples (farei) Futuro perifrástico (vou fazer) Presente (faço) 1ª conjugação 2ª conjugação 3ª conjugação Regular Irregular Agente (eu lavarei os pratos) Experienciador (eu verei a luz) Paciente (o livro será lido) Não se aplica (haverá paz) Próximo Distante Indefinido Feminino Masculino 25 a 35 anos 45 a 55 anos 65 anos em diante Nível superior Nível médio Nível fundamental Códigos F I P 1 2 3 r i A E P / p d i M H 1 2 3 s m f Agora, prepare os seus dados. Crie os seus grupos de fatores e codifique os dados num papel à parte. Cada grupo de fatores corresponde a uma coluna no programa (o GoldVarb X aceita até 120 colunas). Mantenha sempre em mãos os seus grupos de fatores num papel separado. É bom ler o texto: SCHERRE, M. M. P.; NARO, A. J. Análise quantitativa e tópicos de interpretação do Varbrul. In: MOLLICA, M. C.; BRAGA, M. L. (Org.). Introdução à sociolinguística: o tratamento da variação. São Paulo: Contexto, 2004, p. 147-177. Os arquivos do GoldVarb X: Os arquivos lidos pelo GoldVarb X têm extensões .tkn, .res, .cnd, .cel. .tkn: arquivos de dados .cnd: arquivos de condições .cel: arquivos de células .res: arquivos de resultados (especificações, percentagens, pesos relativos, tabulações cruzadas...) Todos os resultados gerados pelo programa durante uma sessão ficam em um arquivo .res nas janelas abaixo ou ao lado da janela do arquivo de dados. Se quiser mantê-los, precisará salvá-los em Save As. UFPB – Curso GoldVarb X Profa. Josane Oliveira Exercício 2 Arquivo de dados pronto (.tkn) Agora que o arquivo de dados (tokens) está pronto, você precisa criar o arquivo de especificações, ou seja, precisa informar ao programa todos os seus grupos e todos os fatores de cada grupo. Observação: para inserir algum comentário sobre os dados, você pode usar o ponto e vírgula (;) no início da linha. Exemplo: (P2r1 Eu LAVO os pratos depois. ; neste exemplo, considera-se que o presente tem valor de futuro, já que indica uma ação que ocorrerá após o ato de fala. (F1i3 Ele VIRÁ mais cedo hoje. Exemplo de arquivo de dados no GoldVarb X: Criando o arquivo de especificações e checando erros de codificação Para criar o seu arquivo de especificações, na tela principal, clique em Tokens e, a seguir, em Generate Factor Specifications. Clique em OK. Aparecerá uma telinha com o número total de dados. Clique em Ok. A seguir, aparecerá uma tela com os grupos, os valores e o Default. Cada grupo tem um Default, um fator que deve ser um dos fatores daquele grupo. Pode ser qualquer fator, é apenas uma referência para o programa saber qual o fator mais esperado por você. Confira se os grupos têm pelo menos 2 fatores e se os valores estão corretos. Se houver erros de codificação, é preciso corrigi-los. Você pode ver todo o arquivo de especificações também clicando em Tokens – Show Factor Specifications. Verifique se em cada grupo há pelo menos 2 fatores. Se houver algum grupo com apenas 1 fator, acrescente mais um fator qualquer. Depois, clique em Modify Group. Agora vá à tela dos dados e clique em Tokens – No recode (não recodificar). Aparecerá a tela com o arquivo de condições, em que constam todos os grupos de fatores. Você fará a primeira rodada com todos os grupos e todos os fatores para um resultado inicial. Na tela do arquivo de condições, clique em Cell – Load cells to memory. O programa perguntará se quer gerar o arquivo de células a partir do arquivo de dados e do arquivo de condições em tela. Clique em Yes. Aparecerá então uma telinha com o total de dados e de linhas checados. Clique em Ok. Aparecerá outra tela com Choose application value(s). O programa pede a regra de aplicação. Ele apresenta a ordem das variantes (variável dependente) na ordem em que aparecem no arquivo de dados. Você pode mudar essa ordem, a depender do que esteja estudando. Por exemplo, estudando o futuro verbal, temos 4 variantes (futuro simples – F, futuro perifrástico com ir no presente – I, futuro perifrástico com ir no futuro – R e presente do indicativo – P). Pela ordem em que aparecem nos dados, o programa me mostra: PIFR. Mas prefiro a ordem FIRP. Então posso alterar. Clique em OK e aparecerá o primeiro arquivo de resultados, com os percentuais. Salve-o como Save As e faça uma primeira análise. Aparecem também um telinha com o total de células (clique em OK) e uma tela com o arquivo .cel (que não nos interessa). Eis uma imagem do arquivo de células com os percentuais: Imprima o seu arquivo de células para fazer uma primeira análise. Possivelmente, haverá alguns KnockOuts. O KnockOut acontece sempre que há regra categórica (0% ou 100% dos dados) em algum fator. Eles terão de ser retirados da rodada, mas fornecem uma informação linguística importantíssima. Não deixe de informar, na sua análise, os casos categóricos! Pode acontecer também o Singleton Group, grupo que contém apenas um fator. Este também deve ser retirado da rodada. Vejamos um exemplo desses casos em um arquivo de células: • CELL CREATION • 07/02/2014 19:00:41 •••••••••••••••••••••••••••••••••••••••••• Name of token file: A Tarde1.tkn Name of condition file: Untitled.cnd ( (1 (P (COL 1 P)) (I (COL 1 I)) (F (COL 1 F)) (I (COL 1 R))) (2) (3) (4) (5) (8) (12) (14) (15) (16) (17) ) Number of cells: 410 Application value(s): FIP Total no. of factors: 39 Group F I P Total % ---------------------------------------------1 (2) F I P 2 N 126 55 81 262 42.5 % 48.1 21.0 30.9 4 N % 22 25.6 19 22.1 45 52.3 86 13.9 3 N % 37 35.2 46 43.8 22 21.0 105 17.0 1 N % 137 83.5 8 4.9 19 11.6 164 26.6 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------2 (3) F I P 3 N 190 91 125 406 65.8 % 46.8 22.4 30.8 6 N % 120 69.0 17 9.8 37 21.3 174 28.2 4 N % 11 34.4 18 56.2 3 9.4 32 5.2 1 N % 1 20.0 2 40.0 2 40.0 5 0.8 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------- 3 (4) 1 N % F 79 31.3 I 86 34.1 P 87 34.5 252 40.8 2 N % 224 71.6 25 8.0 64 20.4 313 50.7 3 N % 19 36.5 17 32.7 16 30.8 52 8.4 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------4 (5) F I P r N 97 100 116 313 50.7 % 31.0 31.9 37.1 i N % 225 74.0 28 9.2 51 16.8 304 49.3 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------5 (8) F I P A N 65 91 94 250 42.0 % 26.0 36.4 37.6 E N % 157 60.4 34 13.1 69 26.5 260 43.7 P N % 82 96.5 1 1.2 2 2.4 85 14.3 Total N 304 126 165 595 % 51.1 21.2 27.7 ---------------------------------------------6 (12) F I P P N 78 97 107 282 45.7 % 27.7 34.4 37.9 E N % 35 50.0 17 24.3 18 25.7 70 11.3 F N % 208 78.8 14 5.3 42 15.9 264 42.8 C N % 1 100.0 0 0.0 0 0.0 1 0.2 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------7 (14) F I P P N 123 42 103 268 43.4 % 45.9 15.7 38.4 X N % 143 59.6 74 30.8 23 9.6 240 38.9 I N % 44 51.8 9 10.6 32 37.6 85 13.8 A N % 11 50.0 3 13.6 8 36.4 22 3.6 D N % 1 50.0 0 0.0 1 50.0 2 0.3 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------8 (15) F I P o N 50 31 34 115 18.6 % 43.5 27.0 29.6 i N % 84 63.6 17 12.9 31 23.5 132 21.4 u N % 153 50.3 66 21.7 85 28.0 304 49.3 d N % 35 53.0 14 21.2 17 25.8 66 10.7 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------9 (16) F I P c N 322 128 167 617 100.0 % 52.2 20.7 27.1 * Singleton Group * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------10 (17) F I P T N 10 9 22 41 6.6 % 24.4 22.0 53.7 M N % 231 59.2 96 24.6 63 16.2 390 63.2 N N % 34 27.0 16 12.7 76 60.3 126 20.4 E N % 9 100.0 0 0.0 0 0.0 9 1.5 * KnockOut * A N % 20 95.2 1 4.8 0 0.0 21 3.4 * KnockOut * H N % 12 80.0 0 0.0 3 20.0 15 2.4 * KnockOut * Q N % 0 0.0 1 33.3 2 66.7 3 0.5 * KnockOut * R N % 4 40.0 5 50.0 1 10.0 10 C N % 2 100.0 0 0.0 0 0.0 2 1.6 0.3 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------TOTAL N 322 128 167 617 % 52.2 20.7 27.1 Name of new cell file: .cel Como dito antes, para a rodada final, o arquivo de células precisa estar sem nenhum problema. Precisamos resolver os casos de No Factors, de Singleton Group e de Knockouts. UFPB – Curso GoldVarb X Profa. Josane Oliveira Exercício 3 Como interpretar os resultados do arquivo de células Como já se disse, o 1º arquivo de células, no caso de ter havido algum problema (KnockOut, Singleton Group ou No Factors), deve ser guardado, pois o problema deve ser comentado na análise dos dados. Todavia esse arquivo terá de ser refeito até que não haja mais problemas. Só então ele poderá ser submetido ao cálculo dos pesos relativos. O arquivo de células já permite uma análise dos dados, pois ele informa a quantidade de ocorrências e os percentuais para cada variante em relação a cada fator considerado nos grupos de fatores. Por exemplo, observe os resultados do grupo abaixo, extraído do arquivo de células anterior: ---------------------------------------------4 (5) F I P r N 97 100 116 313 50.7 % 31.0 31.9 37.1 i N % 225 74.0 28 9.2 51 16.8 304 49.3 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------- Este Grupo (Paradigma verbal) possui 2 fatores (r = verbo regular / i = verbo irregular). Transformando esses resultados em tabela, temos: Paradigma verbal Verbo regular Verbo irregular Total Tabela 1: Variação na expressão do futuro na escrita e paradigma verbal Futuro simples Futuro perifrástico Presente No de dados 97 225 322 Percentual 31% 74% No de dados 100 28 128 Percentual 32% 9% No de dados 116 51 167 Total Percentual 37% 17% 313 304 617 Assim, podemos ver que o futuro simples foi mais utilizado (52%) do que o futuro perifrástico (21%) e do que o presente (27%) em toda a amostra, que contém 617 dados. Comparando os dois paradigmas verbais, vemos que nos verbos irregulares prevaleceu o futuro simples, enquanto que os verbos regulares foram mais usados com o futuro perifrástico e com o presente. Este é só um exemplo. A estruturação e a leitura da tabela podem variar, a depender do que se queira chamar à atenção. Mas, voltemos aos problemas! Para retirar os casos de Singleton Group, No Factors e KnockOut, devemos recodificar os dados. Nos casos de Singleton Group e de No Factors, os grupos devem ser, simplesmente, retirados na recodificação. No primeiro caso, trata-se de um grupo em que só um fator ocorreu; no segundo, trata-se de um grupo em que nenhum dos fatores ocorreu. Exemplo de Singleton Group: ---------------------------------------------9 (16) F I P c N 322 128 167 617 100.0 % 52.2 20.7 27.1 * Singleton Group * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------- Este grupo, ‘Tipo de jornal’, possui 2 fatores: culto (c) e popular (p). Como os dados dessa amostra foram todos do jornal considerado culto (ainda não tinham sido codificados os dados do jornal popular), os 617 dados (total da amostra) apareceram codificados com o fator c (100%) dos dados. Observe que no total o programa continua dizendo (como na tabela anterior) que há futuro simples em 52% dos dados, futuro perifrástico em 21% dos dados e presente em 27% dos dados. Simplesmente não há como considerar esse grupo, pois não há cálculo algum a fazer. Eis o que o programa informa com a expressão “Singleton Group”. Quando da recodificação, devemos excluir o grupo 16 (atual 9). Exemplo de No factors: --------------------------------17 (18) * No Factors * --------------------------------- Suponha que este grupo seja ‘Tipo de sujeito’, com 3 fatores: sujeito animado (A), sujeito inanimado (I) e “não se aplica” (/). Os casos de não se aplica devem ser codificados com uma barra (/). Neste grupo, seriam casos de “não se aplica” os dados em que há sujeito oracional (DEVERÁ ser considerado que o homem é um ser mortal) ou em que há oração sem sujeito (VAI HAVER muitos problemas). Com o “não se aplica” (/), dizemos ao programa que nesses casos não há como dizer se o sujeito é animado ou não animado, ou seja, nesses casos, essa classificação NÃO SE APLICA. E o programa retira da rodada (dos cálculos) esses dados. Ele nem os enxerga. Agora suponha que nessa amostra só ocorreram exemplos de “não se aplica”, ou seja, em todos os dados houve sujeito oracional ou oração sem sujeito. Assim, a mensagem No Factors informa que não houve nenhum fator, ou seja, não houve A (sujeito animado) nem I (sujeito inanimado). Dessa forma, o programa não tem como informar nada. Com essa mensagem, ele nos diz: o que você quer que eu faça nesse grupo se não há nada codificado (nem A nem I)? Quando da recodificação, o grupo 18 (atual 17) deve ser excluído. Como recodificar os dados – retirando grupos Para recodificar os dados retirando grupos (depois veremos como retirar apenas fatores e como agrupar fatores), os passos são os seguintes: 1. Na tela dos dados (Tokens) e clique em Recode setup 2. Aparece uma tela Generate conditions for recoding: 3. Clique no Grupo 1 (o grupo da variável dependente) e ele vai ficar azul. Então clique ao lado em Recode 4. Na tela ao lado aparecem os fatores, repita os que quer manter e modifique os que quer recodificar (no exemplo, digite P I F I). Assim, estamos recodificando R como I (ou seja, os casos de irei fazer estarão juntos com os casos de vou fazer, como futuro perifrástico) 5. A seguir, clique no Grupo 2 da tela à esquerda e clique em Copy (esse grupo será mantido sem alterações) 6. Repita a mesma operação com todos os grupos, exceto com os grupos a serem excluídos (no caso do exemplo, ignore os grupos 16 – Singleton Group e 18 – No factors, pulando-os) 7. A seguir, clique em Ok e aparecerá um novo arquivo de condições 8. Aparecerá uma nova tela, com o arquivo de condições; 9. Clique em Cells – Load cells to memory 10. Aparecerá uma tela dizendo que há células na memória e o programa pergunta se você quer descartá-las (clique em Yes) 11. Aparece outra tela perguntando se você quer criar um novo arquivo de células a partir dos dados e das condições em tela (clique em Yes) 12. Aparecerá uma tela pedindo a regra de aplicação (digite FIP e clique em Ok) 13. O programa então apresenta o novo arquivo de células sem os grupos excluídos 14. Veja o seu novo arquivo de células sem os grupos excluídos (eles não constarão nem do arquivo de condições nem dos resultados) Atenção: o programa gera o novo arquivo embaixo do anterior (a não ser que o tenhamos salvado). Assim, é preciso cuidado pra olhar o último arquivo! Vejamos o arquivo de células que estamos tomando como exemplo. Eis o arquivo após a recodificação: • CELL CREATION • 07/02/2014 19:52:36 •••••••••••••••••••••••••••••••••••••••••• Name of token file: A Tarde1.tkn Name of condition file: Untitled.cnd ( (1 (P (COL 1 P)) (I (COL 1 I)) (F (COL 1 F)) (I (COL 1 R))) (2) (3) (4) (5) (8) (12) (14) (17) ) Number of cells: Application value(s): Total no. of factors: 301 FIP 34 Group F I P Total % ---------------------------------------------1 (2) F I P 2 N 126 55 81 262 42.5 % 48.1 21.0 30.9 4 N % 22 25.6 19 22.1 45 52.3 86 13.9 3 N % 37 35.2 46 43.8 22 21.0 105 17.0 1 N % 137 83.5 8 4.9 19 11.6 164 26.6 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------2 (3) F I P 3 N 190 91 125 406 65.8 % 46.8 22.4 30.8 6 N % 120 69.0 17 9.8 37 21.3 174 28.2 4 N % 11 34.4 18 56.2 3 9.4 32 5.2 1 N % 1 20.0 2 40.0 2 40.0 5 0.8 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------3 (4) F I P 1 N 79 86 87 252 40.8 % 31.3 34.1 34.5 2 N % 224 71.6 25 8.0 64 20.4 313 50.7 3 N % 19 36.5 17 32.7 16 30.8 52 8.4 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------4 (5) F I P r N 97 100 116 313 50.7 % 31.0 31.9 37.1 i N % 225 74.0 28 9.2 51 16.8 304 49.3 Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------5 (8) F I P A N 65 91 94 250 42.0 % 26.0 36.4 37.6 E N % 157 60.4 34 13.1 69 26.5 260 43.7 P N % 82 96.5 1 1.2 2 2.4 85 14.3 Total N 304 126 165 595 % 51.1 21.2 27.7 ---------------------------------------------6 (12) F I P P N 78 97 107 282 45.7 % 27.7 34.4 37.9 E N % 35 50.0 17 24.3 18 25.7 70 11.3 F N % 208 78.8 14 5.3 42 15.9 264 42.8 C N % 1 100.0 0 0.0 0 0.0 1 0.2 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------7 (14) F I P P N 123 42 103 268 43.4 % 45.9 15.7 38.4 X N % 143 59.6 74 30.8 23 9.6 240 38.9 I N % 44 51.8 9 10.6 32 37.6 85 13.8 A N % 11 50.0 3 13.6 8 36.4 22 3.6 D N % 1 50.0 0 0.0 1 50.0 2 0.3 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------8 (17) F I P T N 10 9 22 41 6.6 % 24.4 22.0 53.7 M N % 231 59.2 96 24.6 63 16.2 390 63.2 N N % 34 27.0 16 12.7 76 60.3 126 20.4 E N % 9 100.0 0 0.0 0 0.0 9 1.5 * KnockOut * A N % 20 95.2 1 4.8 0 0.0 21 3.4 * KnockOut * H N % 12 80.0 0 0.0 3 20.0 15 2.4 * KnockOut * Q N % 0 0.0 1 33.3 2 66.7 3 0.5 * KnockOut * R N % 4 40.0 5 50.0 1 10.0 10 C N % 2 100.0 0 0.0 0 0.0 2 1.6 0.3 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------TOTAL N 322 128 167 617 % 52.2 20.7 27.1 Name of new cell file: .cel Não há mais Singleton Group nem No Factors. Restam só os KnocKouts. Vejamos como resolvêlos. UFPB – Curso GoldVarb X Profa. Josane Oliveira Exercício 4 Como recodificar os dados – retirando fatores ou juntando fatores de um mesmo grupo Tomando como exemplo o arquivo de células anterior, observe o Grupo 6 (antigo 12): ---------------------------------------------6 (12) F I P P N 78 97 107 282 45.7 % 27.7 34.4 37.9 E N % 35 50.0 17 24.3 18 25.7 70 11.3 F N % 208 78.8 14 5.3 42 15.9 264 42.8 C N % 1 100.0 0 0.0 0 0.0 1 0.2 * KnockOut * Total N 322 128 167 617 % 52.2 20.7 27.1 ---------------------------------------------- O fator C (verbo cognitivo) apresenta KnockOut. Ou seja, no único caso em que houve esse tipo de verbo, ocorreu futuro simples (100%). Devemos informar isso na análise e retirar esse dado desse grupo. Assim, veremos a variação apenas entre verbos de processo (P), verbos de evento (E) e verbos de estado físico (F). Para fazer isso, siga os seguintes passos (alguns dos quais vimos anteriormente quando da retirada de grupos inteiros): 1. Na tela dos dados, vá em Tokens e clique em Recode setup 2. Aparece uma telinha perguntando se quer salvar ou não o arquivo de condições anterior (clique em Don’t save) 3. Aparece uma tela para recodificação (Generate conditions for recoding...) 4. Clique no Grupo 1 (o grupo da variável dependente) e ele vai ficar azul. Então clique ao lado em Recode e digite P I F I (ele vai manter esse grupo substituindo R por I) 5. Clique no Grupo 2 e a seguir em Copy 6. Repita a mesma operação com todos os grupos que você quer manter 7. Já vimos que os grupos a serem excluídos devem ser pulados 8. No caso do grupo 12, do qual queremos excluir o fator C, clique em Recode 9. Na tela ao lado, digite P E F / (assim manteremos P E F e excluímos o dado de C, que tinha knockout) 10. No caso de excluir mais de um fator no mesmo grupo, continue colocando a barra (/) para os fatores a serem excluídos; 11. Façamos o mesmo com o Grupo 14, para excluir o D (digite na tela ao lado P X I A /) 12. Devemos excluir também o Grupo 17 (Gênero textual), que apresentou muitos knockouts 13. Clique em Ok e terá o novo arquivo de células (imprima-o e analise-o) sem problemas 14. Agora os seus dados já estão prontos para a rodada final do Varbrul (pesos relativos) Acontece que temos 3 variantes e o programa só faz rodadas binárias para gerar os pesos relativos. Nossa opção aqui é deixar de lado o presente do indicativo e rodar o futuro simples e o futuro perifrástico. Essa decisão é feita com base em análises linguísticas. Como o futuro perifrástico é a forma inovadora, será a regra de aplicação, de acordo com o seguinte raciocínio: queremos ver quais os contextos de entrada da forma inovadora na escrita. Veremos como fazer isso mais tarde! UFPB – Curso GoldVarb X Profa. Josane Oliveira Exercício 5 Há outra opção para a retirada dos casos de KnockOut. Em vez de retirar fatores, podemos reagrupar os fatores dentro de um mesmo grupo. Por exemplo, podemos juntar P1 (= eu) e P4 (= nós) como 1ª pessoa, P2 (= tu) e P5 (= vós) como 2ª pessoa e P3 (= ele) e P6 (= eles) como 3ª pessoa. Neste caso, ignoraremos o número (singular ou plural). Podemos também reagrupar fatores de grupos diferentes. Por exemplo, em vez de ter 2 grupos – um com a conjugação verbal (1ª, 2ª e 3ª) e outro com o paradigma verbal (verbo regular e verbo irregular) –, podemos transformá-los em um só grupo: 1ª conj. reg., 1ª conj. irreg., 2ª conj. reg., 2ª conj. irreg., 3ª conj. reg. e 3ª conj. irreg. Assim, em vez de 2 grupos com 3 fatores cada, temos um grupo só com 6 fatores. Optar pela retirada dos fatores ou pelo reagrupamento depende de uma análise linguística. Aí, como cada caso é um caso, vale a intuição linguística e o conhecimento do fenômeno e da língua sob análise. Vimos como excluir fatores. A seguir, veremos como reagrupar fatores. Como recodificar os dados – reagrupando fatores de grupos diferentes Comandos AND e OR Os comandos AND e OR não estão disponíveis na versão do GoldVarb X, mas podemos usá-los na versão do GoldVarb 2001. AND Por exemplo, considerando os grupos de fatores exemplificados abaixo: Grupos de fatores G1: Variável dependente G2: Conjugação verbal G3: Paradigma verbal G4: Tipo de sujeito G5: Sexo/gênero do informante Variantes Futuro simples (farei) Futuro perifrástico (vou fazer) Presente (faço) 1ª conjugação 2ª conjugação 3ª conjugação Regular Irregular Agente (eu lavarei os pratos) Experienciador (eu verei a luz) Paciente (o livro será lido) Não se aplica (haverá paz) Feminino Masculino Códigos F I P 1 2 3 r i A E P / M H Podemos juntar os fatores dos grupos 2 e 3 da seguinte forma: Verbos regulares de 1ª conjugação (1 + r) Verbos irregulares de 1ª conjugação (1 + i) Verbos regulares de 2ª conjugação (2 + r) Verbos irregulares de 2ª conjugação (2 + i) Verbos regulares de 3ª conjugação (3 + r) Verbos irregulares de 3ª conjugação (3 + i) Para fazer isso (no GoldVarb 2001), vá ao Action – Recode Setup da janela de Tokens. Clique no Grupo 2 e clique em AND. O programa então pede o outro grupo. Selecione o Grupo 3. Observe que na tabela do lado direito (com as novas condições) aparece o AND com uma linha em branco e os dois grupos selecionados a seguir. Na tabela do lado esquerdo (original), clique em 1 (Grupo2) e em r (Grupo 3). Depois clique em 1 (Grupo 2) e em i (Grupo 3). Clique em 2 (Grupo 2) e em r (Grupo 3). Depois combine 2 com i. Faça o mesmo com o 3 (com r e depois com i). Assim, você fez todas as combinações propostas acima, juntando os dois grupos. Observe na tabela ao lado direito as novas combinações. Na linha em branco do AND, preencha cada combinação com um novo código. Por exemplo: 1 + r = 1; 2 + r = 2; 3 + r = 3; 1 + i = U; 2 + i = D; 3 + i = T. Clique então em Finish current operation. O programa pede então uma condição para que essa operação acabe. Digite qualquer símbolo (por exemplo, a letra X). Prossiga com a recodificação, copiando ou excluindo os demais grupos, como visto em aulas anteriores. Aparecerá o novo arquivo de condições com os grupos unidos pelo AND. Daí é só rodar o novo arquivo de células: View – Results – Load Cells to Memory. Você verá o novo arquivo de condições e o arquivo de células. No caso da exemplificação aqui apresentada, houve dois knockouts com a nova codificação. Os fatores U (verbos irregulares de 1ª conjugação) e T (verbos irregulares de 3ª conjugação) apresentaram 100% de futuro simples. Teríamos de retirar esses knockouts, obviamente. Mas, por enquanto, observe apenas a junção dos grupos 2 e 3. Veja que o GoldVarb chamou esse novo grupo de New (novo): CELL CREATION ============= Name of token file: C:\Documents and Settings\Josane\Desktop\Goldvarb\JOT90.tkn Name of condition file: Untitled.cnd ( (1) (2) (3) (4 (6 (COL 4 6)) (3 (COL 4 3)) (/ (COL 4 4))) (0 (T (AND (COL 5 i) (COL 6 3) )) Grupo novo com o AND (D (AND (COL 5 i) (COL 6 2) )) (U (AND (COL 5 i) (COL 6 1) )) (3 (AND (COL 5 r) (COL 6 3) )) (2 (AND (COL 5 r) (COL 6 2) )) (1 (AND (COL 5 r) (COL 6 1) )) (1 (ELSEWHERE))) (10) (16 (a (COL 16 a)) (n (COL 16 n)) (/ (COL 16 i))) (17 (U (COL 17 U)) (O (COL 17 O)) (I (COL 17 I)) (F (COL 17 F)) (/ (COL 17 P))) (20) ) Number of cells: 68 Application value(s): IF Total no. of factors: 28 Group I F Total % --------------------------------1 (2) 4 N 3 8 11 15 % 27 72 2 N % 7 25 20 74 27 39 3 N % 5 27 13 72 18 26 1 N % 2 15 11 84 13 18 Total N 17 52 69 % 24 75 --------------------------------2 (3) b N 1 1 2 2 % 50 50 d N % 10 29 24 70 34 49 c N % 2 14 12 85 14 20 t N % 3 21 11 78 14 20 i N % 1 20 4 80 5 7 Total N 17 52 69 % 24 75 --------------------------------3 (4) 6 N 4 14 18 27 % 22 77 3 N % 13 27 35 72 48 72 Total N 17 49 66 % 25 74 --------------------------------4 (new) 3 N 1 4 5 7 % 20 80 1 N % 10 27 27 72 37 53 D N % 4 22 14 77 18 26 2 N % 2 40 3 60 5 7 U N % 0 N % 0 T 0 3 3 4 * KnockOut * 1 1 1 * KnockOut * 100 0 100 Total N 17 52 69 % 24 75 --------------------------------5 (10) P N 1 14 15 22 % 6 93 A N % 9 31 20 68 29 43 E N % 5 22 17 77 22 33 Total N % 15 22 51 77 66 Grupo novo com o AND --------------------------------6 (16) a N 15 49 64 94 % 23 76 n N % 1 25 3 75 4 5 Total N 16 52 68 % 23 76 --------------------------------7 (17) U N 9 28 37 54 % 24 75 O N % 5 38 8 61 13 19 I N % 1 20 4 80 5 7 F N % 2 15 11 84 13 19 Total N 17 51 68 % 25 75 --------------------------------8 (20) S N 11 27 38 55 % 28 71 R N % 6 19 25 80 31 44 Total N 17 52 69 % 24 75 --------------------------------Total N 17 52 69 % 24 75 Name of new cell file: Untitled.cel O mesmo pode ser feito, por exemplo, para cruzar as variáveis sexo/gênero e faixa etária, ou para cruzar as variáveis sexo/gênero e escolaridade. OR Para usar o comando OR, o procedimento é o mesmo para o comando AND. A diferença é apenas semântica: AND significa E e OR significa OU. Só uma reflexão linguística indicará os casos em que devemos usar um ou outro. UFPB – Curso GoldVarb X Profa. Josane Oliveira Exercício 6 Como obter os pesos relativos Para a rodada binária Futuro perifrástico X Futuro simples, precisamos excluir os dados de Presente. Assim, vamos recodificar os dados, colocando / no fator P do primeiro grupo. É preciso lembrar que as alterações anteriores precisam ser mantidas. A nova regra de aplicação é I F. Assim, o nosso novo arquivo células é: • CELL CREATION • 07/02/2014 20:21:46 •••••••••••••••••••••••••••••••••••••••••• Name of token file: A Tarde1.tkn Name of condition file: Untitled.cnd ( (1 (/ (COL 1 P)) (I (COL 1 I)) (F (COL 1 F)) (I (COL 1 R))) (2) (3) (4) (5) (8) (12 (P (COL 12 P)) (E (COL 12 E)) (F (COL 12 F)) (/ (COL 12 C))) (14 (P (COL 14 P)) (X (COL 14 X)) (I (COL 14 I)) (A (COL 14 A)) (/ (COL 14 D))) ) Number of cells: Application value(s): Total no. of factors: 167 IF 23 Group I F Total % -------------------------------------1 (2) I F 2 N 55 126 181 40.2 % 30.4 69.6 1 N % 8 5.5 137 94.5 145 32.2 4 N % 19 46.3 22 53.7 41 9.1 3 N % 46 55.4 37 44.6 83 18.4 Total N 128 322 450 % 28.4 71.6 -------------------------------------2 (3) I F 3 N 91 190 281 62.4 % 32.4 67.6 4 N % 18 62.1 11 37.9 29 6.4 6 N % 17 12.4 120 87.6 137 30.4 1 N % 2 66.7 1 33.3 3 0.7 Total N 128 322 450 % 28.4 71.6 -------------------------------------3 (4) I F 3 N 17 19 36 8.0 % 47.2 52.8 2 N % 25 10.0 224 90.0 249 55.3 1 N % 86 52.1 79 47.9 165 36.7 Total N 128 322 450 % 28.4 71.6 -------------------------------------4 (5) I F i N 28 225 253 56.2 % 11.1 88.9 r N % 100 50.8 97 49.2 197 43.8 Total N 128 322 450 % 28.4 71.6 -------------------------------------5 (8) I F E N 34 157 191 44.4 % 17.8 82.2 A N % 91 58.3 65 41.7 156 36.3 P N % 1 1.2 82 98.8 83 19.3 Total N 126 304 430 % 29.3 70.7 -------------------------------------6 (12) I F E N 17 35 52 11.6 % 32.7 67.3 P N % 97 55.4 78 44.6 175 39.0 F N % 14 6.3 208 93.7 222 49.4 Total N 128 321 449 % 28.5 71.5 -------------------------------------7 (14) I F X N 74 143 217 48.3 % 34.1 65.9 I N % 9 17.0 44 83.0 53 11.8 P N 42 123 165 36.7 A % 25.5 74.5 N % 3 21.4 11 78.6 14 3.1 Total N 128 321 449 % 28.5 71.5 -------------------------------------TOTAL N 128 322 450 % 28.4 71.6 Name of new cell file: .cel Com este arquivo pronto, podemos proceder à rodada para gerar os pesos relativos. Para tanto, nesse novo arquivo de percentagens (.res), clique em Cells – Binomial, Up and Down. Aparecerá nosso novo arquivo .res, com os pesos relativos (logo abaixo do arquivo de percentagens)! • BINOMIAL VARBRUL • 07/02/2014 20:29:33 ••••••••••••••••••••••••••••••••••••••• Name of cell file: .cel Averaging by weighting factors. Threshold, step-up/down: 0.050001 Stepping up... ---------- Level # 0 ---------Run # 1, 1 cells: Convergence at Iteration 2 Input 0.284 Log likelihood = -268.696 ---------- Level # 1 ---------Run # 2, 4 cells: Convergence at Iteration 6 Input 0.228 Group # 1 -- 2: 0.597, 1: 0.166, 4: 0.745, 3: 0.808 Log likelihood = -227.458 Significance = 0.000 Run # 3, 4 cells: Convergence at Iteration 5 Input 0.265 Group # 2 -- 3: 0.570, 4: 0.819, 6: 0.282, 1: 0.847 Log likelihood = -249.486 Significance = 0.000 Run # 4, 3 cells: Convergence at Iteration 5 Input 0.233 Group # 3 -- 3: 0.746, 2: 0.269, 1: 0.782 Log likelihood = -220.284 Significance = 0.000 Run # 5, 2 cells: Convergence at Iteration 5 Input 0.239 Group # 4 -- i: 0.284, r: 0.766 Log likelihood = -224.550 Significance = 0.000 Run # 6, 4 cells: Convergence at Iteration 7 Input 0.197 Group # 5 -- E: 0.470, A: 0.851, P: 0.048 Log likelihood = -209.363 Significance = 0.000 Run # 7, 4 cells: Convergence at Iteration 5 Input 0.209 Group # 6 -- E: 0.648, P: 0.825, F: 0.204 Log likelihood = -205.705 Significance = 0.000 Run # 8, 5 cells: Convergence at Iteration 5 Input 0.281 Group # 7 -- X: 0.570, I: 0.344, P: 0.467, A: 0.412 Log likelihood = -264.605 Significance = 0.045 Add Group # 6 with factors EPF ---------- Level # 2 ---------Run # 9, 13 cells: Convergence at Iteration 8 Input 0.195 Group # 1 -- 2: 0.586, 1: 0.299, 4: 0.566, 3: 0.645 Group # 6 -- E: 0.626, P: 0.779, F: 0.247 Log likelihood = -200.445 Significance = 0.015 Run # 10, 13 cells: Convergence at Iteration 7 Input 0.198 Group # 2 -- 3: 0.549, 4: 0.786, 6: 0.326, 1: 0.887 Group # 6 -- E: 0.618, P: 0.818, F: 0.215 Log likelihood = -195.936 Significance = 0.000 Run # 11, 10 cells: Convergence at Iteration 8 Input 0.198 Group # 3 -- 3: 0.559, 2: 0.367, 1: 0.684 Group # 6 -- E: 0.652, P: 0.764, F: 0.255 Log likelihood = -196.203 Significance = 0.000 Run # 12, 7 cells: Convergence at Iteration 8 Input 0.203 Group # 4 -- i: 0.392, r: 0.637 Group # 6 -- E: 0.617, P: 0.773, F: 0.254 Log likelihood = -199.980 Significance = 0.001 Run # 13, 12 cells: Convergence at Iteration 13 Input 0.177 Group # 5 -- E: 0.547, A: 0.713, P: 0.105 Group # 6 -- E: 0.639, P: 0.729, F: 0.286 Log likelihood = -197.565 Significance = 0.000 Run # 14, 14 cells: Convergence at Iteration 5 Input 0.208 Group # 6 -- E: 0.640, P: 0.822, F: 0.207 Group # 7 -- X: 0.535, I: 0.411, P: 0.485, A: 0.484 Log likelihood = -204.949 Significance = 0.681 Add Group # 3 with factors 321 ---------- Level # 3 ---------Run # 15, 31 cells: Convergence at Iteration 8 Input 0.187 Group # 1 -- 2: 0.564, 1: 0.359, 4: 0.475, 3: 0.622 Group # 3 -- 3: 0.545, 2: 0.379, 1: 0.670 Group # 6 -- E: 0.640, P: 0.740, F: 0.277 Log likelihood = -193.058 Significance = 0.099 Run # 16, 28 cells: Convergence at Iteration 8 Input 0.184 Group # 2 -- 3: 0.547, 4: 0.796, 6: 0.328, 1: 0.892 Group # 3 -- 3: 0.580, 2: 0.361, 1: 0.689 Group # 6 -- E: 0.628, P: 0.756, F: 0.266 Log likelihood = -186.211 Significance = 0.000 Run # 17, 18 cells: Convergence at Iteration 10 Input 0.198 Group # 3 -- 3: 0.571, 2: 0.390, 1: 0.649 Group # 4 -- i: 0.445, r: 0.570 Group # 6 -- E: 0.634, P: 0.744, F: 0.275 Log likelihood = -195.266 Significance = 0.178 Run # 18, 24 cells: Convergence at Iteration 12 Input 0.168 Group # 3 -- 3: 0.518, 2: 0.377, 1: 0.678 Group # 5 -- E: 0.520, A: 0.722, P: 0.121 Group # 6 -- E: 0.655, P: 0.652, F: 0.344 Log likelihood = -189.201 Significance = 0.001 Run # 19, 28 cells: Convergence at Iteration 8 Input 0.197 Group # 3 -- 3: 0.569, 2: 0.366, 1: 0.684 Group # 6 -- E: 0.644, P: 0.759, F: 0.260 Group # 7 -- X: 0.535, I: 0.432, P: 0.482, A: 0.432 Log likelihood = -195.548 Significance = 0.727 Add Group # 2 with factors 3461 ---------- Level # 4 ---------Run # 20, 66 cells: Convergence at Iteration 8 Input 0.173 Group # 1 -- 2: 0.565, 1: 0.354, 4: 0.470, 3: 0.631 Group # 2 -- 3: 0.545, 4: 0.804, 6: 0.327, 1: 0.904 Group # 3 -- 3: 0.557, 2: 0.375, 1: 0.673 Group # 6 -- E: 0.623, P: 0.730, F: 0.289 Log likelihood = -182.872 Significance = 0.086 Run # 21, 43 cells: Convergence at Iteration 10 Input 0.184 Group # 2 -- 3: 0.545, 4: 0.797, 6: 0.329, 1: 0.915 Group # 3 -- 3: 0.592, 2: 0.387, 1: 0.649 Group # 4 -- i: 0.439, r: 0.578 Group # 6 -- E: 0.612, P: 0.734, F: 0.287 Log likelihood = -185.113 Significance = 0.148 Run # 22, 50 cells: Convergence at Iteration 12 Input 0.158 Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878 Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683 Group # 5 -- E: 0.525, A: 0.696, P: 0.143 Group # 6 -- E: 0.633, P: 0.660, F: 0.343 Log likelihood = -181.010 Significance = 0.008 Run # 23, 60 cells: Convergence at Iteration 8 Input 0.184 Group # 2 -- 3: 0.547, 4: Group # 3 -- 3: 0.587, 2: Group # 6 -- E: 0.623, P: Group # 7 -- X: 0.521, I: Log likelihood = -185.859 0.792, 6: 0.328, 1: 0.896 0.361, 1: 0.687 0.753, F: 0.269 0.427, P: 0.495, A: 0.518 Significance = 0.872 Add Group # 5 with factors EAP ---------- Level # 5 ---------Run # 24, 95 cells: Convergence at Iteration 13 Input 0.154 Group # 1 -- 2: 0.541, 1: 0.408, 4: 0.443, 3: 0.599 Group # 2 -- 3: 0.545, 4: 0.782, 6: 0.334, 1: 0.889 Group # 3 -- 3: 0.530, 2: 0.375, 1: 0.679 Group # 5 -- E: 0.519, A: 0.675, P: 0.174 Group # 6 -- E: 0.633, P: 0.653, F: 0.349 Log likelihood = -179.247 Significance = 0.322 Run # 25, 66 cells: Convergence at Iteration 13 Input 0.158 Group # 2 -- 3: 0.543, 4: 0.775, 6: 0.341, 1: 0.902 Group # 3 -- 3: 0.556, 2: 0.393, 1: 0.647 Group # 4 -- i: 0.443, r: 0.573 Group # 5 -- E: 0.523, A: 0.696, P: 0.146 Group # 6 -- E: 0.618, P: 0.636, F: 0.365 Log likelihood = -180.066 Significance = 0.177 Run # 26, 95 cells: Convergence at Iteration 12 Input 0.157 Group # 2 -- 3: 0.545, 4: 0.765, 6: 0.339, 1: 0.881 Group # 3 -- 3: 0.551, 2: 0.370, 1: 0.681 Group # 5 -- E: 0.521, A: 0.702, P: 0.141 Group # 6 -- E: 0.627, P: 0.652, F: 0.351 Group # 7 -- X: 0.531, I: 0.415, P: 0.486, A: 0.520 Log likelihood = -180.443 Significance = 0.769 No remaining groups significant Groups selected while stepping up: 6 3 2 5 Best stepping up run: #22 --------------------------------------------Stepping down... ---------- Level # 7 ---------Run # 27, 167 cells: Convergence at Iteration 14 Input 0.155 Group # 1 -- 2: 0.538, 1: 0.440, Group # 2 -- 3: 0.546, 4: 0.774, Group # 3 -- 3: 0.546, 2: 0.388, Group # 4 -- i: 0.456, r: 0.556 Group # 5 -- E: 0.513, A: 0.689, Group # 6 -- E: 0.618, P: 0.631, Group # 7 -- X: 0.522, I: 0.437, Log likelihood = -178.400 ---------- Level # 6 ---------Run # 28, 118 cells: Convergence at Iteration 13 4: 0.418, 3: 0.563 6: 0.335, 1: 0.903 1: 0.656 P: 0.165 F: 0.369 P: 0.486, A: 0.560 Input 0.157 Group # 2 -- 3: 0.543, 4: Group # 3 -- 3: 0.562, 2: Group # 4 -- i: 0.446, r: Group # 5 -- E: 0.520, A: Group # 6 -- E: 0.614, P: Group # 7 -- X: 0.528, I: Log likelihood = -179.619 0.767, 6: 0.341, 1: 0.902 0.392, 1: 0.647 0.569 0.701, P: 0.143 0.630, F: 0.371 0.426, P: 0.486, A: 0.509 Significance = 0.489 Run # 29, 115 cells: Convergence at Iteration 13 Input 0.163 Group # 1 -- 2: 0.531, 1: 0.456, 4: 0.425, 3: 0.547 Group # 3 -- 3: 0.528, 2: 0.390, 1: 0.657 Group # 4 -- i: 0.459, r: 0.553 Group # 5 -- E: 0.509, A: 0.723, P: 0.132 Group # 6 -- E: 0.636, P: 0.619, F: 0.374 Group # 7 -- X: 0.540, I: 0.428, P: 0.474, A: 0.467 Log likelihood = -186.554 Significance = 0.001 Run # 30, 131 cells: Convergence at Iteration 14 Input 0.161 Group # 1 -- 2: 0.549, 1: 0.427, 4: 0.454, 3: 0.544 Group # 2 -- 3: 0.546, 4: 0.771, 6: 0.334, 1: 0.914 Group # 4 -- i: 0.400, r: 0.627 Group # 5 -- E: 0.523, A: 0.684, P: 0.160 Group # 6 -- E: 0.594, P: 0.663, F: 0.349 Group # 7 -- X: 0.524, I: 0.444, P: 0.482, A: 0.563 Log likelihood = -182.830 Significance = 0.013 Run # 31, 152 cells: Convergence at Iteration 13 Input 0.154 Group # 1 -- 2: 0.541, 1: 0.409, 4: 0.446, 3: 0.598 Group # 2 -- 3: 0.546, 4: 0.776, 6: 0.334, 1: 0.891 Group # 3 -- 3: 0.534, 2: 0.375, 1: 0.677 Group # 5 -- E: 0.517, A: 0.681, P: 0.171 Group # 6 -- E: 0.624, P: 0.646, F: 0.356 Group # 7 -- X: 0.524, I: 0.428, P: 0.486, A: 0.571 Log likelihood = -178.807 Significance = 0.385 Run # 32, 133 cells: Convergence at Iteration 11 Input 0.175 Group # 1 -- 2: 0.564, 1: 0.374, 4: 0.451, 3: 0.607 Group # 2 -- 3: 0.546, 4: 0.802, 6: 0.326, 1: 0.914 Group # 3 -- 3: 0.570, 2: 0.386, 1: 0.655 Group # 4 -- i: 0.468, r: 0.541 Group # 6 -- E: 0.609, P: 0.723, F: 0.297 Group # 7 -- X: 0.512, I: 0.450, P: 0.494, A: 0.571 Log likelihood = -182.402 Significance = 0.019 Run # 33, 140 cells: Convergence at Iteration 11 Input 0.163 Group # 1 -- 2: 0.532, 1: 0.441, 4: 0.422, 3: 0.572 Group # 2 -- 3: 0.546, 4: 0.768, 6: 0.334, 1: 0.922 Group # 3 -- 3: 0.580, 2: 0.378, 1: 0.664 Group # 4 -- i: 0.432, r: 0.587 Group # 5 -- E: 0.486, A: 0.756, P: 0.120 Group # 7 -- X: 0.532, I: 0.411, P: 0.481, A: 0.568 Log likelihood = -181.503 Significance = 0.046 Run # 34, 107 cells: Convergence at Iteration 13 Input 0.156 Group # 1 -- 2: 0.538, 1: Group # 2 -- 3: 0.545, 4: Group # 3 -- 3: 0.544, 2: Group # 4 -- i: 0.452, r: Group # 5 -- E: 0.515, A: Group # 6 -- E: 0.625, P: Log likelihood = -178.759 0.443, 4: 0.412, 3: 0.561 0.780, 6: 0.335, 1: 0.902 0.388, 1: 0.656 0.561 0.685, P: 0.168 0.635, F: 0.364 Significance = 0.868 Cut Group # 7 with factors XIPA ---------- Level # 5 ---------Run # 35, 66 cells: Convergence at Iteration 13 Input 0.158 Group # 2 -- 3: 0.543, 4: 0.775, 6: 0.341, 1: 0.902 Group # 3 -- 3: 0.556, 2: 0.393, 1: 0.647 Group # 4 -- i: 0.443, r: 0.573 Group # 5 -- E: 0.523, A: 0.696, P: 0.146 Group # 6 -- E: 0.618, P: 0.636, F: 0.365 Log likelihood = -180.066 Significance = 0.462 Run # 36, 66 cells: Convergence at Iteration 14 Input 0.165 Group # 1 -- 2: 0.531, 1: 0.462, 4: 0.409, 3: 0.545 Group # 3 -- 3: 0.520, 2: 0.392, 1: 0.655 Group # 4 -- i: 0.453, r: 0.560 Group # 5 -- E: 0.511, A: 0.717, P: 0.136 Group # 6 -- E: 0.645, P: 0.628, F: 0.365 Log likelihood = -187.281 Significance = 0.001 Run # 37, 74 cells: Convergence at Iteration 14 Input 0.162 Group # 1 -- 2: 0.550, 1: 0.428, 4: 0.449, 3: 0.543 Group # 2 -- 3: 0.545, 4: 0.777, 6: 0.336, 1: 0.916 Group # 4 -- i: 0.397, r: 0.631 Group # 5 -- E: 0.525, A: 0.680, P: 0.162 Group # 6 -- E: 0.599, P: 0.666, F: 0.345 Log likelihood = -183.187 Significance = 0.013 Run # 38, 95 cells: Convergence at Iteration 13 Input 0.154 Group # 1 -- 2: 0.541, 1: 0.408, 4: 0.443, 3: 0.599 Group # 2 -- 3: 0.545, 4: 0.782, 6: 0.334, 1: 0.889 Group # 3 -- 3: 0.530, 2: 0.375, 1: 0.679 Group # 5 -- E: 0.519, A: 0.675, P: 0.174 Group # 6 -- E: 0.633, P: 0.653, F: 0.349 Log likelihood = -179.247 Significance = 0.332 Run # 39, 79 cells: Convergence at Iteration 10 Input 0.175 Group # 1 -- 2: 0.564, 1: 0.376, 4: 0.448, 3: 0.605 Group # 2 -- 3: 0.545, 4: 0.803, 6: 0.327, 1: 0.912 Group # 3 -- 3: 0.568, 2: 0.386, 1: 0.655 Group # 4 -- i: 0.465, r: 0.545 Group # 6 -- E: 0.615, P: 0.723, F: 0.296 Log likelihood = -182.608 Significance = 0.022 Run # 40, 81 cells: Convergence at Iteration 11 Input 0.165 Group # 1 -- 2: 0.530, 1: 0.448, 4: 0.412, 3: 0.569 Group # 2 -- 3: 0.545, 4: 0.779, 6: 0.334, 1: 0.920 Group # 3 -- 3: 0.576, 2: 0.379, 1: 0.663 Group # 4 -- i: 0.424, r: 0.597 Group # 5 -- E: 0.489, A: 0.754, P: 0.119 Log likelihood = -182.192 Significance = 0.036 Cut Group # 1 with factors 2143 ---------- Level # 4 ---------Run # 41, 36 cells: Convergence at Iteration 14 Input 0.167 Group # 3 -- 3: 0.530, 2: 0.397, 1: 0.647 Group # 4 -- i: 0.449, r: 0.566 Group # 5 -- E: 0.519, A: 0.723, P: 0.122 Group # 6 -- E: 0.640, P: 0.629, F: 0.366 Log likelihood = -188.353 Significance = 0.001 Run # 42, 42 cells: Convergence at Iteration 13 Input 0.164 Group # 2 -- 3: 0.543, 4: 0.770, 6: 0.340, 1: 0.915 Group # 4 -- i: 0.390, r: 0.639 Group # 5 -- E: 0.532, A: 0.694, P: 0.137 Group # 6 -- E: 0.595, P: 0.666, F: 0.346 Log likelihood = -184.156 Significance = 0.017 Run # 43, 50 cells: Convergence at Iteration 12 Input 0.158 Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878 Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683 Group # 5 -- E: 0.525, A: 0.696, P: 0.143 Group # 6 -- E: 0.633, P: 0.660, F: 0.343 Log likelihood = -181.010 Significance = 0.177 Run # 44, 43 cells: Convergence at Iteration 10 Input 0.184 Group # 2 -- 3: 0.545, 4: 0.797, 6: 0.329, 1: 0.915 Group # 3 -- 3: 0.592, 2: 0.387, 1: 0.649 Group # 4 -- i: 0.439, r: 0.578 Group # 6 -- E: 0.612, P: 0.734, F: 0.287 Log likelihood = -185.113 Significance = 0.008 Run # 45, 43 cells: Convergence at Iteration 10 Input 0.168 Group # 2 -- 3: 0.542, 4: 0.776, 6: 0.341, 1: 0.920 Group # 3 -- 3: 0.593, 2: 0.384, 1: 0.653 Group # 4 -- i: 0.413, r: 0.611 Group # 5 -- E: 0.494, A: 0.763, P: 0.106 Log likelihood = -183.521 Significance = 0.035 Cut Group # 4 with factors ir ---------- Level # 3 ---------Run # 46, 24 cells: Convergence at Iteration 12 Input 0.168 Group # 3 -- 3: 0.518, 2: 0.377, 1: 0.678 Group # 5 -- E: 0.520, A: 0.722, P: 0.121 Group # 6 -- E: 0.655, P: 0.652, F: 0.344 Log likelihood = -189.201 Significance = 0.001 Run # 47, 27 cells: Convergence at Iteration 14 Input 0.170 Group # 2 -- 3: 0.548, 4: 0.761, 6: 0.336, 1: 0.865 Group # 5 -- E: 0.554, A: 0.687, P: 0.122 Group # 6 -- E: 0.610, P: 0.737, F: 0.285 Log likelihood = -189.412 Significance = 0.000 Run # 48, 28 cells: Convergence at Iteration 8 Input 0.184 Group # 2 -- 3: 0.547, 4: 0.796, 6: 0.328, 1: 0.892 Group # 3 -- 3: 0.580, 2: 0.361, 1: 0.689 Group # 6 -- E: 0.628, P: 0.756, F: 0.266 Log likelihood = -186.211 Significance = 0.008 Run # 49, 28 cells: Convergence at Iteration 10 Input 0.170 Group # 2 -- 3: 0.547, 4: 0.774, 6: 0.333, 1: 0.892 Group # 3 -- 3: 0.582, 2: 0.344, 1: 0.712 Group # 5 -- E: 0.484, A: 0.785, P: 0.093 Log likelihood = -186.140 Significance = 0.008 All remaining groups significant Groups eliminated while stepping down: Best stepping up run: #22 Best stepping down run: #43 7 1 4 Vejamos agora como interpretar esses resultados: O programa começa com o Stepping up. No nível 0, ele apresenta o input inicial (0.284), que corresponde ao percentual total da regra de aplicação (28,4% para a variante I – futuro perifrástico). O input “representa o nível geral de uso de determinado valor da variável dependente” (GUY; ZILLES, 2007, p. 238). Em seguida, o programa apresenta vários níveis de análise. No nível 1, ele roda cada grupo isoladamente. No nível 2, roda os grupos dois a dois; no nível 3, cruza os grupos três a três e assim por diante. Nesta rodada, o programa identificou os pesos no nível 5 da rodada, após constatar que não há mais grupos significativos. Assim, ele selecionou como estatisticamente significativos, nesta ordem, os grupos 6, 3, 2 e 5. E indica que os melhores resultados estão na tabela 22. No remaining groups significant Groups selected while stepping up: 6 3 2 5 Best stepping up run: #22 --------------------------------------------- Eis os melhores resultados: Run # 22, 50 cells: Convergence at Iteration 12 Input 0.158 Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878 Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683 Group # 5 -- E: 0.525, A: 0.696, P: 0.143 Group # 6 -- E: 0.633, P: 0.660, F: 0.343 Log likelihood = -181.010 Significance = 0.008 Embora os grupos apareçam em ordem crescente aqui, a análise deve considerar a ordem de seleção. Assim, são importantes para a aplicação da regra de futuro perifrástico: 1º o tipo de verbo (grupo 6), 2º a conjugação verbal (grupo 3), 3º a pessoa verbal (grupo 2) e o tipo de sujeito (grupo 5). Observemos que o input final foi de 0.158, ou seja, o programa corrigiu algum desequilíbrio na amostra. O log likelihood foi de -181.010 e o nível de significância foi 0.008. O log likelihood, logaritmo de verossimilhança, mede a aproximação entre o modelo e os dados observados. Seu valor varia em função da quantidade de dados e o número de aplicações do modelo em cada célula (para mais detalhes, cf. GUY; ZILLES, 2007). Quanto maior o log likelihood, maior a robustez dos dados. O nível de significância é o nível de confiabilidade dos resultados. Para as ciências humanas, o nível máximo aceitável é de 0.050. No nosso caso, os resultados são confiáveis! Após a seleção do Stepping up, o programa começa o Stepping down. Aqui, ele começa com todos os grupos e vai retirando cada um, depois retira dois, depois retira três e assim por diante. É como se fosse a prova dos nove dos cálculos. Ao final, apresenta os grupos eliminados, após constatar não existirem mais grupos relevantes: All remaining groups significant Groups eliminated while stepping down: Best stepping up run: #22 Best stepping down run: #43 7 1 4 Neste caso, ele eliminou os grupos 7, 1 e 4, exatamente os que não foram selecionados no Stepping up. E volta a dizer que os melhores resultados estão nas tabelas 22 e 43, cujos pesos relativos são os mesmos para todos os fatores: Run # 22, 50 cells: Convergence at Iteration 12 Input 0.158 Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878 Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683 Group # 5 -- E: 0.525, A: 0.696, P: 0.143 Group # 6 -- E: 0.633, P: 0.660, F: 0.343 Log likelihood = -181.010 Significance = 0.008 Run # 43, 50 cells: Convergence at Iteration 12 Input 0.158 Group # 2 -- 3: 0.545, 4: 0.773, 6: 0.338, 1: 0.878 Group # 3 -- 3: 0.544, 2: 0.370, 1: 0.683 Group # 5 -- E: 0.525, A: 0.696, P: 0.143 Group # 6 -- E: 0.633, P: 0.660, F: 0.343 Log likelihood = -181.010 Significance = 0.177 Observação importante: acontece às vezes de um grupo ser selecionado e depois ser descartado. Isso indica que o programa não tem certeza da sua importância. Vale a pena olhar o comportamento desse grupo em cada rodada (run) em que ele aparece e verificar se há grandes mudanças nos pesos dos seus fatores. Detectada essa mudança repentina de pesos, observe o grupo de fatores que foi adicionado na rodada, pois, possivelmente, ocorre interação (para mais informações, cf. GUY; ZILLES, 2007). De posse dos resultados, agora é só montar as tabelas com os resultados de cada grupo (número de ocorrências/total, percentual e peso relativo) e explicá-los linguisticamente, sempre à luz de uma teoria linguística e da intuição do pesquisador, começando sempre pela hipótese aventada. Os números sozinhos nada dizem, é preciso que expliquemos por que tal(is) variável(is) e/ou tal(is) fator(es) favorece(m) ou desfavorece(m) a aplicação da regra! Não esqueça de colocar exemplos na análise! Lembre-se também de apresentar os casos categóricos (knockouts). Normalmente, usamos apenas duas casas decimais (com aproximação matemática) e eliminamos o zero inicial. Ex: Grupo 5, fator A (sujeito agente), o peso é 0.696; dizemos então que é .70. Recomenda-se também o uso de gráficos ilustrativos, sobretudo para variáveis sociais. Para ver uma análise sociolinguística pronta, vejamos o artigo a seguir, em que, além dos resultados vistos aqui (para o jornal A Tarde), há os resultados para mais duas rodadas, uma do jornal Correio da Bahia e outra do jornal Tribuna da Bahia. O trabalho foi apresentado no XV Congresso da ALFAL, em agosto de 2008, em Montevideo. Agora, bom trabalho nas suas pesquisas! XV Congreso Internacional de la Asociación de Linguística y Filología de América Latina – ALFAL (Montevideo, 18 a 21 de agosto de 2008) Qual o futuro da Bahia? Josane Moreira de Oliveira2 (Universidade Estadual de Feira de Santana / Brasil) Introdução A expressão do futuro verbal na história do português é um fenômeno variável tanto na fala quanto na escrita. Para exprimir o tempo posterior ao momento da fala, podem-se usar as seguintes variantes: a) o futuro simples (eu farei isso amanhã); b) o futuro perifrástico com haver de no presente + infinitivo (eu hei de fazer isso amanhã); c) o futuro perifrástico com haver de no futuro + infinitivo (eu haverei de fazer isso amanhã); d) o futuro perifrástico com ir no presente + infinitivo (eu vou fazer isso amanhã); e) o futuro perifrástico com ir no futuro + infinitivo (eu irei fazer isso amanhã); f) o presente (eu faço isso amanhã). As perífrases com haver de + infinitivo perduram até o século XIX, quando começam a ceder espaço para as perífrases com ir + infinitivo. O presente do indicativo parece ter um contexto bastante próprio e tem se mantido, ao longo do tempo, mais ou menos estável (OLIVEIRA, 2006). Já o processo de mudança futuro simples > futuro perifrástico com ir + infinitivo está bastante avançado (e mesmo já quase concluído) na modalidade falada e começa a invadir a modalidade escrita. Essa variação não é exclusiva do português; é atestada em muitas outras línguas. O uso do verbo ir como auxiliar de futuro combinado com o infinitivo e a gramaticalização dessa forma perifrástica são documentados também em inglês (I am going to sleep), em francês (Je vais dormir) e em espanhol (Yo voy a dormir), por exemplo. Todavia, mesmo sendo esse fenômeno bastante conhecido e não discriminado pelos falantes, as gramáticas tradicionais e os manuais escolares de língua portuguesa ainda registram apenas o futuro simples. Com base em dados contemporâneos de jornais baianos (A Tarde, Tribuna da Bahia e Correio da Bahia) direcionados a públicos distintos, investiga-se a implementação da forma perifrástica na escrita considerada culta ou padrão, tomando como quadro teórico-metodológico a sociolinguística quantitativa laboviana e a hipótese da gramaticalização nos moldes propostos por Hopper & Traugott (2003). 1. Quadro teórico A sociolinguística variacionista pressupõe que a variação é inerente a toda e qualquer língua e não é aleatória ou fortuita. Ao contrário, é condicionada por fatores linguísticos e sociais. Ou seja, tanto a 2 Participaram desta pesquisa as estudantes Isabella Almeida de Souza e Viviane Moreira de Oliveira, a quem agradeço pela valiosa colaboração, respectivamente, na coleta e na digitação dos dados. variação como a mudança linguísticas têm ligações estreitas com fenômenos extralinguísticos que as condicionam. O funcionalismo linguístico analisa a língua enquanto fenômeno comunicativo e discursivo. Sendo a noção de tempo uma categoria linguística e suas relações com o tempo cronológico uma função da comunicação e do discurso, uma abordagem funcionalista pode embasar teoricamente a análise da expressão de futuro no português, que pode ser realizada através de formas simples ou de formas analíticas/perifrásticas. O tempo futuro expressa a expectativa de alguma ação (processo ou evento) a ser verificada mais tarde, após o ato de fala. Ele tem um valor temporal que não permite expressar uma modalidade factual, pois só aceita asserções segundo a avaliação feita pelo falante da (im)possibilidade de ocorrência de um estado de coisas. Assim, há um valor modal aliado ao fator temporal no futuro que compromete a determinação do valor de verdade da proposição enunciada. Segundo Câmara Jr. (1957, p. 223), a categoria de futuro não ocorre “pela necessidade da expressão temporal; concretizam-no certas necessidades modais, de sorte que o futuro começa como modo muito mais do que como tempo”. O ciclo de alternância entre formas simples e formas perifrásticas de futuro é uma constante na história das línguas românicas. Já no próprio latim, o futuro desinencial adveio de formas modais analíticas (cantare habeo > cantar hei > cantarei). Para Câmara Jr., a nova forma de futuro criada ainda no latim desempenha três funções na língua: a) marca o modo; b) marca tempo com matiz modal; e c) marca tempo. O autor fala em gramaticalização do futuro modal em futuro temporal. Neste trabalho, admite-se a hipótese de que o processo que aconteceu no latim (forma analítica > forma sintética) está sendo invertido no português atual (forma sintética > forma analítica) a partir da gramaticalização do verbo ir, que passa, já em estágios anteriores da língua, de forma plena a marca morfossintática de futuro. A perífrase é a forma verbal inovadora, que convive com a forma simples (conservadora). Trata-se, pois, de um fenômeno variável no português em que a variante perifrástica, concorrente da forma sintética para codificar a função que situa a ação ou o processo à direita do ponto da fala, é muito pouco discriminada. E a entrada do verbo ir como auxiliar na perífrase para expressar o futuro vem encontrando resposta positiva entre os falantes. Os verbos de movimento, em geral, são polissêmicos e superpõem, dentre outras, as noções de espaço e de tempo. O verbo ir é um dos verbos mais polissêmicos e, pois, um dos mais ‘gramaticalizáveis’. Na construção perifrástica com o infinitivo, ele tende a se transformar em auxiliar (HEINE, 1993; BYBEE et alii, 1994; HEINE & KUTEVA, 2002), quer dizer, num instrumento gramatical para a expressão do tempo futuro. Essa tendência, bem conhecida no inglês, no francês e no espanhol, pode ser constatada também em português, em que, na fala, o processo de substituição da forma de futuro simples pela forma perifrástica ir + infinitivo está quase concluído (OLIVEIRA, 2006). 2. Amostra e metodologia Por meio da análise controlada de dados coletados em jornais contemporâneos baianos, com base na sociolinguística laboviana, verifica-se a implementação da perífrase com ir + infinitivo, identificando-se os contextos linguísticos do seu espraiamento. Nesta pesquisa, observa-se o papel de alguns grupos de fatores (medido em termos de percentuais e de pesos relativos – a partir da ferramenta GoldVarb): a) a extensão fonológica do verbo; b) a conjugação verbal; c) o paradigma verbal; d) a pessoa verbal; e) o tipo de sujeito; f) a animacidade do sujeito; g) o papel temático do sujeito; h) o tipo de verbo; i) a transitividade verbal; j) a presença/ausência de clíticos; k) a natureza semântica do verbo; l) a indicação de tempo futuro fora do verbo; m) a projeção de futuridade; n) o paralelismo sintático-discursivo; o) o tipo de periódico; e p) o gênero textual. Foram examinados: a) dois exemplares do jornal A Tarde, de 07/06/07 e de 03/08/07, considerado um periódico direcionado a um público mais elitizado; b) dois exemplares do jornal Correio da Bahia, de 28/11/07 e de 20/12/07, considerado um periódico direcionado à classe média; e c) dois exemplares do jornal Tribuna da Bahia, de 23/08/07 e de 08 e 09/12/07, considerado um periódico mais popular. Foram coletados, inicialmente, 2575 dados de quatro variantes: futuro simples, futuro perifrástico com ir + infinitivo, futuro perifrástico com haver de + infinitivo e presente. Como só houve 4 dados com haver de + infinitivo, todos num mesmo exemplar de periódico, essas ocorrências foram retiradas da amostra final. Quanto à perífrase com ir + infinitivo, houve 27 ocorrências com o verbo ir no futuro, que, pela sua baixa frequência, foram computadas juntamente com as formas de ir no presente + infinitivo. Assim, os resultados encontrados estão apresentados na Tabela 1: Tabela 1: Distribuição das variantes na língua escrita por periódico Variantes A Tarde Futuro simples Ir + infinitivo Presente Total 473 49% 197 20% 306 31% 976 Periódico Correio da Bahia 624 66% 145 16% 173 18% 942 Total Tribuna da Bahia 339 52% 146 22% 168 26% 653 1436 56% 488 19% 647 25% 2571 Para esta comunicação, em particular, foram excluídas as formas de presente com valor de futuro, embora tenham apresentado percentuais maiores que a forma perifrástica, por duas razões: a) com base em resultados de trabalhos anteriores (OLIVEIRA, 2006), essa variante possui contextos bem específicos, mantém índices de uso mais ou menos estáveis na história da língua e está à margem da concorrência futuro simples X futuro perifrástico; e b) objetiva-se verificar, aqui, a implementação da forma perifrástica em substituição à forma de futuro na língua escrita, já que na língua falada esse processo já se encontra em fase de compleição (OLIVEIRA, 2006). Assim, considerando apenas os dados das variantes em concorrência (1924 dados), a distribuição é a seguinte: Tabela 2: Redistribuição das variantes na língua escrita por periódico Variantes A Tarde Futuro simples Ir + infinitivo Total 473 71% 197 29% 670 Periódico Correio da Bahia 624 81% 145 19% 769 Tribuna da Bahia 339 70% 146 30% 485 Numa análise inicial, olhando os dados globalmente, embora predomine o futuro simples na escrita jornalística, pode-se verificar que a concorrência entre as duas variantes é documentada nos três periódicos, e em índices bastante próximos (variando de 19% a 30% o percentual de uso da forma perifrástica), conforme ilustra o Gráfico 1, a seguir: Gráfico 1: Variantes por periódico (percentuais) 100 90 80 70 60 50 40 30 20 10 0 Futuro simples Futuro perifrástico A Tarde Correio da Bahia Tribuna da Bahia 3. Análise dos dados Primeiramente, os dados foram submetidos a uma rodada que considerou os diferentes periódicos como uma variável independente com o objetivo de verificar o papel desse grupo de fatores, que não foi selecionado pelo GoldVarb. A regra de aplicação foi o uso da forma perifrástica, variante inovadora em fase de implementação na modalidade escrita da língua. Dos 1924 dados, 488 (25%) foram de perífrase. De todos os grupos controlados, nove foram selecionados, nesta ordem: 1. natureza semântica do verbo; 2. gênero textual; 3. pessoa verbal; 4. paradigma verbal; 5. paralelismo sintático-discursivo; 6. tipo de verbo; 7. indicação de tempo futuro fora do verbo; 8. papel temático do sujeito; e 9. tipo de sujeito. O fato de a variável ‘tipo de periódico’ não ter sido selecionada significa que não há diferença estatística significativa entre o uso da perífrase e o tipo de jornal, ou seja, ela está presente nos três periódicos, independentemente de ser o jornal mais ou menos elitizado. E essa informação, embora contrarie a hipótese inicial (a de que haveria mais perífrase no periódico mais popular e menos perífrase no periódico mais elitizado), é muito importante para medir o grau de implementação dessa forma na escrita jornalística baiana. Embora estatisticamente não seja relevante o tipo de jornal, linguisticamente é importante verificar as diferenças dos resultados dos três periódicos para conhecer os contextos iniciais de espraiamento da variante analisada. Assim, foram feitas rodadas separadas, por periódico, e o resultado está ilustrado na Tabela 3, a seguir: Tabela 3: Dados de perífrase por periódico Ocorrências/Total Percentual Input inicial Significância Grupos selecionados A Tarde 197/670 29% .29 0,037 1. Natureza semântica do verbo 2. Paradigma verbal 3. Pessoa verbal 4. Gênero textual 5. Papel temático do sujeito 6. Tipo de verbo 7. Animacidade do sujeito Correio da Bahia 145/769 19% .19 0,027 1. Natureza semântica do verbo 2. Gênero textual 3. Paralelismo sintático-discursivo 4. Pessoa verbal 5. Paradigma verbal 6. Transitividade verbal 7. Tipo de sujeito 8. Extensão fonológica do verbo Tribuna da Bahia 146/485 30% .30 0,021 1. Natureza semântica do verbo 2. Paradigma verbal 3. Pessoa verbal 4. Projeção de futuridade 5. Tipo de sujeito 6. Indicação de tempo futuro fora do verbo De acordo com os resultados do GoldVarb, no periódico mais elitizado, a perífrase se implementa na escrita com verbos que expressam ação ou processo, verbos regulares, com sujeito de 1ª pessoa, em textos do tipo colunas, quadrinhos, resumos e manchetes, com sujeito [+ agente], com o verbo ser e com sujeito [+ animado]. No periódico considerado intermediário, o contexto de entrada da forma inovadora é com verbos que também indicam ação ou processo, em textos do tipo matéria e resumo, em ocorrências isoladas, também com sujeito de 1ª pessoa, também com verbos regulares, com verbos intransitivos, com sujeitos oracionais ou desinenciais e com verbos extensos fonologicamente (3 sílabas ou mais). Quanto ao jornal mais popular, a forma perifrástica é mais usada com verbos cognitivos, também com verbos regulares, também com sujeito de 1ª pessoa, para expressar um futuro imediato (com ação a ser realizada nas próximas 24 horas), também com sujeitos oracionais e na presença de uma oração adverbial. Nos três jornais analisados, três grupos foram selecionados em comum: a natureza semântica do verbo, o paradigma verbal e a pessoa verbal. Os resultados para essas variáveis estão apresentados e comentados a seguir. 3.1. Natureza semântica do verbo Esse grupo de fatores controla o tipo semântico dos verbos, distribuindo-os em verbos que indicam processo, ação ou movimento, verbos que denotam evento, verbos de estado e verbos cognitivos ou que expressam um estado psicológico. Seguem exemplos de cada um desses tipos de verbo: Processo (1) Foi tão bom e tão aplaudido o show do cantor Billy Paul em Salvador, que, a pedido, ele está retornando para o Othon, onde VAI SE APRESENTAR durante jantar na noite de terça-feira, fazendo uma homenagem toda especial aos namorados. [AT 1, c.2, p.2, col.] Evento (2) (...) os climatologistas dizem o que VAI ACONTECER se o aumento global continuar no ritmo atual. [CB 1, c.4, p.10, not.] Estado (3) Mesmo suspenso, Alysson ainda VAI FICAR de molho por um mês, depois de sofrer diante do Coritiba uma luxação no cotovelo. [AT 2, ec, p.5, not.] Cognição (4) Ao invés de metê-los na cadeia, arruma-se uma fórmula deles se saírem numa boa à custa do torcedor otário que VAI PENSAR, certamente, que o Bahia, o Vitória, a Catuense e tantos outros times baianos serão beneficiados. [TB1, c.1, p.2, mat.] A hipótese levantada para esse grupo era a de que o futuro perifrástico se implementasse pelos verbos que denotam processo, já que o verbo ir, sendo um verbo de movimento, exprime uma ação que envolve dois momentos, o de partida e o de chegada. A literatura sobre a gramaticalização do verbo ir mostra que o fenômeno ocorre principalmente com esse tipo de verbos, já que implicam alteração entre dois momentos temporais. Esperava-se também que os verbos de estado inibissem o uso do futuro perifrástico, favorecendo, portanto, o emprego do futuro simples, como atestado por outros trabalhos, como, por exemplo, o de Malvar (2003). Em dois tipos de jornal (A Tarde e Correio da Bahia), os resultados encontrados revelam que, de fato, o maior percentual e o maior peso relativo de uso do futuro perifrástico ocorrem com verbos que indicam processo, seguidos dos verbos que denotam evento, como se vê na Tabela 4, a seguir: Tabela 4: Uso da perífrase e natureza semântica do verbo por periódico Fator A Tarde Oc./Total PR % Evento 24/87 .51 27% Processo 146/257 .56 56% Estado 27/324 .45 8% Cognição 0/2 0% Oc. = ocorrências Correio da Bahia Oc./Total PR % 29/152 .63 19% 99/219 .74 45% 15/396 .31 3% 2/2 100% PR = Peso relativo Tribuna da Bahia Oc./Total PR % 21/56 .64 37% 96/191 .66 50% 24/232 .32 10% 5/6 .91 83% Já no periódico Tribuna da Bahia, contrariando a hipótese aventada, o maior percentual e o maior peso relativo ocorrem para os verbos cognitivos, seguidos dos verbos que expressam um processo e dos que denotam evento. Mas os dados com verbos cognitivos são muito poucos para que explicações mais conclusivas sejam dadas. Houve dois dados apenas no jornal A Tarde (ambos com futuro simples) e no jornal Correio da Bahia (ambos com futuro perifrástico). No jornal Tribuna da Bahia, houve seis dados, cinco dos quais com a perífrase. Assim, deixando de lado os verbos cognitivos, por ora, o que se pode dizer é que, na escrita jornalística baiana, a mudança se implementa pelos verbos que indicam processo, seguidos dos verbos que denotam evento, sendo os verbos de estado os que mantêm o futuro simples, o que condiz com a literatura sobre o processo de gramaticalização do verbo ir. 3.2. Paradigma verbal Esta variável distribui os dados em dois grupos: os que contêm um verbo que segue o paradigma geral (verbos regulares) e os que apresentam um verbo de padrão especial (verbos irregulares), considerando, pois, o critério morfológico. Por exemplo, são verbos regulares “cantar”, “beber” e “partir” e são irregulares os verbos “estar”, “trazer” e “pedir”. Supondo que há uma mudança em curso no sentido de o futuro perifrástico substituir o futuro simples, aventou-se a hipótese de que esse processo avançaria primeiro nas formas regulares e depois nas irregulares. Essa hipótese se confirma nos dados dos três tipos de periódico, tanto em termos percentuais como em pesos relativos, conforme evidenciado na Tabela 5: Tabela 5: Uso da perífrase e paradigma verbal por periódico Fator A Tarde Oc./Total PR % Regular 158/303 .69 52% Irregular 39/367 .34 10% Oc. = ocorrências Correio da Bahia Oc./Total PR % 113/333 .61 33% 32/436 .42 7% PR = Peso relativo Tribuna da Bahia Oc./Total PR % 117/231 .68 50% 29/254 .33 11% São os verbos regulares os que favorecem a aplicação da regra de perífrase, ficando o futuro simples mais restrito aos verbos irregulares, ou seja, os que têm um padrão morfológico especial. Esses verbos, segundo Bybee (2003), por terem uma frequência alta de uso na língua, resistem a mudanças e, sendo estocados na memória do falante como únicos (especiais), mantêm o futuro simples, pois não seguem padrões gerais. 3.3. Pessoa verbal Como mencionado frequentemente na literatura sobre a expressão do futuro verbal em português, as formas de presente e de perífrase com ir + infinitivo exprimem um maior grau de certeza da realização do estado de coisas no futuro. Essa maior possibilidade ou maior probabilidade de acontecimento de algo está intimamente ligada ao envolvimento ou comprometimento do falante em relação ao enunciado que profere. Assim, assumiu-se como hipótese que os sujeitos de primeira pessoa favoreceriam o uso da forma inovadora, expressando um maior investimento para a concretização da ação futura. Observem-se os exemplos a seguir: (5) O leitor me desculpe, mas não VOU FAZER o histórico porque precisaria de pesquisar mais a fundo. [TB 1, c.1, p.2, mat.] (6) Já estamos a par da reintegração desde segunda-feira, VAMOS VER quais as propostas do governo do Estado e da Suzano na reunião de amanhã... [AT 2, c.1, p.12, mat.] Os resultados encontrados nesta pesquisa estão apresentados na Tabela 6: Tabela 6: Uso da perífrase e pessoa verbal por periódico Fator A Tarde Oc./Total PR % P1 3/4 .90 75% P3 138/426 .54 32% P4 21/33 .73 63% P6 35/206 .37 16% Oc. = ocorrências Correio da Bahia Tribuna da Bahia Oc./Total PR Oc./Total PR % % 12/15 9/14 .85 .88 80% 64% 97/529 .48 102/322 .51 18% 31% 14/19 13/22 .87 .89 73% 59% 22/206 .47 22/127 .34 10% 17% PR = Peso relativo Como se pode ver na Tabela 6, a primeira pessoa (P1 = eu; P4 = nós) apresenta maior peso relativo e maior percentual no uso da perífrase. Esse fato revela um maior comprometimento do sujeito com a realização do processo verbal a se concretizar no futuro. Note-se que os dados de primeira pessoa são muito poucos em relação aos de terceira pessoa, mais típicos nesse tipo de escrita. Em geral, os dados de 1ª pessoa aparecem em citações de fala para ilustrar os textos jornalísticos. De qualquer forma, percebe-se que o jornalista não corrige a fala dos entrevistados, pelo menos no que tange ao fenômeno aqui estudado, o que corrobora o fato de que a perífrase está para a fala assim como o futuro simples está para a escrita (pelo menos a escrita formal). Em pesquisa anterior (OLIVEIRA, 2006), foram analisados dados de fala de informantes considerados cultos, isto é, todos com nível superior completo e os resultados apontam a preferência de uso da forma perifrástica em detrimento da forma simples. Comparando os resultados gerais de fala e escrita (ambas as modalidades em sua forma considerada culta ou padrão), observa-se uma inversão parcial no uso das variantes concorrentes. Veja-se a Tabela 7, a seguir, com o acréscimo dos dados de jornais de 2007: Tabela 7: Comparação de dados de fala e de escrita Variantes Fala* EF DID DID (anos 70) (anos 70) (anos 90) Futuro 82 25 5 simples 19% 13% 4% Futuro 358 164 137 perifrástico 81% 87% 96% 440 189 142 Total 3 * Dados do Projeto NURC ** Só textos de editoriais EF = elocução formal DID = diálogo entre informante e documentador Jornais** (anos 70) 71 91% 7 9% 78 Escrita Jornais** (anos 90) 51 73% 19 27% 70 Jornais (2007) 1436 75% 488 25% 1924 Analisando a Tabela 7, percebe-se que os dados confirmam a inversão parcial das duas variantes em relação às modalidades da língua: o futuro perifrástico é mais usado na fala e o futuro simples é mais usado na escrita. Comparando os dados dos anos 70 com os dados dos anos 90, observa-se um aumento no uso da perífrase na fala e um decréscimo no uso do futuro simples na escrita. Ou seja, o uso da perífrase é quase categórico na fala e começa a se implementar na escrita. Conclusões A partir do controle de vários grupos de fatores linguísticos e extralinguísticos, com o intuito de verificar os contextos de condicionamento do uso das variantes ‘futuro simples’ e ‘futuro perifrástico’, constatou-se que o futuro simples ainda prevalece na língua escrita jornalística. Todavia a forma perifrástica vem se implementando na modalidade escrita e o seu contexto de entrada é o que envolve verbos que exprimem processo/ação/movimento, verbos regulares e sujeitos de 1ª pessoa (sobretudo quando há dados de fala reproduzidos nos jornais). Considerando três tipos de jornais voltados para públicos diferentes, percebeu-se que o periódico mais popular (Tribuna da Bahia) é o que mais usa a forma inovadora (30%), mas é o periódico considerado intermediário (Correio da Bahia, visto na sociedade 3 Projeto de Estudo da Norma Urbana Culta das Principais Cidades Brasileiras, desenvolvido em Salvador, Recife, Rio de Janeiro, São Paulo e Porto Alegre. soteropolitana como conservador) o que mais usa a forma de futuro simples (81%). Estatisticamente, porém, não há diferença significativa entre o uso das formas concorrentes e os tipos de jornal analisados. Este trabalho apresenta resultados parciais de pesquisa desenvolvida a partir de 2007 com textos jornalísticos, mas, comparando-os com resultados de pesquisa anterior (OLIVEIRA, 2006), mantém-se a hipótese da inversão parcial entre fala e escrita quanto ao uso das variantes inovadora e conservadora. Resta saber se, com a ampliação do corpus, os resultados se mantêm próximos. Pretende-se também verificar a implementação do futuro perifrástico em outros tipos de escrita, como, por exemplo, em redações escolares. Referências BYBEE, J. Mechanisms of change in grammaticization: the role of frequency. In: JOSEPH, B. D.; JANDA, R. D. (Ed.) The handbook of historical linguistics. Oxford: Blackwell, 2003, p. 602-623. BYBEE, J. et alii. The evolution of grammar: tense, aspect, and modality in the languages of the world. Chicago: Chicago University Press, 1994. CÂMARA JR., J. M. Uma forma verbal portuguesa – estudo estilístico e gramatical. Tese apresentada no concurso para a cadeira de Língua Portuguesa da Faculdade de Filosofia. Rio de Janeiro: Jornal do Comércio/Rodrigues & Cia., 1957. FLEISCHMAN, S. The future in thought and language – diachronic evidence from Romance. Cambridge: Cambridge University Press, 1982. HEINE, B. Auxiliaries: cognitive forces and grammaticalization. New York: Oxford University Press, 1993. HEINE, B.; KUTEVA, T. World lexicon of grammaticalization. Cambridge: Cambridge University Press, 2002. HOPPER, P. J. & TRAUGOTT, E. Grammaticalization. Cambridge: Cambridge University Press, 2003 [1993]. MALVAR, E. O presente do futuro no português oral do Brasil. Ottawa: University of Ottawa, 2003 (Tese de Doutorado). MARCHELLO-NIZIA, C. Grammaticalisation et changement linguistique. Bruxelas: De Boeck, 2006. OLIVEIRA, J. M. O futuro da língua portuguesa ontem e hoje: variação e mudança. Rio de Janeiro: UFRJ, 2006 (Tese de Doutorado). UFPB – Curso GoldVarb X Profa. Josane Oliveira Mais gráficos Para finalizar o nosso curso, vejamos mais alguns exemplos de tabelas e gráficos diferentes. Trabalho: Abralin em Cena Espírito Santo (Vitória, 26-29/05/09) Título: A expressão do futuro verbal no português escrito de Angola Tabela 1: Distribuição das variantes Variantes Ocorrências Futuro simples 246 65% Ir + infinitivo 90 24% Presente 41 11% Total 377 Gráfico 1: Variantes (percentuais) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Futuro simples Futuro perifrástico Angola Tabela 4: Uso da perífrase e extensão fonológica do verbo Fator 1 sílaba 2 sílabas 3 sílabas 4 ou + sílabas Ocorrências 9 / 102 30 / 145 33 / 58 18 / 31 Percentual 8% 20% 56% 58% Peso Relativo .36 .45 .67 .82 Gráfico 2: Uso da perífrase e extensão fonológica do verbo (pesos relativos) 1001 .90 . 80 . 70 60 . .50 . 40 .30 . 20 .10 0 Perífrase 1 sílaba 2 sílabas 3 sílabas 4 ou + sílabas Trabalho: XIII Colóquio da Lusofonia (V Encontro Açoriano) – Florianópolis (5-9 abril 2010) Título: O futuro da língua portuguesa em três cantos do mundo: Angola, Brasil e Portugal Tabela 2: Novos resultados Angola Brasil 246 445 73% 71% 90 186 27% 29% 336 631 Futuro simples Ir + infinitive Total de dados Portugal 496 65% 271 35% 767 Gráfico 1: Uso do futuro verbal nos três países 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 73% 71% 65% Futuro simples 27% Angola 29% Brasil 35% Portugal Futuro perifrástico Trabalho: Tese de Doutorado Título: O futuro da língua portuguesa ontem e hoje: variação e mudança. Tabela 1: Distribuição das variantes na língua escrita por séculos Séculos XIII XIV XV XVI XVII XVIII Futuro simples 18 433 65 681 358 105 54,5% 91,9% 81,3% 87,4% 74,4% 83,3% Haver de + infinitivo 15 31 12 90 108 13 45,5% 6,6% 15% 11,6% 22,5% 10,3% Ir + infinitivo 6 1 3 4 5 1,3% 1,2% 0,4% 0,8% 4% Presente 1 2 5 11 3 0,2% 2,5% 0,6% 2,3% 2,4% Total 33 471 80 779 481 126 Variantes XIX 91 85,8% 6 5,8% 8 7,5% 1 0,9% 106 XX4 122 75,3% 3 1,9% 26 16% 11 6,8% 162 Gráfico 1: Distribuição das variantes na língua escrita por séculos (percentuais) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Futuro simples Haver de + infinitivo Ir + infinitivo Presente XIII XIV XV XVI XVII XVIII XIX XX Tabela 2: Distribuição geral das variantes na década de 70 Variantes Tipo de texto Oral Escrito EFs DIDs Jornais 82 (17%) 25 (11%) 71 (88%) Futuro simples 2 (2%) Perífrase haver presente + infinitivo 1 (1%) Perífrase haver futuro + infinitivo 355 (72%) 164 (73%) 5 (6%) Perífrase ir presente + infinitivo 3 (1%) 2 (2%) Perífrase ir futuro + infinitivo 51 (19%) 37 (16%) 1 (1%) Presente 491 226 82 Total 4 Total 178 2 1 524 5 89 799 Para o século XX, estão sendo considerados apenas os dados de língua escrita, para uma coerência na comparação com os outros séculos, que não dispõem de dados de língua falada. Os dados orais do século XX são analisados na seção seguinte. Gráfico 3: Variantes por tipo de texto na década de 90 (percentuais) 100% 80% FS FP PR 60% 40% 20% 0% DID Jornais Gráfico 5: Faixa etária em EFs e DIDs – anos 70 (pesos relativos) .100 .80 .60 EF DID .40 .20 .0 Faixa 1 Faixa 2 Faixa 3 Gráfico 6: Procedência geográfica em EFs e DIDs – anos 70 (percentuais) 100% 80% 60% Salvador Rio de Janeiro 40% 20% 0% EF DID Gráfico 9: Procedência geográfica em DIDs – anos 70 e 90 (percentuais) 100% 80% 60% Salvador Rio de Janeiro 40% 20% 0% Anos 70 Variáveis Anos 90 Quadro 9: Dados demográficos de Salvador e do Rio de Janeiro Salvador Rio de Janeiro Censo 70 Censo 91 Censo 70 Censo 91 População residente 1.007.195 2.075.272 4.251.918 5.480.772 População imigrada 297.584 646.821 1.800.822 1.517.232 População alfabetizada 650.679 1.467.593 3.283.600 4.255.625 IDH – Municipal 0,580 0,793 0,702 0,808 IDH – Educação 0,639 0,758 0,707 0,800 IDH – Renda 0,698 0,952 0,940 0,965 Séculos Oc. % Tabela 48: Distribuição do presente ao longo do tempo na escrita Séc. Séc. Séc. Séc. Séc. Séc. Séc. Séc. XIII XIV XV XVI XVII XVIII XIX XX 1 2 5 11 3 1 11 0,2% 2,5% 0,6% 2,3% 2,4% 0,9% 6,8% Tabela 61: Síntese dos resultados do século XX (percentuais) Amostra Futuro simples Futuro perifrástico Presente Fala 70: EFs 17% 73% 10% Salvador 20% 65% 15% Rio de Janeiro 14% 78% 8% Fala 70: DIDs 11% 73% 16% Salvador 28% 54% 18% Rio de Janeiro 9% 75% 16% Fala 90: DIDs 3% 82% 15% Salvador 89% 11% Rio de Janeiro 4% 79% 17% Escrita 70: jornais 90% 9% 1% Salvador 97% 3% Rio de Janeiro 85% 13% 2% Escrita 90: jornais 65% 23% 12% Salvador 60% 24% 16% Rio de Janeiro 71% 20% 9% Agora, mãos à obra e bom trabalho! Espero ter ajudado! Contato: [email protected].