SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS ÍNDICE GERAL
1. ANÁLISE DE DADOS RECORRENDO AO SPSS 11.5.........................................................................5
1.1 O
QUE É UMA
MATRIZ DE DADOS ...........................................................................................................6
1.2 MANIPULAÇÃO DE ARQUIVOS E EDIÇÃO DE MATRIZES DE DADOS .......................................................7
1.2.1 MANIPULAÇÃO DE ARQUIVOS ..........................................................................................................9
1.2.1.1 ABRIR UMA MATRIZ DE DADOS JÁ EXISTENTE .........................................................................................9
1.2.1.2 GUARDAR OS DADOS ................................................................................................................................10
1.2.1.3 GUARDAR OU ABRIR ARQUIVOS CONTENDO RELATÓRIOS DE ANÁLISES ...............................................11
1.2.2 EDIÇÃO DE MATRIZES DE DADOS ..................................................................................................13
1.2.2.1 CRIAR UMA MATRIZ DE DADOS ................................................................................................................13
1.2.2.1.1 DEFINIÇÃO DAS VARIÁVEIS ..............................................................................................................13
1.2.2.1.2 PREENCHER A MATRIZ DE DADOS ...................................................................................................16
1.2.2.1.3 EXCLUIR UMA VARIÁVEL OU UM CASO...........................................................................................16
1.2.2.1.4 INSERIR UMA NOVA VARIÁVEL NO MEIO DE VARIÁVEIS JÁ EXISTENTES......................................17
1.3 TRANSFORMAÇÃO DE DADOS .................................................................................................................18
1.3.1 CÁLCULO ENTRE VARIÁVEIS .........................................................................................................18
1.4 RECODIFICAÇÃO DE VARIÁVEIS .............................................................................................................21
1.4.1 RECODIFICAR UMA VARIÁVEL ........................................................................................................21
1.4.1.1 Recodificação na Variável Original ..................................................................................................22
1.4.1.2 Recodificação numa nova Variável ..................................................................................................24
1.5 SELECÇÃO DE CASOS PARA A ANÁLISE ................................................................................................25
1.5.1 SELECCIONAR CASOS ESPECÍFICOS A SEREM ANALISADOS ..........................................................25
1.6 ANÁLISE DESCRITIVA DOS DADOS ........................................................................................................28
1.6.1 COMO FAZER UMA ANÁLISE DESCRITIVA BASEADA NA DISTRIBUIÇÃO DE FREQUÊNCIA ........35
1.7 ANÁLISE DE CORRELAÇÃO/ ASSOCIAÇÃO ENTRE VARIÁVEIS .............................................................37
1.7.1 COMO CONSTRUIR UMA TABELA PARA VERIFICAR A RELAÇÃO ENTRE VARIÁVEIS (CROSSTABS)
....................................................................................................................................................................37
1
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7.2 COMO CONSTRUIR ANÁLISES DE CORRELAÇÃO ENTRE VARIÁVEIS ..............................................40
1.7.3 GRÁFICOS DE DISPERSÃO COM RECTA DE REGRESSÃO .................................................................43
1.7.4 TESTES T ........................................................................................................................................50
1.7.5 Análise de variância – ensaios uni-factoriais ...................................................................68
1.7.6 Procedimento Means .................................................................................................................75
2
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS ÍNDICE DE ILUSTRAÇÕES
FIGURA 1: COMEÇAR A TRABALHAR COM O SPSS ...................................................................................................................... 7
FIGURA 2: BASE DE DADOS PREENCHIDA................................................................................................................................... 8
FIGURA 3: ABRIR UMA MATRIZ DE DADOS EXISTENTES ............................................................................................................... 9
FIGURA 4: GUARDAR UMA MATRIZ DE DADOS EXISTENTE ......................................................................................................... 10
FIGURA 5: O OUTPUT .............................................................................................................................................................. 11
FIGURA 6: NOTAS SOBRE OS PROCEDIMENTOS ESTATÍSTICOS EFECTUADOS ............................................................................... 12
FIGURA 7: DEFINIR O TIPO DE VARIÁVEL .................................................................................................................................. 13
FIGURA 8: NÚMERO DE DÍGITOS ............................................................................................................................................... 14
FIGURA 9: CASAS DECIMAIS ..................................................................................................................................................... 14
FIGURA 10: CODIFICAR VARIÁVEIS .......................................................................................................................................... 14
FIGURA 11: ATRIBUIR MISSINGS .............................................................................................................................................. 15
FIGURA 12: NÚMERO DE CARACTERES ...................................................................................................................................... 15
FIGURA 13: REALIZAR CÁLCULOS ............................................................................................................................................ 18
FIGURA 14: FUNÇÕES NUMÉRICAS ........................................................................................................................................... 19
FIGURA 15: ESTABELECER CONDIÇÕES .................................................................................................................................... 20
FIGURA 16: RECODIFICAR VARIÁVEIS ...................................................................................................................................... 22
FIGURA 17: SUBSTITUIR OS VALORES ANTIGOS ......................................................................................................................... 23
FIGURA 18: CRIAR UMA VARIÁVEL COM BASE EM OUTRA EXISTENTE ........................................................................................ 24
FIGURA 19: SELECCIONAR/ EXCLUIR CASOS ESPECÍFICOS ......................................................................................................... 25
FIGURA 20: IMPOR CONDIÇÕES À SELECÇÃO............................................................................................................................. 26
FIGURA 21: ESCOLHER UMA AMOSTRA ALEATÓRIA .................................................................................................................. 27
FIGURA 22: ESCOLHER UM INTERVALO DE DADOS .................................................................................................................... 27
FIGURA 23: ESTATÍSTICA DESCRITIVA ..................................................................................................................................... 28
FIGURA 24: ESTATÍSTICA DESCRITIVA ...................................................................................................................................... 29
FIGURA 25: GRÁFICOS DESCRITIVOS SIMPLES........................................................................................................................... 30
FIGURA 26: GRÁFICOS DE BIGODES PARA
ANÁLISE COMPARATIVA DOS GRUPOS....................................................................... 30
FIGURA 27: GRÁFICOS DE BIGODES - DESCRIÇÃO COMPARATIVA DE DUAS VARIÁVEIS ............................................................. 32
FIGURA 28: GRÁFICOS DE BIGODES PARA GRUPOS DE CASOS .................................................................................................... 33
FIGURA 29: TABELAS DE FREQUÊNCIAS ................................................................................................................................... 35
FIGURA 30: APRESENTAÇÃO DOS DADOS EM TABELA ............................................................................................................... 35
FIGURA 31: GRÁFICOS DE BARRAS .......................................................................................................................................... 36
FIGURA 32: TABELAS DE CONTINGÊNCIA ................................................................................................................................. 38
FIGURA 33: FREQUÊNCIAS, PERCENTAGENS E RESIDUOS.......................................................................................................... 39
FIGURA 34: ESTATÍSTICAS DAS CONTINGÊNCIAS ...................................................................................................................... 40
FIGURA 35: CORRELAÇÕES BIVARIADAS ................................................................................................................................. 41
FIGURA 36: CORRELAÇÃO DE PEARSON ................................................................................................................................... 42
FIGURA 37: GRÁFICOS DE DISPERSÃO ...................................................................................................................................... 43
FIGURA 38: SELECCIONAR O GRÁFICO DE DISPERSÃO SIMPLES ................................................................................................. 44
FIGURA 39: SELECCIONAR AS VARIÁVEIS A CORRELACIONAR ................................................................................................... 45
FIGURA 40: OPÇÕES DE APRESENTAÇÃO DO GRÁFICO ............................................................................................................... 46
FIGURA 41: COLOCA RECTA DE REGRESSÃO NUM GRÁFICO DE DISPERSÃO................................................................................. 47
3
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS FIGURA 42: COLOCAR COEFICIENTE DE DETERMINAÇÃO (R2) NO GRÁFICO DE DISPERSÃO .......................................................... 47
FIGURA 43: GRÁFICO DE DISPERSÃO COM RECTA DE REGRESSÃO E COEFICIENTE DE DETERMINAÇÃO ........................................ 49
FIGURA 44: TESTE T PARA UMA AMOSTRA ............................................................................................................................... 50
FIGURA 45: COLOCAR O PARÂMETRO A COMPARAR .................................................................................................................. 51
FIGURA 46: OUTPUT DO TESTE T PARA UMA AMOSTRA ............................................................................................................. 52
FIGURA 47: TESTE T PARA AMOSTRAS INDEPENDENTES ............................................................................................................ 53
FIGURA 48: COLOCAR AS VARIÁVEIS EM ANÁLISE .................................................................................................................... 54
FIGURA 49: DEFINIR OS DOIS GRUPOS EM ANÁLISE ................................................................................................................... 55
FIGURA 50: TERMINAR O TESTE ............................................................................................................................................... 56
FIGURA 51: OUTPUT DO TESTE T DE STUDENT PARA AMOSTRAS INDEPENDENTES ..................................................................... 57
FIGURA 52: TESTE T PARA AMOSTRAS EMPARELHADAS OU RELACIONADAS .............................................................................. 64
FIGURA 53: SELECCIONAR VARIÁVEIS NO TESTE T PARA AMOSTRAS EMPARELHADAS OU RELACIONADAS ................................. 65
FIGURA 54: FINALIZAR TESTE T PARA DADOS EMPARELHADOS OU RELACIONADOS ................................................................... 66
FIGURA 55: OUTPUT DO TESTE T PARA AMOSTRAS EMPARELHADAS OU RELACIONADAS............................................................ 67
FIGURA 56: ANOVA DE UM CRITÉRIO..................................................................................................................................... 69
FIGURA 57: SELECCIONA VARIÁVEIS PARA ANOVA................................................................................................................ 70
FIGURA 58: TESTES POST-HOC................................................................................................................................................. 71
FIGURA 59: OUTPUT DO TESTE ANOVA.................................................................................................................................. 72
FIGURA 60: TABELA ANOVA+ETA PELO PROCEDIMENTO MEANS ........................................................................................... 75
FIGURA 61: SELECÇÃO DAS ESTATÍSTICAS PELO PROCEDIMENTO MEANS .................................................................................. 76
4
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1. ANÁLISE DE DADOS RECORRENDO
AO
SPSS 11.5
O SPSS é um software apropriado para a elaboração de análises estatísticas de matrizes de dados. O seu uso permite gerar relatórios tabulados, gráficos e dispersões de distribuições utilizados na realização de análises descritivas e de correlação entre variáveis. O objectivo deste módulo do presente manual é fornecer noções básicas de manipulação do software. Por isso, cobre apenas uma pequena parte do conjunto das ferramentas presente no pacote estatístico. Os principais tópicos aqui abordados são: Manipulação de Arquivos de Dados Æ abrir e guardar matrizes de dados; Edição de Dados Æcriar e editar matrizes de dados; Transformação de Dados Æ recodificar variáveis e criar novas variáveis a partir de cálculos com as variáveis já existentes; Selecção de Casos → selecção de casos para realização da análise; Análise Descritiva dos Dados Æ tabelas de frequência, medidas de tendência central e dispersão; Análise de Correlação entre Variáveis Æ testa a independência entre variáveis e a intensidade da correlação entre elas. 5
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.1 O QUE É UMA MATRIZ DE DADOS
Antes de partirmos para a explicação da utilização das ferramentas disponíveis no SPSS, vamos dar um pequeno exemplo de como se processa a construção de uma matriz de dados. É essencial termos uma ideia bem clara do que é uma matriz de dados, para que possamos entender os resultados estatísticos fornecidos pelo sistema. Para escolher onde passar as férias de final de ano, uma pessoa começou a levantar informações a respeito de alguns lugares que ele tinha vontade de conhecer. Após um pouco de reflexão, ele resolveu colher as seguintes informações: horas de viagem, tipos de actividades recreativas, tamanho da cidade e preço médio da refeição e de hospedagem em hotel. Depois de muita pesquisa, muitos telefonemas e conversas com amigos, ele chegou a seguinte tabela comparativa das características dos lugares: Nome do
Lugar
Tempo de
Viagem
Vila Moura
4 Horas
Actividades
Recreativas
Praias,
Marinas
População
da Cidade
Preço
Preço
Refeição
Hospedagem
e
10.000
€ 20,00
€ 60,00
5.500
€ 10,00
€ 40,00
1.000
€ 80,00
€ 35,00
Discotecas
Serra da
Montanhas e passeios
4 Horas
Estrela
Quiaios
históricos
1 Hora
Praia
Obs. Estas Informações são fictícias.
Esta tabela constitui uma matriz de dados. A construção desta simples tabela e de qualquer matriz de dados possui alguns requisitos fundamentais para que possamos confiar nas suas informações e desenvolver comparações relevantes. São eles: • Deve existir um corpo básico de questões que é submetido a todos os casos da maneira mais uniforme possível, evitando problemas de interpretação; • Cada uma das informações (variáveis) ‐ horas de viagem, tipos de actividades recreativas, População da cidade, ... ‐ deve ser arquivada para todos os casos com a mesma unidade de medida; • A responsabilidade daquele que colhe as informações é essencial para garantir a confiabilidade das informações presentes na matriz de dados; • Deve‐se fazer um esforço enorme para não deixar questões sem resposta. 6
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.2 MANIPULAÇÃO DE ARQUIVOS E EDIÇÃO DE
MATRIZES DE DADOS
A secção do SPSS onde é feita a entrada, manipulação e exclusão de dados é denominada SPSS Data Editor. Como podemos observar na figura abaixo, sua estrutura é a de uma matriz (linhas x colunas). Podemos entender tal disposição da seguinte forma: cada coluna representa uma variável e cada linha representa um caso. De uma forma simplificada, enquanto as colunas corresponderiam às questões de um questionário, as linhas corresponderiam as informações de cada questionário aplicado. Podemos ver, a seguir, duas matrizes de dados; uma vazia e outra preenchida. Observe que a criação da matriz de dados envolve, não apenas o preenchimento das informações correspondentes a cada caso analisado (data view), mas a discriminação precisa do nome, definição, tipo e outras características das variáveis com que se está a trabalhar (variable view). Para abrir uma matriz de dados (nova ou já existente), clique no menu iniciar e seleccione o programa SPSS for windows. A janela que aparece é a seguinte: Figura 1: Começar a trabalhar com o SPSS
7
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Se quer começar a preencher (pela primeira vez) esta base de dados clique em TYPE IN DATA e depois OK. Se quer abrir uma base de dados que já existe escolha OPEN EXISTING DATA SOURCE, faça OK e depois procure o local onde a guardou a ultima vez e clique em Abrir. Na figura 1 está uma matriz de dados preenchida e que se encontra dentro da sua pasta SPSS. Numa matriz de dados é importante reconhecer as seguintes informações: 1. No cabeçalho encontramos o nome do arquivo com que estamos a trabalhar (matriz de dados): employee data; 2. Na grande faixa de cor branca localizada abaixo da barra de ferramentas encontramos a seguinte informação: • 1:id Æ célula correspondente ao caso 1 da variável id; • 1 Æ conteúdo da célula. 3. A faixa cinzenta localizada na margem superior da tabela fornece‐nos os nomes das variáveis; 4. A faixa cinzenta localizada na margem esquerda da tabela nos fornece o número de cada caso; 5. No interior da tabela, as linhas correspondem aos casos analisados e as colunas correspondem às variáveis trabalhadas. Figura 2: Base de Dados Preenchida
8
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.2.1 MANIPULAÇÃO DE ARQUIVOS
1.2.1.1 ABRIR UMA MATRIZ DE DADOS JÁ EXISTENTE
Cada matriz de dados é armazenada na forma de um ficheiro próprio do SPSS, com a extensão sav (*.sav) Para abrirmos uma matriz de dados já existente é essencial termos a informação precisa do local onde este ficheiro se localiza. Seguiríamos, então, o seguinte caminho: na barra de ferramentas selecionaríamos FILE (ficheiro) e depois OPEN (abrir). Chegaríamos a seguinte figura: Figura 3: Abrir uma matriz de dados existentes
No campo Look in deve seleccionar o directório onde se localiza o ficheiro que contém a matriz de dados com que queremos trabalhar. Em seguida seleccione no painel abaixo ao campo Look in o arquivo ou digite no campo File name o nome do ficheiro. Tendo seleccionado o arquivo a ser aberto, seleccione a opção OPEN (abrir). O padrão do SPSS é trabalhar com a opção SPSS (*.sav) no campo Files of Type. Se quiser abrir um arquivo criado noutro sistema, por exemplo do Excel (*.xls), basta seleccionar este tipo de arquivo no Files of Type. 9
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.2.1.2 GUARDAR OS DADOS
Quando está a criar uma matriz de dados pela primeira vez, vai ter que lhe atribuir um nome, isto é, salvar o arquivo e escolher o local ou directório dentro do computador ou unidade de disco onde quer guardá‐lo. Para salvar o arquivo deverá seleccionar FILE na barra de ferramentas atribuir o nome e depois SAVE. Chegaremos na seguinte figura: Figura 4: Guardar uma matriz de dados existente
Através do campo SAVE IN ou do rectângulo abaixo deste campo você poderá seleccionar o lugar onde o arquivo será guardado. Tendo feito esta selecção, basta preencher o campo FILE NAME com o nome que se deseja dar ao arquivo. Lembre‐se sempre de utilizar nomes que sejam claros na descrição do conteúdo da matriz de dados. Caso você queira salvar o arquivo em outro formato diferente do padrão estabelecido pelo SPSS (*.sav), seleccione o novo tipo desejado no campo SAVE AS TYPE. 10
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.2.1.3 GUARDAR OU ABRIR
RELATÓRIOS DE ANÁLISES
ARQUIVOS
CONTENDO
A secção do SPSS onde é feita a criação, manipulação, exclusão e impressão dos resultados das análises estatísticas feitas pelo SPSS é denominada SPSS Viewer (output). Como podemos observar na figura abaixo, o output divide‐se em dois painéis: O painel da esquerda apresenta em índice todas as tabelas e gráficos produzidos durante a análise e o painel da direita mostra o conteúdo da tabela ou gráfico escolhido. Podemos ver, a seguir, um exemplo de como se estrutura essa secção. No painel da esquerda observamos que existe 1 tabela e 1 gráfico dentro do arquivo que guarda os resultados das análises estatísticas produzidas pelo SPSS. Como podemos perceber, a estrutura de ambas análises é semelhante, contendo título, anotações, um campo denominado statistics e a tabela ou gráfico produzida. Se seleccionarmos o item Title no painel da esquerda, seu conteúdo será mostrado no painel da direita. O título poderá, então, ser editado, se clicarmos duas vezes repetidas sobre o campo. Figura 5: O Output
Se seleccionarmos o item Notes no espaço da esquerda, uma série de características da análise pedida será mostrada no espaço da direita: data em que foi criado o relatório, nome e localização do arquivo que contém a matriz de dados utilizada para elaborar o relatório, se foi utilizado algum filtro para seleccionar os casos para a análise ou peso para atribuir importância diferente 11
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS aos casos, número total de casos analisados, existência de missing values, o comando utilizado para gerar o relatório e o tempo total que o computador levou para fazer o relatório. Tal campo também poderá ser editado se clicarmos duas vezes repetidas sobre o campo. Notes
Output Created
Comments
Input
Data
Missing Value
Handling
File Label
Filter
Weight
Split File
N of Rows in Working
Data File
Definition of Missing
Cases Used
Syntax
Resources
Total Values Allowed
Elapsed Time
20 Apr 00 17:03:29
C:\Program Files\SPSS1\Employee
data.sav
05.00.00
<none>
<none>
<none>
474
User-defined missing values are
treated as missing.
Statistics are based on all cases
with valid data.
FREQUENCIES
VARIABLES=gender
/ORDER ANALYSIS .
18724
0:00:00,44
Figura 6: Notas sobre os procedimentos estatísticos efectuados
Se seleccionarmos o item Statistics ou Case Processing no espaço da esquerda, seu conteúdo será mostrado no espaço da direita: o número total de casos considerados válidos para a análise e o número total de casos caracterizados como missing values e que por isso não foram computados na análise. Por fim, o último item nos mostrará o relatório final da análise. Neste caso, a tabela de frequência ou o gráfico BOX PLOT. Para guardar o output, o processo é semelhante ao realizado para as bases de dados. A única excepção é que o tipo de arquivo padrão para o SPSS passa a ter extensão spo (*.spo). 12
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.2.2 EDIÇÃO DE MATRIZES DE DADOS
1.2.2.1 CRIAR UMA MATRIZ DE DADOS
1.2.2.1.1 DEFINIÇÃO DAS VARIÁVEIS
O passo mais importante na criação de uma matriz de dados é a definição das variáveis. Cada variável é criada separadamente, indicando seu nome, definição, tipo, categorias, formato da coluna na tabela e missing values (valores que por definição não entram nas análises estatísticas). Para definir uma variável, deve‐se seguir os seguintes passos: Clica na guia Variable Name 1. No campo Variable Name devemos entrar com um nome para a variável. Este nome não pode ultrapassar 8 caracteres e não pode conter nenhum sinal algébrico ou espaço em branco no seu interior. 2. Os outros campos à direita‐ type ,with, labels,values, missing values, column. Align e measure ‐ devem ser preenchidos em seguida, não importando a ordem com que são preenchidos. 3. Se clicarmos na célula TYPE chegaremos a seguinte figura: Figura 7: Definir o tipo de variável
Entre as opções de tipo de variável acreditamos que as seguintes são importantes na formação de um conhecimento básico em SPSS para sociólogos: • Numeric: aparece por definição e estabelece que o campo será numérico → útil na definição de variáveis ordinais e categóricas; 13
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS • Date: estabelece um formato de campo para a entrada de datas; • Dollar: estabelece um formato de campo para a entrada de valores monetários; • String: estabelece que o campo será alfa‐numérico, podendo incluir qualquer tipo de informação desejada. Exemplo: nome de um município ou de uma pessoa. 4. O campo Width podemos seleccionar o tamanho total de caracteres da variável, clicando na seta para baixo se pretendermos diminuir os 8 caracteres que aparecem por defeito ou para cima se os pretendermos aumentar. Figura 8: número de dígitos
5. Para número de casas decimais (Decimal), o processo é semelhante, quando trabalhamos com o tipo numérico. Figura 9: casas decimais
6. Na opção LABELS escrevemos a etiqueta da variável, que não coube no Name. O campo Label deve ser preenchido com uma definição curta da variável. 7. Ao selecionarmos a opção Values chegaremos a seguinte figura: Figura 10: Codificar variáveis
14
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Para variáveis categóricas, o campo Value Labels permite a definição das diversas categorias de respostas. O valor a ser digitado na matriz deve ser inserido no campo VALUE e o significado corresponde inserido no campo VALUE LABEL. Para cada par de informações deve‐se seleccionar a opção Add para adicioná‐los a matriz de categorias. Caso algumas das categorias tenha sido definida de maneira errada, utilize as opções Change ou Remove para fazer o seu acerto. 8. Ao seleccionarmos a opção MISSING VALUES chegaremos a seguinte figura: Figura 11: Atribuir missings
Como já foi referido, serão indicados, neste campo, todos os valores que não entrarão nas análises estatísticas que serão realizadas com a matriz de dados. É muito comum, por exemplo, estabelecer como missing os valores correspondentes às categorias: não respondeu, não sabe ou sem informação. Estes valores podem ser indicados de maneira precisa ou através de intervalos. 9. Ao seleccionarmos a opção COLUMN visualizam‐se dois sentidos possíveis para escolher: diminuir ou aumentar a largura da coluna Figura 12: número de caracteres
Este campo nos permite indicar a largura da coluna na tabela da matriz de dados e também o alinhamento do seu conteúdo dentro da célula. De um modo geral, este campo não é preenchido, utilizando o padrão que o próprio SPSS traz consigo e que corresponde a 8 caracteres. 15
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 10. O campo MEASURE deve ser preenchida com o tipo de medida característica da variável. Encontramos as seguintes opções: • Scale: existe uma relação ordinal entre os valores mas a distância entre estas é desconhecida e não regular → ideal para variáveis quantitativas; • Ordinal: existe uma relação ordinal entre os valores e a distância entre estes é conhecida e regular → ideal para variáveis ordinais; • Nominal: não existe nenhuma relação ordinal entre os valores → ideal para variáveis nominais. 1.2.2.1.2 PREENCHER A MATRIZ DE DADOS
Tendo definido todas as variáveis da matriz de dados, passamos para a entrada dos dados caso por caso; de um modo geral, recomenda‐se que os dados sejam digitados por questionário, ou seja, linha por linha. O preenchimento é feito digitando o valor atribuído à variável em cada caso seguido de tab (o que fará com que se passe para a próxima variável do mesmo caso) ou ENTER (o que fará com que se passe para o próximo caso na mesma variável). Para situações em que os valores se repetem muito, a utilização das opções CORTAR e COLAR permite a agilização do trabalho. 1.2.2.1.3 EXCLUIR UMA VARIÁVEL OU UM CASO
Caso seja necessário excluir uma variável da matriz de dados, devemos colocar o cursor do rato sobre o cabeçalho da coluna correspondente à variável que se deseja excluir e dar um click para seleccionar a coluna que se pretende apagar. Tendo seleccionado a variável, basta clicar a tecla DELETE. O mesmo procedimento deve ser usado em relação à exclusão de casos, seleccionando‐
se a linha que se pretende apagar através de um click sobre a margem esquerda da linha na matriz de dados. 16
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.2.2.1.4 INSERIR UMA NOVA VARIÁVEL NO MEIO DE VARIÁVEIS JÁ
EXISTENTES
Caso seja necessário inserir uma nova variável no meio de variáveis já existentes numa matriz de dados, devemos utilizar o comando inserir variável seguindo os seguintes passos: 1. Escolha o lugar onde a variável deve ser inserida; 2. Seleccione a variável que estará à direita da nova variável a ser inserida clicando sobre o cabeçalho da coluna desta variável; 3. Na barra de ferramentas seleccionamos DATA e depois INSERT VARIABLE; 4. Em seguida deve seguir todos os passos necessários para a definição da nova variável. 17
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.3 TRANSFORMAÇÃO DE DADOS
1.3.1 CÁLCULO ENTRE VARIÁVEIS
Em muitas situações, obtém‐se informações importantíssimas realizando cálculos a partir de variáveis presentes na base de dados. Isto envolveria basicamente a criação de uma nova variável preenchida com o resultado da operação matemática com as outras variáveis envolvidas. Para realizar tais operações utilizamos o seguinte comando: ~ Na barra de ferramentas da base de dados seleccionamos o menu TRANSFORM e depois seleccionamos o comando COMPUTE. Em seguida aparecerá a seguinte figura: Figura 13: Realizar cálculos
Deve‐se preencher o campo TARGET VARIABLE com o nome da nova variável, onde colocaremos o resultado dos cálculos a serem realizados. É possível especificar o tipo e definição desta nova variável se seleccionarmos o campo TYPE & LABEL.1
Como podemos ver na figura, esta nova variável será igual ao valor do resultado da operação matemática definida no campo NUMERIC EXPRESSION. A definição deste campo segue as regras básicas da matemática, como por exemplo a ordem de execução envolvendo parênteses, chaves e aspas. O preenchimento do campo pode ser realizado através de um click do rato sobre 1
Uma definição mais detalhada da nova variável pode ser realizada também utilizando a rotina indicada acima para a
definição de variáveis.
18
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS o quadro de sinais ou através do teclado digitando os mesmos sinais presentes na figura. Apresentamos, a seguir, alguns exemplos básicos para facilitar a compreensão da utilização do comando: Operação
Expressão
Variável C é igual a soma de A e B
C = A + B
Variável C é igual a soma de A e B
C = sum (A to B)
Variável C é igual a divisão de A por 100
C = A / 100
Variável C é igual a média aritmética de A e B
C = (A + B) / 2
A operação matemática descrita no campo NUMERIC EXPRESSION pode envolver também a utilização de algumas ferramentas matemáticas de maior complexidade características, por exemplo, da estatística ou da trigonometria. Para este caso, existe uma série de funções matemáticas definidas na caixa FUNCTIONS. A sua inserção deve ser feita da seguinte forma: 1. Escolha a função desejada utilizando‐se dos recursos disponibilizados pela barra de passagem. Figura 14: Funções numéricas
2. Após escolhida a função, insira a função no campo NUMERIC EXPRESSION clicando sobre a seta que está acima do campo FUNCTiONS. 19
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Outra opção presente no comando COMPUTE é a possibilidade de seleccionar em que casos, a operação indicada, serão realizados. A operação matemática se realizará dependendo dos valores encontrados em uma ou mais variáveis, presentes ou não na operação matemática descrita. Ao seleccionar a opção IF chegaremos na seguinte figura: Figura 15: Estabelecer Condições
A opção padrão é a include all cases, ou seja, a operação será realizada em todos os casos existentes no banco de dados. Podemos, no entanto, selecionar o caso em que esta operação se realizará ao clicarmos na opção: include if case satisfies condition. Indicaremos, então, uma nova expressão numérica que deve ser satisfeita para que a operação matemática indicada seja realizada. Também neste caso, a expressão numérica pode incluir funções matemáticas mais complexas. Apresentamos, a seguir, alguns exemplos básicos para facilitar a compreensão da utilização do comando: Condição
Expressão
Variável C é menor que 100
C < 100
Variável C é diferente de A
C <> A
Variável C é menor que a soma de A e B
C < A + B
20
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.4 RECODIFICAÇÃO DE VARIÁVEIS
1.4.1 RECODIFICAR UMA VARIÁVEL
A necessidade de recodificação de variáveis envolve basicamente duas situações: a agregação de categorias de maneira a construir novas categorias mais apropriadas para a análise estatística desejada e a transformação de variáveis do tipo ordinal em variáveis categóricas. Por cautela, recomenda‐se que as variáveis originais a serem recodificadas nunca sejam excluídas após a sua recodificação. Deve‐se salientar, que para a execução de uma boa recodificação é essencial termos um conhecimento claro da distribuição de valores da variável original. As etapas para se chegar a este conhecimento serão explicadas posteriormente na secção ANÁLISE DESCRITIVA. Tendo seleccionado os parâmetros para a nova recodificação, deve‐se seguir o seguinte caminho: na barra de ferramentas seleccione TRANSFORM e depois RECODE. Em seguida, as seguintes opções para a realização da recodificação aparecerão: into same variables / into different variables. A primeira opção realiza a recodificação da variável sobre ela mesma, apagando o conteúdo da variável original. A segunda opção realiza a recodificação em uma variável diferente, permitindo que se mantenha a variável original intocada. Descreveremos a seguir o funcionamento das duas opções. No quadro abaixo sugerimos um exemplo típico de recodificação para permitir uma melhor compreensão do comando. Quando aplicamos questionários, é muito comum colhermos a informação idade na forma de valores absolutos. Na hora da análise, surge a necessidade de criar faixas etárias, pois para uma série de aspectos a análise por faixa facilita o trabalho. Surge, então, a seguinte situação: IDADE EM VALOR ABSOLUTO
COMANDO DE RECODIFICAÇÃO
NOVA VARIÁVEL RECODIFICADA
2
0 até 4 → 1
1
9
5 até 9 → 2
2
15
10 até 14 → 3
4
20
15 até 19 → 4
5
25
20 até 24 → 5
6
26
25 até 29 → 6
6
21
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS No comando definição da variável, todos estes valores da nova variável devem ser definidos como categorias (value labels). Assim, as análises serão reproduzidas pelo computador de uma forma que todos saberão qual faixa etária corresponde cada um destes valores. Deixamos de ter uma variável com valor absoluto para termos uma variável com categorias e com um significado específico para cada uma delas. O 1 corresponderá à faixa de 0 até 4 anos, o 2 à faixa de 5 até 9 anos e assim por diante. Apesar de perdermos um pouco de precisão na informação, ganhamos em agilidade para a análise dos dados. 1.4.1.1 Recodificação na Variável Original
Figura 16: Recodificar variáveis
Para a opção Recode into Same Variables, devemos inicialmente seleccionar no painel da esquerda a variável da matriz de dados a ser recodificada. Feita a selecção, clicamos na seta à direita deste painel para que a variável seja introduzida no campo NUMERIC VARIABLE. Assim como para o comando COMPUTE, podemos seleccionar através do IF os casos onde esta recodificação será realizada. O funcionamento desta opção é idêntica à encontrada para o comando COMPUTE, por isso volte a este comando para obter qualquer esclarecimento sobre esta opção. 22
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS O passo seguinte da recodificação será indicar os valores novos que substituirão os valores a serem recodificados. Seleccionamos, para tal, a opção Old and New Values. Com esta selecção, encontraremos a seguinte figura: Figura 17: substituir os valores antigos
O campo Old Value deverá ser preenchido com os valores a serem recodificados,
enquanto que o Campo New Value deverá ser preenchido com os valores que substituirão estes valores a serem recodificados. No campo Old Value, os valores podem ser preenchidos na forma de valores absolutos ou intervalos. No campo New Value, os valores só podem ser preenchidos na forma de valores absolutos.2
A cada par de Old Value e New Value deve‐se clicar no campo Add para inserir este par na lista de recodificações planeadas. Qualquer alteração neste par de valores a serem recodificados pode ser realizada utilizando os recursos disponibilizados pelos campos: CHANGE e REMOVE. Após escolher todos os pares de valores a serem recodificados, basta apenas selecionar o campo CONTINUE. Por fim, é bom deixar explícito o significado dos termos system missing e user missing. Ao preenchermos a nossa matriz de dados, os campos deixados sem informação (em branco) são preenchidos automaticamente pelo computador ‐ system missing ‐ com o seguinte símbolo ʹ , Por 2
Estas limitações de preenchimento dos campos indica de maneira clara a utilidade do comando. Podemos construir, por
exemplo, faixas etárias de modo que cada intervalo etário será substituído por uma única categoria ( 0 à 9 anos → 1 , 10 à 19
anos → 2 , .... )
23
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS outro lado, os valores denominados de user missing são definidos pelo próprio utilizador através da definição dos missing values quando se define as variáveis. 1.4.1.2 Recodificação numa nova Variável
Para a opção Recode into Different Variables, devemos inicialmente seleccionar no painel à esquerda a variável da matriz de dados a ser recodificada. Feita a selecção, clicamos na seta à direita deste painel para que a variável seja introduzida no campo NUMERIC VARIABLE → OUTPUT VARIABLE. Como estamos a recodificar em diferentes variáveis, devemos em seguida preencher o campo OUTPUT VARIABLE com o nome da nova variável a ser criada com base no resultado da recodificação a ser realizada. O significado da nova variável pode ser definido ao preenchermos o campo LABEL. Tendo preenchido estas duas informações, basta clicar no campo CHANGE para que a nova variável seja também incluída no campo NUMERIC VARIABLE → OUTPUT VARIABLE. Figura 18: Criar uma variável com base em outra existente
Os comandos IF (selecção dos casos para recodificação) e Old and New Value (indicação dos valores a serem substituídos e dos valores novos) seguem as mesmas regras descritas para a opção Recode into Same Variable. 24
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.5 SELECÇÃO DE CASOS PARA A ANÁLISE
1.5.1 SELECCIONAR CASOS ESPECÍFICOS A SEREM
ANALISADOS
O recurso de selecção de casos para análise é muito utilizado, principalmente quando queremos restringir a análise a um grupo social específico dentre todos os presentes no conjunto total da amostra. Seu uso no desenvolvimento de análises comparativas é limitado pelo facto de que o software já traz uma série de recursos que possibilitam a efectivação desse uso de análise de uma maneira mais simplificada. Para fazermos uma selecção de dados, devemos ir a barra de ferramentas e seleccionar DATA e depois SELECT CASES. O campo Select mostra 5 opções para selecção dos casos: All Cases (Todos os Casos), If Condition is Satisfied (Se Condição for Satisfeita), Random Sample of Cases (Amostragem Aleatória dos Casos), Based on Case Range (Baseado em Intervalo de Casos) e User Filter Variable (Uso de Variável Filtro). A primeira opção ‐ All Cases ‐ permite trabalhar com todos os casos da amostra e é automaticamente definida pelo SPSS. O quadro select assemelha‐se ao quadro abaixo. Figura 19: Seleccionar/ excluir casos específicos
25
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS A segunda opção ‐ If Condition is Satisfied ‐ nos permite estabelecer uma condição em função de uma expressão matemática que deve ser satisfeita para que cada caso específico entre no grupo dos que serão analisados. Figura 20: Impor condições à selecção
Esta janela é bastante semelhante àquela encontrada no comando COMPUTE na opção IF. O painel à direita deverá ser preenchido com alguma expressão matemática que contenha pelo menos uma das variáveis presentes na lista à esquerda. Esta expressão agirá como um condicionante para que o caso seja inserido no grupo dos que serão analisados. Como exemplo de condição temos por exemplo: idade > 5 (a análise se restringirá às pessoas com mais de cinco anos de idade) A terceira opção ‐ Random Sample of Cases ‐ permite escolher o número de casos a serem analisados em função de uma selecção aleatória simples. Poderemos indicar aproximadamente a percentagem de casos a serem seleccionados no total de casos ou o número exacto de casos dentro de um número específico de primeiros casos; por exemplo: cinco casos dentro dos 100 primeiros. 26
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 21: Escolher uma amostra aleatória
A quarta opção ‐ Based on Case Range ‐ permite escolher os casos dentro de uma faixa específica de ordem de codificação. Figura 22: Escolher um intervalo de dados
Com base no código do caso ‐ número do caso presente na margem esquerda da tabela de matriz de dados ‐ indicaremos o intervalo de casos a serem seleccionados. A quinta e última opção ‐ User Filter Variable ‐ permite seleccionar os casos em função de uma variável filtro definida previamente. Esta opção exige uma variável de tipo especial (dummy) composta apenas de valores 0 e 1, onde os valores 1 serão seleccionados e os valores 0 não serão seleccionados. 27
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.6 ANÁLISE DESCRITIVA DOS DADOS
FAZER UMA ANÁLISE DESCRITIVA BASEADA EM MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO (MODA, MÉDIA, MEDIANA, DESVIO PADRÃO, ETC.) As análises das tendências centrais são muito importantes. Os indicadores de tendência central são capazes de nos mostrar como uma certa variável ou característica do grupo estudado se distribui utilizando apenas um número. De um modo geral, dois factores são importantes nas análises deste tipo: a avaliação da tendência central da distribuição e a avaliação da dispersão dos valores em torno desta tendência central. Mostraremos aqui apenas um dos possíveis caminhos para se chegar a estas medidas de tendência central. Na barra de ferramentas seleccione ANALYSE, depois DESCRIPTIVES STATISTICS e depois FREQUENCIES. Chegaremos, então, a seguinte figura: Figura 23: Estatística Descritiva
Este comando permite trabalharmos com a descrição da distribuição de valores de variáveis ordinais e categóricas. Seu padrão, no entanto, está direccionado para a análise de variáveis categóricas. Para conseguirmos indicadores de tendência central devemos seleccionar no campo STATISTICS aqueles indicadores que consideramos importantes. Podemos excluir as tabelas de frequências quando as variáveis a analisar forem quantitativas, já que seriam desapropriadas. 28
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Este processo de desactivação é conseguido se clicarmos sobre o quadrado que se encontra atrás da opção DISPLAY FREQUENCY TABLE. Ao clicarmos sobre o campo STATISTICS chegaremos a seguinte figura: Figura 24: estatística descritiva
Tendo chegado a esta figura, basta seleccionarmos entre as diversas opções existentes aquelas que desejamos. Entre as medidas de tendência central temos as seguintes opções: média, moda, mediana e soma; entre as medidas de dispersão dos valores temos as seguintes opções: desvio padrão, variância, intervalo, valor máximo e mínimo e média do erro padrão; em relação aos valores percentuais poderemos obter os quartis, os diversos percentis desejados e os valores que dividem a amostra no número de partes iguais desejadas3. Tendo feito a selecção das medidas desejadas, basta clicar em CONTINUE. A opção CHART relaciona uma série de recursos para a visualização gráfica da distribuição de dados de variáveis categóricas; sendo única excepção o histograma. Como pretendemos medidas de tendência central, nossa análise está restringinda a variáveis quantitativas ou em alguns casos ordinais. Ao clicarmos na opção CHART chegaremos na figura abaixo, onde poderemos seleccionar histogramas. Existirá ainda a alternativa de produzir a curva normal do gráfico, se seleccionarmos a opção With normal curve. 3
Os pontos de corte são obtidos a partir da partição da sequência, formada pelos valores ordenados da variável, no número
de partes desejadas. Os valores obtidos como Cut Points são os valores que estão justamente no ponto em que essas partes
são divididas.
29
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 25: Gráficos descritivos simples
A opção FORMAT relaciona uma série de recursos para a construção das tabelas de frequência, que como já foi dito antes se restringe a análise de variáveis categóricas. Estas duas opções serão descritas posteriormente quando tratarmos da análise da distribuição de variáveis categóricas. Tendo seleccionado as opções de medidas centrais presentes no campo STATISTICS basta seleccionar as variáveis a serem analisadas e introduzi‐las no campo VARIABLES. ALTERNATIVA DE CONSTRUÇÃO DE GRÁFICOS PARA ANÁLISES DE TENDÊNCIA CENTRAL Existe ainda um segundo modo de chegarmos a uma representação gráfica de medidas de tendência central. Na barra de ferramentas escolheremos GRAPHS, depois BOX PLOT e chegaremos na seguinte figura: Figura 26: Gráficos de Bigodes para
análise comparativa dos grupos
30
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Este gráfico permite fazer uma análise descritiva comparativa de distribuições de dados entre grupos de casos separados. Os seus resultados são baseados na distribuição dos quartis e mediana. A definição do parâmetro de repartição da amostra é dada em função das categorias de uma segunda variável. Seria útil, como podemos ver abaixo, na comparação da distribuição dos dados entre os géneros. 100000
80000
29
60000
343
205
160
32
431
446
198
456
173
34
137
257
290
200
71
430
329
450
103
420
232
341
Beginning Salary
40000
348
134
20000
189
468
462
74
467
222
413
0
N=
216
258
Female
Male
Gender
Estamos separando a análise da distribuição dos salários entre homens e mulheres. O eixo Y do gráfico mostra os valores da variável Beginning Salary. Dentro deste gráfico, a linha preta no interior do rectângulo vermelho corresponde a mediana da distribuição em cada categoria sexual, os rectângulos vermelhos compreendem a distribuição de 50 % dos casos e os traços pretos acima a abaixo deste rectângulo compreendem os 50% restantes dos casos. Os pontos pretos acima e abaixo destes traços pretos são denominados outliers e podem ser definidos como os valores dos casos que se diferenciaram muito da distribuição central dos dados (estão fora da distribuição principal). Como podemos ver, temos neste gráfico não só uma ideia da tendência central da distribuição da variável, mas também, uma ideia da dispersão desta distribuição. No menu para definição deste gráfico, poderemos escolher entre trabalhar com apenas uma variável no eixo X (simple) ou trabalhar com duas variáveis agregadas no eixo X (Clustered). Poderemos, ainda, seleccionar por trabalhar com a separação por grupos de casos (groups of cases) ou por variáveis (separate variables). 31
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Se selecionarmos a opção SIMPLE e Summaries for Groups of Cases, chegaremos a seguinte figura: Figura 27: Gráficos de Bigodes - Descrição Comparativa de duas variáveis
Os campos Variable, Category Axis e Label Cases By devem ser preenchidos com as variáveis seleccionadas presentes no rectângulo da esquerda. Na construção do BOX PLOT, o campo VARIABLE deve ser preenchido com a variável em função da qual se deseja fazer a análise de tendência central e o campo CATEGORY AXIS deve ser preenchido com a variável em função da qual serão estabelecidos os grupos de casos a serem comparados, por exemplo, homem ou mulher. O preenchimento do campo Label Cases By não é obrigatório e a variável presente neste campo será usada para caracterização dos outliers. Se continuarmos com a opção Summaries for Groups of Cases e seleccionarmos a opção Clustered, além de preenchermos os campos indicados acima para a opção Simple, passaremos a ter que preencher o campo: Define Clusters By. Este campo deverá ser preenchido com a variável em função da qual definiremos uma nova divisão dos casos dentro daquela divisão já feita anteriormente. Chegaremos a um gráfico como o abaixo, onde encontramos uma divisão por pertença ou não pertença a alguma minoria dentro de cada categoria sexual. 32
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 160000
140000
29
120000
32
18
343
100000
103
80000
446
383
430
Current Salary
60000
341
371
348
468
240
72
80
168
413
277
134
242
40000
447
146
97
14
Minority Classificat
20000
No
Yes
0
N=
176
40
Female
194
64
Male
Gender
Se seleccionarmos a opção SIMPLE e Summaries of Separate Variables, chegaremos a uma figura como a abaixo. Deveremos preencher o campo BOXES REPRESENT com as variáveis a serem analisadas no gráfico. A análise passará a ser feita, então, para todo o conjunto de casos e para cada variável separadamente. Enquanto que a análise anterior era feita por grupos de casos diferentes e para apenas uma variável por vez. O campo Label Cases By deverá ser preenchido como designado acima no caso do BOX PLOT por grupos de casos. Figura 28: Gráficos de Bigodes para grupos de casos
33
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Se continuarmos com a opção Summaries of Separate Variables e seleccionarmos a opção Clustered, além de preenchermos os campos indicados acima para a opção Simple, passaremos a ter que preencher o campo: Category Axis. Este campo deverá ser preenchido com a variável em função da qual definiremos uma divisão dos casos. Chegaremos a um gráfico como o abaixo, onde podemos comparar a diferença do comportamento da variável salário actual e salário inicial entre homens e mulheres. 160000
140000
29
120000
32
18
343
446
103
34
106
454
431
100000
80000
29
60000
371
348
468
240
72
80
168
413
277
134
242
40000
348
134
468
189
222
74
467
462
413
20000
343
205
160
431
32
446
198
456
173
34
137
257
290
420
103
71
329
450
200
430
232
341
Beginning Salary
Current Salary
0
N=
216
216
Female
258
258
Male
Gender
34
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.6.1 COMO FAZER UMA ANÁLISE DESCRITIVA BASEADA
NA
DISTRIBUIÇÃO DE FREQUÊNCIA
Análises descritivas baseadas na distribuição de frequências são usadas para variáveis categóricas. Neste caso conseguimos saber a participação numérica e percentual de cada categoria no total de casos analisados por variável. Na barra de ferramentas devemos selecionar ANALYSE, depois DESCRIPTIVES STATISTICS e depois FREQUENCIES. Chegaremos, então, a seguinte figura: Figura 29: Tabelas de Frequências
Após escolhermos a variável sobre a qual queremos construir a tabela de frequência, poderemos escolher no campo FORMAT algumas opções em relação ao formato desta tabela. Chegaremos a seguinte figura: Figura 30: Apresentação dos dados em Tabela
35
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Poderemos escolher a ordem com que as categorias das variáveis serão mostradas na tabela: • ascending values: categorias aparecem em ordem crescente do valor da categoria • descending values: categorias aparecem em ordem decrescente do valor da categoria • ascending counts: categorias aparecem em ordem crescente do valor do número total de casos por categoria • descending counts: categorias aparecem em ordem decrescente do valor do número total de casos por categoria Na opção MULTIPLE VARIABLE poderemos escolher entre incluir os resultados das análises de todas as variáveis trabalhadas num mesmo relatório (compare variable) ou produzir um relatório por variável (organize output by variable). Na opção SUPRESS TABLES WITH MORE THAN poderemos escolher por excluir do relatório aquelas tabelas que tenham um certo número definido de categorias. Após escolhermos o formato de construção da tabela, poderemos também escolher por dar uma forma gráfica a estes resultados. Clicando na opção CHART chegaremos na figura abaixo, onde poderemos escolher por trabalhar com um gráfico de barras, um gráfico de Sectores ou um histograma. Poderemos ainda seleccionar se os valores que aparecerão no gráfico serão os valores absolutos de casos das categorias (frequencies) ou os percentuais destes valores em relação ao número total de casos (percentages). Por fim, no caso de trabalharmos com o histograma, poderemos seleccionar se queremos que apareça a curva da normalidade do gráfico. Figura 31: Gráficos de Barras
36
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7 ANÁLISE DE CORRELAÇÃO/ ASSOCIAÇÃO ENTRE
VARIÁVEIS
A análise de correlação/ associação entre duas variáveis é um caso bastante simples de análise de correlação entre variáveis, pois de um modo geral este fenómeno se estende por mais de duas variáveis. Para uma análise mais completa, levando várias variáveis em consideração ao mesmo tempo, devemos trabalhar com análises de regressão. 1.7.1 COMO CONSTRUIR UMA TABELA PARA VERIFICAR A
RELAÇÃO ENTRE VARIÁVEIS (CROSSTABS)
Um passo inicial para as análises de correlação/ associação é a construção de tabelas de contingência, que tem o formato de (x) linhas por (y) colunas. O número de linhas e colunas é resultado do número de categorias das variáveis trabalhadas. Em geral, não se recomenda trabalhar com um número exagerado de linhas ou colunas, pois isso dificulta a análise da tabela. Para realizar a construção da tabela devemos ir a barra de ferramentas e escolher a opção ANALYSE, depois DECRIPTIVES STATISTICS e em seguida CROSSTABS. Chegaremos a uma figura como a abaixo. O campo ROW deverá ser preenchido com a variável a ser colocada na linha da tabela. O SPSS tem como padrão colocar sempre a variável independente neste campo. O campo COLUMN deverá ser preenchido com a variável a ser colocada na coluna da tabela. O SPSS tem como padrão colocar sempre a variável dependente neste campo. Note que estes campos poderão ser preenchidos com mais de uma variável. Serão construídas, então, quantas tabelas forem necessárias envolvendo 2 variáveis para cumprir com as alternativas possíveis de cruzamento 37
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS entre as variáveis indicadas. Por exemplo, se colocarmos a variável idade e educação na linha e sexo na coluna, chegaremos a duas tabelas: idade * sexo e educação * sexo. Figura 32: Tabelas de Contingência
O rectângulo abaixo do campo COLUMN poderá ser preenchido com uma nova variável que será utilizada na construção de uma tabela envolvendo três variáveis como a que segue. Também este campo poderá ser preenchido com mais de uma variável. Gender * Minority Classification * Employment Category Crosstabulation
Count
Employment Category
Clerical
Custodial
Manager
Gender
Total
Gender
Total
Gender
Total
Female
Male
Male
Female
Male
Minority Classification
No
Yes
166
40
110
47
276
87
14
13
14
13
10
70
4
80
4
38
Margarida Pocinho e João Paulo de Figueiredo
Total
206
157
363
27
27
10
74
84
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Como podemos perceber, associámos a variável independente sexo colocada na linha com a variável dependente classificação em minoria colocada na coluna dentro de cada posição ocupacional. Se a opção Display Clustered Bar Charts estiver selecionada, o relatório fornecido pelo SPSS fornecerá, além da tabela de cruzamento das variáveis, um gráfico de barras com o conteúdo da tabela. Em muitos casos o comando CROSSTABS poderá ser utilizado apenas para conseguirmos coeficientes numéricos de correlação entre variáveis. Neste caso, é recomendável seleccionar o campo SUPPRESS TABLES. Para chegarmos a estes coeficientes deveremos seleccionar no campo STATISTICS os coeficientes com que queremos trabalhar. Isto será objecto da próxima questão. Ao seleccionarmos o campo CELLS chegaremos a figura abaixo, onde poderemos escolher se desejamos que a tabela mostre os valores absolutos observados no cruzamento, os valores esperados em função da distribuição das marginais e os diversos percentuais de distribuição dos casos em função dos totais da linha, coluna ou da tabela. Figura 33: Frequências, Percentagens e Residuos
Se seleccionarmos o campo FORMAT chegaremos a figura abaixo, onde poderemos seleccionar a ordem de apresentação das categorias presentes na linha. 39
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7.2 COMO CONSTRUIR ANÁLISES DE CORRELAÇÃO
ENTRE VARIÁVEIS
A construção desta análise exige que se tenha um conhecimento mais aprofundado de estatística para que possamos seleccionar de maneira mais adequada os coeficientes de correlação a serem analisados. Cada tipo de tabela, dependendo do tipo de variável trabalhada, exige que se analise um coeficiente diferente. Toda análise desse tipo envolve, em geral, uma análise da dependência entre as variáveis e depois uma análise da intensidade da correlação. A análise da dependência lhe permite averiguar se a relação encontrada entre as variáveis decorre de uma simples coincidência dos casos analisados, ou pelo contrário é probabilística. Já a análise da intensidade da correlação indica a intensidade desta associação. Utilizando o caminho indicado acima para chegarmos no quadro CROSSTABS, chegaremos à figura 32 atrás apresentada. Se quisermos ver apenas os coeficientes de correlação, deveremos seleccionar o campo SUPPRESS TABLES. Em seguida, deveremos seleccionar o campo STATISTICS para podermos escolher os coeficientes com que queremos trabalhar. Surgirá, então, a seguinte figura: Figura 34: Estatísticas das Contingências
40
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS A análise do Chi‐square permite, como foi indicado acima, levantar em que medida a associação encontrada acima decorre de uma coincidência dos casos analisados, ou seja, se decorre de um erro amostral, ou de uma real correlação entre as variáveis. Deveremos, então, seleccionar os coeficientes de correlação desejados. Não se esqueça que cada um deles tem uma utilidade específica e os resultados de coeficientes diferentes não podem ser comparados sem nenhum critério. É recomendável que se faça toda a análise em função de apenas um coeficiente, para que seus valores sejam comparáveis com facilidade. O próprio SPSS trás na tabela acima, como pode ver, algumas indicações para a escolha. Para trabalhar com variáveis nominais foram indicados os seguintes coeficientes: coeficiente de contingência, Phi, V de Cramer, coeficiente de incerteza e Lambda. Para trabalhar com variáveis ordinais foram indicados os seguintes coeficientes: Gamma, Somers e Kendall. Os campos ROW, COLUMN e o rectângulo abaixo do campo COLUMN deverão ser preenchido como especificado no item acima. Uma outra forma de obter uma correlação bivariada é através do menu ANALYSE, CORRELATE, BIVARIATE. Figura 35: Correlações Bivariadas
41
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS No painel da direita coloca as variaveis que pretende correlacionar, escolhe o coeficiente em função do tipo de variáveis e clica em OK. Figura 36: Correlação de Pearson
Em output aparecerá uma matriz de correlações bivariadas Correlations
Idade
Parede posterior do VE
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Idade
1,000
,
214
,100
,145
214
42
Margarida Pocinho e João Paulo de Figueiredo
Parede
posterior
do VE
,100
,145
214
1,000
,
214
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7.3 GRÁFICOS DE DISPERSÃO COM RECTA DE
REGRESSÃO
Uma outra forma de verificar uma relação é recorrer ao teste gráfico de dispersão. O gráfico de dispersão (scatterplot) é um gráfico de pontos, representando num plano (x,y) N pares de valores numéricos escalares, que permite analisar a distribuição conjunta das duas variáveis. Este tipo de gráficos é muito útil como metodologia prévia de análise a problemas de regressão, quando se tenta ajustar uma função y=f(x), que estabelece uma relação de dependência entre as duas variáveis. Permite igualmente detectar observações outliers bi‐variadas, isto é, observações que se afastam do contexto das restantes observações, mesmo que, analisadas isoladamente em relação a cada variável, não se suspeite desses outliers. No eixo dos xx representa‐se a variável independente ou causal, e no eixo dos yy a variável dependente, resposta ou efeito. O procedimento pode ser observado na figura que se segue (GRAPHS, SCATTER) Figura 37: Gráficos de Dispersão
43
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Após este procedimento aparece uma janela em que deve escolher o tipo de teste gráfico. O teste é escolhido em função do n.º de variáveis a relacionar. Nesta janela, deve seleccionar‐se o tipo de gráfico de dispersão a executar: Simple quando se pretende representar num plano xy uma série de observações bi‐variadas (x,y); se nessa série existem diferentes categorias, definidas por uma terceira variável categórica, podem identificar‐se os pontos correspondentes a cada categoria com marcas diferentes; Overlay quando se pretende representar num mesmo plano (x,y) duas ou mais séries de observações bi‐variadas (x,y) da mesma natureza; Matrix quando se pretendem representar os gráficos xy de todas as combinações possíveis de duas ou mais variáveis; isto é, dispondo de 3 variáveis genericamente identificadas por x,y,z, esta opção representa os seguintes gráficos: (x,y), (x,z), (y,z), bem como a imagem simétrica destes gráficos; este gráfico é útil para uma análise exploratória das associações entre diversas variáveis; 3‐D representa o gráfico espacial a 3 dimensões definido pelos eixos (x,y,z). Figura 38: Seleccionar o gráfico de Dispersão simples
Se escolheu o simple coloque a variável dependente no eixo dos yy e a independente no eixo dos xx, tal como na figura que se segue. 44
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 39: Seleccionar as variáveis a correlacionar
90
80
70
60
50
40
Idade
30
20
10
,6
,8
1,0
1,2
1,4
1,6
Espessura do septo interventricular
Para colocar a recta de regressão faça um CLICK DUPLO sobre o gráfico e aparecerá a janela CHART EDITOR, tal como pode observar na figura que se segue. Escolha o menu CHART, OPTIONS. 45
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 40: Opções de apresentação do gráfico
46
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Selecione FIT LINE e FIT OPTIONS Figura 41: Coloca recta de regressão num gráfico de dispersão
Escolha o método de regressão Linear (por exemplo) e selecione em REGRESSION OPTIONS display rsquare in legend. O gráfico passará a ter o seguinte aspecto. Figura 42: Colocar coeficiente de determinação (r2) no gráfico de dispersão
47
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 90
80
70
60
50
40
Idade
30
20
10
Rsq = 0,0084
,6
,8
1,0
1,2
1,4
1,6
Espessura do septo interventricular
Como se pode observar não existe relação. r=0.091 r2=0,0084 coeficiente de determinação = r2x100=0,8% 48
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Mas se o resultado fosse aquele que se vê no grafico seguinte ler‐se‐ia Figura 43: Gráfico de Dispersão com recta de regressão e coeficiente de determinação
A duração da onda P no 4º espaço intercostal e a duração da onda P no 5.º espaço intercostal têm uma correlação positiva de 52,4%, isto é existe um padrão em 52,4% dos indivíduos onde quanto maior é a duração da onda P no 4.º espaço intercostal maior é a do 5.º espaço intercostal 49
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7.4 TESTES T
As metodologias estatísticas que envolvem testes de hipóteses acerca de médias designam‐se genericamente por testes t. Existem vários tipos de testes t. O SPSS dispõe de três tipos: •Teste t para a média de uma amostra: compara a média de uma amostra com a média conhecida de uma população. São apresentados os parâmetros estatísticos da amostra em análise; igualmente é estabelecido um intervalo de confiança para a diferença entre as médias. Com este teste, pretende‐se verificar se podemos considerar que a média da determinada variável em análise é igual à média da população geral. Para o efeito recorre‐se ao menu ANALYSE Compare Means One‐Sample T Test. Figura 44: Teste t para uma amostra
50
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Aparece uma caixa de diálogo, onde se selecciona a variável a analisar e o valor hipotético da média da população (test value). Vamos por exemplo saber se a nossa amostra de indivíduos com HVE tem índices de massa corporal significativamente superiores a 25 Kg/m2. Figura 45: Colocar o parâmetro a comparar
De seguida, seleccionar a fim de definir o nível de confiança para (μ‐x) : Por defeito, está definido (1‐)=0.95; se o desejar, o utilizador poderá alterar este nível de confiança. Fazer e depois OK: 51
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 46: Output do teste t para uma amostra
O resultado mostra que para um nível de significância de 5%, deve rejeitar‐se a hipótese nula de que o IMC da nossa amostra, possa ser por exemplo de 25 (pois o p‐value ou significance level da amostra é de 0,001<a =0.05. de facto o IMC dos indivíduos com HVE é significativamente superior (+2,6 Kg/m2) à média da População portuguesa •Teste t para duas amostras independentes: Compara as médias de uma mesma variável ou característica observada sobre duas amostras independentes de indivíduos, com a condição de que os indivíduos sejam aleatoriamente atribuídos aos dois conjuntos em comparação (por exemplo, resultados obtidos sob um tratamento versus resultados obtidos sob outro tratamento diferente, ou de um modo genérico, controlo versus tratamento). São apresentados os parâmetros estatísticos das amostras em análise; é efectuado o teste de LEVENE para a homogeneidade das variâncias das duas amostras; são apresentadas as estatísticas de teste para as situações de variâncias homogéneas e não homogéneas; é estabelecido um intervalo de confiança para a diferença entre as médias. 52
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS O teste de Levene para decidir se existe diferenças entre as variâncias dos dois grupos, consiste numa análise de variância aos valores absolutos das diferenças entre os valores observados e a média de cada uma das amostras. Para tal, fazer ANALYSE, Compare Means, Independent Samples T Test. Figura 47: Teste t para amostras independentes
53
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Na caixa de diálogo seguinte, seleccionar a variável quantitativa a analisar (ex: idade); as duas amostras a comparar são dois sub‐grupos desta variável, definidos por uma variável dicotómica (ex: sexo); para tal, seleccionar esta variável para o campo Grouping variable: Figura 48: Colocar as variáveis em análise
54
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Para definir os sub‐grupos ou amostras, seleccionar define; usar os valores codificados da variável dicotómica (ex: group 1= 1 (código atribuído ao sexo masculino); group 2=2 (código atribuído ao sexo feminino). Figura 49: Definir os dois grupos em análise
No final, fazer continue. 55
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 50: Terminar o teste
Depois OK: 56
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amostras. No segundo quadro apresentam‐se os testes de homogeneidade de variâncias (Levene) e o teste t‐Student de comparação das médias das duas amostras. Figura 51: Output do Teste t de Student para amostras independentes
Começa por analisar‐se a homogeneidade das variâncias, isto é, verificar se se devem considerar homogéneas ou diferentes as variâncias dos dois sub‐grupos: Conclui‐se que se devem considerar as variâncias homogéneas, se a margem de erro aceite for de 0,05 pois p‐value deste teste (0,092) é superior a =5% , mas são heterogéneas se definimos a margem de erro de 0,01 (1% ‐ isto é, podemos fazer esta decisão com 99% de probabilidade de acertar). De seguida, aceitando um α de 0,05 faz‐se a decisão do teste t‐Student, para a situação de variâncias não homogéneas. O valor da estatística de teste é t=1,583 e p‐value = 0,114 > a =5%, concluindo‐se assim que a idade repouso, destas duas amostras, são estatisticamente iguais, para um nível de significância de 5%. 57
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS O intervalo de confiança a 95% para a diferença entre as médias é [‐0,477, 4.483], podendo teoricamente a diferença ser nula, uma vez que o intervalo contém o zero. •Teste t para duas amostras emparelhadas: Compara as médias de duas variáveis ou características para uma mesma amostra de indivíduos (do género peso antes versus peso depois de um determinado tratamento). São apresentados os parâmetros estatísticos para as duas amostras em análise; é calculada a correlação entre as duas amostras; São apresentados os parâmetros estatísticos para as diferenças entre as duas amostras emparelhadas; é estabelecido um intervalo de confiança para a diferença entre as médias. Antes de prosseguir para os testes t é aconselhado fazer uma análise exploratória dos dados, nomeadamente o diagrama de extremos‐e‐quartis e os valores extremos. Nesta análise pode concluir‐se que determinado caso constitui uma observação “outlier” que pode ser um erro de introdução de dados, por exemplo o observador queria registar o valor 165 e, por erro, introduziu 265, valor virtualmente impossível para o ritmo cardíaco de qualquer humano, mesmo que sujeito a condições in extremis. Contudo, como na realidade o estatístico não sabe ou que se passou, a melhor estratégia será ignorar este caso sempre que analisar aquela variável. 58
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Para tal, fazer: Data Select Cases 59
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Pretende‐se excluir um caso por exemplo o nº 6 da análise, isto é, incluir na análise todos os casos com excepção do caso nº 6. Para tal, na caixa de diálogo seleccionar if condition is satisfied Clicar no botão IF 60
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Definir que se seleccionam para análise todos os casos diferentes do caso nº 6: A indicação caso ~= 6 significa todos os casos excepto o caso 6. Clicar em CONTINUE. 61
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS E OK. 62
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS O Data Editor do SPSS criou automaticamente uma variável designada filter_$, em que indica quais os casos seleccionados e os não incluídos. Repare‐se que a linha 6 está traçada, indicando que este caso está excluído de futuras análises: Note‐se que este procedimento de seleccionar casos não é exclusivo nem obrigatório do procedimento da comparação de médias de duas amostras emparelhadas. É um procedimento geral a efectuar previamente a qualquer análise em que haja necessidade de seleccionar ou excluir casos. De seguida, passa‐se então à comparação das médias das duas amostras emparelhadas. Tal como o nome indica, deve haver pares de observações, de modo que ambas as amostras têm o mesmo número de observações. 63
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Para tal, fazer ANALYSE Compare Means Paired Samples T Test. Figura 52: Teste t para amostras emparelhadas ou relacionadas
64
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Na caixa de diálogo seguinte, seleccionar as duas variáveis emparelhadas cujas médias se pretendem comparar: O botão serve para definir o intervalo de confiança para a diferença entre as duas médias (por defeito, (1‐)=0.95). Figura 53: Seleccionar variáveis no Teste t para amostras emparelhadas ou relacionadas
65
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Observe em current selections se é o par que pretende e clique na seta central para o par passar para o painel do lado direito. Figura 54: Finalizar Teste t para dados emparelhados ou relacionados
Dê OK. 66
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Os resultados são os seguintes: Figura 55: Output do Teste t para amostras emparelhadas ou relacionadas
No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amostras. Repare‐se que foram só levados em conta 386 das 387 observações em cada amostra. O quadro seguinte apresenta o valor do coeficiente de correlação de Pearson entre as duas variáveis (r=0.859). No último quadro é apresentado o valor da diferença entre dois momentos: factores de risco cardiovasculares antes de uma acção de formação sobre como prevenir problemas cardiovasculares e 1 ano após acção de formação (1,2578), o intervalo de confiança para a diferença entre médias ([1,1754 , 1,3402]) e o valor da estatística de teste t‐Student t= ‐30.007, bem como os graus de liberdade do teste e o valor p‐value ou verdadeiro nível de significância (0.000). Como p‐value= 0.001 < á =5%) conclui‐se que as médias são significativamente inferiores depois da acção de formação. 67
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7.5 Análise de variância – ensaios uni-factoriais
A análise de variância é uma metodologia estatística cujo objectivo é decidir se existem ou não diferenças significativas entre as médias de várias amostras de uma variável numérica, definidas por exemplo por diferentes tratamentos ou níveis de influência de um factor. Esta metodologia é uma extensão do teste t‐Student para duas amostras independentes. De um modo muito resumido, a metodologia ANOVA calcula a variabilidade total existente na característica ou variável em análise, e atribui esta variabilidade a duas causas: uma causa determinista, que é o facto de as amostras serem sujeitas a tratamentos distintos (variabilidade entre tratamentos); causas aleatórias ou erro experimental, que engloba todas as restantes fontes de variabilidade, com excepção dos diferentes tratamentos (variabilidade residual ou erro experimental). Estas variabilidades são estimativas de variância (entre tratamentos, e residual, respectivamente). Isto é: Variabilidade Total = Variabilidade entre Tratamentos + Variabilidade Residual.
A estatística de teste é a estatística F, que é uma razão entre variâncias, que sob o pressuposto de que as observações têm distribuição normal, segue uma distribuição F de Snedecor. Se a estatística F é demasiado grande, então é porque a variância entre tratamentos é preponderante em relação à variância residual, isto é, os diferentes tratamentos a que a amostra foi sujeita conduz a resultados estatisticamente diferentes. Na sequência de uma análise de variância em que se conclua que existem diferenças significativas entre as médias dos diversos tratamentos em análise, faz‐se um teste suplementar a fim de identificar quais são as médias estatisticamente diferentes. Os mais usuais são os testes LSD (Least Significant Difference, Diferença Mínima Significativa), HSD‐Tuckey (Honnestly Significant Difference), Scheffé, Duncan. A anova simples (ensaios uni‐factoriais) pode ser executada no SPSS com dois procedimentos: 68
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS PROCEDIMENTO ONE‐WAY ANOVA Este é o procedimento que conduz à elaboração típica da análise de variância, e no qual é possível definir a obtenção de mais resultados no âmbito desta metodologia estatística. A partir do menu principal do SPSS, seleccionar: ANALYSE Compare Means, One‐Way ANOVA... Figura 56: ANOVA de um critério
Seleccionar para o campo factor o nome da variável nominal (por exemplo estado civil) e para o campo da dependent list a variável que contém os resultados a analisar (no exemplo, depressão geriátrica). 69
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 57: Selecciona variáveis para ANOVA
Seleccionar a opção para definir qual ou quais os testes de comparação de médias a efectuar na sequência da anova. Pode seleccionar‐se apenas um ou mais testes, clicando em post‐hoc. 70
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 58: Testes Post-hoc
No exemplo, pediram‐se os testes LSD e Tuckey. O nível de significância é, por defeito (0,05) 5%, podendo este valor ser definido pelo utilizador: Fazer continue, voltando à janela One‐Way ANOVA, onde se pode seleccionar o botão options a fim de definir cálculos adicionais; no caso, pediram‐se o cálculo dos parâmetros estatísticos descritivos, a realização do teste de Levene para verificar se as variâncias dos diferentes tratamentos são homogéneas e representar graficamente as médias dos diferentes tratamentos. 71
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Os resultados são os seguintes: Figura 59: Output do teste ANOVA
O primeiro quadro de resultados contém a médias, desvio padrão e erro padrão da média e intervalo de confiança da média, mínimo e máximo para cada tratamento. De seguida é apresentado o teste de homogeneidade de variâncias de Levene: como p‐
value=0,327 > 0,05, conclui‐se que as variâncias são homogéneas, isto é, dentro de cada um dos estados civis a variabilidade da depressão é apenas devida a causas aleatórias. O quadro que se segue é a tabela da análise de variância, apresentando a variabilidade particionada entre os tratamentos (between groups) e residual (within groups). Como p‐
value=0,486 > 0,05, conclui‐se que não existem diferenças significativas de depressão entre os diversos estados civis, com um nível de significância de 5%. Uma vez que não existem diferenças não necessitamos de verificar as diferenças entre as comparações múltiplas, porque elas não existem. Mas imaginemos existiam diferenças, então o resultado de apenas esta tabela não nos permitiria concluir qual ou quais os estados civis que conduzem depressões significativamente 72
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS diferentes de outros. Para concluir tal, há que proceder à comparação da média de cada um dos tratamentos com todas as restantes. Esta comparação é feita em termos do valor absoluto das diferenças entre médias: se esta diferença entre duas médias é pequena, então as médias não diferem; se a diferença é grande, então as duas médias são estatisticamente distintas. Este é o princípio de qualquer teste de comparações múltiplas. Contudo, há que fixar um critério que defina a fronteira entre o que é uma diferença grande e uma diferença pequena. Este critério é estabelecido por cada um dos testes (LSD, Scheffé, Tukey, etc), com base em expressões que relacionam a média das somas dos quadrados residual (calculada na tabela anova) e com base em funções de distribuição de probabilidades. No quadro dos resultados dos testes de comparações múltiplas são identificados com o símbolo * (asterisco) quais os tratamentos cujas médias diferem significativamente, como se pode ver no exemplo que se segue. Multiple Comparisons
Dependent Variable: Idade/anos
(I) Estado Civil
(J) Estado Civil
Mean Difference (I-J)
Std. Error
95% Confidence Interval
Sig.
Lower Bound
solteiro
casado
Tukey HSD
divorciado
-2,26
1,459
,409
-6,05
divorciado
-3,04
1,258
,078
-6,30
,22
viuvo
1,30
1,816
,891
-3,41
6,00
solteiro
2,26
1,459
,409
-1,52
6,05
divorciado
-,77
1,142
,905
-3,73
2,18
viuvo
solteiro
3,56
3,04
1,737
1,258
,173
,078
-,94
-,22
8,06
6,30
casado
,77
1,142
,905
-2,18
3,73
1,572
,032
,26
8,41
solteiro
-1,30
1,816
,891
-6,00
3,41
casado
-3,56
1,737
,173
-8,06
,94
-4,34(*)
1,572
,032
-8,41
-,26
-2,26
1,459
,123
-5,14
,61
divorciado
LSD
solteiro
casado
divorciado
casado
divorciado
-3,04(*)
1,258
,017
-5,52
-,56
viuvo
1,30
1,816
,476
-2,28
4,88
solteiro
divorciado
2,26
-,77
1,459
1,142
,123
,498
-,61
-3,03
5,14
1,48
viuvo
3,56(*)
1,737
,042
,14
6,99
solteiro
3,04(*)
1,258
,017
,56
5,52
casado
,77
1,142
,498
-1,48
3,03
viuvo
viuvo
1,52
4,34(*)
viuvo
viuvo
Upper Bound
casado
4,34(*)
1,572
,006
1,24
7,44
solteiro
-1,30
1,816
,476
-4,88
2,28
casado
-3,56(*)
1,737
,042
-6,99
-,14
divorciado
-4,34(*)
1,572
,006
-7,44
-1,24
* The mean difference is significant at the .05 level.
73
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Repare‐se que ambos os testes acusam médias diferentes por estado civil. Contudo o teste LSD acusa existirem mais diferenças que o teste de Tuckey. Isto é, o teste LSD acusa como diferentes tratamentos cujas médias estão menos afastadas do que o teste Tuckey, que dá, por assim dizer, maior margem de dúvida antes de imputar essas diferenças aos efeitos dos tratamentos. De seguida aparece um quadro complementar do teste Tukey em que agrupa os tratamentos em grupos homogéneos, sendo o critério de agrupamento o facto de não existirem diferenças significativas entre os médias dos tratamentos incluídos no mesmo grupo. O mesmo tratamento pode pertencer a mais do que um grupo, desde que não difira dos restantes tratamentos desse grupo. Idade/anos
Estado Civil
N
Subset for alpha = .05
1
Tukey
HSD(a,b)
2
viuvo
19
73,37
solteiro
33
74,67
74,67
casado
43
76,93
76,93
divorciado
Sig.
105
77,70
,091
,190
Means for groups in homogeneous subsets are displayed.
a Uses Harmonic Mean Sample Size = 34,568.
b The group sizes are unequal. The harmonic mean of the group sizes is used. Type I
error levels are not guaranteed.
Assim, os viúvos são significativamente mais novos que os divorciados. É claro que alguns dos estados civis pertencem aos dois grupos, isto é os solteiros e casados tem idades semelhantes. 74
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1.7.6 Procedimento Means
A partir do menu principal do SPSS, seleccionar: Analyse, Compare Means, Means. No campo da independente list coloca a variável qualitativa e no campo da dependente list a (s) variável (eis( quantitativa (s). Figura 60: Tabela ANOVA+Eta pelo procedimento Means
click em Options para seleccionar os parametros estatisticos que pretende e pedir a elaboração da tabela da análise de variância. Por defeito, são calculados os parâmetros média e desvio padrão; mas o utilizador pode seleccionar outras estatísticas a calcular. 75
Margarida Pocinho e João Paulo de Figueiredo
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS Figura 61: Selecção das estatísticas pelo procedimento Means
A tabela da anova é idêntica à obtida no procedimento anterior. Contudo, este procedimento não permite a obtenção dos testes à posteriori (post‐hoc). A estatística Eta‐Squared é a proporção de variância da variável dependente que é explicada pelas diferenças entre os tratamentos; é dado pela razão entre Soma dos Quadrados entre tratamentos (SSH) e a Soma dos Quadrados total (SST). A designação de Eta adoptada pelo SPSS no contexto da anova destina‐se a não fazer confusão com o coeficiente de determinação, R2, usado no contexto da regressão linear, e que pode ser obtido a partir da tabela da anova da regressão. O SPSS tem muito mais potencialidades. Se necessitar de algo que não esteja neste manual entre em contacto. 76
Margarida Pocinho e João Paulo de Figueiredo
Download

Manual SPSS