Exploração e Cruzamento de Variáveis com o SPSS Exploração de Variáveis Neste capítulo olharemos para a distribuição de uma variável, visualizando a sua representação gráfica. Neste capítulo veremos também como obter informação adicional sobre a distribuição das variáveis. Consulte o ficheiro de dados Resumo de uma distribuição · Na barra de menus escolher: Analyze Descriptive Statistics Explore… · Seleccionar a variável (ou variáveis) que se pretende explorar e colocá-la na lista de variáveis dependentes. Seleccionar a variável que define os grupos de casos e movê-la para a lista de factores. Resumo de uma distribuição Preparação do cálculo: Resumo de uma distribuição Obtém-se o seguinte resultado : Case Processing Summary Idade do respondente Emprego ou trabalho de casa Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito Número de casos da opção muito satisfeito. Valid N Cases Missing N Percent 2 ,6% 325 Percent 99,4% 319 99,7% 1 74 100,0% 26 100,0% Número de casos em falta para a mesma opção. Total N 327 Percent 100,0% ,3% 320 100,0% 0 ,0% 74 100,0% 0 ,0% 26 100,0% Percentagem de casos em falta. Resumo de uma distribuição Verifica-se que há 325 casos na categoria muito satisfeito para os quais a idade está disponível. O número de casos em falta é 2. Isto significa que 2 casos muito satisfeitos não têm um valor válido para a variável idade. Este número representa apenas 0,6% do total de casos, pelo que o seu efeito é de somenos importância. O número de casos varia consideravelmente entre os quatro grupos: mais de 300 indivíduos dizem-se moderadamente satisfeitos; 74 estão um pouco insatisfeitos; e apenas 26 estão muito insatisfeitos. As conclusões extraídas sobre os últimos dois grupos têm que ser cuidadosas, pois são baseadas num número pequeno de casos. Resumo de uma distribuição A tabela seguinte apresenta o resultado das estatísticas sobre os grupos de casos. Idade do respondente Mean 5% Trimmed Mean Muito satisfeito 41,50 41,05 Emprego ou trabalho de casa Moderadamente Um pouco satisfeito insatisfeito 39,49 40,26 39,11 39,83 Muito insatisfeito 38,58 38,19 Median Std. Deviation 40,00 11,54 39,00 10,89 38,00 10,72 36,50 9,91 Minimum Maximum Range Interquartile Range 19 82 63 15,50 20 75 55 16,00 23 72 49 14,25 22 63 41 17,00 Resumo de uma distribuição Utilize o editor de tabelas, Pivot Table Editor, para modificar a tabela. Para esconder linhas ou colunas, fazer Ctrl+Alt+Click sobre o topo da linha ou coluna. Depois premir o botão direito do rato e escolher Hide Category. As médias das idades variam do valor mais elevado de 41,5 no grupo muito satisfeito, até ao valor mais baixo de 38,58 no grupo muito insatisfeito. O valor das medianas é sensivelmente mais baixo para todos os grupos, porque as distribuições de idade têm caudas nos valores mais elevados de idade. Resumo de uma distribuição A média equilibrada (trimmed mean) evita este problema pois exclui os valores mais elevados, assim como os mais baixos. Na 5% trimmed mean, apenas são considerados 90% dos casos, no centro da distribuição, excluindo-se os 5% do extremo superior e os 5% do extremo inferior. O desvio padrão mais elevado pertence ao grupo muito satisfeito, pois este contém o valor de idade mais elevado: 82 anos. A linha Range dá-nos a amplitude de idades do grupo. O Interquartile range dá-nos a amplitude de idades do grupo, medida entre os percentis 25 e 75, não sendo por isso afectado pelo valores extremos. Resumo de uma distribuição Para identificar os valores extremos, deve premir o botão Statistics na caixa de diálogo Explore e seleccionar a opção Outliers. Resumo de uma distribuição A tabela seguinte apresenta os valores extremos para o grupo muito satisfeito. Emprego ou trabalho de casa: Muito satisfeito Idade do respondente Highest Lowest 1 2 3 4 5 1 2 3 4 5 Case Number 344 223 263 401 208 173 364 714 665 320 Value 82 78 77 77 73 19 20 20 21 21 O caso 344 é o indivíduo mais velho, com 82 anos de idade. O caso 173 é o indivíduo mais novo, com 19 anos de idade. Resumo de uma distribuição Com o Explore podem obter-se os percentis para cada grupo. Para isso deve premir o botão Statistics na caixa de diálogo Explore e seleccionar a opção Percentiles. Resumo de uma distribuição Percentis (resultados): Idade do respondente Weighted Average (Definition 1) Tukey's Hinges Emprego ou trabalho de casa Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito 10% dos casos têm 27 ou menos anos, no grupo muito satisfeito. 5 24,00 10 27,00 25 33,50 Percentiles 50 40,00 24,00 26,00 31,00 39,00 47,00 55,00 60,00 25,00 27,00 32,75 38,00 47,00 55,50 60,25 24,10 28,00 30,00 34,00 36,50 40,00 47,00 49,00 51,60 59,50 31,00 39,00 47,00 33,00 38,00 47,00 30,00 36,50 47,00 10% dos casos têm 57,4 ou mais anos, no grupo muito satisfeito. 75 49,00 90 57,40 95 61,00 Histograma Para obter o histograma, deve premir o botão Plots na caixa de diálogo Explore e seleccionar a opção Histogram. Histograma Histograma Para SAT_EMP= Muito satisf eito 70 O intervalo com o ponto médio 40 é o que tem mais casos. 60 50 40 Frequência 30 20 Std. Dev = 11,54 10 Mean = 41,5 N = 325,00 0 20,0 30,0 25,0 35,0 40,0 50,0 45,0 Idade do respondente 60,0 55,0 70,0 65,0 80,0 75,0 O gráfico tronco e folhas Para obter o gráfico tronco e folhas, deve premir o botão Plots na caixa de diálogo Explore e seleccionar a opção Stem-and-leaf (tronco e folhas). O gráfico tronco e folhas Idade do respondente Stem-and-Leaf Plot para SAT_EMP= Um pouco insatisfeito Frequency Stem & 2,00 2 13,00 2 7,00 3 18,00 3 7,00 4 13,00 4 5,00 5 5,00 5 3,00 6 1,00 Extremes Stem width: Each leaf: . . . . . . . . . Leaf 33 5556777899999 0123334 555566666777788899 0012234 5556666677888 02223 55679 013 (>=72) 10 Cinco casos têm 29 anos de idade. Apenas um caso tem 34 anos de idade. Multiplicar o caule pela largura do caule e somar as folhas para obter os valores (60, 61 e 63). 1 case(s) Se a largura do tronco (stem width) fosse 100, então os valores do tronco de valor 6 seriam 600, 610 e 630. A caixa de bigodes Para obter a caixa de bigodes, seleccionar a opção Plots, ou Both na caixa de diálogo Explore. A caixa de bigodes Valores isolados. 90 344 80 223 263 401 729 389 208 277 70 64 Idade do respondente 60 50 40 30 20 10 N= 325 319 Muito satisfeito 74 Moderadamente satisf Emprego ou trabalho de casa A caixa estende-se do percentil 25 até ao 75. A linha é a mediana. 26 Um pouco insatisfeit Muito insatisfeito As extremidades estendem-se ao maior e menor valor observado até 1,5 do comprimento da caixa. Cruzamento de Variáveis Uma tabela de frequências é insuficiente para visualizar o grau de satisfação no emprego, por cada categoria de salário. Para isso há necessidade de recorrer ao cruzamento de variáveis. · Na barra de menus escolher: Analyze Descriptive Statistics Crosstabs… · Seleccionar a variável (ou variáveis) que vai ocupar as linhas da tabela e colocá-la em Row(s). Seleccionar a variável (ou variáveis) que vai ocupar as colunas da tabela e colocá-la em Column(s). Cruzamento de Variáveis Preparação do cálculo: Cruzamento de Variáveis Mova diversas variáveis para as listas de linhas ou colunas, para obter múltiplos cruzamentos bivariados. Para visualizar três ou mais variáveis em simultâneo, coloque as variáveis adicionais em camadas sucessivas (layers). Cruzamento de Variáveis Cruzamento de sat_emp com receita4. Emprego ou trabalho de casa * Total de receitas da família em quartis Crosstabulation Count Emprego ou trabalho de casa Total Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito Total de receitas da família em quartis 24,999 25,000 to 40,000 to 60,000 ou menos 39,999 59,999 ou mais 53 90 74 110 Total 327 93 79 61 87 320 24 17 14 19 74 4 174 8 194 7 156 7 223 26 747 Cruzamento de Variáveis Cruzamento de sat_emp com receita4 e sexo. Emprego ou trabalho de casa * Total de receitas da família em quartis * Sexo do respondente Count Sexo do respondente M F Emprego ou trabalho de casa Total Emprego ou trabalho de casa Total Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito Total de receitas da família em quartis 24,999 25,000 to 40,000 to 60,000 ou menos 39,999 59,999 ou mais 30 51 41 57 Total 179 44 44 36 49 173 10 10 7 14 41 2 86 23 3 108 39 6 90 33 4 124 53 15 408 148 49 35 25 38 147 14 7 7 5 33 2 88 5 86 1 66 3 99 11 339 Percentagens de linha e coluna Para visualizar-se as percentagens das células, deve premir o botão Cells na caixa de diálogo Crosstabs e seleccionar as opções Row, Column ou Total. Percentagens de linha e coluna Emprego ou trabalho de casa * Total de receitas da família em quartis Crosstabulation Emprego ou trabalho de casa Muito satisfeito Moderadamente satisfeito Um pouco insatisfeito Muito insatisfeito Total Todas as colunas somam 100% de percentagem. Count Percentagens na coluna Count Percentagens na coluna Count Percentagens na coluna Count Percentagens na coluna Count Percentagens na coluna Total de receitas da família em quartis 24,999 25,000 to 40,000 to 60,000 ou menos 39,999 59,999 ou mais 53 90 74 110 Total 327 30,5% 46,4% 47,4% 49,3% 43,8% 93 79 61 87 320 53,4% 40,7% 39,1% 39,0% 42,8% 24 17 14 19 74 13,8% 8,8% 9,0% 8,5% 9,9% 4 8 7 7 26 2,3% 4,1% 4,5% 3,1% 3,5% 174 194 156 223 747 100,0% 100,0% 100,0% 100,0% 100,0% Visualização gráfica Os resultados do cruzamento de variáveis podem ser apresentados graficamente. · Na barra de menus escolher: Graphs Bar… · Escolher Stacked e premir Define. · Escolher a variável receita4 para o eixo das categorias. · Escolher a variável sat_emp para a definição dos clusters. Visualização gráfica 300 200 Emprego ou trabalho Muito insatisfeito Um pouco 100 insatisfeito Count Moderadamente satisfeito 0 Muito satisfeito 24,999 ou menos 40,000 to 59,999 25,000 to 39,999 60,000 ou mais T otal de receitas da família em quartis Visualização gráfica Para apresentar a percentagem de casos, as variáveis devem ser escolhidas por ordem inversa. Depois, no editor de gráficos deve fazer-se: Series Transpose Data Visualização gráfica 100 90 80 70 60 Emprego ou trabalho 50 Muito insatisfeito 40 Um pouco 30 insatisfeito 20 Moderadamente satisfeito 10 0 Muito satisfeito 24,999 ou menos 40,000 to 59,999 25,000 to 39,999 60,000 ou mais Visualização gráfica Desta forma consegue-se comparar a distribuição inspeccionando as barras para cada grupo. Observa-se que o grupo das pessoas com menor rendimento é o que possui menor percentagem de indivíduos muito satisfeitos com o seu emprego. Representam também a menor percentagem de indivíduos muito insatisfeitos. Pode ver-se que a soma das percentagens dos indivíduos muito satisfeitos e moderadamente satisfeitos é sensivelmente a mesma para os quatro grupos.