Análise de Dados Classificação de Variáveis  O que é uma variável? – o que é observado ou medido  Tipos de variáveis: – Categóricas: cada caso pode pertencer a apenas uma de várias categorias.   Ordinais: se as categorias da variável têm uma ordem Nominais: se as categorias da variável não têm uma ordem – Contínuas:  cada caso pode ter um valor númérico Contínua: pode tomar um infinidade de valores num determinado intervalo Introdução de dados  Recolha de dados: – Formulário ou questionário em papel ou electrónico – Um formulário ou questionário bem desenhado pode reduzir muito o trabalho de introdução – Todos os casos devem ter um identificador único Criação de variáveis Uma coluna - uma variável  Uma linha - um caso  SPSS  SPSS = Statistical Package for Social Science  Janelas: – Dados – Resultado – Sintaxe Codificação de variáveis  É importante codificar as variáveis categóricas: – exemplo: sexo (1-feminino | 2-masculino) – casos omissos (9, 99, 999) ou não aplicáveis (8, 88, 888) Recodificação de variáveis  Por vezes é necessário recodificar variáveis categóricas: – muitas categorias pouco frequentes – interesse para o estudo Criação de variáveis  Por vezes é necessário criar variáveis novas a partir de outras: – somar vários items de uma escala – calcular o nº de dias usando datas – ... Verificação dos dados  Erros de introdução de dados: dupla entrada  Verificação      - descrevendo os dados podemos verificar se: As variáveis categóricas têm códigos inexistentes? As variáveis contínuas têm valores fora do âmbito possível? As datas são todas possíveis? (ex: 31-02-2003) Há inconsistências entre as variáveis? Dados omissos – todos os dados omissos devem ser codificados como tal (ex: 9=não responde) Medidas de Sumário  Medidas de posição:    Média – soma de todos os valores sobre o nº de valores Mediana – ordenando os valores por ordem crescente é o valor do meio Outras medidas: moda Medida Vantagens Desvantagens Média Usa todos os dados Definida algebricamente Distorcida por valores extremos Distorcida por distribuições enviesadas Mediana Não é distorcida por valores extremos Não é distorcida por distribuições enviesadas Ignora muita informação Não definida algebricamente Quadro adaptado de: Medical Statistics at a Glance. Aviva Petrie and Caroline Sabin. Blackwell Science. 2000 Medidas de Sumário  Medidas de dispersão:   Âmbito – diferença entre o valor maior e menor Âmbito de percentis – ordenando os valores por ordem crescente e dividindo os valores em 100 pedaços, o valor que corresponde a x% das observações é o percentil x. Se dividir em 4 grupos iguais chamam-se quartis que correspondem ao percentil 25, 50 e 75. O âmbiro interquartil é a diferença entre o percentil 25 e 75. Também se pode fazer o âmbito entre dois outros percentis.  Variância –  (xi-x)2/(n-1) Desvio padrão – raiz quadrada da variância  Outras medidas: skewness and kurtosis  Medidas de Sumário Medida Vantagens Desvantagens Âmbito Fácil de calcular Usa apenas dois valores Distorcido por valores extremos Âmbito de percentis Não é distorcida por valores extremos Não pode ser calculado para amostras pequenas Variância Usa todos os dados Definida algebricamente A unidade é o quadrado da unidade dos dados Sensível a valores extremos Não apropriada em distribuições enviesadas Desvio padrão Usa todos os dados Definida algebricamente Unidade é a mesma que a dos dados Fácil de interpretar Sensível a valores extremos Não apropriada em distribuições enviesadas Quadro adaptado de: Medical Statistics at a Glance. Aviva Petrie and Caroline Sabin. Blackwell Science. 2000 Descrição de variáveis  Contínuas – Gráfico: histograma – Medidas: média, mediana, desvio padrão ou âmbito  Categóricas – Gráfico: barras ou tarte – Medidas: frequências e percentagens Distribuições teóricas  O que é uma distribuição de probabilidades? – Uma variável pode tomar qualquer valor dentro de um conjunto de valores com uma determinada probabilidade, uma distribuição de probabilidades mostra a probabilidade de todos os valores possíveis de uma variável Função densiade de probabilidade O eixo dos x representa os valores da variável e desenha-se a curva pela equação da distribuição  A área total abaixo da curva representa a probabilidae de todos os valores possíveis =1  A probabilidade da variável assumir um valor entre dois possíveis é igual à área abaixo da curva entre esses dois valores.  Distribuição normal - Completamente descrita por dois parâmetros (, ) - Em forma de sino - Simétrica para a média (média = mediana) Se o desvio padrão diminui a cuva compacta-se mais a volta da média Distribuição normal  Porque é a distribuição normal tão importante? – Muitos testes estatísticos assumem que os dados vêm de uma distribuição simétrica – A média e a variância não são dependentes – Muitos fenómenos naturais têm aproximadamente uma distribuição simétrica – Qualquer que seja a distribuição de uma variável se se fizerem várias amostras com o mesmo tamanho, a distribuição das médias destas amostras tende para uma distribuição normal com média igual á média da população e com desvio padrão igual ao da população a dividir pela raiz quadrada do tamanho das amostras. Outras distribuições t F  Qui-quadrado  Lognormal  Binomial  Poisson