Análise de Dados
Classificação de variáveis

O que é uma variável?
– o que é observado ou medido

Tipos de variáveis:
– Categóricas: cada caso pode pertencer a apenas uma de
várias categorias.


Ordinais: se as categorias da variável têm uma ordem
Nominais: se as categorias da variável não têm uma ordem
– Contínuas:


cada caso pode ter um valor númérico
Discreta: pode tomar um número discretos de valores num determinado
intervalo.
Contínua: pode tomar um infinidade de valores num determinado
intervalo
Introdução de dados

Recolha de dados:
– Formulário ou questionário em papel ou
electrónico
– Um formulário ou questionário bem
desenhado pode reduzir muito o trabalho
de introdução
– Todos os casos devem ter um identificador
único
Criação de variáveis
Uma coluna - uma variável
 Uma linha - um caso

SPSS

SPSS = Statistical Package for Social Science

Janelas:
– Dados
– Resultado
– Sintaxe
Codificação de variáveis

É importante codificar as variáveis
categóricas:
– exemplo: sexo (1-feminino | 2-masculino)
– casos omissos (9, 99, 999) ou
não aplicáveis (8, 88, 888)
Recodificação de variáveis

Por vezes é necessário recodificar
variáveis categóricas:
– muitas categorias pouco frequentes
– interesse para o estudo
SPSS: Transform - Recode
Criação de variáveis

Por vezes é necessário criar variáveis
novas a partir de outras:
– somar vários items de uma escala
– calcular o nº de dias usando datas
– ...
SPSS: Transform - Compute
Verificação dos dados

Erros de introdução de dados: dupla entrada

Verificação





- descrevendo os dados podemos verificar se:
As variáveis categóricas têm códigos inexistentes?
As variáveis contínuas têm valores fora do âmbito possível?
As datas são todas possíveis? (ex: 31-02-2003)
Há inconsistências entre as variáveis?
Dados omissos
– todos os dados omissos devem ser
codificados como tal (ex: 9=não responde)
Medidas de Sumário

Medidas de posição:



Média – soma de todos os valores sobre o nº de valores
Mediana – ordenando os valores por ordem crescente é o
valor do meio
Outras medidas: moda
Medida
Vantagens
Desvantagens
Média
Usa todos os dados
Definida algebricamente
Distorcida por valores extremos
Distorcida por distribuições enviesadas
Mediana
Não é distorcida por valores extremos
Não é distorcida por distribuições enviesadas
Ignora muita informação
Não definida algebricamente
Quadro adaptado de: Medical Statistics at a Glance. Aviva Petrie and Caroline Sabin. Blackwell Science. 2000
Medidas de Sumário

Medidas de dispersão:


Âmbito – diferença entre o valor maior e menor
Âmbito de percentis – ordenando os valores por
ordem crescente e dividindo os valores em 100 pedaços, o
valor que corresponde a x% das observações é o percentil x.
Se dividir em 4 grupos iguais chamam-se quartis que
correspondem ao percentil 25, 50 e 75. O âmbito interquartil é
a diferença entre o percentil 25 e 75. Também se pode fazer o
âmbito entre dois outros percentis.

Variância –  (xi-x)2/(n-1)
Desvio padrão – raiz quadrada da variância

Outras medidas: skewness and kurtosis

Medidas de Sumário
Medida
Vantagens
Desvantagens
Âmbito
Fácil de calcular
Usa apenas dois valores
Distorcido por valores extremos
Âmbito
de percentis
Não é distorcida por valores extremos
Não pode ser calculado para amostras pequenas
Variância
Usa todos os dados
Definida algebricamente
A unidade é o quadrado da unidade dos dados
Sensível a valores extremos
Não apropriada em distribuições enviesadas
Desvio
padrão
Usa todos os dados
Definida algebricamente
Unidade é a mesma que a dos dados
Fácil de interpretar
Sensível a valores extremos
Não apropriada em distribuições enviesadas
Quadro adaptado de: Medical Statistics at a Glance. Aviva Petrie and Caroline Sabin. Blackwell Science. 2000
Descrição de variáveis

Contínuas
– Gráfico: histograma
– Medidas: média, mediana, desvio padrão
ou âmbito

Categóricas
– Gráfico: barras ou tarte
– Medidas: frequências e percentagens
SPSS:
Analyse – Descriptive Satatistics - Frequencies
Distribuições teóricas

O que é uma distribuição de probabilidades?
– Uma variável pode tomar qualquer valor dentro
de um conjunto de valores com uma
determinada probabilidade, uma distribuição de
probabilidades mostra a probabilidade de todos
os valores possíveis de uma variável
Função densidade de probabilidade
O eixo dos x representa os valores da
variável e desenha-se a curva pela equação
da distribuição
 A área total abaixo da curva representa a
probabilidade de todos os valores possíveis
=1
 A probabilidade da variável assumir um valor
entre dois possíveis é igual à área abaixo da
curva entre esses dois valores.

Distribuição normal
- Completamente descrita por
dois parâmetros (, )
- Em forma de sino
- Simétrica para a média
(média = mediana)
Se o desvio padrão
diminui a curva
compacta-se mais
a volta da média
Distribuição normal

Porque é a distribuição normal tão importante?
– Muitos testes estatísticos assumem que os dados vêm de uma
distribuição simétrica
– A média e a variância não são dependentes
– Muitos fenómenos naturais têm aproximadamente uma distribuição
simétrica
– Qualquer que seja a distribuição de uma variável se se fizerem
várias amostras com o mesmo tamanho, a distribuição das médias
destas amostras tende para uma distribuição normal com média
igual á média da população e com desvio padrão igual ao da
população a dividir pela raiz quadrada do tamanho das amostras.
Outras distribuições
t
F
 Qui-quadrado
 Lognormal

Binomial
 Poisson

Download

slides usados nesta aula.