Aspetos fundamentais da análise
de dados em ciências sociais
Helena Martins, 2014
helenagmartins.com
Roteiro
•
•
•
•
Introdução
Questões-chave
Cleaning up your act
Pressupostos do Modelo de Equações
Estruturais
Isto são noções para leigos e não estatísticos; algumas coisas
estão escritas de forma a serem mais compreensivas e são
generalidades – tentarei colocar uma nuvem sempre que for
esse o caso
Desafios
• O modelo vigente de “ciência” é baseado nas
ciências exatas
▫ Dados observáveis
▫ Método experimental (condições e parâmetros
controladas)
▫ Fenómenos repetíveis e verificáveis com relativa
facilidade
▫ Pretende-se prever resultados replicáveis, gerar
regras
Desafios
• Ciências Sociais
▫ Construtos complexos com grande nível de
subjetividade
▫ Variáveis que não se medem diretamente (e.g.
amor vs altura)
▫ Relações entre as variáveis pouco claras
▫ Egocentrismo de investigação
Decidir o tipo de testes
• Tenho dados, e agora?
Eu queria saber
qual é a relação
entre o amor e o
stress…
▫ Qual é a pergunta de investigação?
▫ Temos hipóteses? Quais são
 Lembrar: hipóteses verificáveis, testáveis,
falsificáveis
 H0 vs H1
▫ Árvores de decisão!
Variáveis Latentes vs variáveis
observáveis
• Variável observável: pode ser medida
“diretamente”
▫ Altura, peso, nível de ruído, velocidade,
temperatura, humidade, etc.
• Variável latente: é um construto que não se
pode medir diretamente
▫ Satisfação com o Emprego – implica satisfação
com colegas, local de trabalho, salário, função,
responsabilidades… etc!
▫ Stress, confiança, liderança, comprometimento,
etc!
Variável Latente
• As variáveis latentes são construtos, na medida em
que construímos teorias e definimos o conceito para
o podermos medir.
▫ E.g. o que é para vocês a amizade?
• Quando falamos de variáveis latentes é que falamos
de qualidades psicométricas das escalas, p.ex.
▫ O construto do investigador pode não ser adequado à
população em causa
▫ É também por isto que fazemos adaptação e validação
de escalas, p. ex.
Alfa e Beta: erro tipo I e erro tipo II
• Alfa (ou significância do teste), a probabilidade
de estarmos a cometer um erro do tipo um
▫ Aceitar uma hipótese1 que não é verdadeira
 (mnemónica: a maior parte dos investigadores está
ansioso por provar a sua hipótese)
▫ O p-value refere-se ao erro tipo 1 
• Beta (ou potência do teste), a probabilidade de
estarmos a cometer um erro do tipo dois:
▫ Rejeitar uma hipótese1 que é verdadeira
(os estatísticos costumam dizer isto em termos de H0: em vez de dizermos que
se prova a nossa hipótese, o mais correto é dizer que se rejeita a H0)
Procedimento Geral dos Testes de
hipóteses (adapt. de Pires, 2000)
1.
2.
3.
4.
5.
6.
7.
▫
▫
▫
▫
▫
▫
Pelo contexto do problema identificar o parâmetro de interesse
O que é que estamos a perguntar exatamente?
Especificar a hipótese nula
Normalmente H0 é o oposto do que queremos provar;
Especificar uma hipótese alternativa apropriada
Escolher o nível de significância, alfa
Normalmente 0.05 ou 0.01, nas ciências sociais
Escolher uma estatística de teste adequada
Que teste usar?
Recolher uma amostra e calcular o valor observado da estatística
de teste
FAZER o teste
Decidir sobre a rejeição ou não de H0
Analisar o teste, propriamente dito
Portanto…
• É FUNDAMENTAL saber qual é a pergunta de
investigação: o que é que querem saber ao certo?
• AJUDA MUITO, pelo menos terem uma ideia
dos resultados expectáveis
▫ Sendo que teoricamente, as hipóteses deviam
estar definidas à partida!!
▫ Terem pelo menos uma ideia, ajuda-vos a saberem
“para onde ir”
Testes paramétricos vs testes não
paramétricos
Pressupostos básicos
Questões com bases de dados
• Questões na construção de questionários
▫ Tentar ter o máximo de variáveis
contínuas/”puras” possível
• Tipos de variáveis no SPSS
▫ Nominal
▫ Ordinal
▫ Scale
• Labels: prós e contras
• Transformação e computação de variáveis
Baseado em Tabachnik e Fidell, 2007
Detectar Missings
• Proof reading (small data sets) or analyse
descriptives+univariates
• Correlations (inflated? Deflated?)
• Analisar o tipo de Missing data.
Tipos de Missings
• MCAR - Missing completely at Random
• MAR – Missing at Random (ignorable non
response)
• MNAR – Missing Not at Random (non
ignorable non response).
▫ In MNAR, the missing is related to the DV, and
cannot be ignored.
• If the missings are 5% or less in a random
pattern in a large sample, pretty much any
procedure for replacing data is pretty much the
same.
• There are not yet any firm guidelines for
how much data can be tolerated for a
sample of a given size.
Deleting cases or variables
• O ideal é ter tão poucos missings numa amostra
tão grande que se possam apagar esses casos.
• Nem sempre isso é possível.
▫ A amostra não é grande os suficiente
▫ O missings não são aleatórios (já vimos esta
questão)
Estimating Missing Data
• Prior knowledge – when a researcher replaces a
missing value with a value from a “well educated
guess”;
• Mean substitution – in the absense of all other
information, the mean is the best guess at
missing values. It’s less commonly used now that
there are more desirable methods feasible
through computer programs.
▫ Group mean (spss não faz)
▫ Grand mean
Estimating Missing Data
• Regression – other variables are used as Ivs to write a
regression equation for the variable with missing data
serving as DV;
• Expectation Maximization – forms a missing data
correlation (or covariance) matrix by assuming the shape
of a distribution (such as normal) for the partially
missing data and basing inferences about missing values
on the likelihooh under that distribution
• Multiple imputation – takes several steps to estimate
missing data. 1st logistic regression and then a random
sample is taken from the cases with cpomplete responses
to id the distribution of the variable with missing data.
Choosing among methods to deal with
Missing Data
1. Is the missing data randomly missing?
▫
No: don´t delet it. Treat missing data as data,
and analyse why it’s missing
Yes:
▫


Delete – only a few cases are missing random
data from different variables;
Don’t delete if:

The variable is critical to the analysis (create a
dummy variable that recodes missings with mean
substitution so you can still the data)
Choosing among methods to deal with
Missing Data
• EM (Expectation Maximization) – for data sets
in which there is not a great deal of missing data
and inferential results (eg p values) are
interpreted with caution.
• Multiple Imputation – is currently considered
the most respectable of dealing data BUT it’s
more difficult to implement and does not
provide the full richness of output that is typical
with other methods.
SPSS
• Transform
▫ Replace Missing Values
 Replace with Mean…
Outliers
Inverted Items
UMA BOA BASE É COMPLETAMENTE
FUNDAMENTAL!!! NINGUÉM PODE
COZINHAR BONS PRATOS COM
INGREDIENTES PODRES!
Referências
Download

Missing Data Analysis