UNIVERSIDADE DOS AÇORES
DEPARTAMENTO DE MATEMÁTICA
LICENCIATURA EM MATEMÁTICA APLICADA
Investigação por Inquérito
Trabalho elaborado por:
Nisa Ávila do Couto Alves
Ponta Delgada, ano lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ÍNDICE
INTRODUÇÃO............................................................................................................................................. 2
1- IMPORTÂNCIA DOS INQUÉRITOS ....................................................................................................... 3
2- ETAPAS DA INVESTIGAÇÃO POR INQUÉRITO .................................................................................. 5
3- ETAPA 1: PLANEAMENTO E DESENHO DO INQUÉRITO ................................................................. 7
3.1- AMOSTRAGEM.............................................................................................................................. 7
3.1.1- TÉCNICAS DE AMOSTRAGEM ........................................................................................... 8
3.1.1.1- Amostragem Aleatória: ................................................................................................... 10
3.1.1.2- Amostragem Não Aleatória............................................................................................. 12
3.1.2- DIMENSÃO DA AMOSTRA ................................................................................................ 17
3.2- MÉTODOS DE RECOLHA DOS DADOS ................................................................................... 23
3.3- CONCEPÇÃO DAS QUESTÕES.................................................................................................. 24
3.4- DESENHO DO QUESTIONÁRIO ........................................................................................... 28
3.5- PRÉ-TESTE DO QUESTIONÁRIO ......................................................................................... 29
3.6- O PLANO DO QUESTIONÁRIO............................................................................................. 29
4- ETAPA 2: RECOLHA DOS DADOS ...................................................................................................... 32
5- ETAPA 3: ACESSO AOS DADOS.......................................................................................................... 32
6- ETAPA 4: PREPARAÇÃO DOS DADOS............................................................................................... 32
7- ETAPA 5: ANÁLISE DOS DADOS ........................................................................................................ 37
7.1- ESTATÍSTICA DESCRITIVA versus ESTATÍSTICA INDUTIVA............................................. 39
7.1.1- ESTATÍSTICA DESCRITIVA............................................................................................... 40
7.1.2- ESTATÍSTICA INDUTIVA................................................................................................... 41
7.1.2.1- Intervalos de Confiança................................................................................................... 41
7.1.2.2- Testes de Hipóteses ......................................................................................................... 43
7.1.2.3- Relação entre Testes de Hipóteses e Intervalos de Confiança......................................... 48
7.2- MÉTODOS PARAMÉTRICOS versus MÉTODOS NÃO-PARAMÉTRICOS ........................... 48
7.2.1- MÉTODOS NÃO-PARAMÉTRICOS ................................................................................... 49
7.2.1.1- Testes de Ajustamento .................................................................................................... 49
7.2.1.2- Testes de Aleatoriedade .................................................................................................. 51
7.2.1.3- Testes de Simetria ........................................................................................................... 52
7.2.1.4- Tabelas de Contingência ................................................................................................. 53
7.2.1.5- Testes de Localização ..................................................................................................... 55
7.2.1.6- Testes de escala e outros problemas de duas amostras.................................................... 60
7.2.1.7- Testes de Associanção..................................................................................................... 61
7.3- MÉTODOS QUE ANALISAM DIFERENÇAS
versus MÉTODOS QUE ANALISAM
RELAÇÕES........................................................................................................................................... 65
7.3.1- MÉTODOS QUE ANALISAM DIFERENÇAS .................................................................... 65
7.3.2- MÉTODOS QUE ANALISAM RELAÇÕES ........................................................................ 66
7.4- TÉCNICAS UNIVARIADAS, BIVARIADAS E MULTIVARIADAS ........................................ 68
7.4.1- TÉCNICAS MULTIVARIADAS........................................................................................... 68
7.4.1.1- Regressão múltipla .......................................................................................................... 71
7.4.1.2- Regressão logística.......................................................................................................... 76
7.4.1.3- Análise discriminante...................................................................................................... 77
7.4.1.4- Árvores discriminantes (de decisão) ............................................................................... 79
7.4.1.5- Análise de variância multivariada ................................................................................... 81
7.4.1.6- Análise em componentes principais (ACP)..................................................................... 83
7.4.1.7- Análise factorial .............................................................................................................. 86
7.4.1.8- Análise de clusters .......................................................................................................... 88
7.4.1.9- Análise loglinear ............................................................................................................. 91
7.4.1.10- Análise de correspondências ......................................................................................... 91
7.4.1.11- Análise conjunta............................................................................................................ 93
7.4.1.12- Correlação canónica ...................................................................................................... 93
7.4.1.13- Escalonamento multidimensional ................................................................................. 94
7.4.1.14- Modelos de equações estruturais................................................................................... 95
7.4.1.15- Técnicas emergentes ..................................................................................................... 96
7.5- REPRESENTAÇÕES GRÁFICAS ................................................................................................ 97
8- ETAPA 6: PRODUÇÃO DO RELATÓRIO .......................................................................................... 101
9- ETAPA 7: DIVULGAÇÃO DOS RESULTADOS.................................................................................. 102
10- CONCLUSÃO..................................................................................................................................... 103
BIBLIOGRAFIA........................................................................................................................................ 105
1
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
INTRODUÇÃO
Este trabalho foi elaborado no âmbito do Trabalho Final de Curso da Licenciatura em
Matemática Aplicada.
Tentou-se abordar o assunto da investigação por inquérito de uma forma equilibrada em
relação à complexidade e à abrangência/profundidade para que pudesse ser um instrumento
útil a alunos interessados nestas temáticas.
De modo que, à medida que as técnicas estatísticas aqui apresentadas se vão tornando mais
complexas (nomeadamente nas técnicas de análise multivariada), os aspectos matemáticos
das mesmas vão sendo omitidos apresentando-se apenas a aplicabilidade e os fundamentos
gerais de cada um dos métodos.
Inicia-se por elucidar a importância dos inquéritos na sociedade actual, sintetizando-se
depois, as etapas de uma investigação por inquérito.
Desenvolve-se especialmente a etapas referentes ao planeamento e desenho do
questionário, à preparação dos dados e, à de análise dos dados.
No capítulo do planeamento e desenho do questionário, abordam-se, entre outros, assuntos
como a amostragem, métodos de recolha de dados, concepção das questões e desenho do
questionário.
No capítulo referente à análise dos dados apresentam-se diversas técnicas de análise
(descritivas, indutivas, paramétricas, não-paramétricas, para analisar diferenças, para
analisar relações: univariadas, bivariadas, multivariadas e ainda representações gráficas).
2
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
1- IMPORTÂNCIA DOS INQUÉRITOS
Os inquéritos estatísticos são usados para recolher informação quantitativa nos campos de
marketing, sondagens políticas, e pesquisa nas ciências sociais, entre outros. Um inquérito
pode incidir sobre opiniões ou informação factual, dependendo do seu objectivo, mas todos
os inquéritos envolvem a administração de perguntas a indivíduos. Quando as perguntas
são colocadas por um pesquisador, o inquérito é chamado entrevista ou inquérito
ministrado por um pesquisador. Quando as questões são administradas pelo inquirido, o
inquérito é referido por questionário ou inquérito auto-administrado.
Nos processos de tomada de decisão de qualquer organização é essencial obter o
máximo de informação sobre o meio que a envolve. Deste modo, os inquéritos, se
correctamente utilizados são meios eficazes de obter a informação necessária.
Contudo, os inquéritos estatísticos apresentam vantagens e desvantagens. De seguida
apresentam-se algumas dessas vantagens e desvantagens.
As vantagens dos inquéritos estatísticos incluem:
ƒ
São uma forma eficiente de recolher informação de um grande número de
inquiridos. Podem ser usadas técnicas estatísticas para determinar a validade, a
fiabilidade e a significância estatística.
ƒ
São flexíveis no sentido em que pode ser recolhida uma grande variedade de
informação. Podem ser usados para estudar atitudes, valores, crenças e
comportamentos passados.
ƒ
São relativamente fáceis de administrar.
ƒ
Há uma economia da recolha dos dados devido à focalização providenciada por
questões padronizadas, ou seja, não há um gasto de tempo e dinheiro em questões
tangenciais.
As desvantagens dos inquéritos incluem:
ƒ
Dependem da motivação, honestidade, memória e capacidade de resposta dos
sujeitos.
ƒ
Não são apropriados para estudar fenómenos sociais complexos.
ƒ
Se a amostra não for representativa da população então as características da
população não podem ser inferidas.
3
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
É necessário ter em consideração que fazer um inquérito é muito mais que construir
um questionário. É um processo com múltiplos passos e em que cada etapa está claramente
definida – para se ter sucesso deve-se planear cuidadosamente todas estas etapas desde a
forma de recolha da informação até à apresentação dos resultados.
De modo a aumentar a sua eficiência, qualquer inquérito deve ter as seguintes
características: ser claro – os seus objectivos devem ser precisos; fáceis – os inquiridos
devem perceber facilmente o seu conteúdo; fiáveis – os dados recolhidos devem traduzir a
opinião do inquirido – sem erros; analisado – os dados devem ser sujeitos a análise
estatística para se poder inferir resultados e tomar decisões e, atempado – o tempo entre o
seu planeamento e a obtenção de resultados deve ser o menor possível para que seja útil à
decisão.
Quem promove um inquérito procura conhecer características, comportamentos ou
opiniões de uma população usando um processo de amostragem.
Deste modo, um inquérito ajuda o decisor a:
ƒ
Obter informação adicional sobre o que pensam os clientes ou os utilizadores dos
serviços, os empregados ou, em última instância, a população em geral sobre
determinado assunto;
ƒ
Criar mais valor indo de encontro às expectativas do mercado, ou seja, ajuda o decisor
a conhecer o mercado;
ƒ
Enfrentar maior concorrência conhecendo as expectativas dos clientes e a avaliação
que fazem dos produtos tanto da própria empresa como das concorrentes com o
objectivo de inovar, fidelizar e diferenciar-se;
ƒ
Identificar oportunidades de, por exemplo, criação de novos produtos;
ƒ
Aumentar o retorno do investimento confrontando o conhecimento das relações entre a
empresa e as pessoas ou instituições que com ela se relacionam com a opinião que
estes expressam nos inquéritos que se promove, ou seja, quanto mais satisfeitos
estiverem os melhores clientes, maior a fidelização e mais seguro será o futuro da
empresa.
Algumas pessoas pensam que fazer um inquérito é somente colocar questões. Mas
isso não é verdade, actualmente deve-se encará-lo como um processo. Quando é
correctamente executado obtêm-se dados de boa qualidade sobre os quais se pode agir.
O processo de inquirição pode falhar se incorrectamente implementado em qualquer
das suas etapas. Alguns dos erros mais frequentes relacionam-se com a qualidade das
4
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
questões colocadas; com os erros cometidos na entrada de dados ou com o tempo entre o
lançamento do inquérito e a tomada de decisão.
2- ETAPAS DA INVESTIGAÇÃO POR INQUÉRITO
A pesquisa por inquérito, de acordo com o site do PSE (Produtos e Serviços de
Estatística, Lda.), pode ser dividida em sete etapas, como se mostra abaixo. Para que se
obtenha sucesso, qualquer uma delas deve ser correctamente implementada.
1. Planeamento e desenho do inquérito
2. Recolha dos dados
3. Acesso aos dados
4. Preparação dos dados
5. Análise dos dados
6. Produção do relatório
7. Divulgação dos resultados
A Figura 1 esquematiza as etapas de realização de uma pesquisa por inquérito.
5
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Definir objectivos e hipóteses a testar
Determinar orçamento, calendário e recursos
Definir a população
Planeamento e desenho do inquérito
Determinar dimensão da amostra e técnica amostral a utilizar
Escolher método de recolha de dados
Elaborar o questionário
Testar o questionário
Recolha dos dados
Acesso aos dados
Obter dados “claros”, não enviesados e actualizados
Método de recolha atractivo para obter uma boa taxa de resposta
Acelerar o processo (métodos automáticos de entrada de dados)
Passar dados para o software de análise
Compatibilidade entre software de análise e de recolha de dados
Examinar os dados
Preparação dos dados
Identificar outliers e missing values. Encontrar solução adequada
Verificar pressupostos dos métodos de análise
Cálculo de variáveis transformadas
Definir a escala das variáveis
Escolher um software analítico
Análise dos dados
Produzir estatísticas descritivas e representações gráficas
Construir modelos explicativos
Registar análises executadas
Interpretar resultados
Personalizar quadros e gráficos
Preparação do relatório final
Tornar relatório simples e de fácil interpretação
Preparar apresentação dos resultados em software adequado
Distribuir rapidamente
Divulgação dos resultados
Permitir interacção dos decisores
Controlar segurança e confidencialidade
FIGURA 1. ETAPAS DE REALIZAÇÃO DE UMA PESQUISA POR INQUÉRITO
6
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
3- ETAPA 1: PLANEAMENTO E DESENHO DO INQUÉRITO
Antes de se iniciar o processo é necessário determinar os objectivos, orçamento e
recursos do projecto, bem como planificar o calendário. Nenhum inquérito deve prosseguir
sem que os seus propósitos sejam claros e aceites para que não se esteja a coleccionar
informação desnecessária e cara.
“Um bom formulário começa com uma boa hipótese cuidadosamente estudada.”
GOODE (1979).
Para que se possa testar correctamente as hipóteses operacionais convém que estas
sejam especificadas antes da recolha de dados. É essencial saber quais as relações e
padrões que se pensa poder vir a encontrar e quais as análises estatísticas a efectuar, pois
estas dependerão do tipo de dados recolhidos. Deve-se pensar “para que servem os
resultados a obter”. Ou seja, as análises desejadas, os relatórios a escrever e a forma como
a informação resultante será utilizada.
Antes de se criar as questões e o formato do questionário a utilizar, é preciso ter em
atenção o tipo de população a inquirir – por exemplo, idade, nível educacional ou
motivação. É ainda necessário determinar o método de recolha de dados a utilizar.
Depois então será necessário estimar a dimensão da amostra requerida. A
amostragem é um assunto bastante complexo e será abordado no sub capítulo 2.1.
3.1- AMOSTRAGEM
Se se tivesse a possibilidade de estudar todos os membros da população, estar-se-ia
na presença de um censo. Contudo promover um censo é extremamente caro e moroso,
assim, faz-se uma sondagem que, segundo FERRÃO (2001) é a resposta ao conhecimento
de uma população tomando por base uma fracção da população – a amostra.
Os maiores esforços neste processo estão relacionados com a determinação de uma
amostra da população, para a qual são utilizados métodos probabilísticos. A amostra deve
ter a dimensão adequada para obter a precisão pretendida – e não deve ser superior, pois à
medida que cresce a dimensão da amostra os custos do processo aumentam e os ganhos de
precisão são mínimos.
Uma vez seleccionada a amostra, é necessário verificar que a amostra é
representativa da população, ou seja, que os indivíduos que não respondem são similares
7
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
aos que respondem. Caso contrário, os resultados serão enviesados. Uma amostra
representativa é aquela que reflecte os aspectos típicos da população.
Pode-se discriminar as etapas do plano amostral do seguinte modo:
1º Definir o Universo;
2ª Se possível, identificar a base de sondagem (listagem dos elementos da qual se vai
seleccionar a amostra);
3º Escolher uma técnica amostral;
O sub capítulo 2.1.1 abordará as diversas técnicas de amostragem com base em
FERRÃO (2001).
3.1.1- TÉCNICAS DE AMOSTRAGEM
Segundo BACELAR (1999), as técnicas de amostragem são utilizadas para
seleccionar os elementos da população de forma a obter uma amostra representativa.
Podem-se dividir as técnicas de amostragem em amostragem aleatória e não
aleatórias sub dividindo-se cada uma delas em diversas sub categorias.
Cada um dos métodos apresenta vantagens e desvantagens que devem ser tidas em
consideração aquando da escolha de uma ou outra técnica.
Deste modo, a amostragem aleatória apresenta algumas vantagens como o facto de os
critérios de selecção dos elementos estarem rigorosamente definidos, não permitindo que a
subjectividade dos investigadores ou do entrevistador intervenham na escolha dos
elementos e minimizando assim o enviesamento muitas vezes introduzido pelos
entrevistadores.
São
igualmente
vantagens
a
possibilidade
de
se
determinar
matematicamente a dimensão da amostra em função da precisão e grau de confiança
desejados para os resultados.
Contudo, também apresenta desvantagens, nomeadamente: dificuldade em obter
listagens ou registos actuais e completos da população (base de amostragem); a selecção
aleatória pode originar uma amostra muito dispersa geograficamente aumentando o tempo
e os custos dos estudos e, pode haver dificuldade em estabelecer contacto com os
potenciais inquiridos.
Note-se que a desactualização ou dados em falta nas bases de amostragem (lista dos
elementos que compõem a população), das quais se extrai a amostra, leva a que nem todos
os elementos da população tenham a mesma probabilidade de selecção (os que fazem parte
8
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
da população, mas não da base de amostragem, têm uma probabilidade nula de serem
seleccionados).
Em relação às técnicas de amostragem não aleatória, estas têm a vantagem de
permitir que se obtenha a informação com custos mais reduzidos, mais rapidamente e com
menores necessidades de pessoal. Como desvantagens, é de referir que há unidades do
universo que não têm possibilidade de ser escolhidas; pode ser introduzido enviesamento
pela opinião pessoal e, não se sabe com que grau de confiança as conclusões obtidas são
generalizáveis à população.
As técnicas de amostragem não aleatória “têm em comum o facto de não utilizarem o
método de selecção aleatória para os elementos da amostra. Isto significa que não há
“garantia estatística” de que a amostra seleccionada seja representativa. Note-se que a
aleatoriedade não “garante” que a amostra a obter seja representativa, garante apenas que
existe uma probabilidade significativamente elevada de que a amostra possua esse
qualificativo.” BACELAR (1999).
As vantagens e desvantagens de cada tipo de amostragem devem ser ponderadas em
cada estudo. O caminho a percorrer deve ser o que permita que o erro nos resultados
derivado de questões amostrais seja o mais pequeno possível.
A figura seguinte apresenta algumas das técnicas de amostragem categorizadas em
não aleatórias ou aleatórias.
T é c n ic a s d e
amostragem
Não
Aleatórias
Por
Bola de Neve
Intencional
Por quotas
Random route
Multi-etapas
Outras
conveniência
Aleatórias
Simples
Estratificada
Por Clusters
FIGURA 2. TÉCNICAS DE AMOSTRAGEM.
9
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Nos próximos dois sub-capítulos sumariam-se as etapas, desvantagens, vantagens ou
conceitos associados a diversos tipos de técnicas de amostragem aleatória e não aleatória,
respectivamente.
3.1.1.1- Amostragem Aleatória:
Simples
Corresponde a um método de selecção dos elementos da amostra, em que cada um
deles tem uma probabilidade igual (e não nula) de ser seleccionado.
Consiste em:
1. Numerar consecutivamente os elementos da população de 1 a N;
2. Escolher n elementos mediante o uso de um procedimento aleatório;
3. Uma vez escolhidos os números, os elementos da população que lhes
correspondem constituem a amostra.
Esta técnica raramente é adoptada, pois para além de ser cara é muitas vezes
impraticável por exigir que todos os elementos da população sejam enumerados.
Sistemática
Segundo BACELAR (1999), a amostragem sistemática é uma variante da
amostragem aleatória simples que se usa quando os elementos da população estão
organizados de forma sequencial. O primeiro elemento é seleccionado aleatoriamente;
calcula-se em seguida o intervalo de amostragem (i = dimensão da população / dimensão
da amostra). Sendo i o intervalo da amostragem, cada i-ésimo elemento, a partir do
primeiro já seleccionado, irá constituir a amostra. O resultado duma tiragem sistemática é,
na maior parte das vezes, equivalente ao duma amostra aleatória simples. A excepção
ocorre quando a sequência dos elementos da população é afectada pela periodicidade. Se
aquela apresentar uma regularidade, um padrão periódico, pode-se correr o risco de um
viés sistemático.
Sumaria-se em:
1. Calcular o intervalo da amostra (k) obtido pelo quociente N/n, que deverá ser
arredondado ao inteiro mais próximo por defeito;
2. Escolher aleatoriamente um número j entre 1 e k;
3. Partindo desse número, adicionar sucessivamente o valor k, ficando assim
seleccionados os elementos j, j+k, j+2k, j+3k, …, j+ (n-1)k, perfazendo n.
10
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Estratificada
Esta técnica de amostragem usa informação existente sobre a população para que o
processo de amostragem seja mais eficiente.
A lógica que assiste à estratificação de uma população é a da identificação de grupos
que variam muito entre si, no que diz respeito ao parâmetro em estudo, mas muito pouco
dentro de si, ou seja, cada um é homogéneo e com pouca variabilidade.
As três etapas para se definir uma amostra estratificada são:
1. Definir os estratos;
2. Seleccionar os elementos dentro de cada estrato mediante um processo aleatório
simples;
3. Conjugar os elementos seleccionados em cada estrato, que na sua totalidade
constituem a amostra.
Pode ser particularmente eficaz quando na população existem valores extremos para
a característica em estudo, sendo possível agregá-los num estrato separado.
Por clusters
Requer menos informação a priori, sendo útil na ausência duma base de amostragem,
o que sucede muitas vezes. É especialmente útil quando o universo estatístico é formado
por populações de grande dimensão, dispersas por vastas áreas geográficas. A amostragem
por clusters usa agrupamentos naturais de elementos da população, nos quais cada
elemento da população pertence a um só grupo.
Só exige que se disponha de uma listagem completa das unidades amostrais primárias
(por exemplo, as turmas de uma escola). Os clusters são escolhidos aleatoriamente e dentro
de cada cluster todos os elementos são seleccionados, ou seja, só existe uma etapa de
amostragem. Está orientada para a selecção de grupos de elementos e não de elementos
individuais.
As etapas da amostragem por clusters são:
4. Especificar os clusters;
5. Seleccionar uma amostra.
Muitas vezes é a única possível de obter porque só existem disponíveis bases de
sondagem que listam clusters de elementos da população.
A amostragem por clusters é frequentemente usada na prática porque muitas
populações estão já agrupadas em subgrupos naturais. Uma grande vantagem económica é
o baixo custo deste método.
11
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Multi-etapas
Selecciona-se em primeiro lugar, aleatoriamente uma amostra por clusters – repare-se
que é muito mais fácil obter uma lista de clusters (por exemplo de escolas) do que uma
lista exaustiva dos elementos que compõem a população (por exemplo, todos os alunos).
Em seguida, pode-se realizar – ou não – uma segunda etapa, na qual são escolhidos
aleatoriamente alguns elementos dos clusters seleccionados na fase anterior ou então,
continuando com a selecção de clusters até se chegar às unidades elementares.
Ou seja: Definir os clusters; e seleccionar a amostra. Este tipo de amostragem
apresenta as mesmas vantagens que a amostragem por clusters.
3.1.1.2- Amostragem Não Aleatória
Intencional
Resulta em elementos seleccionados deliberadamente pelo investigador, geralmente
por este considerar que possuem características que são típicas ou representativas da
população. Isso não significa que a amostra assim obtida seja necessariamente
representativa da população ainda que o investigador possa ter essa opinião.
Pode ser aplicada com sucesso nas seguintes situações: estudos exploratórios,
amostras de dimensão reduzida, impossibilidade de conseguir uma amostra aleatória,
pretende-se deliberadamente uma amostra enviesada.
Contudo, frequentemente surgem enviesamentos difíceis de avaliar.
Snowball – bola de neve
Identificam-se um ou mais indivíduos da população a estudar e pede-se-lhes para que
identifiquem
outros
elementos
da
mesma
população. Este processo repete-se
sucessivamente, sendo a amostra final composta por todos os elementos identificados. É
normalmente utilizada quando os elementos da população são de difícil acesso ou
identificação e estão inter-relacionados por redes de conhecimento.
Um dos inconvenientes é que os inquiridos tendem a indicar o nome de amigos ou
pessoas de relação mais próxima, o que pode originar uma amostra de pessoas que pensam
e se comportam de modo similar àquele que as indica. Da mesma forma são aqueles
socialmente mais visíveis os que têm mais possibilidade de serem seleccionados.
12
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Conveniência
Não é representativa da população. Ocorre quando a participação é voluntária ou os
elementos da amostra são escolhidos por uma questão de conveniência, por isso, o
processo amostral não garante à partida que a amostra seja representativa. Pode ser usada
com êxito em situações nas quais seja mais importante captar ideias gerais, identificar
aspectos críticos do que propriamente a objectividade científica, como é o caso na maioria
dos inquéritos disponibilizados na web.
Quotas
É uma amostragem semi-aleatória.
Justifica-se fundamentalmente pela inexistência de listagens da população. O
pressuposto é o de que as variáveis de controlo, que definem as quotas, justificam toda a
variação sistemática na população relativamente à característica em estudo.
Os dois passos fundamentais para a sua execução são:
1. Definir as quotas – as quotas são identificadas dividindo a população em
categorias, usando variáveis de controlo pré-definidas;
2. Seleccionar os elementos.
Podem-se utilizar quotas independentes que facilitam o trabalho aos entrevistadores,
ou quotas interrelacionadas que são mais fiáveis uma vez que os entrevistadores têm de
cumprir uma amostra específica, distribuída por diversos factores de estratificação. Nas
tabelas 1 e 2 apresenta-se um exemplo muito simples de quotas independentes e de quotas
interrelacionadas.
Sexo
Idade
Sexo
Masculino 15 15-24
6
Idade
Masculino
Feminino
Feminino
8
15-24
3
3
6
35-44 12
25-34
4
4
8
45-64
7
35-44
5
7
12
33
45-64
3
4
7
15
18
33
TOTAL
18 25-34
33
TABELA 1: QUOTAS INDEPENDENTES
TABELA 2: QUOTAS INTERRELACIONADAS
Como vantagens pode-se referir a rapidez, economia e facilidade de administração.
Nem sempre garante à partida a representatividade da amostra, pois:
ƒ
A amostra pode estar longe de reflectir alguns aspectos importantes capazes de
influenciar os resultados, por estes não serem tomados como quotas. O
13
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
estabelecimento de quotas para todas as características potencialmente
importantes seria uma solução por um lado, mas uma dificuldade por outro,
uma vez que, quantos mais critérios forem identificados mais difícil se torna
encontrar indivíduos que os preencham a todos;
ƒ
Como a selecção está a cargo do livre arbítrio dos entrevistadores, estes têm
tendência a seguirem certas práticas sistemáticas como escolher determinado
tipo de inquiridos e evitar outros.
Segundo BACELAR (1999), aparentemente, esta técnica é semelhante à amostragem
estratificada, mas de facto é bastante diferente, uma vez que a selecção dos elementos da
população não é aleatória. O objectivo desta técnica é o de tentar compensar as notórias
insuficiências da amostragem acidental. Normalmente procura-se combinar a técnica de
amostragem por quotas com outras técnicas (por exemplo random route) complementares
e sistemáticas que possibilitem gerar alguma diversidade na amostra e controlar os
enviesamentos sistemáticos mais gritantes. Para efectuar a amostragem estratificada é
necessário possuir uma base de amostragem na qual são conhecidas para cada elemento da
população as características que forem usadas como critérios de estratificação. De cada um
destes estratos populacionais será seleccionada uma amostra. Na amostragem por quotas
não é necessária qualquer base de amostragem. Basta conhecer, na população, a
distribuição das características a utilizar. Também os elementos da amostra não são
seleccionados aleatoriamente: são apenas encontrados segundo um “acaso” que não
corresponde às regras do acaso estatístico, isto é, não garante a equiprobabilidade de
selecção dos elementos da população.
Random route – percurso aleatório
É utilizado para definir critérios de movimentação do entrevistador no terreno.
Consiste em:
1.
Seleccionar aleatoriamente a partir de uma lista/mapa um endereço ou ponto
de referência – esta escolha servirá de ponto de partida para o entrevistador;
2.
Definir as regras de orientação para o entrevistador – o entrevistador é
instruído para realizar o seu trabalho circunscrevendo-se a determinada área ou
seguindo um itinerário aleatório na escolha das unidades a inquirir.
Ou seja, é atribuído ao entrevistador um ponto de partida e um ponto de chegada no
espaço geográfico no qual se vai desenrolar o inquérito, e um critério sistemático e
16
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
aleatório relativo ao percurso do entrevistador entre esses dois pontos (inquirir o terceiro
alojamento de seis em seis edifícios, alternando o lado da rua, por exemplo).
3.1.2- DIMENSÃO DA AMOSTRA
Factores determinantes na dimensão da amostra
Existem seis factores que se podem considerar determinantes na escolha da dimensão
da amostra, nomeadamente:
ƒ
Características da população, ou seja, a variância da característica em estudo e o
número de elementos (a sua dimensão N);
ƒ
Distribuição amostral do estimador a utilizar;
ƒ
Precisão e confiança requeridas para os resultados, sendo necessário especificar a
diferença máxima entre a estimativa e o parâmetro ou o nível de confiança;
ƒ
Custo, pois recolher mais inquéritos pode ter um aumento de custo muito elevado;
ƒ
Consequências para os erros de não amostragem
ƒ
O grande dilema que o investigador enfrenta na realização de um estudo por
sondagem é se deve seleccionar uma amostra maior para reduzir o erro amostral,
ou se deve concentrar os recursos e esforços numa amostra de dimensão mais
reduzida, para garantir um melhor controlo do trabalho dos entrevistadores, uma
taxa de respostas mais alta, respostas mais exactas, melhor trabalho de
processamento da informação, etc., ou seja, uma redução dos outros erros.
Idealmente os esforços são concentrados na redução simultânea dos erros
relacionados com amostragem e não relacionados com amostragem, apesar das
restrições financeiras e de tempo tornarem este ideal difícil de concretizar;
ƒ
As técnicas estatísticas que serão utilizadas.
ƒ
Note-se que, para que se obtenham resultados com um grau de exactidão
aceitável, algumas técnicas estatísticas exigem uma amostra de dimensão maior
do que outras.
Determinação da dimensão da amostra
1. Fixar os limites de erro aceitáveis;
2. Encontrar uma equação que relacione n com a precisão e confiança desejadas
para os resultados;
3. Determinar parâmetros desconhecidos;
17
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
4. Estimar características para sub-domínios;
5. Estimar mais do que uma característica;
6. Avaliar o n encontrado (custo, tempo, pessoal e material necessário).
O cálculo da dimensão da amostra em amostras aleatórias pode ser efectuado com
base em fórmulas relativamente complexas, nas quais entra o número de elementos da
população (número de clusters, número de elementos por cluster, número de estratos,
número de elementos por estrato, etc.), a variância, o erro associado e o valor retirado da
distribuição Gaussiana correspondente ao grau de confiança imposto para a estimativa.
De seguida apresentam-se estas fórmulas sumariadas na tabela 4 com base em
FERRÃO (2001).
A tabela 3 apresenta a notação que será utilizada nas fórmulas posteriores.
A tabela 4 apresenta uma síntese das fórmulas que se devem utilizar quando se
pretender calcular o número de observações necessário para estimar uma média, proporção
ou total, com uma amplitude máxima de erro igual a B para cada tipo de amostra aleatória.
18
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
DESIGNAÇÃO
POPULAÇÃO
AMOSTRA
Número de elementos
N
n
i-ésima observação
Xi
Xi
Média
µ = ∑ Xi / N
N
i =1
N
Total
τ = ∑ Xi
i =1
Proporção
(variáveis dicotómicas)
N
n
X = ∑ Xi /n
i =1
n
N X = N∑ Xi /n
i =1
n
p = ∑ Xi / N
pˆ = ∑ X i / n
Número de estratos
L
L
Número de elementos
N = N1 + N 2 + ... + N L
n = n1 + n2 + ... + n L
Número de elementos no
estrato i
j-ésima observação no
estrato i
Ni
ni
X ij
X ij
Média do estrato i
µ i = ∑ X ij / N i
i =1
i =1
ESTRATIFICADA
Ni
i =1
L
Média
µ = ∑ N i µi / N
i =1
L
Total
τ = ∑ N i µi
i =1
Proporção no estrato i
(variáveis dicotómicas)
Ni
pi = ∑ X ij / N i
i =1
L
Proporção
p = ∑ N i pi / N
i =1
ni
X i = ∑ X ij / ni
i =1
L
X st = ∑ N i X i / N
1
i =1
L
NX st = ∑ N i X i
i =1
ni
pˆ i = ∑ X ij / ni
i =1
L
pˆ st = ∑ N i pˆ i / N
i =1
…
1
st significa que se está a utilizar uma amostra estratificada.
19
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
POR CLUSTERS
Número de clusters
M
m
Número de elementos no
cluster i
Ni
ni = N i
Número de elementos
N = ∑ Ni
n = ∑ ni
N = N /M
n = n/m
X ij
X ij
M
i =1
Dimensão média dos
clusters
j-ésima observação no
cluster i
Ni
M
Média por cluster
µ . = ∑∑ X ij / M
i =1 j =1
Ni
M
Média global
µ = ∑∑ X ij / N
i =1 j =1
Ni
M
τ = ∑∑ X ij
Total
i =1 j =1
Proporção
(variáveis dicotómicas)
M
Ni
M
i =1
m
ni
X cl = ∑∑ X ij / m
i =1 j =1
m
ni
m
X cl = ∑∑ X ij / ∑ ni
i =1 j =1
i =1
m
ni
m
N X cl = N ∑∑ X ij / ∑ ni
i =1 j =1
ni
m
i =1
m
p = ∑∑ X ij / N
pˆ cl = ∑∑ X ij / ∑ ni
Número de clusters
M
m
Número de elementos no
cluster i
Número de elementos por
cluster
Ni
ni
N
n
Número de elementos
N =MN
n = mn
j-ésima observação do
cluster i
X ij
X ij
Média no cluster i
µ i = ∑ X ij / N
i =1 j =1
i =1 j =1
i =1
MULTI-ETAPAS
N
i =1
M
Média global
µ = ∑ µi / N
i =1
M
N
τ = ∑∑ X ij
Total
i =1 j =1
N
Proporção no cluster i
(variáveis dicotómicas)
pi = ∑ X ij / N
Proporção
p = ∑ pi / N
j =1
M
i =1
n
X ime = ∑ X ij / n
i =1
m
n
X me = ∑∑ X ij / mn
i =1 j =1
m
N X me = N ∑ X ime / m
i =1
n
p i = ∑ X ij / n
j =1
m
n
pˆ me = ∑∑ X ij / mn
i =1 j =1
TABELA 3. NOTAÇÃO UTILIZADA NAS FÓRMULAS DA TABELA 4. FONTE: FERRÃO (2001).
20
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
21
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
22
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Determinação de n em amostras não aleatórias
Nas amostras não aleatórias determina-se a dimensão da amostra que é possível
custear ou então adopta-se a dimensão já utilizada, com sucesso, em estudos anteriores das
mesmas características. Também é possível utilizar as expressões da tabela 4 para o caso
das amostras aleatórias, ou seja, determinar qual a dimensão que seria necessária se a
amostra fosse aleatória, sendo que o valor encontrado é meramente indicativo.
3.2- MÉTODOS DE RECOLHA DOS DADOS
Os fundamentos dos vários métodos de recolha dados num inquérito são praticamente
os mesmos.
Contudo, já na altura do planeamento se deve decidir qual o método de recolha de
informação que se irá utilizar, pois a construção do questionário depende muito do método
escolhido.
Não existe um método óptimo de recolha de dados. Cada um tem as suas virtudes e
os seus defeitos. Por exemplo, enviar os inquéritos por correio tem custos relativamente
baixos, mas tem baixas taxas de resposta se não houver um esforço de acompanhamento.
Os inquéritos por correio electrónico podem ter custos ainda mais baixos, mas não se
podem utilizar em universos genéricos porque apenas são aplicáveis a pessoas com acesso
ao correio electrónico. As entrevistas pessoais são caras, mas permitem a utilização de
questionários mais longos.
Normalmente definem-se três métodos de recolha da informação:
ƒ
Entrevista pessoal;
ƒ
Entrevista telefónica;
ƒ
Questionário por correio.
A escolha do método a utilizar deve depender dos seguintes factores:
ƒ
Tipo de população, ou seja, o universo;
ƒ
Representatividade da amostra;
ƒ
Tipo de questões;
ƒ
Custo e pessoal disponível.
Segundo GOODE (1979), a adequação de um questionário remetido, ou seja, autoadministrado, dependerá das exigências do problema da pesquisa em relação:
ƒ
Ao tipo de informação necessária;
23
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
Uma quantidade muito extensa de dados não pode ser obtida com o
questionário. O questionário é eficaz somente quando o inquirido é capaz ou
quer expressar as suas reacções claramente. A diferença entre um questionário e
uma entrevista não está na questão da franqueza, mas na dimensão e
profundidade, pois tanto um bom questionário como uma boa entrevista pode
obter respostas francas sobre quase todos os assuntos.
ƒ
Ao tipo de inquirido alcançado;
ƒ
O questionário auto-administrado não pode ser usado para uma amostra
representativa de toda a população porque, por exemplo, é necessário saber ler e
escrever.
ƒ
À acessibilidade dos inquiridos;
ƒ
À partida pensa-se que o questionário é mais barato e leva menos tempo que a
entrevista, mas nem sempre é assim, pois, por exemplo, o tempo de espera para
as respostas aos questionários pode ser muito elevado; a questão do custo
depende de quão dispersa está a amostra. “As despesas não devem ser
calculadas na base do número de entrevistas ou questionários a serem obtidos,
mas na base da quantidade de informação útil a ser obtida.” GOODE (1979).
ƒ
À precisão da hipótese.
ƒ
Quanto mais claramente focalizada é a hipótese, mais eficaz é o questionário
auto-administrado.
Analisando os prós e contras de cada método de recolha de dados pode-se escolher
aquele que será mais vantajoso para a situação particular em estudo.
3.3- CONCEPÇÃO DAS QUESTÕES
Um dos caminhos para o sucesso de um inquérito reside na inclusão de questões
concisas e de fácil compreensão. Por muito atractivo que seja o questionário, não servirá de
muito se as questões forem pobres, pois o valor dos dados a obter será reduzido.
De seguida apresentam-se alguns conselhos práticos sobre a concepção das questões
de um questionário de sucesso com base em HILL (2000).
Devem-se utilizar questões bem escritas e testadas, tanto quanto possível.
24
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
O investigador deve pensar bem se quer informação do tipo geral ou específico. Pois
não é possível fazer inferências correctas sobre atitudes, opiniões, satisfações ou gostos
específicos a partir das respostas dadas às perguntas gerais.
É preciso também analisar cuidadosamente o objectivo geral (o tipo de informação
que se quer solicitar – factos, opiniões, atitudes, preferências, valores, satisfações) de cada
uma das perguntas que se está a inserir no questionário.
Em relação às perguntas para solicitar factos é preciso ter especial atenção se se está
a pedir factos “sensíveis” demais, ou seja, informação que o inquirido não está interessado
em fornecer; detalhes desconhecidos pelos inquiridos ou, detalhes que obrigam os
respondentes a gastar muito tempo na recolha de informação para preencher o
questionário.
Pode-se também colocar a questão se serão preferíveis perguntas de resposta aberta
ou perguntas fechadas.
As perguntas abertas têm a vantagem de poderem dar mais informação e, muitas
vezes informação mais “rica” e detalhada ou até inesperada. No entanto, também
apresentam as seguintes desvantagens:
ƒ
Muitas vezes as respostas necessitam de ser “interpretadas”;
ƒ
É preciso muito tempo para codificar as respostas;
ƒ
Normalmente é preciso utilizar pelo menos dois avaliadores na “interpretação” e
codificação das respostas;
ƒ
As respostas são mais difíceis de analisar estatisticamente;
ƒ
A análise requer muito tempo.
As perguntas fechadas têm a vantagem de ser fácil aplicar análises estatísticas para
analisar as respostas, sendo muitas vezes possível analisar os dados de maneira sofisticada.
Outro facto a ter em conta quando se formulam perguntas está relacionado com a
extensão e clareza das perguntas. Note-se que a clareza está inversamente relacionada com
a extensão de uma pergunta. Devem-se escrever perguntas curtas, com palavras e sintaxe
simples e evitando, sempre que possível, o uso de termos técnicos.
PINTO (1986) defende que, dado o elevado número de inquéritos exigido pela
representatividade estatística, as vantagens das perguntas fechadas acabam por vingar
sobre as possíveis desvantagens.
Algumas das falhas mais comuns na construção das perguntas que se devem evitar
são: perguntas múltiplas (uma pergunta que contém duas ou mais perguntas); perguntas
25
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
que usam uma mistura de conjunções e disjunções; perguntas não-neutras (as perguntas
para medir opiniões, atitudes ou satisfações devem ter uma forma neutra, ou seja, não
devem ter uma forma que convide apenas a uma resposta positiva ou negativa) e, perguntas
indefinidas (pergunta vaga, o respondente tem a responsabilidade de definir o significado
da pergunta podendo utilizar critérios diferentes).
Em relação ao número de respostas alternativas a usar, quando o objectivo da
pergunta é solicitar factos quantitativos e não se conhece a provável gama (e distribuição)
dos valores, é útil usar uma das seguintes opções:
ƒ
Escrever uma pergunta aberta para a qual a resposta seja um valor exacto escrito pelo
respondente. Caso seja conveniente categorizar as respostas após a recolha dos dados, é
fácil olhar para a gama de valores e sua distribuição para decidir quantas categorias
usar para classificar as respostas.
ƒ
Quando o pedido de um valor exacto for “sensível” demais convém usar uma pergunta
fechada. É útil consultar pessoalmente alguns potenciais respondentes para obter
conselho prático sobre a provável gama de valores, bem como sobre o número óptimo
de respostas alternativas (categorias) associadas à pergunta.
Outra questão que muitas vezes se põe é se se deve utilizar um número par ou ímpar
de respostas alternativas.
Perante um número ímpar de respostas alternativas, muitos inquiridos têm tendência
para dar a resposta de uma maneira “conservadora” e reponderem no meio da escala,
pensando que é mais “seguro” não dar uma opinião forte (nem positiva nem negativa) –
mas provavelmente têm uma opinião mais forte do que mostram. Portanto, um número de
respostas alternativas ímpar pode ajudar à obtenção de respostas “erradas”. As respostas
são “erradas” porque não são representativas das verdadeiras opiniões (ou atitudes ou
satisfações) de uma grande parte dos inquiridos.
Esta tendência está especialmente ligada a perguntas “sensíveis” sobre atitudes,
opiniões ou satisfações, ou seja, perguntas que tratam de assuntos potencialmente
embaraçosos, ou perguntas em que o respondente pensa que pode estar a correr um risco se
responder de forma clara – portanto prefere evitar o risco por meio de uma resposta mais
ou menos “neutra”. Por outro lado, um número par de respostas alternativas, tal como já se
disse anteriormente, é de evitar pois obriga todos os inquiridos a dar uma opinião (ou
atitude) definitivamente positiva ou negativa. Não é possível dar uma opinião neutra –
26
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
mesmo no caso em que a opinião do inquirido seja verdadeiramente neutra. Portanto, um
número par de respostas alternativas pode forçar a respostas “erradas”.
Não há uma regra de ouro para decidir se é melhor utilizar um número par ou ímpar
de respostas alternativas. Contudo, se o investigador pensar que uma variável é “sensível”,
pode ser útil utilizar um número par de respostas alternativas. Se o questionário for
anónimo e não contiver perguntas “sensíveis” geralmente é recomendado que se utilize um
número ímpar de respostas alternativas.
Podem surgir problemas com escalas ordinais quando:
ƒ
Há confusão nos tipos de resposta alternativa (alternativas de frequência e misturadas
com alternativas de quantidade);
ƒ
A gama de respostas alternativas é demasiado restrita;
ƒ
As respostas alternativas não têm descrições e é necessário interpretar os valores da
escala, pois a interpretação não é única (ordem crescente ou decrescente);
ƒ
As respostas alternativas são apenas parcialmente descritas (por exemplo, com
descrições só nos extremos).
Quando as perguntas para solicitar opiniões ou atitudes sobre assuntos precisam de
conhecimento específico, é preferível escrever duas perguntas: uma primeira para
investigar sobre o conhecimento do respondente e uma segunda (só para aqueles que têm
conhecimento adequado) para investigar as suas opiniões ou atitudes.
Normalmente a primeira ou última secção do questionário referem-se às
características socioeconómicas dos respondentes ao questionário. O motivo pelo qual por
vezes se coloca esta secção no final deve-se ao facto de serem perguntas simples de
responder o que poderá motivar o respondente a terminar o questionário.
É muito importante recolher apenas as características estritamente relevantes à
investigação porque perguntas sobre características não necessárias e que não vão ser
incluídas nas análises dos dados, aumentam o cumprimento do questionário e, portanto,
aumentam o risco de falta de cooperação dos respondentes. Para escolher as características
relevantes é preciso considerar os dois aspectos seguintes: todas as hipóteses da
investigação e os detalhes dos casos requeridos para descrever a amostra e replicar a
investigação.
As questões de um inquérito devem estar normalmente estruturadas e padronizadas. A
estrutura pretende reduzir o enviesamento. Por exemplo, as questões devem ser ordenadas
27
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
de tal forma que uma questão não influencie a resposta às questões subsequentes. Os
inquéritos são padronizados para assegurar a confiança, a generalidade e a validade.
É fundamental ter em mente que “a formulação de perguntas não pode perder de vista
as características da população a inquirir.” PINTO (1986).
3.4- DESENHO DO QUESTIONÁRIO
Um questionário pouco atractivo pode levar a que as pessoas não o preencham, por
isso, este é também um tópico muito importante.
Ao se desenhar um questionário deve-se ter presente dois objectivos – reduzir a não
resposta e minimizar o erro de medida.
O questionário deve ser construído de modo a:
ƒ
Motivar os inquiridos a preenchê-lo;
ƒ
Permitir a correcta leitura das questões;
ƒ
Instruir os inquiridos a responder a cada questão, com instruções claras de
sequência no preenchimento do questionário;
ƒ
Garantir a sua correcta devolução depois de preenchido.
Os questionários devem ter uma introdução que contenha os seguintes aspectos:
ƒ
Um pedido de cooperação no preenchimento do questionário;
ƒ
A razão da aplicação do questionário;
ƒ
Uma apresentação curta da natureza geral do questionário;
ƒ
O nome da instituição (faculdade, centro de investigação);
ƒ
Uma declaração formal da confidencialidade das respostas;
ƒ
Uma declaração formal da natureza anónima do questionário.
Outra questão que se deve ter em consideração é o layout do questionário,
nomeadamente:
ƒ
A clareza e o tamanho do questionário;
ƒ
As secções e as perguntas do questionário;
ƒ
As instruções.
Por fim há que analisar a aparência estética do questionário e fazer uma verificação
final do questionário.
28
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
3.5- PRÉ-TESTE DO QUESTIONÁRIO
Um pré-teste não é mais que uma revisão formal do questionário e da metodologia de
recolha de dados que lhe está associada. O que por vezes se faz é aplicar o questionário a
uma sub amostra pedindo colaboração para identificar possíveis problemas.
Deste modo, deve-se, sempre que possível, realizar um estudo preliminar para
verificar a relevância, clareza e compreensão das perguntas aplicadas aos respondentes.
Por exemplo, quando se procede à tradução do questionário para diversas línguas,
deve-se fazer um estudo preliminar para testar a tradução do questionário tendo em
consideração: o significado pessoal e o significado comum de uma palavra; o problema da
polissémia (uma palavra que tem vários significados comuns); o problema de versões
diferentes de uma língua (por exemplo: português de Portugal e do Brasil) e o problema da
linguagem idiomática e da linguagem coloquial. Uma técnica que se poderá utilizar é a do
“traduz – retraduz”, ou seja traduzir e verificar a tradução do questionário voltando a
traduzir para a língua original e então comparar o original com a “retradução”.
3.6- O PLANO DO QUESTIONÁRIO
Segundo HILL (2000) os passos a seguir na construção de um questionário são:
1. Listar todas as variáveis da investigação, incluindo as características dos casos;
2. Especificar o número de perguntas para medir cada uma das variáveis, com
especial atenção a quando se tem variáveis latentes, ou seja, variáveis que não
podem ser observadas nem medidas directamente, mas que podem ser definidas a
partir de um conjunto de outras variáveis (possíveis de serem observadas ou
medidas) que medem qualquer coisa em comum (nomeadamente, a variável
latente);
3. Escrever uma versão inicial para cada pergunta;
4. Pensar cuidadosamente na natureza da primeira hipótese geral e nas variáveis e
perguntas iniciais com ela associadas. Identificar em seguida que tipo de hipótese
se tem (hipótese que trata de diferenças entre grupos de casos ou hipótese que
trata de relações entre variáveis);
5. Consoante o tipo de hipótese geral, decidir quais as técnicas estatísticas
adequadas para testar a hipótese e ter em atenção os pressupostos destas técnicas;
29
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
6. Decidir, com base na informação anterior, o tipo de resposta desejável para cada
pergunta associada com a hipótese geral (respostas qualitativas descritas por
palavras pelo respondente; qualitativas escolhidas pelo respondente a partir de um
conjunto de respostas alternativas fornecido pelo autor do questionário ou,
quantitativas escolhidas pelo respondente a partir de um conjunto de respostas
alternativas fornecido pelo autor do questionário);
7. Com base na informação dos últimos 3 passos escrever a hipótese operacional;
8. Considerar as perguntas iniciais (e os tipos de respostas) associadas com a
primeira hipótese operacional e, caso necessário, “limar arestas” (polimento) de
forma a chegar às versões finais para incorporar no questionário;
9. Verificar se as versões finais das perguntas e das respostas ainda são adequadas
para testar a hipótese operacional;
10. Repetir os passos 3-9 para as outras hipóteses gerais;
11. Escrever as instruções associadas com as perguntas para informar o respondente
como deve responder;
12. Planear as secções do questionário.
Em suma, um questionário para ser eficiente na recolha de informação deve: manter a
cooperação e motivação do respondente sendo para isso determinante o comprimento do
questionário e o tema em estudo; comunicar com o respondente ou seja, utilizar palavras
que ele conheça, não fazer perguntas ambíguas e empregar conceitos abstractos ou vagos;
ajudar o respondente a formular as suas respostas explicando sem induzir a resposta ou,
utilizando auxílios visuais para recordar situações ou ainda, nas perguntas abertas, se a
resposta não atingir os objectivos pode-se estimular a dar mais informação através de
frases como “e mais alguma coisa?”, “e que outras razões?”; evitar enviesamentos através
do modo como a questão é escrita; facilitar o trabalho do entrevistador ou do respondente
elaborando um questionário bem organizado, com as perguntas devidamente numeradas,
com indicações, com espaço suficiente para as respostas, e com tamanho de fonte
adequado, boa impressão, etc; facilitar o processamento da informação codificando
previamente as categorias de resposta das perguntas que a isso se adequam.
Conseguir uma taxa de respostas aceitável exige um acompanhamento sistemático do
estudo, podendo ser adoptadas diversas práticas. Pode-se, por exemplo, fazer acompanhar
o questionário de uma carta de apresentação – personalizada, honesta, interessante,
30
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
persuasiva mas curta – dando resposta a potenciais questões que podem surgir ao inquirido
como a natureza do estudo, porque foi o inquirido escolhido, quem está a fazer o estudo,
porque é importante a colaboração do inquirido, o que se pretende que faça, que uso terá a
informação fornecida e se o respondente será ou não mantido no anonimato. Esta carta
deve, preferencialmente, ser assinada à mão por um responsável do estudo. Pode-se
também incluir com o questionário um envelope com porte pago para devolução do
questionário respondido.
A oferta de pequenas recompensas, monetárias ou de outro tipo, pode igualmente ser
uma estratégia a adoptar, embora se coloquem algumas ressalvas nesta técnica de indução
de respostas. Existem situações em que o inquirido não sabe de todo o que responder, mas
como está a ser aliciado com uma recompensa se responder, esforça-se por fazê-lo,
expressando opiniões que não traduzem o seu sentimento real.
Uma táctica também utilizada consiste em contactar o respondente antes de este
receber o questionário. A promessa de confidencialidade pode também surtir efeito em
alguns respondentes, bem como o compromisso em comunicar os resultados do estudo.
Alguns princípios essenciais para maximizar o envolvimento e valor de um inquérito
postal são: despertar a curiosidade; transmitir com clareza a importância do estudo; fazer
sentir ao respondente a sua importância no estudo; ser interessante; ser de fácil
compreensão, resposta e devolução.
As questões abertas devem ser evitadas, especialmente em questionários por correio,
pois elas tendem a causar alguma ansiedade ao inquirido o que pode resultar na rejeição de
todo o questionário.
O desenho do questionário influencia em muito a validade da informação.
A própria forma como a pergunta é feita pode enviesar a resposta. As perguntas
devem ser expressas da forma mais neutral possível, não devem ser ambíguas e devem ser
escritas numa linguagem que seja simples o bastante para ser entendida por respondentes
de todos os níveis de inteligência. Devem-se evitar perguntas vagas, ambíguas, com dupla
negações, com fortes apelos à memória e perguntas que deixem o inquirido responder à sua
maneira.
Muitas pessoas pensam que é fácil desenhar um questionário porque é comum no dia
a dia fazer perguntas. Contudo, na conversação as perguntas seguem-se de formas
diferentes conforme as respostas que vão sendo dadas enquanto que nos questionários
31
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
interessa ter sempre as mesmas perguntas e ordem para cada membro da amostra,
desviando apenas se as instruções o permitirem.
Desenhar um questionário de sucesso é uma arte que não pode ser aprendida sem
prática. Note-se que com maus dados só se podem obter maus resultados, por mais
malabarismos matemáticos que possam ser utilizados.
4- ETAPA 2: RECOLHA DOS DADOS
Uma vez planeado e desenhado o inquérito, pode-se começar a recolher os dados. De
modo a ter sucesso nesta etapa, devem-se recolher dados “claros”, não enviesados e
actualizados de um modo eficiente.
5- ETAPA 3: ACESSO AOS DADOS
Nesta etapa pretende-se “ler” os dados obtidos pelo método de recolha para o
software analítico onde procederá à análise. As fontes podem ser as mais variadas,
dependendo do método de recolha utilizado.
6- ETAPA 4: PREPARAÇÃO DOS DADOS
O objectivo desta etapa é garantir que os dados estão prontos para análise. Para isto
será necessário identificar e corrigir erros.
Ao se começar a usar um conjunto de dados inevitavelmente encontrar-se-ão
problemas. Os dados podem ter elementos inconsistentes, incompletos ou errados.
Segundo DAVIDSON (2002), estima-se que 80% do tempo associado ao processo de
prospecção e descoberta de informação será gasto a lidar com esses problemas.
Numa investigação por questionário podem surgir diversos erros, sejam motivados
pela amostragem ou não.
Os erros motivados pela amostragem podem ser de várias tipos:
ƒ
Variabilidade amostral ou erro amostral que decorre da própria noção de
amostra, pois uma amostra nem sempre é representativa da população;
32
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
Enviesamento amostral resultante de um erro sistemático que desvia o ponto
central da distribuição do estimador; representa uma tendência para deslocar
esse ponto para a direita ou esquerda do verdadeiro valor do parâmetro. O
enviesamento amostral pode ser causado:
ƒ
Por se utilizar uma listagem de elementos da população para fazer a selecção da
amostra – base de sondagem – incompleta ou imperfeitamente definida,
levando a considerar indivíduos que não deveriam ser considerados ou a omitir
outros que deveriam ser considerados;
ƒ
Por uma incompleta ou incorrecta execução do processo de amostragem,
frequentemente motivada pelas não respostas ou missing values;
ƒ
Por se utilizarem maus estimadores.
Os erros não motivados pela amostragem podem ser:
ƒ
Erros na recolha da informação (exemplo: em entrevistas pessoais):
ƒ
Por factores comportamentais tanto do entrevistador como do entrevistado, ou
seja, a impressão que o entrevistador e o entrevistado têm um do outro;
ƒ
Por características intrínsecas;
ƒ
Por factores psicológicos;
ƒ
Por características visíveis (idade, educação, sexo, …);
ƒ
Por atitudes, percepções, expectativas, motivações;
ƒ
Pela forma como se colocam as questões (por exemplo, se as questões não
forem lidas da forma como estão redigidas);
ƒ
Ao se prestar esclarecimentos, caso se induza a resposta do inquirido;
ƒ
No registo das respostas, principalmente quando são perguntas abertas;
ƒ
Por uma resposta inadequada ou inexacta seja por incapacidade ou por
relutância de responder com exactidão;
ƒ
Por falsificação, por exemplo, no caso de se forjar uma entrevista, sem nunca se
ter tido contacto com o “inquirido”).
ƒ
Erros no processamento da informação (erro de compilação ou codificação).
Os diferentes tipos de erros não são independentes uns dos outros, mas para motivos
práticos é razoável considerar diferentes tipos de erros separadamente e procurar
estratégias para reduzi-los um por um, então é de esperar que o total do erro do
questionário seja menor.
33
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Como parte do processo de preparação dos dados pode-se fazer uma variedade de
acções com a matéria-prima, como por exemplo nomear de forma consistente e não
ambígua. Estes procedimentos de rotina ajudam a assegurar que os dados são de boa
qualidade e integridade.
Antes de se efectuar qualquer tipo de análise é necessário examinar os dados, de
modo a identificar outliers, missing values e verificar se os dados cumprem os
pressupostos do método de análise que se pretende utilizar.
As representações gráficas (assunto desenvolvido no sub-capítulo 3.5) são
extremamente úteis nesta etapa, pois permitem:
ƒ
Examinar a forma da distribuição: através, por exemplo, de um histograma podese ganhar uma perspectiva da forma da distribuição da variável;
ƒ
Examinar as relações entre as variáveis: através, por exemplo, de um gráfico de
dispersão (ou de uma matriz de gráficos de dispersão) pode-se examinar as
relações entre duas ou mais variáveis;
ƒ
Identificar outliers: através, por exemplo, de um gráfico de “bigodes”.
Um dos problemas dos dados a tratar nesta etapa são os missing values (dados em
falta).
Os dados em falta podem ser causados por factor externo ao inquirido (erro na
introdução dos dados ou na recolha dos dados) ou então, podem dever-se ao inquirido
(recusa à resposta).
Quando os missing values se devem ao inquirido, o investigador deve tentar
encontrar padrões que possam caracterizar o processo de dados em falta, ou seja, descobrir
o grau de aleatoriedade presente nos missing values.
É necessário entender o impacto que os dados em falta podem ter na análise e
encontrar alternativas para resolver o problema.
Antes de implementar uma solução para os dados em falta, o investigador deve
entender o que está subjacente ao processo de dados em falta.
LEVY (1999) aponta alguns métodos para lidar com os dados em falta disponíveis
em diversos packages estatísticos, nomeadamente:
ƒ
Complete case aproach: método a utilizar apenas se houverem poucos dados em
falta e se a amostra for suficientemente grande para permitir a eliminação de
todos os indivíduos (casos) com missing values;
34
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
Delete case(s) and/or Variable(s): o investigador determina a extensão dos dados
em falta para cada indivíduo (caso) e variável e então elimina os indivíduos ou
variáveis com número excessivo de dados em falta.
ƒ
Métodos de introdução: (por exemplo: replace with mean) estimar o missing
value baseando-se em valores de outras variáveis ou de outros casos na amostra.
Utilizar um destes métodos pode ser útil porque fica-se com os dados completos e
com as relações que foram identificadas nos restantes dados, mas pode ser
perigoso porque se está a “falsificar” os dados. É necessário analisar o impacto
que essa “falsificação” terá na análise.
A escolha certa depende de: dimensão da amostra completa; natureza da análise
estatística que o investigador pretende efectuar; variável com maior número de valores
missing nessa análise; distribuição dos indivíduos (casos) com missing values no conjunto
de variáveis na análise.
Outra questão de realce nesta etapa é a identificação de outliers.
Outliers são observações com uma combinação única de características identificada
como distintamente diferente das outras observações; são casos que podem distorcer as
relações por serem únicos numa ou mais das variáveis em estudo. Podem ser benéficos ou
problemáticos, mas devem ser examinados no contexto da análise e devem ser avaliados
pelo tipo de informação que fornecem. Quando benéficos, embora diferentes da maioria da
amostra, podem dar indicações das características da população que não seriam
descobertas no curso normal da análise.
Os outliers podem resultar de:
ƒ
Erros na entrada dos dados ou na codificação (devem ser eliminados na fase de
limpeza dos dados);
ƒ
Observação devida a um evento extraordinário (neste caso o investigador deve
decidir se esse evento deve ser representado ou eliminado);
ƒ
Observações atípicas para as quais o investigador não tem explicação (se o
investigador achar que eles representam um segmento da população devem ser
retidos);
ƒ
Observações normais em cada variável individualmente, mas com uma
combinação única de valores nas diversas variáveis, ou seja, outliers
multivariados (devem ser retidos, a não ser que haja informação suficientemente
evidente que descarte a observação de ser um membro válido da população).
35
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Os outliers podem ser identificados de forma univariada (por exemplo, através de um
histograma), bivariada (identificando pontos isolados no gráfico de dispersão, por
exemplo) ou, de forma multivariada (através, por exemplo, de uma distância de
Mahalanobis).
Outro passo importante desta etapa de preparação dos dados é verificar se os dados
cumprem os pressupostos das técnicas de análise que se pretende utilizar. Alguns dos
pressupostos mais comuns são a normalidade, a homocedasticidade e a linearidade. Vejase então, para cada um destes pressupostos, as formas de identificação.
Normalidade: Pode-se identificar graficamente através de um histograma ou,
aplicando testes estatísticos como kurtose e swewness (ver sub-capítulo 3.1.1).
zskewness = skewness / (6/N)1/2
zkurtosis = kurtosis / (24/N)1/2
Se o valor z for superior ao valor crítico então a distribuição é não gaussiana.
Homocedasticidade (relacionada com a variância dos desvios não constante): Pode-se
identificar graficamente através de um gráfico de dispersão dos resíduos, pois se houver
correlação então há homocedasticidade. Também se podem aplicar os testes estatísticos de
Levene e de Box’s M. (ver PINDYCK (1991))
Linearidade: Pode-se identificar através de um gráfico de dispersão ou fazendo uma
análise de regressão.
Como forma de resolução no caso de um dos pressuposto não ser cumprido, podemse aplicar transformações aos dados (no sub-capítulo 3.4.1.1, aquando da abordagem à
análise de regressão múltipla são dados alguns exemplos de transformações).
36
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7- ETAPA 5: ANÁLISE DOS DADOS
O objectivo desta etapa é extrair informação útil dos dados recolhidos para suporte ao
processo de tomada de decisão. Qualquer informação obtida tem um valor intrínseco. A
chave é extrair esse valor.
Existem inúmeros procedimentos estatísticos para análise de dados, dependendo do
que se deseja saber e do tipo de medida das variáveis (dados).
As técnicas estatísticas podem ser classificadas de várias maneiras, por exemplo:
ƒ
Técnicas paramétricas e não-paramétricas;
ƒ
Técnicas que tratam de diferenças entre amostras de casos, e técnicas que tratam
da relação entre variáveis (para uma só amostra de casos);
ƒ
Técnicas univariadas, técnicas bivariadas e técnicas multivariadas.
Note-se que uma técnica pode ser, por exemplo, simultaneamente uma estatística
indutiva e um método não-paramétrico. Neste capítulo, cada técnica será apresentada
apenas no sub-capítulo correspondente à classificação mais comum, podendo ser
apresentada como exemplo em outro sub-capítulo onde também se enquadra.
Tal como já foi referido, o tipo de técnica escolhida depende muito da escala de
medida das variáveis. Deste modo, os diversos tipos de escalas existentes são:
Escalas não métricas
ƒ
Escala nominal – se se estiver a falar de categorias cuja sequência é arbitrária,
pois os números codificam apenas “nomes”, são rótulos (e.g., sexo, cor dos
olhos). As metodologias que podem ser utilizadas no tratamento estatístico deste
tipo de dados são aquelas que envolvem contagens de efectivos em cada categoria
(ou proporções). Não é lícito fazer operações aritméticas com dados nominais.
ƒ
Escala ordinal – se existir uma ordenação natural das categorias (e.g., classes
etárias, habilitações literárias). No tratamento estatístico deste tipo de dados
podem ser usadas metodologias destinadas a análise de ordens (ranks), assim
como metodologias para dados nominais.
Escalas métricas
ƒ
Escala intervalar – se o zero da escala for arbitrário, isto é, não corresponder à
anulação da característica em estudo (e.g., temperatura), pelo que as comparações
37
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ordinais e as operações de adição e subtracção fazem sentido, mas a divisão é
uma operação ilegítima.
ƒ
Escala de razões – se o zero da escala corresponder de facto à anulação da
característica em estudo (e.g., peso, velocidade), pelo que quer ordenações quer
operações aritméticas, sejam elas de adição e subtracção, sejam elas de
comparação através de quocientes, são legítimas.
Segundo HILL (2000), os dois tipos de escala mais frequentemente utilizados em
questionários são as escalas nominais e ordinais. No entanto, para medir algumas
características dos casos, também se usam escalas métricas (escalas de intervalo e escalas
de razões).
Veja-se de seguida, segundo HILL (2000), as técnicas estatísticas mais adequadas
para analisar respostas dadas em cada um dos tipos de escala.
Escala nominal
As escalas nominais fornecem dados na forma de frequências. Isto significa que o
que se tem é o número de respostas em cada categoria da escala. As análises estatísticas
adequadas são principalmente as técnicas não-paramétricas.
Escala ordinal
As perguntas que originam respostas numa escala ordinal podem ser de dois tipos.
Sendo o tipo 1 um conjunto de itens que o inquirido tem de avaliar uns em relação aos
outros. Ou seja, o inquirido tem de dar uma ordenação aos itens. O tipo 2 consiste em
avaliar um só item em termos de uma variável (por exemplo, perguntas para avaliar a
satisfação).
Para analisar as respostas a uma pergunta do tipo 1 é comum utilizar-se uma análise
de variância de Friedman (ver sub-capítulo 3.2.1.5).
Em relação ao tipo 2, embora essas perguntas usem escalas ordinais, quando a
distribuição das respostas é unimodal e mais ou menos gaussiana, é vulgar tratar os valores
numéricos ligados com as respostas como tendo sido obtidos através de uma escala
métrica. Usam-se normalmente métodos paramétricos (por exemplo: teste t, ANOVA,
correlações do tipo Pearson e mesmo análises multivariadas – análise factorial, análise
discriminante, etc.) (ver sub-capítulos correspondentes aos métodos paramétricos e à
análise multivariada). Antes de se utilizar um destes métodos é muito importante verificar
se os dados estão mais ou menos de acordo com os pressupostos da respectiva técnica.
38
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Escala de intervalo
É legítimo aplicar todos os métodos paramétricos e não-paramétricos a variáveis
medidas neste tipo de escala. Mas é preferível, sempre que os pressupostos o permitam,
utilizar métodos paramétricos porque são mais potentes.
Escala de razões
É possível utilizar todos os métodos paramétricos – mas, como sempre, na aplicação
destes métodos é preciso verificar que os dados satisfazem razoavelmente bem os
pressupostos dos métodos aplicados.
7.1- ESTATÍSTICA DESCRITIVA versus ESTATÍSTICA INDUTIVA
Uma estatística descritiva descreve, de forma sumária, alguma característica de uma
ou mais variáveis fornecidas por uma amostra de dados.
As estatísticas indutivas permitem avaliar o papel de factores ligados ao acaso
quando se está a tirar conclusões a partir de uma ou mais amostra de dados.
Antes de se avançar para a construção de modelos explicativos deve-se conhecer os
dados, ou seja, realizar uma análise descritiva que dê uma visão sobre os dados.
Os objectivos de uma análise descritiva são: sintetizar os dados, descrever as
variáveis de interesse.
Há quem defina a análise descritiva como a forma de conhecer o passado ou o
presente. Para estes teóricos, inferir é conhecer o futuro. A análise inferencial dos dados
ajuda a prever futuros desenvolvimentos.
Na estatística descritiva não se assume qualquer forma para a distribuição aparente,
apenas se descreve numérica e graficamente uma colecção de dados. Quando se pretende
inferir algo sobre a distribuição da população subjacente aos dados, entra-se no domínio da
inferência estatística.
Inferir é criar um modelo explicativo (por exemplo um modelo de regressão) para um
comportamento ou atitude futura. O modelo mostrará quais as variáveis importantes e
atribuirá a cada uma um nível de importância.
A inferência estatística preocupa-se essencialmente com dois tipos de problemas:
estimação de parâmetros populacionais e teste de hipóteses. A diferença fundamental entre
estatística descritiva e inferência estatística reside no facto de nesta última haver avaliações
probabilistas sobre a precisão das estimações ou sobre a fiabilidade das decisões tomadas.
39
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.1.1- ESTATÍSTICA DESCRITIVA
Como forma de apresentação das estatísticas descritivas, é comum utilizarem-se
representações tabulares ou gráficas, nomeadamente: tabelas com frequências absolutas e
relativas ou relativas acumuladas, histogramas e polígonos de frequências ou polígono de
frequências acumuladas, gráficos de barras, gráficos circulares, entre outros. As
representações gráficas serão abordadas em maior profundidade no sub-capítulo 3.5.
Sendo:
N – nº total de valores observados
Fi – frequência absoluta de um valor Xi da variável X. O número de vezes que esse
valor foi observado.
fi – frequência relativa de um valor Xi da variável X. Dado pelo quociente Fi/N.
Estas estatísticas podem ser divididas em:
ƒ
Medidas de tendência central
ƒ
Média (assume um valor que é central em relação aos dados que constituem a
amostra);
ƒ
Mediana (valor da variável estatística precedido por 50% das observações);
ƒ
Moda (valor mais frequente, ou seja, o que aparece mais vezes no conjunto dos
valores observados).
ƒ
Medidas de ordem
ƒ
Quartis (Qk quartil da ordem k, é o valor da variável que é precedido por kN/4 das
observações);
ƒ
Decis (Dk decil da ordem k, é o valor da variável que é precedido por kN/10 das
observações);
ƒ
Percentis (Pp percentil da ordem p, é o valor da variável que é precedido por p%
do total dos valores observados).
ƒ
Medidas de dispersão
ƒ
Amplitude do intervalo de variação (diferença entre o valor máximo e o valor
mínimo dos dados. Não é muito fiável porque pode ser afectada por valores
atípicos dos dados extremos);
ƒ
Amplitude do intervalo de variação inter-quartis (intervalo cujos extremos são o
primeiro e o terceiro quartis);
ƒ
Desvio-padrão (raiz quadrada da variância. Valor absoluto de um erro “típico”
dos dados em relação à média amostral);
40
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
Variância (descreve a dispersão de uma amostra ou população – permite fazer
uma inferência acerca da variabilidade de uma população de grandes dimensões a
partir de uma amostra aleatória limitada);
ƒ
Coeficiente de variação (indica que percentagem da média representa o desviopadrão).
ƒ
Medidas de assimetria
ƒ
Skewness (indica se a curva que representa os dados é assimétrica negativa,
simétrica ou assimétrica positiva).
ƒ
Medidas de achatamento
ƒ
Kurtose (indica se há uma maior ou menor concentração dos dados em torno
da média).
As fórmulas destas estatísticas podem ser encontradas em qualquer livro básico de
estatística, por exemplo, CABRAL (1997) ou LARSON (1982), entre outros.
7.1.2- ESTATÍSTICA INDUTIVA
Neste sub-capítulo serão abordados apenas os intervalos de confiança e os testes de
hipóteses, pois outras técnicas da estatística indutiva (como por exemplo os testes de
hipóteses relativos à análise das tabelas de contingência) serão abordadas em capítulos
posteriores.
7.1.2.1- Intervalos de Confiança
Numa grande variedade de problemas de inferência o interesse não é estimar um
parâmetro, mas sim estabelecer um limite inferior ou superior, ou ambos, para o parâmetro
que toma valores em IR; ou seja, construir uma família de intervalos de confiança de tal
forma que uma elevada proporção destes possa conter o parâmetro. Este é o caso, se por
exemplo, X é o tempo de vida de um equipamento e se pretende encontrar um limite
inferior para o valor médio de X, ou se X mede a toxicidade de uma droga, o interesse é
encontrar um limite superior para o valor médio.
Os intervalos de confiança são hoje rotineiramente usados na comunicação social e
na divulgação de resultados. Qualquer sondagem indica, para além das estimativas
pontuais, uma ficha técnica em que os intervalos de confiança são indicados. Qualquer
41
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
relatório de análises clínicas traz valores de referência que mais não são do que intervalos
de confiança respeitantes à população “saudável”.
É óbvio que o ideal é construir intervalos de confiança com elevada probabilidade de
conter o parâmetro, mas que tenham simultaneamente amplitudes bastante pequenas.
Apresentam-se de seguida as fórmulas para cálculos dos intervalos de confiança mais
comuns.
Intervalo de confiança para o valor esperado
ƒ
ƒ
Amostra de grande dimensão, população qualquer
S
S ⎤
⎡
, X + zα / 2
⎢ X − zα / 2
⎥
N
N⎦
⎣
ƒ
Amostra de pequena dimensão, população gaussiana
S
S ⎤
⎡
, X + t N −1;α / 2
⎢ X − t N −1;α / 2
⎥
N
N⎦
⎣
Intervalo de confiança da proporção binomial (amostras de grande dimensão)
ƒ
⎡Y
Y (N − Y ) ⎤
Y (N − Y ) Y
+
,
z
⎢ − zα / 2
⎥
α
/
2
N
N3 ⎦
N3
⎣N
Intervalo de confiança para a variância de uma população gaussiana
ƒ
⎡ ( N − 1) S 2 ( N − 1) S 2 ⎤
, 2
⎢ 2
⎥
⎢⎣ χ N −1;α / 2 χ N −1;1−α / 2 ⎥⎦
Intervalo de confiança para a razão entre variâncias de populações normais
ƒ
⎡
S A2
S A2 ⎤
1
1
,
⎢
2
2 ⎥
⎣⎢ FN A −1, N B −1;α / 2 S B FN A −1, N B −1;1−α / 2 S B ⎥⎦
Intervalo de confiança para a diferença entre os valores esperados de duas
ƒ
populações
ƒ
Amostras independentes de grandes dimensões, populações quaisquer
−
Variâncias das duas populações são diferentes
⎡
S A2 S B2
S A2 S B2 ⎤
+
+
, ( X A − X B ) + zα / 2
⎢ ( X A − X B ) − zα / 2
⎥
NA NB
N A N B ⎥⎦
⎢⎣
−
Variâncias das duas populações são iguais
⎡
1
1
1
1 ⎤
+
+
, ( X A − X B ) + zα / 2 S
⎢ ( X A − X B ) − zα / 2 S
⎥
N A NB
N A NB ⎦
⎣
42
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
(Neste caso, a variância comum das populações A e B, σ2, pode ser estimada por S2 =
ƒ
(NA −1)SA2 +(NB −1)SB2
)
NA + NB −2
Amostras independentes de pequenas dimensões, populações normais
⎡
S A2 S B2
S A2 S B2 ⎤
, (X A − X B ) + t GL;α / 2
+
+
⎥
⎢( X A − X B ) − t GL;α / 2
NA NB
N A N B ⎥⎦
⎢⎣
2
⎛ S A2
S2 ⎞
⎜⎜
+ B ⎟⎟
.
(Graus de liberdade da t-Student calculados por:
NB ⎠
⎝NA
GL =
( S A2 / N A ) 2 ( S B2 / N B ) 2
+
N A −1
N B −1
Se as estimativas das variâncias não diferirem muito GL será próximo de NA+NB-2)
ƒ
Intervalo de confiança para a diferença entre proporções binomiais (amostras
independentes de grandes dimensões)
⎛ YA YB ⎞
Y (N − Y ) Y (N − Y )
⎟⎟ ± zα / 2 A A 3 A + B B 3 B
⎜⎜
−
NA
NB
⎝ N A NB ⎠
7.1.2.2- Testes de Hipóteses
Objectivo fundamental dos testes de hipóteses é verificar se dados amostrais (ou
estimativas obtidas a partir deles) são ou não compatíveis com determinadas populações
(ou com valores previamente fixados dos correspondentes parâmetros populacionais).
Um teste de hipóteses consiste em verificar se existe algum motivo para não
continuar a aceitar como correcta a estimativa de um parâmetro (ou parâmetros) devido a:
ƒ
Um imperativo de qualidade;
ƒ
Uma teoria que se pretende comprovar;
ƒ
Uma suspeita provocada por observações aleatórias;
ƒ
Outro qualquer motivo.
Para efectuar um teste de hipóteses, há que definir as hipóteses em causa, as quais são
designadas por:
H0: hipótese inicial ou nula
H1: hipótese alternativa
Sendo H0 a hipótese aceite até ao momento, e se não houver razões para rejeitá-la,
continuará a ser aceite.
43
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
De um modo geral, a hipótese alternativa exprime as convicções do investigador, isto
é, a hipótese de trabalho, enquanto a hipótese nula exprime o que ele pretende descartar
com o seu estudo.
A rejeição de H0 não implica a aceitação de H1, o que acontece é que a rejeição de H0
implica a não rejeição de H1.
Para rejeitar ou não H0, há que definir critérios, isto é, há que definir as regiões de
rejeição e não rejeição da hipótese inicial.
O subconjunto do espaço amostral para o qual H0 é rejeitada chama-se região de
rejeição ou região crítica (R). À região complementar chama-se região de aceitação.
Pense-se agora no erro inerente à decisão de rejeitar ou não rejeitar a hipótese nula ou
inicial; para se compreender melhor a origem de tais erros, observe-se o seguinte quadro:
Decisão
Realidade
H0 verdadeira
H1 verdadeira (H0 falsa)
Não rejeitar H0
Decisão correcta
Decisão errada P(erro tipo II) = β
Rejeitar H0
Decisão errada P(erro tipo I) = α
Decisão correcta
Como se compreende o erro tipo I é muito importante, no sentido que merece mais
atenção, mais preocupação que o erro tipo II.
Define-se nível de significância e simboliza-se por α, a probabilidade de se rejeitar
H0 sendo H0 verdadeira. O nível de significância corresponde a um risco do produtor ver o
seu produto rejeitado, apesar de estar bom.
Define-se nível de confiança e simboliza-se por β a probabilidade de não se rejeitar
H0 sendo H1 verdadeira ou 1 – P {rejeitar H0/H1}.
De igual modo, ao nível de confiança associa-se o termo risco do consumidor, pois
corresponde ao facto de um consumidor não rejeitar o produto, estando este estragado.
Em face do exposto, conclui-se que a região R deverá ser uma região tal que
minimize os valores das probabilidades de ocorrências dos erros tipo I e tipo II; tal não é
possível porque por vezes até variam em sentido contrário. No entanto, dada a importância
do erro tipo I, risco do produtor, é usual atribuir um valor reduzido para α (0,10; 0,05 ou
0,01) escolhendo-se R que minimize o valor de β, probabilidade do erro tipo II.
Nos quadros seguintes apresentam-se os critérios de rejeição para os parâmetros de
populações gaussianas, para um teste t para duas amostras independentes e para um teste
F. (As demonstrações relativas a estes critérios de rejeição podem ser encontradas, por
exemplo, em CABRAL (1997) ou LARSEN (1982)).
44
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
No último quadro apresenta-se ainda um sumário dos testes mais comuns e em que
circunstâncias devem ser utilizados.
H0
H1
Critério de Rejeição
σ
x ≥ µ 0 + z1−α
σ conhecido
µ = µ0
Μ = µ1
x ≥ µ 0 + t n −1;1−α
σ desconhecido
µ ≤ µ0
σ
x ≤ µ 0 + zα
µ > µ0
x ≤ µ 0 + t n−1;α
( µ1 > µ0)
n
( µ1 < µ0)
n
s
( µ1 > µ0)
n
s
( µ1 < µ0)
n
σ
x ≥ µ 0 + z1−α
σ conhecido
σ
µ ≥ µ0
Μ < µ0
x ≤ µ 0 + zα
µ ≤ µ0
µ > µ0
x ≥ µ 0 + t n −1;1−α
σ desconhecido
µ ≥ µ0
Μ < µ0
σ conhecido
µ = µ0
µ ≠ µ0
σ desconhecido
µX > µY
µX = µY
µX < µY σX e σY conhecidos
µX ≠ µY
x ≤ µ 0 + t n−1;α
x − µo
σ/ n
x − µo
n
n
s
n
s
n
≥ z1−α / 2
≥ t n−1;1−α / 2
s/ n
xm − y n
≥ z1−α
σ X2
σ Y2
σ X2
σ Y2
+
m
n
xm − y n
+
m
n
xm − y n
σ X2
m
+
σ Y2
≤ zα
≥ z1−α / 2
n
45
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
H0
H1
Critério de Rejeição
n
∑ (x
i =1
n
µ conhecido
∑ (x
i =1
σ = σ0 σ = σ1
− µ ) ≥ σ 02 χ n2;1−α
( σ1 > σ0)
− µ ) ≤ σ 02 χ n2;α
( σ1 < σ0)
2
i
2
i
(n − 1) s 2
σ
µ desconhecido
≥ χ n2−1;1−α ( σ1 > σ0)
2
0
(n − 1) s 2
σ
≤ χ n2−1;α ( σ1 < σ0)
2
0
n
∑ (x
σ ≤ σ0 σ > σ0
i =1
n
µ conhecido
− µ ) ≥ σ 02 χ n2;1−α
2
i
∑ (x
σ ≥ σ0 σ < σ0
i =1
− µ ) ≤ σ 02 χ n2;α
2
i
(n − 1) s 2
σ ≤ σ0 σ > σ0
σ
µ desconhecido
2
0
≥ χ n2−1;1−α
(n − 1) s 2
σ ≥ σ0 σ < σ0
σ
2
0
n
≤ χ n2−1;α
n
2
2
∑ (xi − µ ) ≤ σ 02 χ n2;α / 2 ou ∑ (xi − µ ) ≥ σ 02 χ n2;1−α / 2
µ conhecido
i =1
σ = σ0 σ ≠ σ0
i =1
(n − 1) s
µ desconhecido
σ
2
0
2
≤ χ n2−1;α / 2 ou
(n − 1) s 2
σ
2
0
≥ χ n2−1;1−α / 2
QUADRO 1. CRITÉRIOS DE REJEIÇÃO PARA OS PARÂMETROS DE POPULAÇÕES GAUSSIANAS.
H0
µX – µY ≤ d
H1
Critério de Rejeição
µX – µY > d
x − y−d
≥ t m+ n−2;1−α
1 1
SP
+
m n
µX – µY ≥ d µX – µY < d
x− y−d
≤ tm + n − 2;α
1 1
SP
+
m n
µX – µY = d µX – µY ≠ d
x − y−d
≥ t m+ n−2;1−α / 2
1 1
SP
+
m n
s P2 =
(m − 1) s X2 + (n − 1) sY2
m+n−2
QUADRO 2. CRITÉRIOS DE REJEIÇÃO PARA UM TESTE T PARA DUAS AMOSTRAS INDEPENDENTES.
46
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
H0
H1
Critério de Rejeição
σ X2 ≤ σ Y2
σ X2 > σ Y2
s X2
≥ Fm−1,n−1;1−α
sY2
σ X2 ≥ σ Y2
σ X2 < σ Y2
s X2
≤ Fm−1,n−1;α
sY2
σ X2 = σ Y2
σ X2 ≠ σ Y2
s X2
s X2
≤
F
≥ Fm−1,n−1;1−α / 2
ou
m −1, n −1;α / 2
sY2
sY2
QUADRO 3. CRITÉRIOS DE REJEIÇÃO PARA UM TESTE F.
Uma amostra
Dispersão
(variância)
População gaussiana
Amostra de qualquer dimensão
Duas amostras
Populações normais
independentes
Amostras de quaisquer dimensões
População qualquer
Uma amostra
Amostra de grande dimensão
Populações normais
Amostra de pequena dimensão
Populações quaisquer
Localização
Duas amostras
Amostras de grandes dimensões
(valor esperado)
independentes
Populações normais
Amostras de pequenas dimensões
Populações quaisquer
Duas amostras
Amostras de grandes dimensões
emparelhadas
Populações normais
Amostras de pequenas dimensões
Uma amostra
Localização
(proporção binomial)
População dicotómica
Amostra de grande dimensão
Duas amostras
Populações dicotómicas
independentes
Amostras de grandes dimensões
Teste do χ2
Teste F
Teste Z
Teste t
Teste Z
Teste t
Teste Z
Teste t
Teste Z
Teste Z
QUADRO 4. TESTES MAIS COMUNS ABORDADOS NESTE CAPÍTULO.
47
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.1.2.3- Relação entre Testes de Hipóteses e Intervalos de Confiança
A relação fundamental que existe entre os testes de hipóteses e os intervalos de
confiança pode ser enunciada nos termos seguintes: uma hipótese nula (H0: θ = θ0) pode
ser rejeitada a um nível de significância α se, e só se, o intervalo de confiança de θ a
(1-α)*100% não incluir o valor de θ0. Note-se que esta condição impõe que o intervalo de
confiança seja compatível com a natureza de H1, ou seja, que para testes bilaterais se
construam intervalos de confiança bilaterais e para testes unilaterais (num sentido) se
construam intervalos de confiança unilaterais (no mesmo sentido).
7.2- MÉTODOS PARAMÉTRICOS
versus MÉTODOS NÃO-PARAMÉTRICOS
Muitos métodos de inferência estatística clássica partem de uma série de pressupostos
quanto à natureza da população parente, geralmente a gaussianidade dos dados, razão pela
qual são denominados métodos paramétricos. Por exemplo, a análise de variância simples
(ANOVA) permite comparar simultaneamente k médias populacionais mas pressupõe a
priori que as amostras são de populações gaussianas independentes com variâncias iguais
(embora desconhecidas). O que fazer quando uma das condições é violada?
A partir da segunda metade do século XX assistiu-se ao aparecimento de um grande
número de métodos estatísticos menos exigentes quanto aos pressupostos de aplicação,
sendo que na maioria dos casos a única exigência feita é a continuidade da distribuição da
população parente. Os métodos em questão são chamados métodos não-paramétricos.
A grande popularidade dos métodos não-paramétricos advém fundamentalmente de
serem raras as ocasiões em que há conhecimento preciso sobre a forma da distribuição da
população parente sob estudo e serem menos sensíveis a observações díspares, pois
utilizam na sua maioria os ranks e não as magnitudes das observações.
As técnicas paramétricas são estatísticas que lidam com parâmetros (características
de um Universo, por exemplo, o valor médio de uma variável). As variáveis têm de estar
num escala intervalar ou de razões. Alguns exemplos de técnicas estatísticas do tipo
paramétrico são: o teste t, a análise de variância (ANOVA), a correlação (do tipo Pearson)
e a regressão linear. (ver sub-capítulos 3.3.2, 3.4.1.1 e 3.4.1.5)
48
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
As técnicas não-paramétricas não lidam com parâmetros e não assumem que os
valores de uma variável têm uma distribuição gaussiana. Estas estatísticas permitem
analisar variáveis com valores numa escala ordinal ou numa escala nominal.
7.2.1- MÉTODOS NÃO-PARAMÉTRICOS
Todo este sub-capítulo referente aos métodos não-paramétricos será desenvolvido
com base em BRILHANTE (2004).
7.2.1.1- Testes de Ajustamento
Os testes de ajustamento analisam a compatibilidade de um conjunto de valores
observados com a distribuição gaussiana ou com qualquer outra distribuição.
É frequente dar-se o caso de se querer testar hipóteses sobre a forma da população e
não propriamente sobre os parâmetros populacionais. Por exemplo, o teste t para uma
amostra (ou para duas amostras independentes ou ainda para duas amostras emparelhadas)
assenta no pressuposto de que as observações são gaussianas, razão pela qual se deve
verificar antes de o aplicar que de facto a população parente é gaussiana.
Preferencialmente a distribuição que se propõe em H0 deve estar completamente
especificada, incluindo todos os parâmetros. Se apenas for especificada uma família de
distribuições, deve estimar-se primeiro os parâmetros desconhecidos.
Teste do Qui-Quadrado
k
(O j − E j ) 2
j =1
Ej
Usa-se a estatística de teste: X = ∑
2
que, sob a validade de (O1, …, Ok) ~ Multinomial (n; p1, …, pk) tem distribuição
aproximada do qui-quadrado com k-1 graus de liberdade (se existirem s parâmetros
desconhecidos terá uma distribuição aproximada do qui-quadrado com k-1-s graus de
liberdade).
Rejeita-se
k
(o j − e j ) 2
j =1
ej
X (obs ) = ∑
2
a
hipótese
nula
a
um
nível
α*100%
se
≥ χ k2−1;1−α .
Seja (X1, …, Xn) uma amostra aleatória de uma população com função de distribuição
F.
49
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Defina-se:
I1 = {x: X ≤ a1}
I2 = {x: a1 < X ≤ a2}
…
Ik-1 = {x: ak-2 < X ≤ ak-1}
Ik = {x: X > ak}
Se Yj for o número de valores da amostra pertencentes a Ij, j=1, …, k, então
(Y1, …, Yk) ~ Multinomial (n; p1, … pk) onde pj = P(X∈Ij), j=1, …, k.
Teste de Kolmogorov-Smirnov (para uma amostra)
Defina-se função de distribuição empírica da amostra (X1, …, Xn) a função real de
variável real Fn* ( x) =
#{ X i : X i ≤ x}
. A função de distribuição empírica F*n é uma
n
estimativa da função de distribuição F.
Suponha-se que (X1, …, Xn) é uma amostra aleatória proveniente de uma população
com função de distribuição contínua F, desconhecida, e que se desconfia que F=F0,
estando F0 completamente especificada, isto é, pretende-se testar H0: F(x) = F0(x) para
todo x contra a alternativa H1: F(x) ≠ F0(x) para algum x.
A estatística de teste do teste de Kolmogorov-Smirnov é Dn = sup x F0 ( x) − Fn* ( x) . O
critério de rejeição a um nível de significância α é Dn ≥ Dn,α, onde P (Dn ≥ Dn,α) = α sob a
validade de H0.
Os valores deste teste encontram-se tabelados (a tabela estatística correspondente
pode ser encontrada em diversos livros de estatística).
Teste de Lilliefors
É a versão dos teste de Kolmogorov-Smirnov para o caso de se querer testar a
hipótese de a distribuição parente ser gaussiana com os parâmetros desconhecidos. Neste
caso tem-se que estimar os parâmetros pelo método de máxima verosimilhança e
ˆ ( z ) onde Φ é a função de
considerar como estatística de teste Dn* = sup z Fn* ( z ) − Φ
distribuição da gaussiana standard. O critério de rejeição a um nível α é D*n ≥ D*n,α onde
P(D*n ≥ D*n,α)=α.
Os valores deste teste também se encontram tabelados.
50
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Comparação entre o teste do Qui-Quadrado e o teste de Kolmogorov-Smirnov
(K-S)
ƒ
O teste do qui-quadrado é específico de dados categorizados, enquanto o teste de K-S
de amostras de populações contínuas;
ƒ
O teste de K-S não pode ser aplicado se houver parâmetros populacionais a estimar, ao
contrário do teste do qui-quadrado;
ƒ
O teste de K.S pode ser aplicado a pequenas amostras mas não o teste do qui-quadrado;
ƒ
O teste do qui-quadrado pode ser aplicado a dados discretos e o teste de K-S não;
ƒ
O teste de K-S avalia o ajustamento de cada uma das observações e o teste do quiquadrado o ajustamento de classes ou categorias.
7.2.1.2- Testes de Aleatoriedade
A maioria dos métodos estatísticos baseia-se no pressuposto da aleatoriedade da
amostra ou exigem que as observações tal como são recolhidas sejam independentes.
Existem vários tipos de testes de aleatoriedade mas será abordado aqui apenas o teste dos
runs.
Teste dos runs
Dada uma sequência de dois ou mais símbolos distintos, define-se run à sequência de
um ou mais símbolos do mesmo tipo precedida e seguida de nenhum símbolo ou de um
símbolo diferente.
A função de probabilidade de R, número total de runs para N objectos dos quais m
são do tipo 1 e n do tipo 2, é
⎧
⎪
⎪
⎪
⎪
⎪
P (R = r) = ⎨
⎪
⎪
⎪
⎪
⎪
⎩
⎛ m − 1 ⎞⎛ n − 1
⎞
⎟⎟ ⎜⎜
⎟⎟
2 ⎜⎜
⎝ r / 2 − 1 ⎠⎝ r / 2 − 1 ⎠
⎛ N ⎞
⎜⎜
⎟⎟
⎝m ⎠
⎛m −1
⎞⎛ n − 1
⎜⎜
⎟⎟ ⎜⎜
⎝ ( r − 1) / 2 ⎠⎝ ( r − 3 ) / 2
, se r par
⎞
⎟⎟ +
⎠
⎛ N
⎜⎜
⎝m
⎛m −1
⎜⎜
⎝ (r − 3) / 2
⎞
⎟⎟
⎠
⎞⎛ n − 1
⎟⎟ ⎜⎜
⎠⎝ ( r − 1) / 2
⎞
⎟⎟
⎠
, se r ímpar
para r = 2, 3, …, N = m+n
A região crítica de nível α para um teste de aleatoriedade bilateral é R ≤ r1 ou R ≥ r2
(r1 e r2 são pontos críticos da tabela estatística correspondente).
Sob a hipótese de aleatoriedade, µ R = 1+
2mn
2mn(2mn − N )
e σ R2 =
com N = m+n.
N
N 2 ( N − 1)
51
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Quando m, n ≥ 20 pode-se utilizar os resultados anteriores relativos ao valor médio e
à variância para se aproximar a distribuição gaussiana à distribuição de R.
7.2.1.3- Testes de Simetria
A simetria é uma propriedade estatística bastante importante, pelo que se pode estar
interessado em testar a hipótese
H0: A amostra provém de uma população com distribuição simétrica em torno da
mediana.
Se se conhecesse os parâmetros populacionais µ (valor médio) e M (mediana) da
distribuição, não haveriam problemas em classificar a distribuição com simétrica,
assimétrica positiva (direita) ou assimétrica negativa (esquerda), pois
ƒ
Se µ > M, a distribuição é assimétrica positiva;
ƒ
Se µ < M, a distribuição é assimétrica negativa;
ƒ
Se µ = M, a distribuição é simétrica
Teste de Simetria (Randles, Fligner, Pollicello, Wolfe)
A partir da amostra de dimensão n (X1, …, Xn) podem-se formar combinações desses
elementos em ternos. Cada terno (Xi, Xj, Xk) pode ser classificado em:
Terno direito se
Xi + X j + Xk
Terno esquerdo se
3
> mediana{ X i , X j , X k };
Xi + X j + Xk
3
< mediana{ X i , X j , X k };
Terno não direito e não esquerdo se
Xi + X j + Xk
3
= mediana{ X i , X j , X k }.
Considere-se a estatística T = # {ternos direitos} - # {ternos esquerdos}.
Sejam Bi = # {ternos direitos envolvendo Xi} – # {ternos esquerdos envolvendo Xi} e
Bjk = #{ternos direitos envolvendo(Xj, Xk )} – #{ternos esquerdos envolvendo(Xj, Xk )}.
A estatística de teste é Z = T/σT onde
σ T2 =
(n − 3)(n − 4)
n−3
n(n − 1)(n − 2) ⎡ (n − 3)(n − 4)(n − 5) ⎤ 2
Bi2 +
B 2jk +
T
− ⎢1 −
∑
∑
(n − 1)(n − 2) i
n − 4 1≤ j < k ≤ n
6
n(n − 1)(n − 2) ⎥⎦
⎣
Sob H0 a estatística Z tem distribuição assintótica gaussiana standard.
O teste possui potência razoável para n > 20.
52
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.2.1.4- Tabelas de Contingência
Uma tabela de contingência é uma tabela de frequências que representa um conjunto
de dados que foram classificados simultaneamente por várias características. Considere-se
classificações exaustivas e cujas categorias são mutuamente exclusivas. Se a classificação
é feita segundo duas variáveis (diga-se A e B) obtém-se uma tabela de contingência
bidimensional (r x c) e se ela for feita segundo mais de duas variáveis obtém-se uma tabela
de contingência multidimensional. Independentemente do método de amostragem usado
pretende-se, habitualmente, verificar a existência de uma eventual relação entre as
variáveis qualitativas A e B.
Teste de independência em tabelas de contingência
Em 1900 Karl Pearson sugeriu que se usasse a seguinte estatística de teste:
r
c
X = ∑∑
2
i =1 j =1
(O
ij
− eij )
2
eij
~ χ (2r −1)( c −1)
A hipótese de independência será rejeitada ao nível α se X 2 ≥ χ (2r −1)( c −1);1−α .
Têm havido muitas sugestões no que respeita quão grande deve ser a dimensão da
amostra para se obter uma boa aproximação da qui-quadrado à distribuição exacta de X2.
Uma regra generalizada consiste em não a aplicar se existirem mais de 20% de frequências
esperadas inferiores a 5, sendo que todas estas devem ser superiores a 1. Para contornar
esta situação, há quem prefira agrupar categorias adjacentes, mas tal procedimento é
frequentemente desnecessário e inadequado. Quando se trata de uma tabela de
contingência 2 x 2 a alternativa a X2 é o teste exacto de Fisher que considera uma
amostragem hipergeométrica (sem reposição).
Teste de homogeneidade de proporções
A tabela de contingência possui a priori uma margem fixa, pois consideram-se dois
grupos (amostras) independentes, e cada indivíduo é classificado dentro do seu grupo
segundo a variável em estudo.
r
c
A estatística de teste a usar é a do qui-quadrado, X = ∑∑
2
i =1 j =1
(O
ij
− eij )
2
eij
~ χ (2r −1)( c −1) ,
rejeitando-se H0 a um nível α se X 2 ≥ χ (2r −1)( c −1);1−α .
53
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Teste exacto de Fisher
O teste exacto de Fisher permite analisar dados em tabelas de contingência
bidimensionais, 2 x 2, quando existem frequências esperadas inferiores a 5.
Considere-se então a tabela de contingência 2 x 2
A\B
B1
B2
A1
a
B
a+b
A2
c
D
c+d
a+c b+d
n
Prova-se que sob a hipótese de a tabela anterior ter margens fixas, a probabilidade
exacta de se observar um particular conjunto de frequências é dado pela distribuição
hipergeométrica. Representando por Pa a probabilidade de se observar a tabela anterior,
⎛ a + c ⎞⎛ b + d ⎞
⎜⎜
⎟⎜
⎟⎟
a ⎟⎠⎜⎝ b
⎝
⎠ = (a + b)!(c + d )!(a + c)!(b + d )! .
tem-se Pa =
n!a!b!c!d!
⎛n ⎞
⎜⎜
⎟⎟
⎝a + b⎠
A fim de facilitar o cálculo das probabilidades das diversas tabelas, pode-se usar uma
das fórmulas de recorrência Pa −1 =
(b + 1)(c + 1)
ad
Pa ou Pa +1 =
Pa −1 .
(b + 1)(c + 1)
ad
Teste de McNemar
O teste de McNemar é útil quando se pretende testar mudanças significativas antes e
depois de uma determinada ocorrência ou situação envolvendo duas amostras
correlacionadas.
Está-se perante uma tabela de contingência 2 x 2 do tipo
Depois
Antes
-
+
-
a
b
+
c
d
Em que agora o universo de interesse é constituído pelos b+c indivíduos que
mudaram de opinião.
Sob a validade de H0 é de esperar que (b+c)/2 indivíduos mudem de opinião. Pelo
que se pode usar a estatística do teste do qui-quadrado
54
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
2
2
X =∑
2
(O
ij
− Ei )
2
Ei
i =1
2
b+c⎞
⎛ b+c⎞
⎛
⎟
⎜c −
⎟
⎜b −
(b − c) 2
2 ⎠
2 ⎠
⎝
⎝
=
~ χ12
+
=
b+c
b+c
b+c
2
2
Se se incorporar um factor de correcção (de Yates) na estatística anterior, vem
2
X cor
=
(| b − c | −1) 2
b+c
Se (b+c)/2 for inferior a 5, não se pode usar a estatística do qui-quadrado, devendo-se
usar o teste exacto dado por X ~ Binomial(b+c,1/2) podendo-se então determinar o p-value
(probabilidade de significância) associado ao teste.
Teste Q de Cochran
O teste Q de Cochran generaliza o teste de McNemar no sentido em que permite
testar a hipótese de três ou mais conjuntos emparelhados (correlacionados) de frequências
ou proporções diferirem significativamente entre eles.
A estatística do teste Q de Cochran é
2
⎡ k
⎛ k
⎞ ⎤
2
k (k − 1)∑ (G j − G ) 2 (k − 1) ⎢k ∑ G j − ⎜⎜ ∑ G j ⎟⎟ ⎥
⎢⎣ j =1
⎝ j =1 ⎠ ⎥⎦
j =1
Q=
.
=
N
N
N
N
2
2
k ∑ Li − ∑ Li
k ∑ Li − ∑ Li
k
i =1
i =1
i =1
i =1
Que tem distribuição aproximada do qui-quadrado com k-1 graus de liberdade e em
que: Gj = nº total de sucessos na j-ésima coluna; G = média dos Gj’s; Li = nº de sucessos
na i-ésima linha.
7.2.1.5- Testes de Localização
Teste da Mediana
Pretende-se testar uma hipótese do tipo H0: θx = θy = θ. O processo consiste em:
calcular a mediana (M) da amostra combinada e preencher a seguinte tabela:
Amostra X Amostra Y total
≥M
<M
total
e fazer um teste de homogeneidade de proporções.
55
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Teste de Mann-Whitney-Wilcoxon
Mann-Whitney e Wilcoxon desenvolveram separadamente dois testes equivalentes
para o problema da localização para duas amostras independentes. O teste de MannWhitney-Wilcoxon permite testar a hipótese de duas amostras independentes provirem de
populações com a mesma localização (mediana). O teste pressupõe à partida que a forma
das duas populações é igual.
A versão do teste que aqui abordada deve-se a Wilcoxon.
Considere-se duas amostras independentes A e B com m e n observações, com m ≥ n.
O procedimento a seguir é:
1. Combinar as duas amostras e registar as observações em ordem ascendente de
magnitude;
2. Começando da esquerda, atribuir ordem 1 à observação mínima, ordem 2 à
segunda observação mínima, etc., e ordem N = m + n à observação máxima;
3. Obter a soma das ordens, T, das observações da menor amostra.
Sob a hipótese de identidade distribucional a estatística T de Mann-WhitneyWilcoxon tem valor médio e variância dados respectivamente por: µT =
σ T2 =
n( N + 1)
e
2
mn( N + 1)
em que N = m + n.
12
No caso de haver observações empatadas a variância de T sofre uma alteração
(correcção), passando a ser:
σ T2 =
r
mn( N + 1)
mn
−
Ki ,
∑
12
12 N ( N − 1) i =1
onde:
ƒ
r é o número de conjuntos com observações empatadas;
Ki = (τi – 1) τi(τi + 1);
ƒ
ƒ
τi é o número de observações empatadas no i-ésimo conjunto de empate.
Alguns valores deste teste encontram-se tabelados, mas no caso de o valor não
pertencer à tabela, pode-se utilizar uma aproximação pela distribuição normal (ou
gaussiana).
A maioria dos packages estatísticos calcula a estatística U de Mann-Whitney e não a
estatística T que se deve a Wilcoxon (as estatística U e T são equivalentes).
56
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
⎧⎪1, seY j > X i
, i = 1,..., m; j = 1,..., n.
Seja U ij = ⎨
⎪⎩0, seY j < X i
m
n
A estatística proposta por Mann-Whitney é: U = ∑∑U ij
i =1 j =1
que dá o número de Yj que excedem Xi.
Sob a validade de identidade distribucional, µU =
mn
mn( N + 1)
e σ U2 =
= σ T2
2
2
⎧1, seY j > X i
⎪
No caso de existirem observações empatadas U ij = ⎨1 / 2, seY j < X i , i = 1,...m; j = 1,...n.
⎪
⎩0, seY j < X i
As estatísticas T e U estão relacionadas da forma U = T −
n(n + 1)
.
2
Teste de ordens robusto para o problema de Behrens-Fisher
Este teste, ao contrário do teste de Mann-Whitney, não exige que as populações
tenham a mesma forma distribucional, nem variâncias iguais.
Sejam Pi o número de observações da amostra Y inferiores a Xi, i=1, …, m e Qi o
número de observações da amostra X inferiores a Yj, j=1, …, n, com m ≥ n.
Sejam ainda: P =
Û=
n
m
j =1
i =1
m
n
1 m
1 n
2
P
Q
=
Q
V
=
(
P
−
P
)
;
V
=
(Q j − Q ) 2 e,
;
;
∑
∑
∑
∑
2
1
i
i
i
m i =1
n i =1
j =1
i =1
∑ Q j − ∑ Pi
2 V1 + V2 + P Q
.
Sob H0 a estatística Û tem distribuição assintótica guassiana standard (alguns valores
deste teste também se encontram tabelados).
No caso de haver empates entre as observações considera-se
Pi = n.º de Y’s inferiores a Xi + ½{n.º de Y’s iguais a Xi} e
Qj = n.º de X’s inferiores a Yj + ½{n.º de X’s iguais a Yj}.
Teste das ordens afectadas de sinal de Wilcoxon
Sejam (X1, Y1), …, (Xn,Yn) n pares de observações e seja Zi = Yi – Xi, i = 1, 2, …, n.
57
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Admita-se que as diferenças Z1, Z2, …, Zn são mutuamente independentes e que cada
Zi provém de uma população contínua (não necessariamente a mesma) e simétrica em
torno de uma mediana comum θ. O parâmetro θ é chamado o efeito tratamento.
A estatística de Wilcoxon, W, obtém-se do seguinte modo:
1. Atribuir ordens aos valores absolutos de Zi, |Zi|, i = 1, 2, …, n;
2. Afectar à ordem da i-ésima diferença absoluta o sinal de Zi e denotá-la por Ri;
3. Calcular a soma das ordens afectadas de sinal W = R1 + R2 + … + Rn.
Dada uma amostra de dimensão n de uma distribuição contínua e simétrica em torno
de zero, se W denotar a soma das ordens afectadas de sinais, então µW = 0 e
σ W2 =
n(n + 1)(2n + 1)
.
6
No caso de haver diferenças empatadas, há que proceder a uma correcção na
variância, nomeadamente, σ W2 =
n(n + 1)(2n + 1) 1 r
− ∑ Ki ,
6
12 i =1
em que:
ƒ
ƒ
ƒ
r é o número de conjuntos com observações empatadas;
Ki = (τi – 1) τi(τi + 1);
τi é o número de observações empatadas no i-ésimo conjunto de empate.
Note-se que existe uma tabela estatística para alguns valores deste teste.
Teste dos Sinais
O teste dos sinais é um teste alternativo ao teste de Wilcoxon mas menos exigente,
pois não requer que as diferenças Zi provenham de populações contínuas simétricas, apenas
contínuas em torno de uma mediana comum θ.
Para testar H0: θ = 0, considere-se S o número de diferenças “+” (positivas), ou então
o número de diferenças “–” (negativas). Então sob H0, S ~ Binomial (n, ½).
Teste de Kruskal-Wallis (ANOVA em ordens)
O teste de Kruskal-Wallis generaliza o teste de Mann-Whitney pois permite testar a
hipótese de k amostras independentes provirem de populações idênticas, isto é, com a
mesma localização (mediana).
O procedimento é o seguinte:
58
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
1. Combinar as k amostras de dimensões n1, n2, …, nk e registar as observações em
ordem ascendente de magnitude;
2. Começando da esquerda, atribuir ordem 1 à observação mínima, ordem 2 à
segunda observação mínima, …, e ordem N=n1+n2+…+nk à observação máxima;
3. Obter Ri, a soma das ordens das observações da amostra i, i = 1, …, k.
A estatística de Kruskal-Wallis toma o aspecto: H =
k
Ri2
12
∑ − 3( N + 1) .
N ( N + 1) i =1 ni
Se k amostras de dimensões n1, n2, … ,nk forem extraídas ao acaso de populações
idênticas, e se os valores de ni forem grandes, então a estatística H de Kruskal-Wallis tem
distribuição aproximada do qui-quadrado com k-1 graus de liberdade.
Note-se que quando todos os ni’s são maiores ou iguais a 3 e k > 2, a aproximação
anterior é considerada boa.
O tratamento a dar a observações empatadas é o mesmo do teste de Mann-Whitney,
mas há que proceder a uma correcção da estatística H, nomeadamente:
H
H* =
∑i=1 K i
r
1−
,
N3 − N
onde:
ƒ
r é o número de conjuntos com observações empatadas;
Ki = (τi – 1) τi(τi + 1);
ƒ
ƒ
τi é o número de observações empatadas no i-ésimo conjunto de empate.
Porém, só faz sentido usar o factor de correcção para a estatística de Kruskal-Wallis
quando há um elevado número de observações empatadas (30% de observações
empatadas).
Teste de Friedman
O teste de Friedman testa a hipótese de k amostras emparelhadas provirem da mesma
população ou de populações com a mesma localização (mediana).
A estatística de Friedman é dada por: Fr =
k
12
R 2j − 3 N (k + 1) .
∑
Nk (k + 1) j =1
Onde N é o número de sujeitos, k o número de condições ou tratamentos e Rj a soma
dos ranks da j-ésima coluna.
59
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
A distribuição amostral da estatística de Friedman encontra-se tabelada para alguns
valores de N e k. Para valores de N e k elevados, a distribuição é bem aproximada pela
distribuição do qui-quadrado com k-1 graus de liberdade.
O tratamento de observações empatadas no teste de Friedman é idêntico ao dos testes
anteriores. Neste caso há que incorporar um factor de correcção na estatística,
nomeadamente Fr =
12(k − 1) S
N
gi
Nk (k − 1) − ∑∑ t
2
i =1 j =1
,
3
i. j
onde:
ƒ
kN 2 (k + 1) 2
S = ∑R −
;
4
j =1
ƒ
gi é o número de conjuntos de observações empatadas no i-ésimo grupo
k
2
j
(incluindo os de dimensão 1) e ti.j é o tamanho do j-ésimo conjunto de empates no
i-ésimo grupo.
7.2.1.6- Testes de escala e outros problemas de duas amostras
Teste de Siegal-Tukey
Este teste só se pode aplicar a testes unilaterais.
As medianas têm que ser iguais, contudo, se forem conhecidas mas diferentes podese centrar uma delas de modo a se tornarem iguais.
Sejam (X1, …, Xm) e (Y1, …, Yn) duas amostras aleatórias independentes provenientes
de populações com localização θx = θy = θ e escalas ηx e ηy (índice de dispersão da escala).
O teste de Siegel-Tukey permite testar a hipótese H0: ηx = ηy.
A estatística de teste é a do teste de Mann-Whitney, sendo que a atribuição das
ordens é feita das caudas para o interior.
Teste de Moses
Permite considerar testes bilaterais e com medianas diferentes.
O teste de Moses permite testar a hipótese H0: ηx = ηy em situações bilaterais e
mesmo quando as medianas das populações não são iguais.
Para aplicar o teste é necessário primeiro dividir cada amostra em subconjuntos de
igual dimensão. Cada subconjunto deve conter pelo menos duas observações e se a divisão
60
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
for tal que fique de fora algumas observações, estas devem ser descartadas da análise. A
dimensão dos subconjuntos deve ser escolhida de forma a minimizar o número de
observações a descartar. É importante que a divisão de cada amostra em subconjuntos seja
aleatória.
Para cada subconjunto calcula-se a soma dos quadrados dos desvios em relação à
média que dá a dispersão do subconjunto. Sob a hipótese de homogeneidade de escala, os
índices de dispersão podem ser considerados provenientes de populações idênticas pelo
que se pode usar a estatística do teste de Mann-Whitney.
Teste de Kolmogorov-Smirnov para duas amostras
Sejam (X1, …, Xm) e (Y1, …, Yn) duas amostras aleatórias independentes. Supondo que
se pretende testar H0: Fx(x) = Fy(x) para todo o x.
O teste de Kolmogorov-Smirnov para duas amostras permite detectar diferenças na
localização, na escala ou na forma das distribuições, sendo por isso menos específico que
os testes de localização ou escala anteriores.
A estatística do teste de Kolmogorov-Smirnov é: Dm,n = supx|F*m(x) – F*n(x)| e o
critério de rejeição a um nível α é mnDm,n ≥ cα. A distribuição amostral desta estatística
encontra-se tabelada.
Como se pode verificar, o teste anterior avalia a concordância entre as duas
distribuições empíricas.
7.2.1.7- Testes de Associação
Coeficiente de correlação ordinal de Spearman
O coeficiente de correlação ordinal de Spearman é uma medida de concordância
ordinal e baseia-se em
∑d
2
i
, a soma dos quadrados das diferenças das ordens
emparelhadas, sendo dado pela expressão rs = 1 −
6
n(n 2 − 1)
n
∑d
i =1
2
i
.
O coeficiente de correlação ordinal de Spearman verifica as seguintes propriedades:
ƒ
rS toma valores entre -1 e 1 (pode não assumir o valor zero);
ƒ
rS = 1 quando há concordância total nas ordenações, isto é, quando
∑d
2
i
= 0;
61
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
rS = -1 quando há discordância total nas ordenações, o que ocorre
quando ∑ d i2 atinge o seu valor máximo.
No caso de X e Y serem independentes, o coeficiente de correlação ordinal de
Spearman, rS, tem E(rS) = 0 e Var(rS) = 1/(n-1), n ≥ 2.
Nota: existem tabelas que fornecem a distribuição exacta de rS para valores pequenos
de n, usualmente n ≤ 11. Para amostras de dimensão superior recorre-se à aproximação
pela distribuição gaussiana.
Coeficiente τ (tau) de Kendall
O coeficiente τ de Kendall pode ser usado como medida de correlação para o mesmo
tipo de dados para o qual o coeficiente de correlação ordinal de Spearman, rS, é usado.
A distribuição amostral de τ sob a hipótese nula de independência também é
conhecida pelo que pode ser usada para testar a significância do coeficiente. Normalmente
recorre-se à aproximação pela gaussiana.
O grau de concordância entre os dois conjuntos de ordenações é o quociente da soma
obtida e a maior soma possível (ou o número total de pares), isto é,
τ=
n.º de concordâncias - n.º de discordâncias
n.º total de pares
⎛ n ⎞ n(n − 1)
, pelo que
De um modo geral o número total de pares é igual a ⎜⎜ ⎟⎟ =
2
⎝2⎠
τ=
2S
onde S representa a soma total dos scores.
n(n − 1)
No caso de X e Y serem independentes, o coeficiente tau de Kendall tem E (τ ) = 0 e
Var (τ ) =
2(2n + 5)
, n ≥ 2.
9n(n − 1)
Quando existem duas ou mais observações empatadas quer para a variável X quer
para a variável Y aplica-se o método usual de atribuição de ranks. Neste caso há quer
proceder à seguinte correcção τ =
2S
n(n − 1) − τ x n(n − 1) − τ y
rx
, onde: τ x = ∑ t i (t i − 1) ,
i =1
com rx o número de observações empatadas para a variável X e ti o número de observações
ry
no i-ésimo conjunto de empate; τ y = ∑ t i (t i − 1) , sendo ry o número de conjuntos de
i =1
62
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
observações empatadas para a variável Y e ti o número de observações empatadas no iésimo conjunto de empate.
A relação entre o coeficiente tau de Kendall e o coeficiente de correlação ordinal de
Spearman é dada por: -1 ≤ 3 τ - 2 rS ≤ 1.
Coeficiente de Cramér
O coeficiente de Cramér é um de entre muitos coeficientes de associação para dois
conjuntos de atributos e é essencialmente útil quando se dispõe apenas de informação
categorizada. Para calcular o coeficiente de Cramér entre os scores de duas variáveis A e B
com categorias A1,...,Ar e B1,...,Bc dispõe-se a informação numa tabela de contingência rxc.
O coeficiente de Cramér é dado por C =
X2
, onde X2 é a estatística do teste
N ( L − 1)
do qui-quadrado e L = min{r, c}. Este coeficiente varia entre 0 e 1.
A significância de C é avaliada em função da estatística de teste do qui-quadrado.
Coeficiente de correlação parcial de Kendall
Permite avaliar a independência parcial entre X e Y mantendo Z constante. A hipótese
a testar é do tipo H0: τ XY .Z = 0 .
O coeficiente de correlação parcial de Kendall é dado por:τ XY .Z =
τ XY − τ XZ .τ YZ
2
2
(1 − τ XZ
)(1 − τ YZ
)
Sob a hipótese de independência parcial E (τ XY .Z ) = 0 e Var (τ XY .Z ) =
.
2(2n + 5)
9n(n − 1)
No quadro seguinte apresenta-se, segundo CABRAL (1997), uma síntese dos testes
não-paramétricos mais comuns e as condições em que são utilizados.
63
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
População qualquer
Frequências observadas
População contínua conhecida
Uma amostra
Teste do Qui-Quadrado
Teste de Kolmogorov-
Observações quantitativas
Smirnov
População gaussiana (parâmetros
Ajustamento
estimados)
Teste de Lilliefors
Observações quantitativas
Populações quaisquer
Duas amostras
Frequências observadas
independentes
População contínua
Teste do Qui-Quadrado
Teste de Kolmogorov-
Observações quantitativas
Smirnov
População contínua qualquer
Teste dos sinais
Frequência de observações acima ou
Uma amostra
abaixo de η0
População contínua e simétrica
Observações quantitativas
Localização
Duas amostras
Populações contínuas com forma igual
independentes
Observações quantitativas
Teste de Wilcoxon
Teste de MannWhitney-Wilcoxon
População contínua
Duas amostras
Diferença entre as observações e η0
emparelhadas
População contínua e simétrica
Diferença entre as observações e η0
População qualquer
Observações numa escala qualquer
Aleatoriedade
Uma amostra
População qualquer
Teste das sequências
Teste das sequências
ascendentes e
ordinal
descendentes
Observações numa escala pelo menos
Duas amostras
Teste de Wilcoxon
Observações numa escala pelo menos
Populações contínuas
Associação
Teste dos sinais
ordinal
Populações quaisquer
Frequências observadas
Teste da correlação
ordinal de Spearman
Teste do Qui-Quadrado
QUADRO 5. SÍNTESE DE DIVERSOS TESTES NÃO-PARAMÉTRICOS.
64
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.3- MÉTODOS QUE ANALISAM DIFERENÇAS
versus MÉTODOS QUE ANALISAM RELAÇÕES
7.3.1- MÉTODOS QUE ANALISAM DIFERENÇAS
Dentro das técnicas que avaliam diferenças entre amostras, podem-se utilizar técnicas
paramétricas para diferenças entre: duas amostras independentes; três (ou mais) amostras
independentes; duas ou mais amostras independentes; utilizando duas ou mais variáveis
independentes; duas amostras dependentes. Também se podem utilizar técnicas nãoparamétricas para k amostras dependentes e, para k amostras independentes.
Vejam-se então, de seguida os tipos de testes a utilizar em cada um dos casos acima
referidos.
Técnicas Paramétricas
Diferença entre duas amostras independentes
Exemplo: Teste t. (ver sub-capítulo 3.4.1.5)
O teste t para duas amostras independentes é um teste paramétrico que testa a
hipótese nula de que, no universo, a diferença entre os dois valores médios da variável
dependente é igual a zero, ou seja, que as duas amostras são amostras do mesmo Universo
e, portanto, têm valores médios iguais ao valor do parâmetro µ.
Diferença entre 3 (ou mais) amostras independentes
Exemplo: Análise de variância univariada (ANOVA). (ver sub-capítulo 3.4.1.1)
A análise de variância univariada diz se há diferenças significativas entre os valores
médios da variável dependente de entre pelo menos duas das amostras (ou talvez mais),
mas não diz que amostras é que diferem entre si, sendo para isso necessário aplicar um
teste post-hoc.
Diferenças entre duas ou mais amostras independentes, utilizando duas ou mais
variáveis independentes
Exemplo: Análise de variância factorial. (ver sub-capítulo 3.4.1.7)
Diferenças entre duas amostras dependentes
Exemplo: Teste t para duas amostras dependentes (emparelhadas).
65
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Técnicas Não-paramétricas (escala ordinal) (ver sub-capítulo 3.2.1)
Diferenças entre duas amostras independentes
Exemplo: Teste da mediana, teste U de Mann-Whitney, teste de KolmogorovSmirnov para duas amostras, teste de Moses para reacções extremas.
Diferenças entre k amostras independentes
Exemplo: Extensão do teste da mediana, teste de Kruskal-Wallis.
Diferenças entre duas amostras dependentes
Exemplo: Teste dos sinais, teste de Wilcoxon.
Diferenças entre k amostras dependentes
Exemplo: Teste de Friedman.
7.3.2- MÉTODOS QUE ANALISAM RELAÇÕES
Para analisar relações existe, hoje em dia, quase uma infinidade de coeficientes
diferentes. Ver-se-á aqui apenas alguns deles.
Um coeficiente de correlação é uma estatística descritiva que indica a natureza da
relação entre os valores de duas variáveis. Os valores vêm de um só grupo de casos mas
fornecem duas amostras.
O coeficiente de determinação (quadrado do coeficiente de correlação de Pearson) é
um dos mais utilizados. Este coeficiente indica a proporção de variância dos valores de
uma variável “partilhada” ou “explicada” pela variância dos valores da outra variável. Dá
uma indicação da importância da correlação, mas é claro que não vale a pena calculá-lo
quando o coeficiente de correlação não é significativo segundo um teste indutivo.
Correlações Paramétricas
O tipo de correlação a usar depende da natureza das variáveis, contudo todos os tipos
requerem que pelo menos uma das variáveis seja métrica.
Coeficiente de correlação de Pearson: É o mais vulgar. É aplicável quando as duas
variáveis são medidas por uma escala de intervalo ou de razões (variáveis métricas), e a
relação entre as variáveis é linear (ou, pelo menos, não claramente não-linear). Também é
possível aplicá-lo aos valores medidos por uma “escala de avaliação” se a relação parecer
linear. Existem outros pressupostos ligados com o coeficiente de Pearson (distribuição
bivariada gaussiana e homogeneidade de variâncias) mas esses são de menos importância.
66
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Coeficiente de correlação Bi-serial: aplica-se quando uma das variáveis é métrica
mas os seus valores estão artificialmente dicotomizados de modo a dar apenas duas
categorias (variáveis dummy).
Coeficiente de correlação Point bi-serial: usado quando uma das variáveis é nominal
com apenas duas categorias.
Coeficiente de correlação Tetrachoric: utilizado quando as duas variáveis são
métricas mas foram ambas dicotomizadas artificialmente de modo a que cada uma tenha
apenas duas categorias.
Coeficiente de correlação Eta: pode ser aplicado quando uma das variáveis é métrica
mas a outra está medida numa escala nominal com três ou mais categorias.
Correlações e Associações Não-Paramétricas
Os coeficientes de associação medem a relação entre duas variáveis nominais,
enquanto que os coeficientes de correlação medem a relação entre duas variáveis ordinais.
COEFICIENTES DE ASSOCIAÇÃO
Coeficiente Phi: utiliza-se quando cada uma das variáveis só tem dois valores, ou seja
quando os dados são frequências que resultam de um cruzamento do tipo 2 x 2
Coeficiente de Cramér: é usado quando uma variável (ou as duas variáveis) tem mais
do que dois valores, ou seja, quando os dados são frequências que resultam de um
cruzamento do tipo r x k. (ver sub-capítulo 3.2.1.7)
Coeficiente de contingência C: pode ser aplicado a qualquer cruzamento do tipo r x k.
Mas o seu valor máximo é sempre inferior a 1; pior ainda, o valor máximo depende do
número de categorias das variáveis. Esta limitação faz com que seja preferível calcular o
coeficiente de Cramér.
Estes coeficientes baseiam-se na estatística do qui-quadrado. O teste do qui-quadrado
testa a hipótese nula que as duas variáveis não estão relacionadas uma com a outra. Um
valor significativo para o qui-quadrado indica que as duas variáveis não são independentes,
mas não indica o grau de relacionamento entre elas. Para se encontrar o grau de
relacionamento é preciso calcular um coeficiente de associação.
COEFICIENTES DE CORRELAÇÃO: por exemplo, coeficiente rho de Spearman e
coeficiente tau-b de Kendall. (ver sub-capítulo 3.2.1.7).
67
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.4- TÉCNICAS UNIVARIADAS, BIVARIADAS E MULTIVARIADAS
As técnicas da estatística indutiva que tratam de diferenças entre amostras e que
utilizam apenas uma variável, são técnicas univariadas.
As técnicas bivariadas, por sua vez, tratam de relações entre duas variáveis. As
técnicas de correlação e as técnicas ligadas com os coeficientes de associação são técnicas
bivariadas. A regressão linear simples também é uma técnica bivariada.
As técnicas multivariadas analisam simultaneamente relações entre três ou mais
variáveis. Outros autores consideram que a designação uni, bi e multivariada apenas se
deve aplicar às variáveis dependentes, pelo que, neste sentido a regressão múltipla seria
uma técnica univariada e apenas técnicas como a análise factorial seriam multivariadas.
Não se dedicou um sub-capítulo exclusivamente às técnicas univariadas ou
bivariadas, por estas já terem sido abordadas em capítulos anteriores ou então surgirem
como introdução à técnica multivariada que a generaliza.
7.4.1- TÉCNICAS MULTIVARIADAS
De acordo com COELHO (2005), os métodos multivariados podem ser divididos em
dois grandes grupos: os métodos descritivos que procuram explorar relações ou
interdependência e os métodos explicativos que se destinam a determinar dependência.
Os métodos descritivos preocupam-se com a forma como as várias variáveis/atributos
estão relacionados, não estabelecendo no entanto qualquer tipo de relações de causalidade.
O seu principal objectivo é assim o de descrever e reduzir os dados recolhidos, através da
exploração de relações de interdependência.
Os métodos explicativos preocupam-se com o estabelecimento de relações de
causalidade, isto é, de como uma ou mais variáveis (explicativas) podem explicar o nível
de uma ou mais variáveis (de resposta). Esta explicação parte da especificação de um
modelo baseado num conjunto de hipóteses em que está baseado.
São exemplos de métodos descritivos de análise multivariada a análise em
componentes principais, a análise factorial, a análise de clusters e a análise de
correspondências, entre outros. Como exemplo de métodos explicativos tem-se a regressão
linear e logística, a análise conjunta e os modelos de equações estruturais, entre outros.
Segundo ANDERSON (1998), existem seis passos fundamentais na construção de
modelos multivariados, a saber:
68
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
1. Definir o problema em estudo, objectivos e técnica multivariada a ser utilizada;
2. Desenvolver o plano de análise;
3. Avaliar os pressupostos subjacentes à técnica escolhida;
4. Estimar o modelo multivariado e aceder aos resultados;
5. Interpretar a sensibilidade aos parâmetros (pesos, loadings, utilidades, …);
6. Validar o modelo.
O esquema seguinte mostra o tipo de técnica multivariada adequada a cada tipo de
situação e pode ser muito útil aquando da escolha da técnica a utilizar.
69
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
FIGURA 3. ESQUEMA DE DIVERSAS TÉCNICAS MULTIVARIADAS. ADAPTADO DE ANDERSON (1998).
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
70
INVESTIGAÇÃO POR INQUÉRITO
7.4.1.1- Regressão múltipla
O objectivo principal da regressão múltipla é prever valores de uma variável
dependente a partir de uma combinação ponderada de duas ou mais variáveis
independentes. A técnica permite também o cálculo de um coeficiente de correlação
múltipla (coeficiente de correlação de Pearson) entre a variável dependente e o conjunto de
variáveis independentes. A regressão múltipla requer uma variável dependente métrica e
variáveis independentes métricas (embora seja possível utilizar algumas variáveis nãométricas como variáveis independentes, que se designam por variáveis mudas ou
“dummies”). A técnica pressupõe que existe linearidade na relação entre as variáveis e que
o “erro” (diferença entre os valores da variável dependente e os valores previstos dessa
variável) tem uma distribuição gaussiana e apresenta homogeneidade de variância,
pressupõe ainda a não existência de multicolinearidade.
Desenvolver-se-á primeiro a regressão linear simples (técnica bivariada) para depois
se generalizar os resultados para a regressão linear múltipla.
Regressão Linear Simples
A regressão é um método estatístico que permite estabelecer relações entre variáveis
procurando estimar (ou prever) uma delas, a variável resposta (ou dependente), quando se
supõe conhecidas outras variáveis ditas explicativas (ou independentes).
Pode-se ajustar aos dados o modelo linear Y = α + βX + ε.
Em que α e β são constantes desconhecidas e ε exprime o erro (ou desvio, ou resíduo
ou ruído) de características eminentemente imprevisíveis e, portanto aleatórias.
A qualidade do ajustamento linear será tanto melhor quanto menor for a magnitude
dos erros ou desvios, e essa magnitude está relacionada com o coeficiente de correlação ρ.
ρ=
Cov ( X , Y )
σ XσY
com -1 ≤ ρ ≤ 1
Se ρ = 0, as duas variáveis são linearmente independentes, isto é, o conhecimento de
X é irrelevante para prever Y (ou vice-versa).
Se ρ = ±1, existe uma associação linear perfeita entre X e Y, de modo que é possível
prever com exactidão o valor de Y se o valor de X for conhecido.
A interpretação que se dá quando 0 < | ρ| < 1 é que a variável X contém alguma
informação sobre Y, de modo que é possível fazer previsões para Y.
71
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
O coeficiente de correlação pode ser estimado a partir das observações. Neste caso
pelo coeficiente de correlação de Pearson: r =
S XY
S X SY
Sobre o resíduo aleatório ε é habitual supor três hipóteses:
1. O seu valor médio é nulo, isto é, E(ε) = 0;
2. Os resíduos não estão correlacionados e a sua variância não depende de X, ou
seja, σ ε2 = σ 2 constante;
3. O resíduo segue uma distribuição gaussiana.
O método dos mínimos quadrados permite estimar α e β sem que seja necessária
alguma referência à distribuição dos resíduos. O objectivo do método dos mínimos
quadrados é ajustar uma recta de equação yˆ = a + bx aos dados, onde α̂ = a e βˆ = b ,
minimizando a soma dos quadrados dos erros (ou desvios) definida por:
n
SE = ∑ [ yi − (a + bxi )] .
2
i =1
Assim sendo, as estimativas dos mínimos quadrados dos parâmetros do modelo
obtêm-se resolvendo o sistema
⎧n
⎧ ∂SE
[ yi − (a + bxi )] = 0
⎪⎪ ∂a = 0 ⎪⎪∑
i =1
⇔⎨ n
⎨
⎪ ∂SE = 0 ⎪ [ y − (a + bx )]x = 0
i
i
i
⎪⎩ ∂b
⎪⎩∑
i =1
As equações anteriores são conhecidas por equações normais e a solução do sistema é
⎧ a = y − bx
⎪
n
⎪⎪
x i y i − nx y
∑
⎨
i =1
⎪b = n 2
⎪
x i − nx 2
∑
i =1
⎩⎪
Uma estatística usada para medir a qualidade do ajustamento linear aos dados é o
coeficiente de determinação que mais não é que o quadrado do coeficiente de correlação de
Pearson. Este coeficiente dá a proporção da variabilidade total que é explicada pelo modelo
de regressão, e quanto mais próximo estiver do valor 1 melhor será a qualidade do
ajustamento.
Vejam-se agora os diversos intervalos de confiança para os parâmetros do modelo e
os intervalos de predição.
72
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Intervalo de Confiança a (1 – γ)*100% para α
⎤
X2
X2
1
1
ˆ
α
,
t
S
+
+
+
⎥αˆ − t n−2;1−γ / 2 S
n − 2;1−γ / 2
n (n − 1) S X2
n (n − 1) S X2
⎥⎦
⎡
⎢
⎢⎣
Intervalo de Confiança a (1 – γ)*100% para β
⎤ˆ
⎡
S
S
, βˆ + t n−2;1−γ / 2
⎥ β − t n−2;1−γ / 2
⎢
S X n −1
S X n −1 ⎣
⎦
Intervalo de Predição a (1 – γ)*100% para E(Y0)
2
2
⎤
1 (X 0 − X ) ˆ
1 (X 0 − X )
⎥Yˆ0 − t n−2;1−γ / 2 S
+
+
, Y0 + t n−2;1−γ / 2 S
n (n − 1) S X2
n (n − 1) S X2
⎥
⎦
⎡
⎢
⎢
⎣
Intervalo de Predição a (1 – γ)*100% para o (novo valor) Y0
2
2
⎤
1 (X 0 − X ) ˆ
1 (X 0 − X )
ˆ
⎥Y0 − t n−2;1−γ / 2 S 1 + +
, Y0 + t n−2;1−γ / 2 S 1 + +
n (n − 1) S X2
n (n − 1) S X2
⎥
⎦
⎡
⎢
⎢
⎣
Após efectuar uma regressão há que validar o modelo fazendo uma análise dos
resíduos, principalmente no que respeita à independência e gaussianidade dos resíduos.
Pode-se, por exemplo, fazer um gráfico dos resíduos da regressão linear (gráfico de
dispersão) e se estes apresentarem um comportamento aleatório em torno de zero, então
esse é um indicador de ausência de correlação entre os resíduos.
Para um problema de regressão é usual desenvolver testes de hipóteses sobre:
1. Os parâmetros do modelo (α e β);
2. A capacidade explicativa do modelo.
H0: β = β0
Critério de rejeição:
βˆ − β 0
S / S X n −1
≥ t n−2;1−γ / 2
H0: α = α0
Critério de rejeição:
αˆ − α 0
X2
1
S
+
n (n − 1) S X2
≥ t n−2;1−γ / 2
Capacidade explicativa do modelo
∑ (Y − Y ) = ∑ [(Y − Yˆ )+ (Yˆ − Y )] = ∑ (Y − Yˆ ) +∑ (Yˆ − Y )
n
i =1
2
i
n
i =1
2
i
i
i
n
i =1
2
i
i
n
i =1
2
i
73
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Representando por:
n
Variabilidade total: ST = ∑ (Yi − Y )
2
i =1
n
(
Variabilidade não explicada pela regressão: SE = ∑ Yi − Yˆi
i =1
n
(
Variabilidade explicada pela regressão: SR = ∑ Yˆi − Y
i =1
)
2
)
2
Vem que: ST = SE + SR e r2 = SR/ST o que permite a interpretação do coeficiente de
determinação como a fracção da variabilidade total explicada pelo modelo de regressão.
Prova-se que: F =
SR
~ F1,n− 2 com critério de rejeição: F ≥ F1,n-2;1-γ
SE /(n − 2)
É usual dispor a informação relativa a uma regressão linear numa tabela ANOVA;
Fonte de
Soma de
Graus de
Média de
variação
quadrados
liberdade
quadrados
Regressão
SR
1
MR = SR
Residual
SE
n–2
ME = SE/(n-2)
Total
ST
n–1
Valor de F
F = MR/ME
No quadro abaixo apresentam-se alguns tipos de relações (não lineares) que são
linearizáveis através de transformações adequadas.
Relação original
Transformações de variáveis e parâmetros
Modelo linear transformado
Y = α+ β/X
Z = 1/X
Y = α + βZ
W = lnY
Y = αXβ
α' = lnα
W = α’ + βZ
Z = lnX
W = lnY
Y = αβX
α' = lnα
W = α’ + β’X
β’ = lnβ
Y = αeβX
Y = eα+βX
Y = eα+β/X
W = lnY
α' = lnα
W = lnY
W = lnY
Z = 1/X
W = α’ + βX
W = α + βX
W = α + βZ
74
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Face à existência de vários modelos lineares transformados com uma variável
explicativa, a escolha do melhor modelo recai sobre o que apresentar maior coeficiente de
determinação.
Regressão Linear Múltipla
A generalização do modelo de regressão linear simples Y = α + βX + ε ao modelo de
regressão linear múltiplo Y = β0+β1X1+β2X2+…+βpXp+ε é imediata se se escrever o
modelo na forma matricial.
Considere-se no modelo de regressão linear simples α = β0 e β= β1, ou seja,
Y = β0+β1X+ε, ou ainda, Yi = β0+β1Xi+εi, i = 1, …, n.
Sejam as matrizes
⎡Y1 ⎤
⎡ε 1 ⎤
⎡1 X 1 ⎤
⎢Y ⎥
⎢ε ⎥
⎢1 X 2 ⎥
⎡β 0 ⎤
2⎥
⎢
⎥, β = ⎢ ⎥, ε = ⎢ 2 ⎥
Y=
,X = ⎢
M
M
⎢M ⎥
⎢M ⎥
⎢
⎥
⎣ β1 ⎦
⎢ ⎥
⎢ ⎥
⎢1 X ⎥
n⎦
⎣
⎣Yn ⎦
⎣ε n ⎦
Então Y = X β+ε.
⎡b ⎤
As equações normais escrevem-se da forma XTY = XTXb onde b = βˆ = ⎢ 0 ⎥
⎣b1 ⎦
Resolvendo as equações normais em ordem a b vem b=(XTX)-1XTY pelo que Yˆ = Xb .
A soma dos quadrados dos resíduos toma o aspecto εTε = YTY - βTXTY.
A matriz das covariâncias dos estimadores dos parâmetros do modelo é:
Σ = Cov( βˆ ) = σ2(XTX)-1.
Quanto ao quadro ANOVA na sua forma matricial tem-se
Fonte de
Soma de
Graus de
variação
quadrados
liberdade
Regressão
bTXTY – 1TYYT1/n
1
MSR = (bTXTY – 1TYYT1/n)/1
Erro
YTY – bTXTY
n–2
MSE = (YTY – bTXTY)/(n-2)
Total
T
n–1
T
T
Y Y – 1 YY 1/n
Média de quadrados
Valor de F
F = MSR/MSE
Todos os resultados anteriores são válidos para o modelo de regressão linear múltiplo
Yi = β0+β1Xi1+β2Xi2+…+βpXip+ε, i = 1, …, n.
75
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
⎡1 X 11
⎢1 X
21
Considerando agora X = ⎢
⎢M
M
⎢
⎢⎣1 X n1
X 12 L X 1 p ⎤
⎡β 0 ⎤
⎢β ⎥
⎥
X 22 L X 2 p ⎥
1
,β = ⎢ ⎥
⎢M ⎥
M L
M ⎥
⎢ ⎥
⎥
X n 2 L X np ⎥⎦
⎢⎣ β p ⎥⎦
O quadro ANOVA correspondente à hipótese H0: β1 = β2 = … = βp = 0, isto é, que
não existe regressão linear, é
Fonte de
Soma de
Graus de
variação
quadrados
liberdade
Regressão
bTXTY – 1TYYT1/n
p
MSR = (bTXTY – 1TYYT1/n)/p
Erro
YTY – bTXTY
n–p–1
MSE = (YTY – bTXTY)/(n-p-1)
Total
YTY – 1TYYT1/n
N–1
Média de quadrados
Valor de F
F=MSR/MSE
onde F ~ Fp,n-p-1 sob a validade de H0. H0 é rejeitada ao nível γ se F ≤ Fp,n-p-1;1-γ.
7.4.1.2- Regressão logística
A regressão logística é uma forma especializada de regressão que é formulada para
prever e explicar uma variável binária qualitativa.
O objectivo principal desta técnica é perceber o que diferencia dois grupos de casos,
ou seja, o que diferencia os dois níveis de uma variável dependente dicotómica, com base
num conjunto de variáveis independentes (geralmente quantitativas). É possível usar esta
técnica para classificar os casos com base no conjunto de variáveis independentes e, para
calcular a probabilidade de cada caso pertencer a cada um dos grupos. Também é possível
utilizar esta técnica para situações em que a variável dependente tem mais do que duas
categorias mas, nesse caso, o método é normalmente designado por regressão logística
multinomial.
A regressão logística é equivalente a uma análise discriminante com dois grupos.
Contudo, em relação à análise discriminante tem a vantagem de não exigir pressupostos tão
rígidos; ser menos afectada quando os pressupostos básicos (nomeadamente a
gaussianaidade das variáveis) não são cumpridos e, de poder incorporar variáveis
qualitativas através de variáveis dummy.
Vejam-se de seguida, de acordo com CARROLL (2003), algumas outras vantagens e
desvantagens deste método.
76
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Vantagens:
ƒ
É fácil estimar usando métodos de máxima verosimilhança;
ƒ
Detecta certos fenómenos não lineares;
ƒ
Detecta os fenómenos de forma global;
ƒ
É uma técnica implementada em muitos software’s;
ƒ
Os coeficientes das combinações lineares dão um resultado relativamente
explícito;
ƒ
Rápida de calcular e modelar.
Desvantagens:
ƒ
As variáveis explicativas têm que ser independentes (inexistência de
multicolinearidade);
ƒ
Não se aplica naturalmente a variáveis explicativas quantitativas; tem-se que
passar para variáveis qualitativas;
ƒ
É sensível aos indivíduos fora da norma (outliers);
ƒ
Não trata os indivíduos com dados em falta;
ƒ
Sensível a flutuações aleatórias das variáveis explicativas; não se aplica a
populações homogéneas.
7.4.1.3- Análise discriminante
O objectivo desta técnica é semelhante ao da regressão logística (compreender
diferenças entre grupos e prever a que classe um novo elemento com determinadas
características vai pertencer), com a diferença de poder lidar com dois ou mais grupos de
casos. Tem pressupostos mais rígidos do que a regressão logística, por exemplo, as
variáveis independentes devem ser métricas, os dados em cada grupo devem apresentar
distribuição gaussiana multivariada e pressupõe que as matrizes de variância-covariância
sejam iguais para os diferentes grupos de casos.
Testa a hipótese de as médias de grupo de um conjunto de variáveis independentes
para dois ou mais grupos serem iguais. Esta média de grupo é chamada de centróide.
Os critérios mais comuns para testar a significância estatística se se utilizar o método
Stepwise são a distância de Mahalanobis e o critério V de Rao’s. Existem ainda outros
critérios como: Λ de Wilks, Hotelling’s trace, Pillai’s.
77
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
A escolha da função discriminante é feita de modo a maximizar a variância intergrupos relativamente à variância intra-grupo.
Para testar a validade das funções discriminantes classifica-se o conjunto de casos
originais e comparam-se os agrupamentos conseguidos com os grupos pré-definidos e,
assim, estima-se a percentagem de casos correctamente classificados a partir das variáveis
utilizadas.
Frequentemente recorre-se à rotação dos eixos das funções discriminantes, pois os
valores dos coeficientes depois da rotação tenderão a aproximar-se de zero ou de um,
melhorando a interpretação das funções discriminantes e das diferenças entre os grupos;
também, a rotação dos eixos mantém o poder discriminatório total do modelo, mantém a
posição relativa dos grupos e, o poder discriminatório de cada função tornar-se-á, em geral,
melhor distribuído pelas várias variáveis.
Para dois grupos uma só função discriminante é suficiente, mas para p grupos poderá
ser necessário mais do que uma combinação linear para assegurar uma boa separação entre
grupos, de modo que será necessário determinar o número de funções discriminantes. Para
isso, pode-se utilizar, por exemplo, o teste Λ de Wilks.
Quando se tem mais variáveis do que o necessário, utilizam-se métodos Stepwise, ou
seja, seleccionam-se as variáveis que mais contribuem para a distinção entre grupos, e em
seguida vão-se incluindo e/ou retirando variáveis nas funções discriminantes, uma a uma,
de acordo com um critério que pode ser definido pelo próprio analista.
O critério de selecção é uma medida discriminatória, por exemplo: estatística Λ de
Wilks, estatística V de Rao, quadrado da distância de Mahalanobis para os 2 grupos mais
idênticos, estatística F, variância residual.
Veja-se agora a metodologia de um método de estimação de Stepwise. Os passos a
seguir, segundo ANDERSON (1998), são:
1. Seleccionar uma variável independente inicial (a que tiver a maior correlação
com a variável dependente);
2. A percentagem de variação explicada é estatisticamente significativa?
(se não): não é possível efectuar previsão com a regressão múltipla
(se sim): passar ao passo 3
3. Existem outras variáveis independentes disponíveis?
(se não): avaliar a equação de previsão final
(se sim): seleccionar outra variável independente
78
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
A variância é explicada, por todas as variáveis, é significativa? (testar através de
testes F parciais para cada variável no modelo de regressão)
(se não): eliminar as variáveis não significativas e retornar ao passo 3
(se sim): retornar ao passo 3
Em suma, a análise discriminante é um método estatístico para classificar indivíduos
ou objectos de modo exaustivo em grupos mutuamente exclusivos, com base num conjunto
de variáveis independentes. Para isso, são determinadas combinações lineares dessas
variáveis que discriminam entre grupos definidos a priori, de tal modo que seja
minimizada a probabilidade de erro de incorrecta classificação a posteriori.
7.4.1.4- Árvores discriminantes (de decisão)
É uma técnica exploratória para descobrir estruturas nos dados. Uma série de regras
classificatórias derivam dos dados por um procedimento conhecido como partição
recursiva e o resultado é uma árvore classificatória que é a reunião de muitas dessas regras.
A técnica da árvore de decisão consiste em classificar para detectar os critérios
permanentes de repartição dos indivíduos de uma população em n classes predefinidas.
Etapas da construção de uma árvore discriminante:
Definições
ƒ
ƒ
Repartir os indivíduos de uma população em n classes;
ƒ
Escolher a variável que melhor separa os indivíduos da classe – depende do tipo
de árvore;
ƒ
Escolher o critério de separação – depende do tipo de árvore.
ƒ
Repartir os indivíduos pelos nós;
ƒ
Podar (parar o crescimento da árvore mais cedo (pré-poda) ou construir uma
árvore completa e podar depois (pós-poda)).
Segundo CARROLL (2003), esta técnica apresenta as seguintes vantagens e
desvantagens.
Vantagens:
ƒ
Os resultados são expressos na forma de condições explícitas;
ƒ
São pouco perturbadas pela presença de outliers;
ƒ
São pouco sensíveis a flutuações das variáveis não discriminantes;
Algumas geram judiciosamente dados em falta;
79
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
Algumas permitem estudar um conjunto de variáveis de qualquer tipo;
ƒ
Algumas permitem tratar um número muito grande de variáveis explicativas.
Desvantagens:
ƒ
Leva algum tempo de cálculo;
ƒ
Detecta os fenómenos de forma local;
ƒ
A definição dos nós no nível n+1 depende extremamente dos nós do nível n;
ƒ
Não dá uma classificação estável ao se efectuarem flutuações aleatórias nos dados
mais discriminantes;
ƒ
Necessita de um número grande de indivíduos por nó (20 a 30);
ƒ
A representação gráfica dá regiões rectangulares, o que não corresponde
forçosamente à distribuição dos indivíduos;
ƒ
Os valores dos scores obtidos não são uniformemente distribuídos.
Uma árvore de decisão utiliza uma estratégia de dividir-para-conquistar, ou seja, um
problema complexo é decomposto em sub-problemas mais simples e, recursivamente a
mesma estratégia é aplicada a cada sub-problema.
O método adoptado por estes algoritmos consiste na divisão recursiva do conjunto de
observações em subgrupos filhos construindo uma árvore da raiz para as folhas.
Em cada passo, o algoritmo determina uma regra de classificação, seleccionando uma
variável e um ponto de corte nos valores dessa variável que:
ƒ
Maximize uma medida de entropia dos nós “filhos” relativamente ao nó “pai”
(C4.5 e ID3);
ƒ
Minimize uma medida de impureza (CART);
ƒ
Maximize a distinção estatística dos “filhos” relativamente à variável dependente
(CHAID e QUEST).
De seguida abordam-se alguns dos tipos de árvores mais comuns (CART, CHAID,
QUEST, C4.5 e C5.0).
CART (classification and regression tree) – adaptada ao estudo de todo o tipo de
variáveis.
Este método utiliza medidas como índice de Gini para medir a diversidade no nó para
variáveis dependentes nominais. De forma simples, este índice contabiliza a proporção de
observações em cada classe da variável dependente num nó relativamente ao total, isto é,
ao nó raiz.
80
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
O índice de Gini toma o seu valor mínimo quando num nó correspondente a uma
partição da variável dependente, ou seja, quando apenas existem observações pertencentes
a uma classe.
A diferença entre o índice Gini para o nó pai e a soma dos valores para o nó filho
(ponderada pela proporção de casos em cada filho) é apresentada na árvore como
improvement. A variável escolhida é aquela que garante um maior valor de improvement.
CHAID (chi-square automation interaction detection) – reservada ao estudo de
variáveis discretas e de categorias.
Utiliza teste Qui-Quadrado de Pearson numa tabela de contingência entre as
categorias da variável dependente e as categorias das variáveis independentes (as variáveis
continuas são previamente discretizadas em classes).
Na verdade, faz-se um conjunto de testes agregando as classes da variável explicativa
até só restarem duas, de modo a descobrir o melhor número de classes.
Este processo repete-se para a totalidade das variáveis explicativas e a melhor
variável explicativa com o melhor número de classes, isto é, a melhor probabilidade de
significância (p value) ajustada pelo método Bonferroni, é escolhido.
QUEST
Utiliza igualmente testes de Qui-Quadrado de Pearson para tabelas de contingência,
tal como CHAID.
No entanto utiliza um maior conjunto de testes estatísticos para garantir a
independência entre o processo de selecção da variável explicativa e o ponto de divisão das
classes da mesma variável.
Usa, por exemplo, a estatística F da ANOVA e a estatística F de Levene para
variâncias diferentes na selecção de variáveis métricas.
C4.5 e C5.0 (de J.R. Quinlan) – adaptada ao estudo de todas as variáveis.
Utiliza como critério de separação a entropia.
A C5.0 deriva da CART. Este tipo de árvore não é binária, separa a população em
mais do que duas sub-populações.
7.4.1.5- Análise de variância multivariada
Esta é uma técnica de análise de variância que utiliza duas ou mais variáveis
dependentes métricas e duas ou mais variáveis independentes nominais ou ordinais. A
81
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
análise de variância univariada (ANOVA) testa a hipótese nula de que os valores médios
da variável dependente em cada uma das amostras são iguais. Como se tem duas ou mais
variáveis dependentes, tem-se para cada amostra, um vector de valores médios das
variáveis dependentes, logo, a MANOVA testa a hipótese nula de que os valores médios
dos vectores das amostras são iguais. A MANOVA pressupõe que os dados em cada grupo
têm distribuição gaussiana multivariada e ainda que as matrizes de variância-covariância
das variáveis dependentes sejam iguais em todos os grupos (amostras).
A análise de variância simples é classificada como técnica univariada não por causa
do número de variáveis independentes, mas sim pelo número de variáveis dependentes.
O procedimento univariado inclui o teste t para situações de dois grupos e a ANOVA
para situações com três ou mais grupos definidos por duas ou mais variáveis
independentes.
O teste t dá a significância estatística entre duas médias amostrais independentes.
Utiliza a estatística t = (µ1 – µ2) / SEµ1µ2, onde µ1 = média do grupo 1; µ2 = média do
grupo 2; SEµ1µ2 = erro padrão das diferenças entre as médias dos grupos.
Se o valor de t for suficientemente grande então a diferença deve-se não à
variabilidade amostral, mas a uma verdadeira diferença.
Se t > t
N1+N2–2;α
então rejeita-se a hipótese nula de que não há diferença entre os
grupos. (N1 e N2 são as dimensões das amostras)
A ANOVA utiliza o teste F (abordado na regressão linear simples) com k-1 e N-k
graus de liberdade para um dado nível α (onde N = N1 + … + Nk e k o número de grupos).
A lógica de uma ANOVA, tal como o nome reflecte (Análise de Variância) implica a
comparação de duas estimativas independentes da variância para a variável dependente,
uma que reflecte a variabilidade inter-grupos e outra a variabilidade intra-grupos. A
estatística F é precisamente o quociente entre essas duas variâncias.
ANOVA
MANOVA
H0: µ1 = µ2 = … = µk
⎡ µ1k ⎤
⎡ µ11 ⎤ ⎡ µ12 ⎤
⎢µ ⎥
⎢µ ⎥ ⎢µ ⎥
2k
21 ⎥
22 ⎥
⎢
⎢
= ... = ⎢ ⎥
H0 =
=
⎢... ⎥
⎢... ⎥ ⎢... ⎥
⎢ ⎥
⎥
⎢ ⎥ ⎢
⎢⎣ µ p1 ⎥⎦ ⎢⎣ µ p 2 ⎥⎦
⎢⎣ µ pk ⎥⎦
82
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
A extensão directa do teste t, para dois grupos, é uma forma especializada da
MANOVA chamada Hotelling’s T2; para k grupos é a MANOVA que, por sua vez é uma
extensão do Hotelling’s T2.
Em conjunto com a MANOVA pode-se utilizar a MANCOVA (análise multivariada
de covariância) para remover o efeito de quaisquer variáveis independentes quantitativas
fora de controlo nas variáveis dependentes.
7.4.1.6- Análise em componentes principais (ACP)
O objectivo desta técnica é a redução da dimensionalidade de grandes matrizes de
dados; transformar os valores de um conjunto de p variáveis (métricas) em valores de k
“componentes”, com uma perda mínima de informação. As componentes são combinações
lineares das variáveis, e o número de componentes não pode ser maior que o número de
variáveis. Isso quer dizer que k ≤ p. As componentes podem ser consideradas como novas
variáveis, e cada caso tem um valor para cada uma das componentes. A técnica pode ser
utilizada para reduzir o conjunto de dados inicial porque muitas vezes 2, 3, ou 4
componentes podem representar quase toda a informação de um grande conjunto de
variáveis (por exemplo, 20 ou mais variáveis).
A ACP permite analisar grandes conjuntos de dados envolvendo um elevado número
de variáveis, sem exigir quaisquer pressupostos complicados.
O objectivo geométrico é identificar um conjunto de eixos ortogonais tais que, as
coordenadas das observações dão os valores das novas variáveis e, cada nova variável é
uma combinação linear das variáveis originais.
A ACP pode-se assim considerar uma técnica de análise exploratória de dados que
pode ser útil para a melhor compreensão das relações existentes entre as variáveis em
estudo.
A ACP é útil…
ƒ
Na redução da dimensionalidade, pois trabalhar com dimensões menores facilita a
visualização dos dados e a identificação de padrões de interesse;
ƒ
Para identificar padrões de associação entre as variáveis, pois é difícil somente
por inspecção de uma matriz de grande correlação identificar as variáveis que
“estão juntas” devido a um elevado grau de covariância mútua; esta tarefa é
83
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
simplificada olhando para a relação entre as variáveis originais e as componentes
principais (c.p.’s);
ƒ
Para testar a normalidade, porque se as c.p.’s não forem normalmente
distribuídas, então as variáveis originais também não o serão;
ƒ
Na procura de outliers, uma vez que um histograma de cada uma das c.p.’s
permite identificar indivíduos a que correspondem valores demasiado elevados ou
demasiado baixos;
ƒ
Na análise de regressão para ultrapassar o problema da multicolinearidade, pois
as c.p.’s são não correlacionadas (determinam-se as primeiras c.p.’s relativamente
ao conjunto das variáveis independentes, aplicando-se depois a regressão às
componentes seleccionadas);
ƒ
Para detectar grupos ou efectuar a classificação dos objectos, porque se as duas
primeiras c.p.’s explicarem uma boa parte da variabilidade total, pode-se
representar os scores dos indivíduos no plano definido por estas duas c.p.’s e
tentar visualizar agrupamentos dos pontos obtidos. Se houver necessidade de
utilizar mais do que duas c.p.’s usam-se os scores dos indivíduos para as c.p.’s
mais importantes em vez dos valores iniciais das variáveis, e constroem-se os
grupos a partir deles utilizando um dos métodos de análise classificatória.
Um conjunto de dados de p variáveis pode ser representado graficamente num espaço
p-dimensional em relação aos p eixos ou p novos eixos.
O primeiro novo eixo resulta numa nova variável tal que esta nova variável explica o
máximo da variância total. Depois disso, o segundo eixo, ortogonal ao primeiro, é
identificado tal que a correspondente nova variável explica o máximo da variância que não
foi explicada pela primeira nova variável. O procedimento repete-se até que todos os p
novos eixos tenham sido identificados tal que as novas variáveis explicam sucessivas
variâncias máximas e as variáveis sejam não correlacionadas.
As c.p.’s devem reflectir, tanto quanto possível, as características dos dados, que
eram expressas pela diferenciação que as variáveis originais permitiam estabelecer; isto é,
devem explicar uma grande parte da variação associada às variáveis iniciais.
A variância de uma c.p. é uma medida da quantidade de informação explicada por
essa c.p.. A redução de dimensionalidade atinge-se considerando apenas algumas das c.p.’s
(as de maior variância).
84
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Em vez de se analisar um elevado número de variáveis (as originais) com uma
estrutura inter-relacional complexa (pois dizem respeito ao mesmo indivíduo), analisam-se
apenas algumas variáveis não correlacionadas.
Poder-se-á prosseguir a análise aplicando porventura outras técnicas estatísticas para
variáveis não correlacionadas.
Os loadings das c.p.’s (correlações entre as variáveis iniciais e as c.p.’s) podem
ajudar na interpretação destas; são úteis para dizer quanto da variância de cada variável
original X é explicada pelas c.p.’s.
O pesquisador deve decidir quantas componentes quer reter para futuras análises,
pesando a simplicidade (um menor número de dimensões é mais fácil de trabalhar) e a
inteireza (um número grande de dimensões capta mais informação disponível).
Dado que as c.p.’s se podem ordenar por ordem decrescente da sua variância e que
quanto maior for a variância, mais representativa dos dados originais será a correspondente
c.p, devem-se reter as primeiras c.p.’s.
Há várias regras para determinar o número de c.p.’s a reter para futuras análises:
ƒ
Reter tantas c.p.’s quantas as necessárias para que a percentagem de variância por
elas explicada seja superior a um dado valor α fixado a priori;
ƒ
Reter apenas as c.p.’s às quais correspondem valores próprios superiores à média;
ƒ
Reter apenas as c.p.’s às quais correspondem valores próprios superiores a 1
(critério de Kaiser);
ƒ
Utilizar um gráfico (Scree-Plot) onde se representam os pontos de abcissa j e
ordenada igual à percentagem de variância explicada pela j-ésima c.p., ou seja, os
pontos de coordenadas (j, λj / p∑j=1 λj), onde se distinguem as c.p.’s que
contribuem muito das que contribuem pouco ⇒ devem-se reter as r que mais
contribuem, destacando-se de forma acentuada das restantes.
De entre estes critérios, o de Kaiser e o scree-plot são os mais vulgarmente
utilizados. A prática demonstrou já que estes critérios conduzem ambos a soluções
credíveis se se verificar pelo menos uma das seguintes condições: número de variáveis
inferior a 30 ou número de casos (indivíduos) superior a 250. Segundo alguns autores,
quando o número de variáveis é superior a 30 (sobretudo se é superior a 50), deve-se
utilizar o scree-plot em detrimento do critério de Kaiser.
Tal como na análise discriminante, de modo a facilitar a interpretação, também se
procede à rotação dos eixos.
85
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Vejam-se então alguns dos tipos de rotação mais conhecidos.
ƒ
Varimax: rotação ortogonal (eixos mantêm o seu ângulo de 90º). Objectivo:
maximizar a variância dos quadrados dos ponderadores dos factores nas
variâncias mantendo, todavia, constante a variância comum de cada variável.
Minimiza o número de variáveis que têm um loading elevado para cada factor.
Simplifica a interpretação dos factores. É a mais vulgarmente utilizada.
ƒ
Quartimax:
rotação
ortogonal.
Objectivo:
maximizar
a
variância
dos
ponderadores dos factores nos factores mantendo, todavia, constante a variância
comum de cada variável. Minimiza o número de factores necessários para
explicar cada variável. Simplifica a interpretação das variáveis observadas. Tende
a produzir soluções com mais variáveis bem correlacionadas com um factor do
que a varimax.
ƒ
Equamax: combinação do método varimax que simplifica os factores e do método
quartimax que simplifica as variáveis. Minimiza o número de variáveis que têm
um loading elevado num factor e o número de factores necessários para explicar a
variável.
ƒ
Direct Oblimin: rotação oblíqua (não ortogonal, eixos não mantêm o ângulo de
90º).
ƒ
Promax: rotação oblíqua que permite que os factores sejam correlacionados. É
útil para conjuntos de dados grandes porque pode ser calculada mais rapidamente
do que uma rotação direct oblimin.
7.4.1.7- Análise factorial
O objectivo da análise factorial é analisar a estrutura das correlações entre um grande
número de variáveis definindo um conjunto de dimensões comuns subjacentes (factores).
as correlações de um conjunto de “factores”. Estes factores são novas variáveis definidas
por combinações lineares das variáveis em análise as quais, em teoria, vão explicar como é
que as variáveis iniciais estão correlacionadas. Grande parte do valor de cada uma das
correlações entre as variáveis pode ser explicado em termos das influências dos factores. O
número de factores é menor (normalmente muito menor) do que o número de variáveis.
Em rigor, a análise factorial requer variáveis métricas porque analisa correlações de
86
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Pearson, mas, em ciências sociais, é muito utilizada para analisar correlações entre
variáveis medidas por meio de “escalas de avaliação”.
O investigador pode identificar as dimensões da estrutura e então determinar o
quanto cada variável é explicada por cada dimensão. Depois de isto estar feito pode-se
alcançar as grandes utilidades da análise factorial, que são: resumir e reduzir os dados.
Resumir porque as dimensões quando interpretadas e entendidas descrevem os dados num
número muito mais pequeno de conceitos do que as variáveis originais. Reduzir porque se
calculam os scores para cada dimensão subjacente e substituem-se as variáveis originais.
Existem diversos critérios para decidir o número de factores a extrair, tais como:
valores próprios superiores a 1; a priori por conhecimento do investigador; percentagem de
variância (percentagem cumulativa do total de variância explicada pelos factores
sucessivos: ciências naturais (95%), ciências sociais (60%)); scree plot.
A interpretação dos factores é feita através dos loadings dos factores, que são um
meio de interpretar o papel que cada variável tem na definição de cada factor, ou seja, são
a correlação de cada variável e factor. Indicam o grau de correspondência entre a variável e
o factor (loadings elevados tornam a variável representativa do factor). Tal como nas
técnicas vistas anteriormente, a rotação simplifica a estrutura dos factores e torna mais fácil
saber se um factor é significativo ou não.
De modo a verificar se é adequada utilização uma análise factorial, é comum o
cálculo do índice KMO (Kaiser-Meyer-Olkin). Segundo COELHO (2005), se este índice
for inferior a 0,5 então é inaceitável a utilização de uma análise factorial, se for superior a
0,8 a adequação é boa.
Primeiro há que ver se a análise é confirmatória ou exploratória. Se for confirmatória
utiliza-se um modelo de equações estruturais (sub-capítulo 3.4.1.14). Se for exploratória
aplica-se a análise factorial (por variáveis ou por indivíduos).
Na análise factorial exploratória não existe qualquer ideia prévia sobre a estrutura dos
dados, isto é, sobre o número de factores comuns, sobre se os factores são ortogonais ou
oblíquos, sobre o número de indicadores de cada factor e, sobre os indicadores que
representam cada factor.
Na análise factorial confirmatória, pelo contrário, existe já alguma ideia ou teoria
sobre a estrutura dos dados: sobre o número de factores, se são ortogonais ou não, sobre o
número de indicadores de cada factor, sobre os indicadores que representam cada factor,
etc.
87
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
A análise factorial pode parecer muito semelhante à análise em componentes
principais, contudo apresentam algumas diferenças fundamentais nos seus objectivos.
Ambas as técnicas podem ser usadas como métodos de redução de dados, mas a análise
factorial não foi desenhada para isso. O objectivo da ACP é a redução do número de
variáveis para que cada componente explique o máximo da variância dos dados (não há
modelo estatístico, apenas uma transformação geométrica). O objectivo da análise factorial
exploratória é a identificação dos factores subjacentes aos dados que explicam a estrutura
de correlações dos dados (há modelo estatístico). Também, as componentes são
observáveis, enquanto que os factores não (são variáveis latentes).
7.4.1.8- Análise de clusters
Esta técnica tem como objectivo principal o agrupamento de casos com base num
conjunto de variáveis. Por outras palavras, a técnica tenta formar grupos de casos
(chamados clusters). O número de clusters (k) não pode ser maior do que o número de
variáveis (p), e normalmente k é muito menor do que p. Os casos dentro de um cluster são
semelhantes entre si em termos dos seus valores num conjunto de variáveis, e são mais
semelhantes do que com qualquer um dos casos pertencente a outro cluster.
A dificuldade inicial é que não existe uma única via de definição de grupos, isto é,
um único critério de partição e/ou agrupamento dos indivíduos ou casos com base numa
única medida de (dis)semelhança.
As principais etapas de uma análise de clusters são:
1. A selecção de indivíduos ou de uma amostra de indivíduos a serem agrupados;
2. A definição de um conjunto de variáveis a partir das quais será obtida a
informação necessária ao agrupamento dos indivíduos;
3. A definição de uma medida de semelhança ou dissemelhança entre cada dois
indivíduos;
4. A escolha de um critério de agregação ou desagregação dos indivíduos, isto é, a
definição de um algoritmo de partição/classificação;
5. A validação dos resultados encontrados.
De seguida apresentam-se os diferentes métodos de análise de clusters.
88
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Técnicas de optimização: critério de agrupamento. A sua optimização indica qual
deverá ser o grupo onde cada caso será incluído, pressupondo que todos os casos
pertencem a um número k predeterminado de grupos;
Apresentam duas desvantagens, nomeadamente: não existe nenhuma garantia de que
o algoritmo forneça um óptimo global e não apenas um óptimo local e, requer uma
quantidade considerável de tempo de computação, uma vez que o modo mais lógico de o
fazer seria considerar todas as possíveis partições [k = 2, 3, 4, …] e escolher a melhor de
todas elas; a sua aplicabilidade só ser torna possível com a definição, a priori, do número
de grupos pretendido.
Técnicas de densidade: os grupos são formados através da procura de regiões que
contenham uma concentração relativamente densa de casos.
Técnicas hierárquicas: podem-se subdividir em técnicas aglomerativas (parte-se de
n grupos de apenas um indivíduo cada, que vão sendo agrupados sucessivamente até se
encontrar apenas um grupo que incluirá a totalidade dos n indivíduos) e, divisivas (parte-se
de um grupo que inclui todos os indivíduos em estudo e por um processo sistemático de
divisões sucessivas obtém-se n grupos de um elemento cada; são muito pesados em termos
de capacidade informática); ambas partem de uma matriz de semelhanças ou
dissemelhanças (distâncias) entre os casos; conduzem a uma hierarquia de partições P1, P2,
…, Pn do conjunto de n objectos em 1, 2, …, n grupos. Os métodos dizem-se hierárquicos
porque, para cada par de partições, Pi e Pi+1, cada grupo da partição Pi+1 está incluído num
grupo da partição Pi.
Técnicas não hierárquicas: os métodos não-hierárquicos baseiam-se na obtenção de
um número predefinido de clusters, k, que conterão todos os casos observados.
Procura-se encontrar os k clusters que melhor solucionam o problema segundo a
minimização ou maximização de uma medida de heterogeneidade ou homogeneidade.
Podem-se referir três diferentes procedimentos, nomeadamente:
ƒ
Limiar sequencial (sequential threshold): começa por seleccionar uma semente
para um cluster e incluir todos os objectos dentro de uma distância pré
especificada. Depois uma segunda semente é seleccionada e todos os objectos
dentro de uma distância pré especificada são seleccionados e o processo continua.
Quando um objecto é agrupado com uma semente, não é mais considerado nas
sementes seguintes.
89
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
ƒ
Limiar
paralelo
(parallel
threshold):
selecciona
diversas
sementes
simultaneamente no início e distribui os objectos dentro da distância limiar pela
semente mais próxima. Com o desenrolar do processo, as distâncias podem ser
ajustadas para incluir mais ou menos objectos nos clusters.
ƒ
Optimização: semelhante aos outros, mas permite a redistribuição dos objectos.
Se durante o processo, um objecto se torna mais próximo de outro cluster do que
daquele em que está designado no presente momento, então o procedimento de
optimização muda o objecto para o cluster mais semelhante.
Outras técnicas: incluem aquelas em que se permite que haja sobreposição de
grupos (fuzzy clusters) e todas as restantes que não foram incluídas nas anteriormente
definidas. Os métodos fuzzy associam a cada objecto um vector cujas componentes
representam o grau de ligação do objecto a cada um dos grupos fuzzy. Em consequência,
cada grupo fica identificado por um vector de coeficientes que representam o grau de
pertença de cada um dos objectos a esse mesmo grupo
Os principais critérios de comparação entre classes são:
Single linkage ou critério do vizinho mais próximo
Semelhança entre dois grupos é a semelhança máxima entre quaisquer dois casos
pertencentes a esses grupos. Qualquer grupo é definido como o conjunto de casos em que
qualquer elemento é mais semelhante a pelo menos um outro elemento do mesmo grupo do
que a qualquer elemento de outro grupo. A distância entre os dois grupos é a menor das
distâncias entre os elementos dos dois grupos.
Complete linkage ou critério do vizinho mais afastado
Procedimento inverso ao anterior; a distância entre dois grupos é a distância entre os
seus elementos mais afastados ou menos semelhantes.
Critério da média dos grupos
A distância entre dois grupos é a média das distâncias entre todos os pares de
indivíduos constituídos por elementos dos dois grupos.
Critério do centróide
A distância entre dois grupos é definida como a distância entre os seus centróides,
pontos definidos pelas médias das variáveis caracterizadoras dos indivíduos de cada grupo,
isto é, calcula a distância entre dois grupos como a diferença entre as suas médias, para
todas as variáveis. Apresenta a desvantagem de que se os dois grupos forem muito
90
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
diferentes em termos de dimensão, o centróide do novo agrupamento estará mais próximo
daquele que for maior e as características do grupo menor tenderão a perder-se.
Critério de Ward
Baseia-se na perda de informação resultante do agrupamento dos indivíduos. É
medida através da soma dos quadrados dos desvios das observações individuais
relativamente às médias dos grupos em que são classificadas. Os passos para calcular o
critério de Ward são: 1º calcular as médias das variáveis para cada grupo; 2º calcular o
quadrado da distância Euclideana entre essas médias e os valores das variáveis para cada
indivíduo; 3º somar as distâncias para todos os indivíduos; 4º minimizar a variância dentro
dos grupos (soma dos quadrados dos erros – ESS)
Uma ferramenta muito utilizada em Análise de Clusters é o dendrograma. O
dendrograma é uma árvore de agrupamento que possibilita visualização, ao longo do
processo de agrupamento, de quais os grupos que se vão subdividindo e do correspondente
número de indivíduos. Dá uma ideia do número de classes existentes efectivamente na
população.
7.4.1.9- Análise loglinear
Esta técnica é uma técnica não-paramétrica que analisa as relações entre duas ou mais
variáveis nominais. É possível considerar as variáveis sem as distinguir entre variáveis
dependentes e variáveis independentes. Mas também é possível designar uma variável (ou
mais) como variável dependente e considerar as outras variáveis como variáveis
independentes.
7.4.1.10- Análise de correspondências
A análise de correspondências foi desenvolvida por estatísticos franceses e é uma
técnica de interdependência que permite a utilização de dados qualitativos e relações não
lineares.
É um método adaptado a tabelas de contingência (r x p) que permite estudar as
eventuais relações existentes entre duas variáveis nominais; é uma técnica para expor as
linhas e colunas de uma matriz de dados como pontos num espaço vectorial de baixa
dimensão.
91
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
A utilidade de uma técnica como a análise de correspondências é que o ganho em
interpretação excede muito a perda de informação. A análise de correspondências deriva de
conjunto dos scores multidimensionais com uma interpretação geométrica bem definida e
intencional. É uma técnica mais geométrica do que estatística.
De seguida apresenta-se o algoritmo da análise de correspondências.
1. Selecção do espaço de menor dimensão (seja Rp – admite-se que há menos
propriedades do que indivíduos);
2. Transformação da matriz de partida – cálculo dos perfis dos indivíduos em Rp:
fij / fj = K(i,j) / K(j)
3. Cálculo da matriz de inércia V (p x p) de termo geral vjj’:
vjj’ = n∑i=1 fi ((fij/(√fjfi)) - √fj)(fij/(√fjfi) - √fj)
ou da matriz simétrica equivalente T de termo geral
tjj’: tjj’ = n∑i=1 ((fijfij’)/(fi√(fjfj’)))
4. Diagonalização da matriz de inércia T e obtenção dos seus valores próprios λα e
vectores próprios uα.
5. Análise do histograma dos valores próprios e escolha da dimensão do espaço cuja
inércia acumulada explique uma percentagem significativa da inércia inicial (em
geral 2 ou 3 eixos).
6. Projecção dos indivíduos nos eixos de inércia retidos:
f’iα = p∑j=1(fij / (fi√fj) uαj)
7. Projecção das propriedades nos eixos de inércia retidos:
f’jα = (1/√λα) n∑i=1(fij / fi) f’iα
8. Cálculo eventual da projecção de elementos em suplementar.
9. Reconstituição eventual da matriz de partida e confirmação da aproximação
escolhida (número de valores próprios retidos).
10. Cálculo das contribuições absolutas e relativas.
11. Interpretação com base em valores próprios, projecção dos indivíduos e
propriedades nos eixos factoriais, contribuições absolutas e relativas, etc.
Para mais informações sobre esta técnica recomenda-se LEBART (1995) ou
COELHO (2005).
92
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.4.1.11- Análise conjunta
Esta é uma técnica de dependências emergente que trouxe sofisticação à avaliação de
objectos, como por exemplo, novos produtos, serviços ou ideias.
É uma técnica usada especificamente para entender como é que os inquiridos
desenvolvem preferências por produtos e serviços. É baseada na premissa simples de que
os consumidores avaliam o valor de um produto/serviço/ideia (real ou hipotético)
combinando conjuntos separados de valor dados por cada atributo.
A Utilidade, que é a base conceptual para medir o valor numa análise conjunta, é um
julgamento subjectivo de preferência única para cada indivíduo. Assume-se que a Utilidade
é baseada no valor colocado em cada um dos níveis dos atributos e expressa numa relação
que reflecte a forma como a Utilidade é formulada para qualquer combinação de atributos.
Para que esta técnica seja bem sucedida, o investigador deve ser capaz de descrever o
produto ou serviço em termos tanto dos seus atributos como de todos os valores relevantes
para cada atributo. Usa-se o termo factor para descrever um atributo específico ou outra
característica do produto/serviço. Os possíveis valores para cada factor são chamados
níveis. Descreve-se um produto ou serviço em termos do seu nível no conjunto de factores
caracterizadores.
É a única entre todas as técnicas multivariadas na qual o investigador primeiro
constrói um conjunto de produtos ou serviços reais ou hipotéticos combinando níveis
seleccionados de cada atributo. Essas combinações são então apresentadas aos inquiridos
que, por sua vez, dão apenas a sua avaliação global. O inquirido deve escolher entre um
conjunto de produtos. Os inquiridos não precisam dizer mais nada, como por exemplo
quão importante foi um determinado atributo para eles ou como o produto desempenha
determinado atributo; apenas têm que indicar a sua preferência. Como o investigador
construiu os hipotéticos produtos ou serviços de uma forma específica, a influência de cada
atributo e do valor de cada atributo no julgamento de Utilidade do inquirido podem ser
determinados através da resposta global do inquirido.
7.4.1.12- Correlação canónica
É uma extensão da análise de regressão múltipla. O objectivo é correlacionar
simultaneamente diversas variáveis dependentes quantitativas e diversas variáveis
independentes quantitativas.
93
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Facilita o estudo das inter-relações entre conjuntos de diversas variáveis dependentes
e diversas variáveis independentes. Enquanto a regressão múltipla prevê uma única
variável dependente através de um conjunto de variáveis independentes, a correlação
canónica simultaneamente prevê várias variáveis dependentes através de várias variáveis
independentes.
Segundo ANDERSON (1998) apresenta as seguintes desvantagens:
ƒ
Reflecte a variância partilhada pelas combinações lineares de conjuntos de
variáveis, não a variância extraída das variáveis;
ƒ
Os pesos canónicos estão sujeitos a grande instabilidade;
ƒ
Os pesos canónicos são derivados para maximizar a correlação entre as
combinações lineares, não a variância extraída.
ƒ
A interpretação pode ser difícil (não existem métodos de ajuda à interpretação
como a rotação);
ƒ
É difícil identificar relações significativas entre os conjuntos de variáveis
dependentes e independentes porque ainda não foram desenvolvidos estatísticas
precisas para interpretar a análise canónica (utilizando-se, até ao momento,
medidas inadequadas como os loadings ou os cross-loadings).
7.4.1.13- Escalonamento multidimensional
O objectivo desta técnica é transformar as opiniões do consumidor sobre semelhanças
ou preferências em distâncias representadas num espaço cartesiano. Quanto mais próximos
estiverem dois pontos, mais semelhantes são as opiniões dos consumidores sobre os dois
objectos. O mapa perceptual mostra as posições relativas entre os objectos, mas são
necessárias outras análises para descrever ou aceder a quais atributos determinam a posição
de cada objecto.
O investigador tem, à partida, que tomar diversas decisões, tais como: qual será a
base de avaliação (preferências ou semelhanças); se quer uma análise de agregação
(poucos mapas perceptuais) ou desagregação (um mapa para cada sujeito); se os atributos
serão especificados pelo investigador (métodos composicionais) ou apenas medidas de
preferência globais (métodos de decomposição), entre outros.
As técnicas e procedimentos do método estão bastante desenvolvidos em
ANDERSON (1998).
94
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Um caso particular do escalonamento multidimensional, com muita utilidade, é a
análise de correspondências que foi desenvolvida no sub-capítulo 3.3.1.10.
7.4.1.14- Modelos de equações estruturais
Os modelos de equações estruturais permitem separar as relações para cada variável
dependente de um conjunto de variáveis dependentes. É utilizada para uma série de
regressões múltiplas separadas estimadas simultaneamente. É caracterizada por duas
componentes básicas: o modelo estrutural (relaciona as variáveis independentes com as
dependentes) e o modelo de medida (permite que o investigador use diversas variáveis –
indicadores – para uma única variável independente ou dependente – variáveis latentes).
As técnicas de modelos de equações estruturais são distintas por duas razões:
permitem estimar relações de dependência múltiplas e interrelacionadas e, permitem
representar conceitos não observáveis nessas relações, ou seja, incorporar variáveis que
não são medidas directamente (variáveis latentes).
Variáveis observáveis são características das unidades estatísticas que são passíveis
de medição ou observação directa como, por exemplo, a nota num exame, as vendas de
uma empresa, etc.
Variáveis latentes ou não observáveis são conceitos que não são passíveis de medida
directa e só indirectamente podem ser medidos através do recurso a variáveis observáveis
como, por exemplo, a inteligência, a imagem de uma empresa, a atitude de um
consumidor, etc.
São utilizados em modelos confirmatórios, ou seja, o investigador especifica um
modelo e usa os modelos de equações estruturais para aceder à sua significância estatística.
Mesmo que o modelo tenha um ajustamento aceitável, o investigador não prova o modelo,
apenas confirma que é um entre outros possíveis modelos, pois vários modelos diferentes
podem ter a mesma qualidade de ajustamento. O investigador pode então utilizar uma
estratégia de modelos competitivos, ou seja, comparar outros modelos diferentes e
encontrar o melhor.
Para mais informações sobre os modelos de equações estruturais, consultar, por
exemplo, COELHO (2005).
95
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
7.4.1.15- Técnicas emergentes
A análise de dados, especialmente a análise multivariada, é uma área em grande
desenvolvimento e, nos últimos anos, a par com o desenvolvimento tecnológico, têm
surgido muitas técnicas. Neste sub-capítulo serão levemente abordadas técnicas como:
Data Warehouse, Data Mining, Redes Neuronais e Reamostragem.
Data Warehouse
Procura combinar todas as fontes de dados e informação relevante de uma
organização em apenas uma base de dados com uma estrutura favorável ao processo de
tomada de decisão em todos os níveis da organização.
Data Mining
É uma nova perspectiva da análise de dados mais voltada para o modo exploratório
do que o confirmatório. Dado o vasto conjunto de dados disponíveis (provenientes de bases
de dados e data warehouses), a perspectiva do investigador torna-se mais direccionada
para as características dos dados e não tanto para a generalização para outras situações. O
investigador segue uma estratégia de descoberta através da examinação dos dados para
todos os tipos de relações.
Redes Neuronais
É uma ferramenta poderosa de exploração, descoberta e de previsão baseando-se na
quantificação e replicação de padrões complexos dos dados. Não é de fácil interpretação
devido às relações complexas que são integradas “invisivelmente” pela metodologia. O
investigador deve utilizar estas técnicas para explorar e prever, mas não tanto para
explicar.
São algoritmos computacionais de redes de elementos simples (como os neurónios do
cérebro humano) fortemente conectados.
Reamostragem
Técnicas especialmente úteis para a validação de um modelo. As mais conhecidas
são: Jackknife e Bootstrap.
Jackknife (v-fold ou leave-one-out no caso de os grupos terem cardinal 1)
Foi introduzido por McCarthy em 1966 como uma técnica para a estimação da
variância, mas foi originalmente desenvolvido por Quenouille em 1956 para a redução do
viés de um estimador.
O processo é o seguinte: retira-se uma observação, conduz-se a análise com as
restantes observações (diga-se v-1) e então usa-se o vector a1 para calcular o valor de Y1
96
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
para a observação particular que se retirou para teste. Repete-se o processo v vezes,
conduzindo uma análise diferente para cada subconjunto de v-1 observações. Pode-se então
comparar a variância dos valores de Jackknife com a variância de quando se fez a análise
usando todas as observações.
Bootstrap
Foi introduzido por Efron em 1982 como uma metodologia não-paramétrica geral
para diversos problemas estatísticos (viés, variância e erros comuns de medição). Desde
então a técnica foi aplicada a muitas áreas usando simulação computacional para uma
variedade de variâncias não comuns e problemas de aproximação de intervalos de
confiança quando a trabalhar com observações independentes. Só recentemente foi
aplicada para estimação de variância de estimadores não lineares em inquéritos complexos.
Na ausência de uma amostra de teste, pode-se obter um conjunto novo de
observações por reamostragem dos dados. Se se assumir que os dados da amostra são
representativos da população em questão, então tomando n amostras (com reposição, o que
significa que algumas amostras vão aparecer mais do que uma vez e algumas nenhuma
vez) estas devem reproduzir a variabilidade introduzida pela amostragem da população
como um todo.
Forma-se uma combinação linear dos dados bootstrapped usando o vector a1 do
conjunto de dados inicial. Pode-se então comparar a variância desta combinação com a
variância da primeira componente da amostra bootstrapped. Se a comparação for próxima
– por exemplo, se o rácio for próximo de 1 – conclui-se que a variação é comum à
população em estudo. Se o rácio for pequeno, então conclui-se que não se pode generalizar
a descoberta para fora da amostra.
7.5- REPRESENTAÇÕES GRÁFICAS
A representação gráfica de resultados tem como principal objectivo a visualização de
características da variável em estudo na amostra, ou seja de estatísticas amostrais, de forma
simples e de fácil aquisição mental.
Se bem que a representação gráfica seja um auxiliar poderoso para a ilustração das
variáveis na amostra em estudo (desde que elaborados correctamente), a sua interpretação
exacta é dificultada pela necessidade de interpolação de valores para os eixos (e por isso
97
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
sujeito a erros de medição), daí que, para análises mais cuidadas, torna-se necessário a
apresentação das estatísticas calculadas a partir da amostra.
No entanto, não há ferramenta estatística que seja tão poderosa como um gráfico bem
escolhido. Os gráficos têm muitas vantagens em relação às apresentações tabulares de
dados numéricos por criarem interesse e atraírem a atenção das pessoas. A análise gráfica é
um meio para descobrir o inesperado.
A representação gráfica é decisiva para a análise de dados. É a linha da frente de
ataque, revelando estruturas intrincadas nos dados que não podem ser absorvidas de
qualquer outra forma.
Os instrumentos e técnicas de representação de dados ajudam a criar imagens de duas
ou três dimensões de dados que podem assim ser interpretados mais facilmente de modo a
se ganhar conhecimento e compreensão sobre eles. Com a representação dos dados, podese identificar e compreender a informação que interessa e os padrões no conjunto de dados
ajudando assim na tomada de decisão e na previsão de novas oportunidades de negócio.
Os padrões observados na prospecção e descoberta de informação podem até não
elucidar muito o fenómeno sob investigação; contudo, descobrir anomalias e deficiências
nos dados pode ser realmente valioso.
A representação gráfica é uma chave para a descobrir novos padrões e tendências e
para comunicar estas descobertas a quem irá tomar as decisões. As representações gráficas
de dados enviam mensagens poderosas às pessoas. O uso de imagens tem um impacto
muito mais vívido dos que um conjunto de números, tal como diz o ditado, “uma imagem
vale mais do que mil palavras”.
Quando se escolhe a representação gráfica adequada para o conjunto de dados devese ter em consideração a legibilidade do tipo de gráfico escolhido e o público-alvo.
Não há um único método de representação de dados multivariados que seja uma
solução universal. Alguns são melhores para mostrar clusters ou outliers, enquanto outros
podem mostrar dois ou três tipos de correlação. Alguns suportam conjuntos de dados
maiores enquanto que outros são melhores para conjuntos mais pequenos. Isto implica que
os pacotes de análise estatística contenham um arsenal de diferentes tipos de
representações.
O primeiro passo para escolher a representação adequada é descobrir quais as que
estão em condições de responder à questão, e o segundo passo é determinar que
representação específica se aplica melhor à situação em particular. Há muitas técnicas que
98
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
fazem a mesma função usando diferentes processos e cada uma tem os seus pontos fortes e
fracos. A escolha depende do que está sob investigação e de como os resultados serão
usados.
A melhor representação deve responder positivamente às seguintes questões:
ƒ
Os resultados têm boa exactidão?
ƒ
Os resultados são interpretáveis; os especialistas da área, os analistas de dados e
os decisores podem entendê-los?
ƒ
A representação fornece resultados rapidamente?
ƒ
É fácil implementar os resultados numa situação real?
ƒ
A representação suporta os dados que estão disponíveis para explorar?
De seguida aborda-se muito sucintamente as representações gráficas mais comuns.
Estas representações encontram-se disponíveis na maioria dos packages estatísticos.
Histogramas: Gráficos utilizados para determinadas funções estatísticas específicas;
permitem categorizar uma variável quantitativa e obter um gráfico de colunas com o
aspecto da distribuição da variável, ou seja, é uma representação gráfica de uma única
variável que representa a frequência das ocorrências (valores dos dados) dentro de
categorias dos dados; permitem descobrir desequilíbrios nos dados
Gráficos de Pareto: São semelhantes aos histogramas mas utilizam variáveis
nominais nas abcissas que são ordenadas segundo o valor das frequências; normalmente
contém um gráfico de linhas combinado apresentando o polígono de frequências
cumulativas.
Gráficos de caule e folhas: São uma variante do histograma; apresenta a mesma
imagem que o histograma mas também provê uma enumeração dos reais valores dos
dados.
Gráficos de dispersão: Representam pelo menos uma variável quantitativa nas
ordenadas e outra nas abcissas. São úteis para ilustrar a relação casuística ou de mera
associação. Permitem descobrir clusters, outliers, tendências e correlações. Podem-se
adicionar linhas de regressão de y em x para indicar se existe uma relação não linear e
identificar possíveis outliers.
Matriz de gráficos de dispersão: Para um conjunto de dados multivariados com
mais do que duas variáveis. É útil para examinar relações entre todos os pares de variáveis.
Consiste numa grelha quadrada simétrica de gráficos de dispersão bivariados. Pode-se
tornar demasiado confuso se o número de variáveis for elevado.
99
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Gráficos de barras e de colunas: Permitem comparações entre grupos. Utilizados
para construir histogramas, pictogramas e pirâmides etárias.
Gráficos de linhas e de pontos: São úteis para analisar, procurar e mostrar
tendências temporais e padrões de séries cronológicas.
Gráficos de controlo: Gráfico de linhas com limites de controlo; permitem verificar
rapidamente se uma variável crítica para um processo se encontra dentro de determinados
parâmetros de segurança ou qualidade.
Gráfico de áreas: Representam várias variáveis quantitativas justapostas.
Gráfico de superfície: Representam variáveis quantitativas em três eixos; são muito
utilizados para construir cartogramas.
Gráfico de bolhas: Semelhante ao gráfico de dispersão mas utiliza mais uma
variável contínua para a dimensão da bolha.
Gráficos circulares e em anel: Permitem resumir um conjunto de variáveis;
visualizar fracções sobre um total; representar a informação em termos percentuais de
variáveis nominais.
Gráficos de radar ou teia: Permitem utilizar um número elevado de variáveis
contínuas associando um eixo radial a cada uma; permitem ver simetria ou uniformidade
de dimensões de dados contínuos, pois pode-se ver quanto os dados flutuam observando se
a espiral é suave ou tem picos. São úteis para procurar e avaliar tendências sazonais ou
outras tendências no conjunto de dados como um todo.
Gráficos de extremos e quartis: Permitem resumir um conjunto de estatística
relativo a várias variáveis quantitativas ou ordinais ou uma variável cruzada com outra não
quantitativa.
Barras de erro: São semelhantes ao gráfico de extremos e quartis mas utilizam
estatísticas como médias e desvios padrão em vez da mediana e distância interquantílica.
São úteis para entender informação da estatística descritiva e para analisar medidas de
tendência central (tais como mediana, e moda) ou também variância.
As representações indicadas a seguir são bastante recentes e inovadoras. Exemplos
destas representações podem ser encontrados, por exemplo em ANDERSON (1998) e
DAVIDSON (2002).
Glyph’s: A posição do raio identifica a variável que representa e o seu comprimento
indica a categoria da variável que foi atribuída ao indivíduo.
100
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Estrelas: Semelhantes aos glyph’s, mas os raios são marcados a partir do centro do
círculo e as suas extremidades unem-se de modo a formar polígonos.
Faces de Chernoff: Cada indivíduo é representado por uma face e diferentes valores
da variável produzem diferentes tamanhos ou formas das características da face.
Perfis: Um perfil pode representar cada indivíduo ou um grupo de indivíduos (perfis
de médias) ou ainda cada variável (unindo-se tantos pontos quantos os indivíduos).
Mapas: Permitem explorar relações geográficas no conjunto de dados.
Árvores: Permitem explorar relações entre níveis hierárquicos.
A figura seguinte apresenta uma síntese dos diversos tipos de gráficos aqui
apresentados classificados segundo o tipo e número de variáveis que representam.
Tipologia
de gráficos
Variáveis
quantitativas
1 var.
Histograma
Pareto
Caule e folhas
Extremos e
quartis
Barras de erro
2 var.
Dispersão
Variáveis
qualitativas
> 2 var.
Bolhas
Superfície
Radar
1 var.
Circular
Anel
Variáveis quantitativas
e qualitativas
1 v. quant.
/1 v. qualit.
ordinal
Linhas
Pontos
Áreas
Controlo
1 v. quant./
1 v. qualit.
Barras
Colunas
Extremos e
quartis
Barras de erro
Outros
Mapas
Grafos
Estrelas
Perfis
Faces de
Chernoff
Esta é uma área em franco desenvolvimento, esperando-se: cada vez mais tipos de
representações; a mudança de representações estáticas para dinâmicas e interactivas e, a
capacidade de representar cada vez mais dados e cada vez mais complexos.
8- ETAPA 6: PRODUÇÃO DO RELATÓRIO
Uma vez analisados os dados, é necessário apresentar os resultados. Deve-se então
resumir os resultados da análise dos dados de modo a que os decisores os compreendam e
os usem como base de acção.
É importante que a forma de apresentação realce a informação importante. Os
relatórios devem ser claros, fáceis de entender, sintéticos, bem organizados e correctos.
101
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
Ao produzir o relatório é sempre necessário ter em atenção para quem é que o
relatório se dirige. Geralmente, o relatório dirige-se ao decisor, que por norma será uma
pessoa bastante ocupada e sem grande interesse pelos pormenores técnicos da investigação,
mas sim pelos resultados práticos.
Assim, é comum a utilização de um sumário executivo escrito em linguagem simples
e não técnica mas com os principais resultados identificados no estudo e mesmo sugestões
de acções ou decisões a tomar. No entanto, este sumário deve ser sempre acompanhado de
um relatório técnico completo, fornecendo ao leitor dois níveis de informação que deverá
utilizar em função das necessidades e do seu grau de conhecimento das técnicas utilizadas.
9- ETAPA 7: DIVULGAÇÃO DOS RESULTADOS
Ao se divulgar os resultados, coloca-se o relatório nas mãos de pessoas que os
utilizarão para marcar a diferença e aumentar o retorno do investimento feito.
O objectivo do processo de inquérito é assegurar melhores decisões. Não se devem
realizar inquéritos se não se vai produzir resultados ou actuar com base neles.
Um software de apresentação dos resultados deve permitir que quem os recebe possa
interagir com os quadros e os gráficos produzidos; deve permitir que cada receptor do
relatório tenha a possibilidade de visualizar os resultados pelo ângulo que pretender. Ou
seja, cada decisor pode criar uma visão particular dos resultados para melhor fundamentar
a sua decisão. O grau de interacção com os resultados dependerá do tipo de audiência
(decisores, empregados, clientes, …).
102
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
10- CONCLUSÃO
Como conclusão apresenta-se neste capítulo um resumo de cada uma das etapas de
uma pesquisa por inquérito discutidas nos capítulos anteriores.
Em relação à etapa 1 (Planeamento e desenho do inquérito) os passos a seguir
deverão ser: definir objectivos e hipóteses a testar; determinar o orçamento, calendário e
recursos; definir a população; determinar objectivamente a dimensão apropriada da
amostra e a técnica amostral a utilizar; escolher o método de recolha de dados; elaborar o
questionário de forma adequada e, testar o questionário.
Na etapa 2 (Recolha dos dados) é necessário, se possível, eliminar a entrada manual
dos dados escolhendo métodos automáticos; tentar obter dados não enviesados; tentar
maximizar a taxa de resposta e, evitar que o processo de recolha de dados leve demasiado
tempo.
Na etapa 3 (Acesso a dados) deve-se ter em atenção os seguintes aspectos: evitar a
dupla entrada de dados utilizando software de recolha e de análise compatível e, utilizar as
definições dos dados feitas no desenho do questionário no caso de se utilizar métodos
automáticos de recolha de dados.
Em relação à preparação e gestão dos dados (Etapa 4), os aspectos fundamentais são:
a obtenção de dados “limpos” para análise utilizando regras de validação na construção do
questionário; a detecção e correcção de possíveis erros e, se necessário a criação de novos
dados a partir dos originais através de operações de transformação para executar
determinadas análises. A fase de preparação dos dados é fundamental, pois o principal
objectivo de uma investigação por inquérito é o apoio à decisão e, segundo JURAN (1998)
as decisões nunca podem ser melhores do que os dados em que se baseiam.
Na quinta etapa (Análise dos dados) os objectivos são: produzir estatísticas
descritivas para obter uma “fotografia” dos dados; retirar o máximo possível de
conhecimento dos dados e, construir modelos de suporte à decisão.
É necessário saber escolher, de entre os muitos métodos existentes, o método de
análise de dados mais adequado a cada situação.
Algumas considerações a ter em conta para escolher a técnica estatística adequada
são: considerar cuidadosamente a hipótese geral (decidir entre uma análise de diferenças
entre amostras ou uma análise de relação entre variáveis); considerar a natureza das
variáveis; considerar a escala de medida da variável dependente (decidir entre técnicas
103
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
paramétricas e não-paramétricas; se a técnica for uma técnica para analisar a relação entre
variáveis é preciso considerar a escala de medida de todas as variáveis na análise);
examinar os dados, ou seja, verificar se os dados recolhidos cumprem os pressupostos da
técnica estatística que se quer aplicar (caso não verifiquem os pressupostos há duas
alternativas: abandonar a técnica escolhida e escolher uma outra para a qual os dados
cumpram os pressupostos; transformar os dados de forma a cumprirem os pressupostos da
técnica escolhida).
Na etapa 6 (Produção do relatório) é necessário personalizar os quadros e gráficos
para melhor evidenciar os resultados e, produzir um relatório simples e de fácil
interpretação.
Na sétima e última etapa, referente à divulgação dos resultados, deve-se ter em
atenção os seguintes aspectos: distribuir os resultados rapidamente; permitir aos decisores
a interacção com os quadros de resultados e, controlar a segurança de acesso e a
confidencialidade determinando o que cada pessoa pode ver e até onde.
Uma investigação por inquérito, para ser eficaz, necessita que todas as etapas sejam
bem executadas. Uma falha em qualquer uma das etapas, (seja na elaboração do
questionário, na preparação dos dados, na análise dos resultados, …) pode pôr em causa a
validade de toda a investigação.
104
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
BIBLIOGRAFIA
™ AMARAL, I., FERREIRA, M.A. (2001). Probabilidades e Estatística – Formulário, 5ª
Edição. Lisboa: Edições Sílabo.
™ ANDERSON, R.E., BLACK, W.C., HAIR, J.F.Jr., TATHAM, R.L. (1998).
Multivariate Data Analysis. New Jersey, USA: Prentice Hall.
™ ANDRADE, R., CALAPEZ, T., MELO, P., REIS, E. (1997). Estatística Aplicada.
Lisboa: Edições Sílabo.
™ BACELAR, S. M. (1999). Amostragem nas Ciências Sociais – Relatório de aula
teórico-prática. Porto, Portugal: Faculdade de Economia, Universidade do Porto.
™ BIRN, R. J., HARRIS P., WOLF A. (2000). The International Handbook of Market
research Techniques (pp. 43-100), 2ª Edição. Londres: Kogan Page.
™ BRILHANTE, F. (2002). Apontamentos da Disciplina de Probabilidades e Estatística
I. Ponta Delgada: Departamento de Matemática da Universidade dos Açores.
™ BRILHANTE, F. (2004). Apontamentos da Disciplina de Modelos Estatísticos I. Ponta
Delgada: Departamento de Matemática da Universidade dos Açores.
™ CABRAL, J.A.S., GUIMARÃES, R.C. (1997). Estatística. Lisboa: McGraw Hill.
™ CARDOSO, M. M. (2000). Segmentação: Uma Aplicação no Turismo. Lisboa: IST.
™ CARROLL, J.D., GREEN, P.E., LATTIN, J. (2003). Analysing Multivariate Data.
Pacific Grove, USA: Duxbury.
™ COELHO, P.S., VILARES, M.J. (2005). A Satisfação e Lealdade do Cliente –
Metodologias de avaliação, gestão e análise. Lisboa: Escolar Editora.
105
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
™ DAVIDSON, I., SOUKUP, T. (2002). Visual Data Mining: Techniques and tools for
data visualization and mining. Danvers, USA: John Wiley & Sons.
™ DUNN, G., EVERITT, B.S. (2001). Applied Multivariate Data Analysis. London, UK:
Edward Arnold.
™ EVERITT, B.S., LANDAU, S., LEESE, M. (2001). Cluster Analysis. London, UK:
Edward Arnold.
™ FERRÃO, F., REIS, E., VICENTE, P. (2001). Sondagens – A amostragem como factor
decisivo de qualidade, 2ª Edição. Lisboa: Edições Sílabo.
™ FIDELL, L.S., TABACHNICK, B.G. (2001). Using Multivariate Statistic. Boston,
USA: Allyn&Bacon.
™ GOODE, W., HATT, P. (1979). Métodos em Pesquisa Social (pp. 171-235), 7ª Edição.
São Paulo, Brasil: Companhia Editora Nacional.
™ HAND, D., MANNILA, H., SMYTH, P. (s/d). Principles of Data Mining. London,
UK: MIT Press.
™ HILL, A., HILL M. M. (2000). Investigação por Questionário. Lisboa: Edições Sílabo.
™ HOLLOWAY, J. C. (2004). Marketing for Tourism (pp. 89-96), 4ª Edição. Inglaterra:
Pearson Education.
™ JOHNSON, R.A., WICHERN, D.W. (2002). Applied Multivariate Statistical Analysis.
Upper Saddle River, USA: Prentice Hall.
™ JURAN, M.J., GODFREF, A.B. (1998). Juran’s Quality Handbook. New York, USA:
McGraw Hill.
106
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
™ KACKIGAN, S. (1991). Multivariate Statistical Analysis, 2ª Edição. New York, USA:
Radius Press.
™ LARSON, H. J. (1982). Introduction to Probability Theory and Statistical Inference.
New York, USA: John Wiliey & Sons.
™ LEBART, L., MORINEAU, A., PIRON, M. (1995). Statistique Exploratoire
Mutimensionnelle. Paris, França: Dunod.
™ LEHTONEM, R., PAHKINEM, E. (2004). Practical Methods for Design and Analysis
of Complex Surveys. Inglaterra: John Wileyd Sons Ltd.
™ LEVY, P.S., LEMESHOW, S. (1999). Sampling of Populations: methods and
applications. New York, USA: John Wiley & Sons.
™ MAROCO, J. (2003). Análise Estatística – com utilização do SPSS. Lisboa: Edições
Sílabo.
™ MELLO, F. G. (1993). Probabilidades e Estatísticas: Conceitos e Métodos
Fundamentais, Volume II. Lisboa: Escolar Editora.
™ MURTEIRA, B. J. F. (1990). Probabilidades e Estatística, Volume II. Lisboa:
McGraw-Hill.
™ PINDYCK, R.S., RUBINFELD, D.L. (1991). Econometric Models and Economic
Forecasts, 3ª Edição. New York, USA: McGraw-Hill.
™ PINTO, J.M., SILVA, A. S. (1986). Metodologia das Ciências Sociais (pp. 165-195),
8ªedição. Porto, Portugal: Edições Afrontamento.
™ REIS, E. (2001). Estatística Multivariada Aplicada. Lisboa: Edições Sílabo.
107
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAÇÃO POR INQUÉRITO
™ ROCHA, J. C. (1990). Tabelas de Contingência. Ponta Delgada: Departamento de
Matemática da Universidade dos Açores.
™ RODRÍGUEZ, P. G., BURGUETE, J. L. V., ESTEBAN, R. A., VALIÑO, P. C.
(2004). “Estrategias de gestión medioambiental: Barreras y beneficios en el turismo
rural de Castilla y León” Em: (Eds.) Gerir a Competitividade Regional num Mundo
Globalizado, Jornadas Luso-Espanholas de Gestão Científica, 14ª ed., Univ. dos
Açores.
™ www.pse.com, O Como e o Porquê da Pesquisa por Inquérito.
DEPARTAMENTO DE MATEMÁTICA
Secção de Estatística e Investigação Operacional
Nisa Ávila do Couto Alves Cabral ©
Cabral, Nisa A.C.A. (2006) “Investigação por Inquérito”
Monografias da SEIO. Depto. Matemática da Univ. dos
Açores: Ponta Delgada, www.uac.pt/~amendes (ID 54.499)
O trabalho apresentado é da exclusiva responsabilidade da aluna que o assina. O Departamento
de Matemática e a Universidade dos Açores não se responsabilizam por eventuais erros
existentes no mesmo.
Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo
dos temas a que se referem. No entanto, não podem ser copiados ou incluídos noutros trabalhos
académicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referência
completa. Para autorização de cópia parcial ou integral, utilize o endereço de correio electrónico:
[email protected]
108
Nisa Ávila do Couto Alves Cabral – Licenciatura em Matemática Aplicada, U.A., Ano Lectivo 2005/2006
Download

Investigação por Inquérito