Pesquisa Experimental Prof. Raul Sidnei Wazlawick UFSC-CTC-INE 2012 Pesquisa Observacional e Experimental Numa pesquisa observacional (ou de levantamento) as características de uma população são levantadas (observadas ou medidas), mas sem manipulação. ◦ É o caso de um censo demográfico, pesquisas eleitorais, pesquisas de mercado, inspeção da qualidade, etc. ◦ Em todos esses casos, se quer ter idéia de uma certa população tal qual ela é na natureza ou no processo. Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou objetos) são manipulados para se avaliar o efeito de diferentes tratamentos. ◦ É o caso de se verificar o rendimento de um processo químico para diferentes temperaturas de reação, as quais são manipuladas de acordo com o interesse prático. Pesquisa Experimental População Amostragem Variáveis Média e Variância Correlação Pesquisa Experimental População Amostragem Variáveis Média e Variância Correlação População População é o conjunto de elementos (indivíduos, objetos, etc.) que formam o universo de nosso estudo e que são passíveis de serem observados, sob as mesmas condições. Num processo de inspeção da qualidade, a população pode ser considerada como o conjunto de todos os itens que saem da linha de produção. Numa pesquisa de mercado, a população é o conjunto de possíveis consumidores. Pesquisa Experimental População Amostragem Variáveis Média e Variância Correlação Censo A palavra censo refere-se à pesquisa de todos os elementos de uma população. Geralmente realizamos um censo quando: ◦ A população é pequena. ◦ As variáveis são fáceis de serem medidas ou observadas. ◦ Necessitamos resultados exatos. Amostragem Grande parte das pesquisas científicas ou de resoluções de problemas de engenharia são feitos por amostragem, ou seja, observamos apenas um subconjunto de elementos da população. A amostragem é particularmente interessante quando: ◦ a população é grande ou infinita ◦ as observações ou mensurações têm alto custo amostragem ◦ as medidas exigem testes POPULAÇÃO: todos os possíveis consumidores destrutivos ◦ necessidade de rapidez ◦ etc. inferência Amostra: um subconjunto dos consumidores Técnicas de Amostragem Amostragem aleatória simples. Amostragem sistemática. Amostragem estratificada. Amostragem de conglomerados. Convenção: ◦ N é o tamanho da população ◦ n é o tamanho da amostra Amostragem aleatória simples Para a seleção de uma amostra aleatória simples precisamos ter uma lista completa dos elementos da população. Esse tipo de amostragem consiste em selecionar a amostra através de sorteios, sem restrição. Amostragem Sistemática Um processo mais simples é sortear o primeiro elemento e extrair os demais sistematicamente. Mais especificamente: ◦ calcula-se o intervalo de seleção, dado por l=N/n, desprezando as decimais. ◦ sorteia-se o primeiro elemento do conjunto {1, 2, ..., I}; e ◦ completa-se a amostra extraindo um elemento a cada I elementos. Amostragem Estratificada A técnica da amostragem estratificada consiste em dividir a população em subgrupos, que denominaremos de estratos. Esses estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Amostragem de Conglomerados Tende a produzir uma amostra que gera resultados menos precisos, quando comparada com uma amostra aleatória simples de mesmo tamanho. Contudo, seu custo financeiro tende a ser bem menor, especialmente em amostragens de grandes populações. Amostragem Acidental ou a Esmo Toma-se amostras a esmo (exemplo, alguns alunos em uma universidade). Não produz resultados tão confiáveis quanto as outras formas. Tamanho da Amostra Um fator importante na determinação do tamanho da amostra é a variabilidade da população em termos da variável em estudo. Por exemplo, uma amostra de sangue pode ser bem pequena, pois o sangue é razoavelmente homogêneo em nosso corpo. Por outro lado, populações com variâncias grandes exigem amostras maiores Outra questão importante é a relação entre tamanho da população (N) e tamanho da amostra (n). Considerando uma precisão desejada para as estimativas de interesse, a relação entre N e n não é linear tamanho da amostra tamanho da população Tamanho de Amostra Toda amostra comporta um erro amostral, que é a diferença entre o parâmetro obtido e o seu valor real (média, por exemplo). Pode-se calcular um tamanho mínimo de amostra para permitir um erro amostral mínimo (E) dentro de um determinado nível de confiança. A dificuldade para obter este tamanho de amostra para garantir um erro mínimo é que muitas vezes a variância da população não é conhecida a priori. Em alguns casos essa variância pode ser obtida a partir de uma amostragem piloto. Uma amostra muito grande custará muito caro e levará muito tempo para ser verificada. Uma amostra muito pequena poderá apresentar grande erro. Portanto, deve-se determinar o tamanho mínimo da amostra para encontrar uma proporção em uma população finita. Pesquisa Experimental População Amostragem Variáveis Média e Variância Correlação Variáveis Uma variável, é o nome que se dá a um fenômeno que pode ser medido e que varia conforme a medição. Se não variasse seria uma constante e não teria maior interesse para a pesquisa. Definições constitutivas e operacionais Definições constitutivas são definições de dicionário Uma definição operacional atribui significado a um constructo ou variável especificando as atividades ou “operações” necessárias para medi-lo ou manipulá-lo. Variáveis discretas e contínuas O domínio de uma variável pode ser discreto ou contínuo. A idéia de contínuo vem do fato de que entre dois valores sempre existe um terceiro. Já as variáveis discretas assumem seus valores em conjuntos cujos elementos podem ser ordenados ou em conjuntos finitos (categóricas). Variável Medida Uma variável medida é aquela cujo fenômeno vai ser observado pelo pesquisador. Por exemplo, quantas vezes um usuário de uma ferramenta vai olhar no manual para obter informações para desempenhar a tarefa que lhe foi proposta. ◦ Essa variável tem como domínio o conjunto dos números naturais e seus valores não são determinados pelo observador, mas simplesmente medidos. Variável Manipulada A variável manipulada é aquela que o experimentador vai deliberadamente modificar para realizar seu experimento. Por este motivo, esse tipo de variável também é chamado de variável experimental. Mas porque pesquisadores manipulam uma ou mais variáveis enquanto observam outras? É porque eles querem encontrar dependências entre essas variáveis. A princípio pode-se testar a dependência entre quaisquer variáveis manipuladas e observadas. Mas nem sempre esse teste fará sentido. Antes de analisar uma dependência experimentalmente o pesquisador usualmente desenvolve uma teoria ou hipótese. Variáveis Dependentes e Independentes A variável independente é aquela que, se supõe, influencia outra. A variável dependente é a influenciada. Dependência pode ser medida por correlação. Para chegar na correlação precisaremos antes de um pouco de matemática. Pesquisa Experimental População Amostragem Variáveis Média e Variância Correlação Média Usualmente a média é considerada uma medida importante na avaliação de conjuntos de valores Por exemplo, ao avaliar um determinado sistema, o pesquisador contabiliza o tempo de interação de cada pessoa dentre um conjunto previamente definido. Média Por exemplo, se quatro pessoas foram analisadas e os tempos medidos em minutos foram 10, 12, 14, 9, então se pode dizer que o tempo médio observado foi de 11,25 minutos. Variância Considere-se as três séries de valores abaixo: ◦ <10, 12, 14, 9> ◦ <1, 20, 2, 22> ◦ <11, 11, 11, 12> É possível notar certa semelhança entre elas? Aparentemente são conjuntos bem diferentes. Mas todos têm a mesma média: 11,25. Variância A observação do distanciamento dos elementos em relação à média é chamada de variância. Então, além da média, o pesquisador deve ficar atento também à variância do conjunto de valores, já que esta complementa a caracterização do conjunto. Cálculo da variância Para cada elemento, subtraia a média do conjunto deste elemento: <10-11,25, 12-11,25, 14-11,25, 9-11,25> = <-1,25, 0,75, 2,75, -2,25> <1-11,25, 20-11,25, 2-11,25, 22-11,25> = <-10,25, 8,75, -9,25, 10,75> <11-11,25, 11-11,25, 11-11,25, 12-11,25> = <-0,25, -0,25, -0,25, 0,75> Agora, cada valor representa a distância do elemento para a média do conjunto Eleve os valores resultantes ao quadrado: <-1,252, 0,752, 2,752, -2,252> = <1,5625, 0,5625, 7,5625, 5,0625> <-10,252, 8,752, -9,252, 10,752> = <105,0625, 76,5625, 85,5625, 115,5625> <-0,252, -0,252, -0,252, 0,752> = <0,0625, 0,0625, 0,0625, 0,5625> Isso faz com que todas as distâncias fiquem positivas e aumenta a influência de elementos mais distantes da média. Some os resultados: 1,5625+0,5625+7,5625+5,0625 105,0625+76,5625+85,5625+115,5625 0,0625+0,0625+0,0625+0,5625 Isso gera um valor absoluto da variância acumulada = 14,75 = 382,75 = 0,75 Divida pelo número de elementos do conjunto menos 1: 14,75/3 = 4,9166... 382,75/3 = 127,5833... 0,75/3 = 0,25 Isso gera a distância média, ou seja, independente do número de elementos no conjunto. Poderia ser n ao invés de n-1, mas a variância de um conjunto com apenas 1 elemento deve ser indeterminada. é a variância do conjunto X representa cada um dos elementos do conjunto X é a média do conjunto X é o número de elementos do conjunto X Desvio-Padrão O desvio-padrão é uma medida também bastante utilizada para analisar conjuntos e é definido simplesmente como a raiz quadrada da variância Pesquisa Experimental População Amostragem Variáveis Média e Variância Correlação Dependência Variáveis manipuladas realmente influenciam as variáveis experimentais? Existe dependência entre elas? A co-variância pode dizer! Co-variância (exemplo) O valor de pontos de caso de uso estimado por um método Y produz uma estimativa melhor do que um outro método Y’? Onde “melhor” significa com “alta dependência em relação ao conjunto de tempos X”. Exemplo de co-variância alta e direta (método Y) Caso de Tempo conhecido Pontos de caso Uso (horas) - X de uso - Y UC1 1 1 UC2 18 2 UC3 4 1 UC4 67 3 UC5 22 2 UC6 12 2 UC7 2 1 UC8 7 1 UC9 18 2 UC10 55 3 Exemplo de co-variância baixa (método Y’) Caso de Tempo conhecido Pontos de caso uso (horas) - X de uso – Y’ UC1 1 1 UC2 18 2 UC3 4 3 UC4 67 1 UC5 22 2 UC6 12 3 UC7 2 1 UC8 7 2 UC9 18 3 UC10 55 1 Co-variância Covariância de Y Caso Tempo de conhecido uso (horas) - X UC1 UC2 UC3 UC4 UC5 UC6 UC7 UC8 UC9 UC10 Pontos de caso (xi - ) de uso - Y 1 18 4 67 22 12 2 7 18 55 1 2 1 3 2 2 1 1 2 3 -19,6 -2,6 -16,6 46,4 1,4 -8,6 -18,6 -13,6 -2,6 34,4 (yi - ) (xi - )(yi - ) -0,8 0,2 -0,8 1,2 0,2 0,2 -0,8 -0,8 0,2 1,2 149,2 / 9 = 16,57777... 15,68 -0,52 13,28 55,68 0,28 -1,72 14,88 10,88 -0,52 41,28 xy' Covariância de Y’ Caso Tempo conhecido Pontos de caso de (xi - ) (y’i - ) (xi - )(y’i - ) de uso (horas) - X uso – Y’ UC1 1 1 -19,6 -0,9 17,64 UC2 18 2 -2,6 0,1 -0,26 UC3 4 3 -16,6 1,1 -18,26 UC4 67 1 46,4 -0,9 -41,76 UC5 22 2 1,4 0,1 0,14 UC6 12 3 -8,6 1,1 -9,46 UC7 2 1 -18,6 -0,9 16,74 UC8 7 2 -13,6 0,1 -1,36 UC9 18 3 -2,6 1,1 -2,86 UC10 55 1 34,4 -0,9 -30,96 -70,4 / 9 = -7,822222... Correlação É uma medida de variância normalizada (entre -1 e 1) Voltando ao exemplo Correlação de Y e X: 0,928041193. Correlação de Y’ e X: -0,39445403. Existe correlação entre Y e X? Existe correlação entre Y’ e X? Valores mínimos de correlação para ser considerada significativa com 95% de certeza. n mínimo n mínimo n mínimo 3 4 5 6 7 8 9 10 11 12 .99692 .95000 .8783 .8114 .7545 .7067 .6664 .6319 .6021 .5760 13 14 15 16 17 18 19 20 21 22 .5529 .5324 .5139 .4973 .4821 .4683 .4555 .4438 .4329 .4227 27 32 37 42 47 52 62 72 82 92 .3809 .3494 .3246 .3044 .2875 .2732 .2500 .2319 .2172 .2050 No exemplo n = 10 Mínimo: 0,6319 Corr(X,Y) = 0,928041193 OK Corr(X,Y’) = -0,39445403 .....