Projeto de Experimentos Científicos Análise de Sistemas por Usuários Marcelo da Silva Hounsell Avanilde Kemczinski Maio/2008 Objetivo de uma Pesquisa O que ? – Conhecer um fenômeno Como ? – Através de um experimento • O que nos interessa observar • Resultado é a expectativa/tendência Supõe-se que o Tema, Objetivo e Teminologias já tenham sido tratados antes Estes normalmente aparecem na introdução e fundamentação do trabalho Qual é o formato de pesquisa mais comum em Ciência da Computação? – Experimental – Exploratória Quais técnicas são as mais usadas? Pesquisa Experimental Manipula variáveis relacionadas com o objeto de estudo com objetivo de identificar causa/efeito procurando evitar a interferência de variáveis intervenientes Interfere-se na variável independente e observa-se o que acontece com a dependente. Tendências, Regressão Pesquisa Exploratória Visa descobrir a relação existente entre as variáveis de interesse, principalmente quando há pouco conhecimento sobre o problema a ser estudado para, então, aumentar o entendimento sobre este Associação, Correlação Roteiro (M&L) O Problema Hipóteses Variáveis Público Estratégia Coleta de Dados e Tabulação Tratamento e Análise de Dados O Problema Como comparar o uso de dois sistemas computacionais ? Uso – Avaliar resultado/performance – Avaliar satisfação Hipóteses Muitas vezes estas não ficam explícitas no texto É uma suposta resposta ao objetivo e que será aceita ou refutada ao final da pesquisa. Qual a hipótese do seu trabalho ? Qual a resposta que se supõe será obtida ? Hipóteses Exemplos – Uma interface de RA aumenta o aprendizado da inspeção de focos da dengue – Uma interface com RA não influencia na avaliação do Controle Motor – O uso de recursos computacionais aumentam o aprendizado da programação de robôs Variáveis do Experimento Características que podem ser observadas/medidas Variáveis Tipos – Dependentes – Independentes – Intervenientes Formas – Quantitativas – Qualitativas Tipos de Variáveis (CBS: 78) Independentes (X) – Causa ou fator determinante – Não podem ser controlados Dependentes (Y) – Fatores a serem observados/coletados – São afetadas pela var. independentes – Resultam da manipulação das v.ind. Intervenientes (w) – Modificam a v.d. sem que tenha havido modificação na v.i. Exemplo (CBS: 78) – Alunos da escola pública e de particulares (X) têm notas (y) diferentes no vestibular pelo nervosismo de uns ou de outros (w) Variáveis Independentes (M&L:140) É preciso avaliar a real importância de ... – – – – – – – – Gênero (M/F) (influencia mesmo ?) Idade (Faixa etária) Ambiente do Experimento (Univ., Casa, Trab.) Estado Emocional/Atenção (horário) Escolaridade Estilo Cognitivo Familiaridade com o Computador Familiaridade ou Conhecimento Específico • Em RV/RA • Em Dengue • Com Jogos 3D Formas das Variáveis (B:30) Quantitativas – Cardinais • Numéricas • Tempo de Serviço, Altura, ... Qualitativas – Ordinais • Quando há uma relação de ordem entre elas • Ex: básico|médio|avançado; – Categóricas • Sem relação de ordem • Ex: regiões do país, estado civil Variáveis Dependentes Quantitativas/Objetivas – – – – Tempo, Altura Acertos/Erros Repetições/Re-começos Paradas/Retornos Qualitativas/Subjetivas – Conhecimento – Fadiga/stress – Preferência/gosto Qual usar ? Selecionando as variáveis (B:30) Em termos do trabalho que você exerce na empresa, você se sente: – Muito satisfeito, – Pouco satisfeito – Insatisfeito Dê uma nota de 0 a 10, relativa ao seu nível de satisfação com o trabalho que você exerce na empresa. Nota: ____ “a pesquisa quantitativa tende a ser mais precisa e confiável” (CMC:115) No caso da comparação de sistemas........ (Hounsell, 2008) Dados qualitativos são indicativos da satisfação do usuário e devem ser confrontados com dados quantitativos de performance Idealmente, um sistema deve ser bom para o usuário e promover boa performance Roteiro (M&L) O Problema Hipóteses Variáveis Público Estratégia Coleta de Dados e Tabulação Tratamento e Análise de Dados Público: Universo Universo/Público-alvo – São as pessoas as quais queremos que os resultados se apliquem (B:27) – Quem são, quais as características do Universo ? – Como identifica-lo dentre toda a população do planeta (rever variáveis independentes) – Quantas são as pessoas que estão relacionadas com este experimento ? Quem é o Universo do seu experimento ? Exemplos Pacientes pós-AVC, com gravidade abaixo de severa. Crianças de 4a a 8a séries Interessados em Programação de Robôs Público: Amostra Amostra – Impossível avaliar Todo o Universo (Ideal). – É mesmo representativa do Universo ? – Quais os critérios para selecionar a amostra do universo ? Porque ? – Quantos indivíduos são necessários para se obter uma resposta confiável ? Amostragem Amostragem Sistemática – Quando se conhece algumas características da população – Ex: se população=70% mulher, na amostra isso tem que ocorrer. Amostragem Aleatória Simples Tamanho da Amostra Depende da área também !!! Análise do Controle Motor Eder = 53 (45 indivíduos pós hemiplégicos, - 8 indivíduos sem deficiência motora) Dose = 53 (35 pessoas esquizofrênicas (medicadas com calmantes), 18 pessoas saudáveis) Sanches = (28 mulheres com fibromialgia, 3 tarefas com 10 tentativas cada) Subramanian = 23x20x24 (15 pacientes com hemiparesia, 8 sem deficiência motora, 20 tentativas por alvo, 3 blocos de 24 tentativas cada) Viau = 15x6 (8 indivíduos saudáveis, 7 adultos com hemiparesia, 6 tentativas em cada ambiente (real e virtual) Luo = 3x30 (3 homens com AVC usando sistemas diferentes, Cada um interagiu com 15 objetos virtuais, seguidos de 15 objetos reais) Tanaka = (8 indivíduos com SNU (Síndrome da Negligência Unilateral) Broeren = (5 indivíduos pós-AVC e hemiparéticos em fase crônica, Número pequeno da população não validou o estudo) Tamanho da Amostra (B:58) Para populações grandes, o tamanho da amostra é definido pelo Erro Amostral (ea) – na = 1 / ea2 – Assim, 25 pessoas equivale a um ea de 20% Se a população é pequena, o cálculo é outro. Público: Amostra 1 indivíduo = estudo de caso Alguns indivíduos = “estimativa” Muitos indivíduos = quase certeza Por uma questão de probabilidade, para que se tenha confiança, Quanto mais, melhor (CMC:128) Roteiro (M&L) O Problema Hipóteses Variáveis Público Estratégia Coleta de Dados e Tabulação Tratamento e Análise de Dados Estratégia de Experimentação Software 1 Software 2 Grupo de N pessoas Estratégia de Experimentação Basicamente são duas: (1G2S) UM grupo avalia os DOIS softwares (2g1S) O grupo é DIVIDIDO e avalia UM software em separado Brainstorm Quais seriam as vantagens das abordagens 1G2S e 2g1S ? 1G2S:Vantagens Pode-se fazer a comparação direta e obter “o melhor” Tamanho do grupo é menor Pode-se obter clareza em quais partes/itens um é melhor que o outro se for feito questionamentos por partes 2g1S: Vantagens Experimento individual é mais rápido Cada um avalia o seu sem ser influenciado pela existência do outro Os dois sistemas podem ser bons – conclui-se que não há diferença Brainstorm Quais seriam os problemas das abordagens 1G2S e 2g1S ? 1G2S: Problemas Qual a seqüência (pode influenciar no resultado final ?) O usuário aprende com o experimento (isso influencia no resultado ?) O objetivo real do teste deve ser omitido ? Duração do experimento é maior Pode gerar cansaço/fadiga devido a repetição ? Faz tudo no mesmo dia, dá intervalo de descanço, quanto ? 2g1S: Problemas A comparação é indireta Uma avaliação ótima de um, pode ocorrer até pela ignorância do quão bom é o outro Como manter o perfil dos dois grupos parecido ? Precisa de mais indivíduos para se ter dois grupos de tamanho “aceitável” Variáveis de gênero e idade podem levar a que o grupo dividido seja menor ainda se elas influenciam no resultado Análise Se o objetivo é saber quem é O melhor, 1G2S é direto Se o objetivo é identificar diferenças, 1G2S Se os dois podem ser bons, 2g1s parece mais adequado 2o dia.... Roteiro (M&L) O Problema Hipóteses Variáveis Público Estratégia Coleta de Dados e Tabulação Tratamento e Análise de Dados Coleta de Dados Coleta é executar o experimento e fazer as anotações individuais conforme o especificado. É um processo que ocorre antes, durante e depois do experimento propriamente dito. “a única coisa realmente previsível na coleta de dados é o fato de que ela toma sempre mais tempo do que se espera” (CMC:183) Coleta de Dados Idealmente, faz-se primeiro um préteste para ter melhor clareza de – como será a coleta, – quanto tempo levará cada indivíduo, – clareza das tarefas e perguntas, – outros problemas de ordem práticas Tratamento dos Dados Tratar os dados significa aplicar procedimentos estatísticos para segmentar/agrupar dados (por variável independente) Tratamento dos Dados O que se quer saber das variáveis ? Prevê-las !!! No mínimo se quer tendência (expectativa) e dispersão (confiança) Análise dos Dados Através dos dados, evidencia-se a relação causal entre as variáveis dependentes e independentes para atender as hipóteses (:170) Interpretar/Percepção – o que se entende pelos números obtidos? Explicar/Proposição – porque essa relação ocorreu ? Especificar/Delimitar alcance – até onde esta relação ocorre ? Análise dos Dados Estatísticos 70% das escolas públicas de ensino médio não têm acesso à web ! Que isso significa ? Omissões A) Das 150 mil escolas públicas de EM do país, 80 mil estão em áreas rurais onde só 1% dispõem de Telefone/Web. B) As escolas rurais têm menos alunos por sala e menos salas que as urbanas, de forma que dos 30 milhões de alunos do EM, 80% estão nas áreas urbanas Então A) desprezando o 1% para facilitar os cálculos, tem-se que ... 80 mil, correspondentes a 53,3%, de escolas sem web são da zona rural e os outros 17,7% (para completar os 70%) são da zona urbana. B) tem-se 24 milhões de alunos na zona urbana e 6 milhões na rural sendo – 6,0 mi na rural não tem acesso a web e – 17,7 % dos 24 mi, ou seja, 4,25 mi na urbana não tem acesso a web Concluindo (4,25 + 6,0) milhões de alunos não tem acesso a web e os demais 19,75 têm! Resumindo, 66% de alunos das escolas públicas de EM têm acesso a web 70% das escolas públicas de EM não têm acesso à web Escrita É a fase final onde se vai colocar todos os itens anteriores em uma ordem lógica, em formatos adequados e atrativos Acabou ! Rudimentos de Estatística O quanto de estatística tenho que conhecer para desenvolver uma pesquisa científica ? “se não é necessário um conhecimento profundo de estatística, ainda assim o pesquisador deve ter a ´visão estatística´ do problema” (CMC:122) Tratamento Estatístico de Dados (Adaptado de B:109; CMC:126) Análise Univariada – Qualitativas – Quantitativas Análise Bivariada – Duas Quantitativas – Uma Quantitativa e Uma Qualitativa – Duas Qualitativas Tratamento Estatítico de Dados Análise Univariada – Qualitativas • Distribuição (tabelas, gráficos) • Percentagens (gráficos de pizza) – Quantitativas • Distribuição (histograma) • Tendência/Medidas de Posição • Dispersão – Máximos e Mínimos – Desvio Padrão Tratamento Estatístico de Dados Análise Bivariada – Duas Quantitativas • Correlação • Regressão – Uma Quantitativa e Uma Qualitativa • Diferença de Médias – Duas Qualitativas • Categóricas – Tabela de Contingências • Ordinais – Correlação de Ordem Análise Univariada Univariada.Distribuição (Tabelas e Gráficos) Univariada.Distribuição (Histograma) Peso de Recém-nascidos 40 35 freq Frequência 30 25 20 15 10 5 0 1 2 3 4 5 Peso (Kg) Peso de Recém-nascidos 40 35 freq Frequência 30 25 20 15 10 5 0 1 1,25 1,75 2 2,25 3 2,75 3,25 Peso (Kg) 4 3,75 4,25 5 4,75 5,25 O Problema da Média Ao longo do dia, a temperatura média no deserto do Saara é agradável (24 C). – Durante o dia chega a 44 C – Durante a noite cai a 4 C Qual cálculo consegue definir a expectativa de um valor, a tendência de uma variável ? Tendência – Expectativa (B:101) Média – Valor Típico – Muito afetada por valores extremos Moda – Valor de maior freqüência para variáveis discretas Mediana – Valor que divide os dados ordenados no meio – Menos sensível a valores muito extremados – Mais adequada que a média quando a distribuição de valores não é uniforme/simétrica – Diferença grande entre Média e Mediana indica a distribuição não uniforme dos dados Cálculo da Média Média Aritmética X N Média Para Dados Agrupados fX N Média>Mediana>Moda Média=Mediana=Moda Desvio Padrão (dp) É a média de quanto as variáveis observadas se distanciam da média geral – dp = Para comparar duas variáveis quantitativas (quaisquer) quanto a sua dispersão calculase o coeficiente de variação – cv = dp / média * 100% Influencia na probabilidade de se obter valores próximos a média geral Distribuição Normal Associação (B:227) Entre variáveis qualitativas (ordinais ou categóricas) Indica a “probabilidade” de se prever uma variável pelo conhecimento de outra Obtido pelo teste do qui-quadrado – Ex: clima (quente) -> ir a praia (maior) – Ex: sexo (masculino) -> fumante (sim) Correlação (B:251) Indica a associação entre duas variáveis quantitativas pareadas (x,y) Exemplo – Altura e peso são positivamente correlacionadas – Número de membros da familia e renda familiar estão negativamente correlacionados Regressão (B:267) Dada uma correlação, a regressão estabelece como é o comportamento da correlação (aumenta, diminui, constante) Resulta numa reta de relação entre as variáveis Regressão Referências (M&L) Marconi & Lakatos. Fundamentos da Metodologia Científica. 6a. Edição, 2005 (B) Barbetta, P. A. Estatística Aplicada às Ciências Sociais. 6a ed. Editora da UFSC. 2006. (CBS) Cervo, Bervian e Da Silva, Metodologia Científica, 6a ed, Pearson Prentice Hall, 2007 (CMC) Castro, C de M. A Prática da Pesquisa. 2a ed, Pearson Prentice Hall, 2006.