Projeto de Experimentos
Científicos
Análise de Sistemas por Usuários
Marcelo da Silva Hounsell
Avanilde Kemczinski
Maio/2008
Objetivo de uma Pesquisa
O que ?
– Conhecer um fenômeno
Como ?
– Através de um experimento
• O que nos interessa observar
• Resultado é a expectativa/tendência
Supõe-se que o Tema, Objetivo e
Teminologias já tenham sido
tratados antes
Estes normalmente aparecem na
introdução e fundamentação do
trabalho
Qual é o formato de pesquisa mais
comum em Ciência da
Computação?
– Experimental
– Exploratória
Quais técnicas são as mais
usadas?
Pesquisa Experimental
 Manipula variáveis relacionadas com o
objeto de estudo com objetivo de
identificar causa/efeito procurando
evitar a interferência de variáveis
intervenientes
 Interfere-se na variável independente e
observa-se o que acontece com a
dependente.
 Tendências, Regressão
Pesquisa Exploratória
Visa descobrir a relação existente
entre as variáveis de interesse,
principalmente quando há pouco
conhecimento sobre o problema a
ser estudado para, então, aumentar
o entendimento sobre este
Associação, Correlação
Roteiro (M&L)
O Problema
Hipóteses
Variáveis
Público
Estratégia
Coleta de Dados e Tabulação
Tratamento e Análise de Dados
O Problema
Como comparar o uso de dois
sistemas computacionais ?
Uso
– Avaliar resultado/performance
– Avaliar satisfação
Hipóteses
Muitas vezes estas não ficam
explícitas no texto
É uma suposta resposta ao objetivo
e que será aceita ou refutada ao
final da pesquisa.
Qual a hipótese do seu
trabalho ?
Qual a resposta que se supõe
será obtida ?
Hipóteses
Exemplos
– Uma interface de RA aumenta o
aprendizado da inspeção de focos da
dengue
– Uma interface com RA não influencia
na avaliação do Controle Motor
– O uso de recursos computacionais
aumentam o aprendizado da
programação de robôs
Variáveis do Experimento
Características que podem ser
observadas/medidas
Variáveis
Tipos
– Dependentes
– Independentes
– Intervenientes
Formas
– Quantitativas
– Qualitativas
Tipos de Variáveis (CBS: 78)
 Independentes (X)
– Causa ou fator determinante
– Não podem ser controlados
 Dependentes (Y)
– Fatores a serem observados/coletados
– São afetadas pela var. independentes
– Resultam da manipulação das v.ind.
 Intervenientes (w)
– Modificam a v.d. sem que tenha havido modificação
na v.i.
Exemplo (CBS: 78)
– Alunos da escola pública e de particulares
(X) têm notas (y) diferentes no vestibular
pelo nervosismo de uns ou de outros (w)
Variáveis Independentes (M&L:140)
 É preciso avaliar a real importância de ...
–
–
–
–
–
–
–
–
Gênero (M/F) (influencia mesmo ?)
Idade (Faixa etária)
Ambiente do Experimento (Univ., Casa, Trab.)
Estado Emocional/Atenção (horário)
Escolaridade
Estilo Cognitivo
Familiaridade com o Computador
Familiaridade ou Conhecimento Específico
• Em RV/RA
• Em Dengue
• Com Jogos 3D
Formas das Variáveis (B:30)
 Quantitativas
– Cardinais
• Numéricas
• Tempo de Serviço, Altura, ...
 Qualitativas
– Ordinais
• Quando há uma relação de ordem entre elas
• Ex: básico|médio|avançado;
– Categóricas
• Sem relação de ordem
• Ex: regiões do país, estado civil
Variáveis Dependentes
 Quantitativas/Objetivas
–
–
–
–
Tempo, Altura
Acertos/Erros
Repetições/Re-começos
Paradas/Retornos
 Qualitativas/Subjetivas
– Conhecimento
– Fadiga/stress
– Preferência/gosto
Qual usar ?
Selecionando as variáveis (B:30)
 Em termos do trabalho que você exerce
na empresa, você se sente:
– Muito satisfeito,
– Pouco satisfeito
– Insatisfeito
 Dê uma nota de 0 a 10, relativa ao seu
nível de satisfação com o trabalho que
você exerce na empresa. Nota: ____
“a pesquisa quantitativa tende a ser
mais precisa e confiável” (CMC:115)
No caso da comparação de
sistemas........
(Hounsell, 2008)
Dados qualitativos são indicativos
da satisfação do usuário e devem
ser confrontados com dados
quantitativos de performance
Idealmente, um sistema deve ser
bom para o usuário e promover boa
performance
Roteiro (M&L)
O Problema
Hipóteses
Variáveis
Público
Estratégia
Coleta de Dados e Tabulação
Tratamento e Análise de Dados
Público: Universo
Universo/Público-alvo
– São as pessoas as quais queremos
que os resultados se apliquem (B:27)
– Quem são, quais as características do
Universo ?
– Como identifica-lo dentre toda a população do
planeta (rever variáveis independentes)
– Quantas são as pessoas que estão
relacionadas com este experimento ?
Quem é o Universo do seu
experimento ?
Exemplos
Pacientes pós-AVC, com gravidade
abaixo de severa.
Crianças de 4a a 8a séries
Interessados em Programação de
Robôs
Público: Amostra
 Amostra
– Impossível avaliar Todo o Universo (Ideal).
– É mesmo representativa do Universo ?
– Quais os critérios para selecionar a amostra
do universo ? Porque ?
– Quantos indivíduos são necessários para se
obter uma resposta confiável ?
Amostragem
Amostragem Sistemática
– Quando se conhece algumas
características da população
– Ex: se população=70% mulher, na
amostra isso tem que ocorrer.
Amostragem Aleatória Simples
Tamanho da Amostra
Depende da área também !!!
Análise do Controle Motor
 Eder = 53 (45 indivíduos pós hemiplégicos, - 8 indivíduos sem deficiência
motora)
 Dose = 53 (35 pessoas esquizofrênicas (medicadas com calmantes), 18
pessoas saudáveis)
 Sanches = (28 mulheres com fibromialgia, 3 tarefas com 10 tentativas cada)
 Subramanian = 23x20x24 (15 pacientes com hemiparesia, 8 sem deficiência
motora, 20 tentativas por alvo, 3 blocos de 24 tentativas cada)
 Viau = 15x6 (8 indivíduos saudáveis, 7 adultos com hemiparesia, 6
tentativas em cada ambiente (real e virtual)
 Luo = 3x30 (3 homens com AVC usando sistemas diferentes, Cada um
interagiu com 15 objetos virtuais, seguidos de 15 objetos reais)
 Tanaka = (8 indivíduos com SNU (Síndrome da Negligência Unilateral)
 Broeren = (5 indivíduos pós-AVC e hemiparéticos em fase crônica, Número
pequeno da população não validou o estudo)
Tamanho da Amostra (B:58)
Para populações grandes, o
tamanho da amostra é definido pelo
Erro Amostral (ea)
– na = 1 / ea2
– Assim, 25 pessoas equivale a um ea
de 20%
Se a população é pequena, o
cálculo é outro.
Público: Amostra
 1 indivíduo = estudo de caso
 Alguns indivíduos = “estimativa”
 Muitos indivíduos = quase certeza
 Por uma questão de probabilidade, para
que se tenha confiança, Quanto mais,
melhor (CMC:128)
Roteiro (M&L)
O Problema
Hipóteses
Variáveis
Público
Estratégia
Coleta de Dados e Tabulação
Tratamento e Análise de Dados
Estratégia de
Experimentação
Software 1
Software 2
Grupo de N pessoas
Estratégia de Experimentação
Basicamente são duas:
(1G2S) UM grupo avalia os DOIS
softwares
(2g1S) O grupo é DIVIDIDO e avalia
UM software em separado
Brainstorm
Quais seriam as vantagens das
abordagens 1G2S e 2g1S ?
1G2S:Vantagens
Pode-se fazer a comparação direta
e obter “o melhor”
Tamanho do grupo é menor
Pode-se obter clareza em quais
partes/itens um é melhor que o
outro se for feito questionamentos
por partes
2g1S: Vantagens
Experimento individual é mais
rápido
Cada um avalia o seu sem ser
influenciado pela existência do
outro
Os dois sistemas podem ser bons –
conclui-se que não há diferença
Brainstorm
Quais seriam os problemas das
abordagens 1G2S e 2g1S ?
1G2S: Problemas
 Qual a seqüência (pode influenciar no
resultado final ?)
 O usuário aprende com o experimento (isso
influencia no resultado ?)
 O objetivo real do teste deve ser omitido ?
 Duração do experimento é maior
 Pode gerar cansaço/fadiga devido a
repetição ?
 Faz tudo no mesmo dia, dá intervalo de
descanço, quanto ?
2g1S: Problemas
 A comparação é indireta
 Uma avaliação ótima de um, pode ocorrer
até pela ignorância do quão bom é o outro
 Como manter o perfil dos dois grupos
parecido ?
 Precisa de mais indivíduos para se ter dois
grupos de tamanho “aceitável”
 Variáveis de gênero e idade podem levar a
que o grupo dividido seja menor ainda se
elas influenciam no resultado
Análise
Se o objetivo é saber quem é O
melhor, 1G2S é direto
Se o objetivo é identificar
diferenças, 1G2S
Se os dois podem ser bons, 2g1s
parece mais adequado
2o dia....
Roteiro (M&L)
O Problema
Hipóteses
Variáveis
Público
Estratégia
Coleta de Dados e Tabulação
Tratamento e Análise de Dados
Coleta de Dados
Coleta é executar o experimento e
fazer as anotações individuais
conforme o especificado.
É um processo que ocorre antes,
durante e depois do experimento
propriamente dito.
“a única coisa realmente previsível
na coleta de dados é o fato de que
ela toma sempre mais tempo do
que se espera” (CMC:183)
Coleta de Dados
Idealmente, faz-se primeiro um préteste para ter melhor clareza de
– como será a coleta,
– quanto tempo levará cada indivíduo,
– clareza das tarefas e perguntas,
– outros problemas de ordem práticas
Tratamento dos Dados
Tratar os dados significa aplicar
procedimentos estatísticos para
segmentar/agrupar dados (por
variável independente)
Tratamento dos Dados
O que se quer saber das variáveis ?
Prevê-las !!!
No mínimo se quer tendência
(expectativa) e dispersão (confiança)
Análise dos Dados
 Através dos dados, evidencia-se a
relação causal entre as variáveis
dependentes e independentes para
atender as hipóteses (:170)
 Interpretar/Percepção
– o que se entende pelos números obtidos?
 Explicar/Proposição
– porque essa relação ocorreu ?
 Especificar/Delimitar alcance
– até onde esta relação ocorre ?
Análise dos Dados Estatísticos
70% das escolas públicas de
ensino médio não têm acesso à
web !
Que isso significa ?
Omissões
 A) Das 150 mil escolas públicas de EM do
país, 80 mil estão em áreas rurais onde só
1% dispõem de Telefone/Web.
 B) As escolas rurais têm menos alunos por
sala e menos salas que as urbanas, de
forma que dos 30 milhões de alunos do
EM, 80% estão nas áreas urbanas
Então
 A) desprezando o 1% para facilitar os
cálculos, tem-se que ... 80 mil,
correspondentes a 53,3%, de escolas sem
web são da zona rural e os outros 17,7%
(para completar os 70%) são da zona
urbana.
 B) tem-se 24 milhões de alunos na zona
urbana e 6 milhões na rural sendo
– 6,0 mi na rural não tem acesso a web e
– 17,7 % dos 24 mi, ou seja, 4,25 mi na urbana
não tem acesso a web
Concluindo
 (4,25 + 6,0) milhões de alunos não tem
acesso a web e os demais 19,75 têm!
 Resumindo, 66% de alunos das escolas
públicas de EM têm acesso a web
 70% das escolas públicas de EM não têm
acesso à web
Escrita
É a fase final onde se vai colocar
todos os itens anteriores em uma
ordem lógica, em formatos
adequados e atrativos
Acabou !
Rudimentos de Estatística
O quanto de estatística tenho que
conhecer para desenvolver uma
pesquisa científica ?
“se não é necessário um
conhecimento profundo de
estatística, ainda assim o
pesquisador deve ter a ´visão
estatística´ do problema” (CMC:122)
Tratamento Estatístico de Dados
(Adaptado de B:109; CMC:126)
Análise Univariada
– Qualitativas
– Quantitativas
Análise Bivariada
– Duas Quantitativas
– Uma Quantitativa e Uma Qualitativa
– Duas Qualitativas
Tratamento Estatítico de Dados
Análise Univariada
– Qualitativas
• Distribuição (tabelas, gráficos)
• Percentagens (gráficos de pizza)
– Quantitativas
• Distribuição (histograma)
• Tendência/Medidas de Posição
• Dispersão
– Máximos e Mínimos
– Desvio Padrão
Tratamento Estatístico de Dados
Análise Bivariada
– Duas Quantitativas
• Correlação
• Regressão
– Uma Quantitativa e Uma Qualitativa
• Diferença de Médias
– Duas Qualitativas
• Categóricas – Tabela de Contingências
• Ordinais – Correlação de Ordem
Análise Univariada
Univariada.Distribuição
(Tabelas e Gráficos)
Univariada.Distribuição
(Histograma)
Peso de Recém-nascidos
40
35
freq
Frequência
30
25
20
15
10
5
0
1
2
3
4
5
Peso (Kg)
Peso de Recém-nascidos
40
35
freq
Frequência
30
25
20
15
10
5
0
1
1,25
1,75
2
2,25
3
2,75
3,25
Peso (Kg)
4
3,75
4,25
5
4,75
5,25
O Problema da Média
Ao longo do dia, a temperatura
média no deserto do Saara é
agradável (24 C).
– Durante o dia chega a 44 C
– Durante a noite cai a 4 C
Qual cálculo consegue
definir a expectativa de
um valor, a tendência de
uma variável ?
Tendência – Expectativa (B:101)
 Média
– Valor Típico
– Muito afetada por valores extremos
 Moda
– Valor de maior freqüência para variáveis discretas
 Mediana
– Valor que divide os dados ordenados no meio
– Menos sensível a valores muito extremados
– Mais adequada que a média quando a distribuição de
valores não é uniforme/simétrica
– Diferença grande entre Média e Mediana indica a
distribuição não uniforme dos dados
Cálculo da Média
Média Aritmética
X


N
Média Para Dados Agrupados
fX


N
Média>Mediana>Moda
Média=Mediana=Moda
Desvio Padrão (dp)
 É a média de quanto as variáveis
observadas se distanciam da média geral
– dp =
 Para comparar duas variáveis quantitativas
(quaisquer) quanto a sua dispersão calculase o coeficiente de variação
– cv = dp / média * 100%
 Influencia na probabilidade de se obter
valores próximos a média geral
Distribuição Normal
Associação (B:227)
Entre variáveis qualitativas
(ordinais ou categóricas)
Indica a “probabilidade” de se
prever uma variável pelo
conhecimento de outra
Obtido pelo teste do qui-quadrado
– Ex: clima (quente) -> ir a praia (maior)
– Ex: sexo (masculino) -> fumante (sim)
Correlação (B:251)
Indica a associação entre duas
variáveis quantitativas pareadas
(x,y)
Exemplo
– Altura e peso são positivamente
correlacionadas
– Número de membros da familia e
renda familiar estão negativamente
correlacionados
Regressão (B:267)
Dada uma correlação, a regressão
estabelece como é o
comportamento da correlação
(aumenta, diminui, constante)
Resulta numa reta de relação entre
as variáveis
Regressão
Referências
 (M&L) Marconi & Lakatos. Fundamentos
da Metodologia Científica. 6a. Edição,
2005
 (B) Barbetta, P. A. Estatística Aplicada às
Ciências Sociais. 6a ed. Editora da UFSC.
2006.
 (CBS) Cervo, Bervian e Da Silva,
Metodologia Científica, 6a ed, Pearson
Prentice Hall, 2007
 (CMC) Castro, C de M. A Prática da
Pesquisa. 2a ed, Pearson Prentice Hall,
2006.
Download

Apresentação PPT sobre Como Projetar o Experimento