! "#$%" & ) &'(( . . /. 0 11 ) * * + ,( - # !" "# $ % !" "' ( ) & ! * !" "$ + , ! !" !" !" !" !" !" % $)!" ". / ( "$ + $)"* * "0 1 2 0" ". / ( " 3 " 2 4 !" "0 . ) 6 5! . . / ) 5 ) ' ! ) ;5 ! 7 6 " $ !" " 9$ ( ( :! <= => ?==@5 $8 & 5 " A )) " *' 3$ $ $2.(1B*' $ . 5$ 282 $ ! ! ! ) $ 282 5?==C" . 5 5 "&& DC " E 5 G??H F D"' ! '" ?"' ! 5 " '''" 8 '#" ' I =D=<&J><= & ''" :& <" & & " 28 2 ! 1 AVALIAÇÃO COMPARATIVA DE DIFERENTES MODELOS DE INTERFACES GRÁFICAS EMPREGADAS NO ENSINO DE GEOMETRIA, SEGUNDO OS CONCEITOS DE USABILIDADE COMPARATIVE EVALUATION OF DIFFERENT MODELS OF GRAPHICAL INTERFACES USED IN GEOMETRY TEACHING, ACCORDING TO USABILITY CONCEPTS André Luís Lima de Oliveira Eduardo Toledo Santos RESUMO Este artigo é a síntese de uma Dissertação de mestrado que apresenta um método que foi desenvolvido e aplicado para avaliar comparativamente modelos distintos de interfaces gráficas computacionais (GUI) empregadas como ferramenta de auxílio ao ensino e aprendizado de Geometria Gráfica para um grupo específico de usuários. Tal estudo é justificado pela necessidade de avaliar, comparativamente, um novo programa de desenho denominado Risko, que foi desenvolvido com o propósito de atender às necessidades específicas do ensino de desenho. Como diferencial, ele apresenta uma interface de Manipulação Direta Pura que é embasada numa metáfora do mundo real onde os instrumentos de desenho (compasso, esquadros, lápis e borracha) são simulados virtualmente, substituindo as ferramentas abstratas (ícones e menus) inerentes ao padrão “WIMP” utilizado pela maioria dos aplicativos destinados ao ensino de Geometria Gráfica. Os resultados do método proposto visam contribuir para a manutenção e o desenvolvimento das ferramentas computacionais educativas avaliadas, apontando as principais falhas e virtudes de suas interfaces. O método criado é fundamentado em testes práticos cujos resultados são validados com o uso de análises estatísticas para comprovar a significância das informações obtidas. ABSTRACT This paper is a synthesis of a master’s thesis on a method developed for performing a comparative evaluation of Graphical User Interface models when used by a specific group as a helping tool for teaching and learning Graphic Geometry. This study is justified by the need for evaluating a new drawing software called Risko, developed with the purpose of fulfilling the specific needs of drawing teaching. This software stands out due to its Pure Direct Manipulation interface, based on a real world metaphor where the drawing tools (compass, triangles, pencil and eraser) are simulated, replacing the abstract tools (icons and menus) of the WIMP standard used in most of the software for Graphic Geometry teaching. The results of the proposed method aim to collaborate on the maintenance and development of the evaluated educational computer tools, pointing to the problems and merits of their interfaces. The created method is based on practical tests whose results are validated with statistic analyses to ensure the significance of the information obtained. 2 1 Introdução O presente trabalho trata especificamente das ferramentas computacionais empregadas no ensino das Geometrias Gráficas (Geometria Plana, Geometria Descritiva e Geometria Cotada) importantes para a formação de profissionais como, por exemplo, dos cursos de Engenharia, Arquitetura e Tecnologia, que necessitam lidar com representações gráficas. No que diz respeito ao aprendizado das Geometrias Gráficas, o tema é um desafio por requerer dos aprendizes habilidades especificas, consideradas complexas, podendo-se citar como exemplo o domínio da visualização espacial, que pode variar de aluno para aluno em uma mesma turma (GÒRSKA et al. 1998). Até os dias de hoje, a maneira mais utilizada para aprender o tema é por meio de aulas presenciais que são complementadas com o estudo de exercícios resolvidos, conforme destacou Hawk (1962) em relação à Geometria Descritiva. Ocorre que tal método apresenta algumas falhas. No caso dos alunos, freqüentemente se deparam com gabaritos prontos, em que as passagens não são devidamente explicadas, o que dificulta o entendimento. De outro lado, os professores ministram suas aulas fazendo construções no quadro, com instrumentos de difícil manipulação devido às grandes dimensões. Buscando sanar tais problemas, educadores vêm testando ferramentas auxiliares ao ensino das Geometrias Gráficas e, dentre as mais exploradas, estão os aplicativos computacionais de desenho, podendo-se citar como os mais utilizados os sistemas CAD – “Computer Aided Design” e os programas de Geometria Dinâmica. No entanto, estes aplicativos não foram criados exclusivamente para fins educacionais e, conseqüentemente, apresentam barreiras para os usuários iniciantes. Pelo fato destes aplicativos serem destinados aos mais diferentes perfis de usuários, eles trazerem múltiplas funcionalidades e privilegiam a produtividade. Isso justifica o uso de um padrão específico de interface denominado “WIMP” – (Window, Icon, Menu & Pointer) pela sua comprovada produtividade. Entretanto, para que um usuário iniciante utilize um sistema CAD são necessárias semanas para simplesmente entendê-lo, período este que pode durar de seis meses a um ano para o domínio completo do programa, conforme menciona Piegl (2005). Se considerarmos que o período médio de duração de um curso de desenho universitário é de 6 meses a 1 ano, o aluno empregaria grande parte do tempo somente para aprender o uso da ferramenta , restando assim, pouco tempo para aprender com excelência os conteúdos da disciplinas de interesse. Adicionalmente, os aplicativos com interfaces “WIMP” quando empregados no ensino, geram outros inconvenientes como: não são intuitivos, oferecem recursos em excesso, permitem a realização de construções imediatas e não propiciam a aprendizagem da manipulação correta dos instrumentos de desenho tradicionais. Idealmente, um aplicativo educacional deve privilegiar e considerar as necessidades específicas dos alunos e professores, simplificando ao máximo o uso de sua interface a fim de estimular os iniciantes. Isso nos mostra que o uso das interfaces “WIMP” para fins educacionais pode não ser o mais adequado. No entanto, o uso de ferramentas computacionais é indiscutivelmente de grande valia para a educação, porém, as falhas apresentadas decorrentes do uso de uma ferramenta poderosa, mas inadequada para o ensino, mostram a necessidade de outras opções que atendam com maior excelência ao público em questão. 3 Objetivando sanar algumas das deficiências citadas com relação a interface “WIMP”, um novo aplicativo denominado Risko1 - “a Realistic Interface for Simulating a Kit of Objects” (SANTOS et al., 2004), foi desenvolvido por nossa equipe e traz como diferencial uma interface que segue o padrão da Manipulação Direta Pura. Esta interface foi desenvolvida visando exclusivamente atender às necessidades específicas dos alunos e professores de Desenho Gráfico. Para isso, a interface do Risko segue uma metáfora que é embasada na representação dos instrumentos de desenho do mundo real (compasso, esquadros, lápis e borracha). Tais instrumentos foram convertidos em instrumentos virtuais para substituir as ferramentas abstratas (ícones e menus) inerentes às interfaces “WIMP”. Pelo fato da interface de Manipulação Direta Pura apresentada pelo Risko ser inovadora, antes de efetivamente empregá-la como ferramenta didática, é conveniente e necessário avaliá-la comparativamente frente a uma interface “WIMP”. No caso, o aplicativo escolhido foi o iGeom2 (BRANDÃO e ISOTANI, 2003) que apresenta uma interface seguindo este padrão. Para isso foi criado um método de avaliação comparativa que é fundamentada nas normas que regulamentam a construção e a avaliação de produtos de “software”. O método consiste inicialmente na realização de um conjunto de análises clássicas de usabilidade (Heurística, Funcional e de Tarefas), aplicadas a ambas interfaces por um especialista, neste caso, o próprio autor do trabalho. Em seguida, são realizados os testes práticos valendo-se de mecanismos criados para coletar dados (testes práticos com usuários – vídeos e planilhas e um questionário pós-teste). Os dados obtidos com estes documentos servem para comprovar estatisticamente, por meio de testes de hipóteses, os atributos que os aplicativos destinados ao ensino devem oferecer. 2 Perfil do Usuário No método criado, antes de iniciar qualquer avaliação com as GUI, é importante e necessário identificar o perfil dos usuários-alvo a fim de conhecer as suas necessidades específicas. Utilizando a classificação proposta por Dix (1998), observou-se que somente os usuários primários (“primary”) são relevantes para o presente estudo. Isso significa que o perfil postulado é formado por jovens de ambos os sexos, com idade aproximada de 17 a 22 anos, com ensino superior incompleto, cursando ou que cursará alguma disciplina que envolva o assunto Geometria Gráfica. Estes têm conhecimentos básicos de informática, ou já utilizaram o computador para alguma atividade anteriormente, porém, não se sabe qual o grau de familiaridade com tal ferramenta, apresentando também noções de desenho auxiliado pelos instrumentos de desenho obtidas em cursos anteriores (OLIVEIRA e SANTOS, 2003). Outra característica dos usuários primários é a disparidade referente ao grau de conhecimento existente entre os alunos de uma mesma turma com relação ao tema Geometria. 3 Análises de Usabilidade A primeira parte do método é constituída pela aplicação de 3 análises clássicas de usabilidade, aplicadas por um especialista. As análises empregadas são: 1 2 http://risko.pcc.usp.br http://www.matematica.br/igeom. 4 • Análise Heurística: é destinada a avaliar os princípios gerais de uso das interfaces, seguindo critérios pré-estabelecidos. No desenvolvimento do presente trabalho foram consideradas as 10 heurísticas fundamentais propostas por Nielsen (1993); • Análise Funcional: é usada para determinar questões como quais recursos o aplicativo deve oferecer e como eles são utilizados. No caso dos aplicativos em análise, as funcionalidades estão diretamente relacionadas às necessidades dos usuários, considerando as suas habilidades técnicas e as limitações do ferramental envolvido; • Análise de Tarefas: é destinada a mapear os requisitos de uso, e foi dividida em duas etapas: i. obtenção das informações referentes às atividades ou tarefas a serem testadas; ii. levantamento dos dados juntamente com a modelagem das tarefas. Os resultados obtidos com a aplicação das análises descritas são apresentados, separadamente, por aplicativo. Inicialmente foi tratada a interface “WIMP” do iGeom. A Análise Heurística possibilitou detectar problemas como: ícones pouco intuitivos, remoção de objetos gráficos sem notificação prévia, comando desfazer (“undo”) limitado e a inexistência do comando refazer (“redo”). A Análise Funcional apontou os seguintes problemas: falta de comandos como, por exemplo, “resize”, “pan” ou “zoom” para auxiliar a seleção de figuras sobrepostas bem como controlar a área de trabalho e facilitar a visualização dos objetos gráficos. Finalmente, a Análise de Tarefas mostrou que os recursos atualmente disponíveis na interface do iGeom não permitem graduar retas e nem a construção de arcos com menos de 360 graus, tarefas comumente utilizadas no estudo das disciplinas de Geometria Descritiva e Desenho Geométrico, o aplicativo também não permite especificar medidas numericamente. É importante ressaltar que os problemas detectados com as análises feitas com a interface “WIMP” do iGeom podem não existir em outros programas do mesmo gênero e que trazem interfaces no mesmo padrão. As mesmas análises foram aplicadas com a interface de Manipulação Direta Pura do Risko. A Análise Heurística apontou os problemas de inconsistência funcional das ferramentas “snap3” e “highlight4” e a falta de esclarecimentos para uso dos instrumentos com várias “hot-areas5”. Na Análise Funcional, os problemas detectados foram: cores dos instrumentos não se destacam com relação às demais cores das outras partes ou funções da interface, falta um mecanismo para enquadrar a área de trabalho, região sensitiva do “snap” demasiadamente pequena, a função “snap” dos bordos dos esquadros deveriam impedir que o lápis uma vez apoiado desencoste do mesmo durante o período em que o traçado é realizado. A Análise de Tarefas mostrou que os recursos implementados na interface do Risko atendem por completo às necessidades impostas a um aplicativo destinado ao ensino de Geometria Gráfica. 3 Recurso de atrair, como se fosse um imã, um instrumento para um ponto ou local de interesse, facilitando a precisão e o posicionamento. 4 Função que altera a cor de um objeto com o intuito de chamar a atenção e facilitar a interação com o objeto em destaque. 5 Regiões sensíveis que permitem ativar, separadamente, cada funcionalidade de um instrumento. 5 Conclui-se que o modelo avaliado é promissor, porém, necessita de alguns ajustes para atender com excelência às necessidades impostas pelo ensino de Geometria Gráfica. 4 Método de Avaliação Desenvolvido A segunda parte da avaliação comparativa consiste em checar atributos de usabilidade por meio de testes práticos com usuários pertencentes ao perfil postulado. Para isso, é necessário estabelecer quais são os atributos a serem checados. Neste caso, foi usada a normativa ISO/IEC 9126 de 1991 que estabelece, de maneira generalizada, 6 grupos que regulamentam as características e os requisitos que são associados ao processo de avaliação da qualidade de um “software”, considerando o seu ciclo de vida. Verificadas as funções de cada um dos 6 grupos apresentados pela normativa, concluiu-se que somente 2 deles se enquadram na avaliação pretendida: 1- Usabilidade e 2- Eficiência. Os demais grupos foram desconsiderados, pois o produto em avaliação não ume o “software” completo, mas apenas parte dele, a sua interface. Definidos os grupos, o passo seguinte é determinar quais os atributos que os compõem e que serão checados. Os atributos estabelecidos para cada grupo são: 4.1 Grupo Usabilidade a) Intuitividade: refere-se ao reconhecimento espontâneo, que deve ocorrer de maneira clara e incontestável, dispensando alto grau de raciocínio ou esclarecimentos para o uso da interface; b) Facilidade de interpretar e utilizar corretamente as funcionalidades: trata da compreensão de como são operadas as funções oferecidas pelas interfaces, independentemente da forma como são apresentadas (ícones, menus ou instrumentos virtuais). Neste caso, é considerada a competência necessária para que os usuários iniciantes manipulem as ferramentas oferecidas pelas interfaces. c) Satisfação do usuário: posterior ao entendimento de como se utiliza uma interface, a satisfação está relacionada ao sentimento de contentamento expresso pelo usuário. Este sentimento deve ser manifestado de maneira convincente e, se possível, declarado pelo usuário. Para mensurar o sentimento de satisfação ou descontentamento do usuário, o procedimento mais lógico e eficaz é coletando a opinião do mesmo. Seguem as questões que compõem o questionário utilizado e as alternativas apresentadas para as respostas. a) Com qual freqüência você usa o computador? (não importa para qual atividade!) Nunca usei Raramente uso Uma vez por mês Uma vez por semana Todos os dias 6 b) Após usar o programa Risko para resolver as tarefas, quais avaliações você faz? Demorei o mesmo tempo Foi muito mais Foi mais demorado do que demorado do que que se fizesse em papel resolver no papel resolver no papel Foi mais rápido do que resolver no papel Foi muito mais rápido do que resolver no papel Não gostei nada do programa Não gostei do programa Indiferente Gostei do programa Gostei muito do programa É muito difícil de usar É difícil de usar Indiferente ou não sei avaliar É fácil de usar É muito fácil de usar Desconfio da Desconfio fortemente das precisão das construções feitas construções feitas com o programa com o programa Indiferente ou não sei avaliar Confio Confio parcialmente na totalmente na precisão das precisão das construções feitas construções feitas com o programa com o programa c) Você teve dificuldades ao usar o programa Risko? Caso sim, quais os prováveis motivos? (marque quantas quiser)! Encontrar os comandos desejados; Entender o funcionamento dos comandos e instrumentos de desenho; Houve erros do programa; Faltam explicações na tela; Outras dificuldades. Quais? d) Após usar o programa iGeom para realizar as tarefas, quais avaliações você pode fazer? Demorei o Foi muito mais Foi mais mesmo tempo demorado do que demorado do que que se fizesse em papel resolver no papel resolver no papel Foi mais rápido do que resolver no papel Foi muito mais rápido do que resolver no papel Não gostei nada do programa Não gostei do programa Indiferente Gostei do programa Gostei muito do programa É muito difícil de usar É difícil de usar Indiferente ou não sei avaliar É fácil de usar È muito fácil de usar Desconfio da Desconfio fortemente das precisão das construções feitas construções feitas com o programa com o programa Indiferente ou não sei avaliar Confio Confio parcialmente na totalmente na precisão das precisão das construções feitas construções feitas com o programa com o programa 7 e) Você teve dificuldades ao usar o programa iGeom? Caso sim, quais os prováveis motivos? (marque quantas quiser)! Encontrar os comandos desejados; Entender o funcionamento dos comandos, barras de ferramentas ícones e botões; Houve erros do programa; Faltam explicações de uso na tela; Outras dificuldades. Quais? f) Caso tenha que usar um destes programas durante todo o curso de desenho, qual você gostaria de usar para as seguintes atividades: Uso em sala de aula? RISKO – interface com os instrumentos de desenho, ou iGeom – interface com ícones e botões. Uso em casa para estudar ou fazer os trabalhos e exercícios? RISKO – interface com os instrumentos de desenho, ou iGeom – interface com ícones e botões. Uso para fazer as provas? RISKO – interface com os instrumentos de desenho, ou iGeom – interface com ícones e botões. g) Você teve dificuldades para realizar as tarefas propostas no teste? Caso sim, quais os prováveis motivos? (marque quantas quiser e, se quiser)! As tarefas foram difíceis de resolver; A seqüência das tarefas foi complicada; Não entendi o que foi pedido para fazer; Outras dificuldades. Quais? 4.2 Grupo Eficiência a) Eficiência: está relacionada à ação, virtude ou capacidade de produzir um efeito, que é expresso como rendimento final, e está relacionada à velocidade com que o usuário experiente executa as tarefas. Para checar os atributos estabelecidos serão utilizados dois mecanismos para coletar os dados: 1- teste prático com usuários, realizados com ambas as interfaces (“user-test”), 2- questionário pós-teste preenchido pelos participantes do teste prático. Definidos os 2 grupos e os seus atributos, a Tabela 4.1 mostra como eles são checados, valendo-se dos mecanismos de coleta em uso. 8 Tabela 4.1 – Resumo do método em uso para avaliação das interfaces Grupos 1 - Usabilidade 2 - Eficiência Atributos a serem avaliados 1.1 - Intuitividade Facilidade para interpretar e 1.2 utilizar as funcionalidades 1.3 - Satisfação do usuário 2.1 - Eficiência Mecanismos de coleta dados Teste com o usuário iniciante Teste com o usuário iniciante Questionário pós-teste Teste com o usuário experiente Para os testes práticos foi montado um sistema composto por dois microcomputadores ligados em rede. Um deles é designado ao participante para executar as tarefas e o outro é destinado ao avaliador, que monitora e gera os arquivos em vídeo. Adicionalmente, o avaliador usa uma planilha para anotar as ocorrências mais relevantes durante o desenvolvimento de cada teste. Um conjunto de 9 tarefas comuns foi selecionado para o teste com as interfaces, partindo da resolução de uma coleção de exercícios extraídos da apostila de desenho (KAWANO et al., 2005) que é utilizada na disciplina PCC2111 da EPUSP. Seguem as tarefas: 1. desenhar ponto; 2. desenhar uma reta; 3. desenhar um arco; 4. desenhar um ponto sobre uma reta; 5. desenhar uma reta passando por dois pontos; 6. desenhar um arco centrado em um ponto; 7. desenhar uma reta paralela; 8. desenhar uma reta perpendicular; 9. apagar uma figura. 4.3 Obtenção da Amostra Para os experimentos, uma amostra composta por 17 participantes foi selecionada a esmo. No entanto, os selecionados são alunos regularmente matriculados na Escola Politécnica da Universidade de São Paulo – EPUSP, atendendo às características impostas pelo perfil de usuário postulado para o estudo. Os testes com as interfaces foram realizados no período de 12 a 20 de abril de 2005. 5 Resultados Obtidos 5.1 Classificação dos Dados Obtidos O critério utilizado para classificar os dados segue a classificação proposta por Pereira (2004). Portanto, os dados obtidos com o teste prático que foram expressos como números inteiros e não podem ser fracionados são classificados como sendo dados quantitativos. Já os dados obtidos com o questionário pósteste, expressos em uma escala de múltipla escolha e que seguem categorias ordinais correlacionadas mantendo uma ordenação entre si são classificados como sendo dados qualitativos. Não é possível aplicar um único método de tratamento estatístico para os dados qualitativos ou quantitativos, por isso, são utilizados métodos distintos para tratar e avaliá-los. 9 5.2 Análise dos Dados Obtidos com o Teste Prático Os 17 participantes dos experimentos realizaram o mesmo grupo de 9 tarefas duas vezes, ou seja, as mesmas tarefas feitas com os dois aplicativos. Isso representa 306 tarefas avaliadas, que separadas somam 153 tarefas por aplicativo. Destas 153 tarefas, 20 delas não foram concluídas com o uso do Risko, (o que equivale a 13% do total da amostra), e 2 delas não foram concluídas com o uso do iGeom, (o que equivale a 1,3% do total da amostra). A Tabela 5.1 apresenta, resumidamente, os resultados obtidos para cada uma da 9 tarefas, separados por interface. Tabela 5.1 – Resultados obtidos com os testes realizados com os usuários iniciantes Tarefas 1 2 3 4 5 6 7 8 9 Soma 6 erros 8 0 0 2 3 2 2 1 0 18 Risko desist.7 0 0 0 1 1 0 0 0 0 2 total 8 0 0 3 4 2 2 1 0 20 erros 0 0 0 0 0 0 0 0 0 0 iGeom desist. 0 0 0 0 0 1 0 1 0 2 total 0 0 0 0 0 1 0 1 0 2 Com os dados obtidos os atributos foram avaliados. 5.2.1 Avaliação do atributo “1.1 Intuitividade” É avaliado pelo tempo que o usuário iniciante consome para entender como executar, pela primeira vez, cada uma das tarefas, com os diferentes aplicativos. Neste caso, é subtraído do tempo total gasto pelo usuário iniciante o tempo que é gasto pelo usuário experiente ao executar a mesma tarefa, para todas as 9 tarefas8. Na avaliação, são consideradas somente as tarefas realizadas corretamente para testar as hipóteses formuladas: H0 = não existe diferença no tempo médio para o usuário iniciante entender como executar a tarefa nas duas interfaces; H1 = existe diferença no tempo médio para o usuário iniciante entender como executar a tarefa nas duas interfaces. Para testar as hipóteses formuladas foi empregado o teste de “Wilcoxon-MannWhitney” (Costa Neto, 1977 p.145) e considerado um nível de significância = 0,05. A Tabela 5.2 mostra os resultados obtidos com a aplicação do teste de hipóteses para cada tarefa. 6 Tarefas classificadas como incorretas. Tarefas em que o participante manifestou a desistência. 8 Para o caso da tarefa 1, onde o usuário iniciante desenha dois pontos, o tempo de execução é subtraído em dobro, pois, o tempo médio obtido com o usuário experiente considera a criação de apenas um ponto. 7 10 Tabela 5.2 – Tempo gasto pelos usuários iniciantes entenderem como executar as tarefas Tarefas 1. desenhar ponto 2. desenhar uma reta 3. desenhar um arco 4. desenhar ponto sobre uma reta 5. desenhar reta por 2 pontos 6. desenhar arco centrado em ponto 7. desenhar uma reta paralela 8. desenhar uma reta perpendicular 9. apagar uma figura Tempos médios Risko iGeom 49,90 06,39 17,92 11,71 11,78 18,43 23,67 17,07 29,86 15,68 19,36 08,99 37,28 18,10 26,80 12,29 18,76 38,43 p-valores Resultados 0,002 0,003 0,801 0,506 0,219 0,452 0,000 0,037 0,085 rejeita H0 rejeita H0 não rejeita H0 não rejeita H0 não rejeita H0 não rejeita H0 rejeita H0 rejeita H0 rejeita H0 Tempos apresentados em segundos e centésimos (ss,00). Os resultados apresentados na última coluna da Tabela 5.2 possibilitam concluir que as tarefas, (1, 2, 7 e 8), desenhar pontos, retas, perpendiculares e paralelas com o iGeom são mais intuitivas que com o Risko. Já, a tarefa (9), apagar figuras, é mais intuitiva com o Risko. Para as tarefas (3, 4, 5 e 6) o “pvalor9” obtido não permitiu uma conclusão ao nível de significância adotado. 5.2.2 Avaliação do atributo “1.2 Facilidade para interpretar as funcionalidades” É avaliado comparando-se o desempenho (número de acertos e erros) que cada usuário obteve ao executar as tarefas, com as interfaces. Para este caso, as duas amostras foram tratadas como sendo pareadas, o que permite verificar o desempenho do mesmo usuário com ambos os aplicativos. Os dados obtidos foram utilizados para testar as seguintes hipóteses formuladas: H0 = não existe diferença na taxa de erros na execução da tarefa com as duas interfaces; H1 = existe diferença na taxa de erros ao executar a tarefa utilizando cada uma das interfaces. Neste caso, as hipóteses formuladas são avaliadas comparando-se os pares amostrais formados para cada uma das 9 tarefas. Rosner (1999) recomenda para testar hipóteses com amostras pareadas, que apresentam uma distribuição binomial, o teste de “McNemar”. Considerando um valor de significância = 0,05, o teste de “McNemar” foi aplicado. A Tabela 5.3 apresenta em sua última coluna os resultados obtidos com o teste de hipóteses para cada uma das 9 tarefas. Tabela 5.3 – Resultados obtidos com o teste de McNemar considerando os p-valores Tarefas 1 2 3 4 5 6 7 8 9 9 p-valores 0,008 1,000 1,000 0,250 0,125 1,000 0,500 1,000 1,000 Análise para = 0,05 significativo não significativo não significativo não significativo não significativo não significativo não significativo não significativo não significativo Nível de significância para controlar erros do tipo I . Resultados rejeita H0 inconclusivo inconclusivo não rejeita H0 não rejeita H0 não rejeita H0 não rejeita H0 inconclusivo inconclusivo 11 Os resultados apresentados na última coluna da Tabela 5.3, mostram que somente para a tarefa 1 “H0” pode ser rejeitada. Para as tarefas 2, 3, 8 e 9 não foi possível detectar nenhuma tendência que favoreça uma ou outra hipótese formulada, pois as amostras apresentaram, em seus pares discordantes, valores idênticos, portanto, são inconclusivas. Finalmente, para as tarefas 4, 5, 6 e 7 o pvalor obtido foi maior que o estabelecido, então, não se pode rejeitar “H0”. Para os casos que não se pode rejeitar “H0” é possível estimar o tamanho da amostra mínima n necessária para se rejeitar a hipótese nula, com o nível de significância em uso. A Tabela 5.4 mostra o resultado dos cálculos realizados para estas amostras. Tabela 5.4 – Cálculo da amostra necessária n Tarefas 4 5 6 7 Considerados n 22 16 511 33 = 0,05 e β = 0,10 A conclusão final para a avaliação do atributo 1.2- Facilidade para interpretar e utilizar as funcionalidades, é de que somente a tarefa 1 (desenhar pontos quaisquer) é mais facilmente interpretada utilizando o iGeom. 5.2.3 Avaliação do atributo “2.1 Eficiência” Para avaliar este atributo foi utilizado o mesmo teste prático composto pelas 9 tarefas apresentas anteriormente. Porém, as tarefas agora foram executadas várias vezes por um usuário experiente, a fim de obter os tempos médios por tarefa. As médias obtidas foram multiplicadas pelas respectivas freqüências de ocorrência das tarefas, necessárias para a resolução dos exercícios extraídos da apostila referenciada. Com isso, foi estimado um o tempo médio para execução de um exercício genérico. A Tabela 5.5 mostra as 9 tarefas, as freqüências relativas observadas para cada uma delas e as médias de tempo por interface. Tabela 5.5 – Tempo médio para executar cada tarefa, por aplicativo Tarefas Freqüências relativas (%) 1. desenhar ponto 2. desenhar uma reta 3. desenhar um arco 4. desenhar um ponto sobre uma reta 5. desenhar uma reta passando por 2 pontos 6. desenhar um arco centrado em um ponto 7. desenhar uma reta paralela 8. desenhar uma reta perpendicular 9. apagar uma figura 10,0 2,4 0,7 14,6 24,4 8,8 18,8 20,2 0,0 Tempos apresentados em segundos e centésimos (ss,00). Tempos médios Risko 03,83 07,20 04,63 05,04 13,76 06,57 25,36 15,84 04,00 iGeom 02,57 03,29 02,81 02,58 05,14 05,41 03,90 04,09 03,63 12 Os cálculos realizados mostraram que são necessários, em média, 1:50,01s para executar o exercício genérico com o auxílio do iGeom e 6:01,68s para executar o mesmo exercício valendo-se do Risko, ou seja, 3,3 vezes mais. Isso mostra que a interface “WIMP”, apresentada pelo iGeom, é mais eficiente que a interface de Manipulação Direta Pura apresentada pelo Risko. 5.2.4 Análise dos dados obtidos com o Questionário Pós-teste Partindo do pressuposto que as interfaces têm diferenças, segundo a opinião dos participantes, e que os mesmos preferem uma delas, mas não se sabe qual, o questionário pós-teste foi aplicado na tentativa de detectar tal disparidade e checar o atributo 1.3- Satisfação do usuário. Os resultados dos questionários são separados e classificados para a apresentação. Primeiro os dados referentes às 5 questões de múltipla escolha “A, C, E, F e G” classificadas como sendo unidimensionais e, depois os resultados para as 2 questões cujas respostas foram obtidas com a aplicação de uma escala tipo Likert “B x D” classificadas como sendo bidimensionais. As questões unidimensionais não cabem qualquer tratamento estatístico, seguem os resultados mais significativos. Primeira questão “A- Com qual freqüência você usa o computador?”. Todos os participantes responderam “todos os dias”, comprovando que o uso do computador, não é uma barreira para a realização dos testes. Segunda questão “C/E- Você teve dificuldades ao usar o programa Risko/iGeom? Caso sim, quais os prováveis motivos? (marque quantas quiser)!”. 9 participantes responderam ter dificuldades para “Entender o funcionamento dos comandos e instrumentos de desenho” e 7 responderam que “Faltam explicações na tela” com relação ao Risko. Para o iGeom, 9 participantes disseram ter dificuldades para “Encontrar os comandos desejados” e 5 responderam não “Entender o funcionamento dos comandos e instrumentos de desenho”. Estes resultados comprovam que as explicações na tela podem facilitar significativamente o uso das interfaces. A questão “F” pergunta sobre a preferência de uso de um dos aplicativos em 3 ocasiões específicas e, inicialmente, perguntou “F- Caso você tenha que usar um dos programas durante todo o curso de desenho, qual deles você gostaria de usar para as seguintes atividades?”. A primeira situação relacionou o uso “em sala de aula?” e 15 participantes optaram pelo Risko contra 2 que escolheram o iGeom. A segunda situação tratou do uso “em casa para estudar ou fazer os trabalhos e exercícios?”, 6 participantes preferem o Risko e 11 preferem o iGeom. Finalmente, sobre o uso “para fazer as provas?”, 9 participantes escolheram o Risko e 8 optaram pelo iGeom. A última questão “G- Você teve dificuldades para realizar as tarefas propostas no teste?”, somente 1 (um) participante escolheu o item “as tarefas foram difíceis de resolver”, entretanto ele realizou todas as tarefas com sucesso. Outros 4 participantes responderam ter “outras dificuldades” e os demais, 12 participantes, não se manifestaram. Este resultado comprovou que as tarefas propostas no teste não constituíam barreiras para a conclusão das mesmas. Portanto, as tarefas incorretas e as desistências não podem ser atribuídas a dificuldade de execução das mesmas. As questões B x D perguntaram “B x D- Após usar os programas Risko e iGeom para resolver os exercícios, quais avaliações você faz?”. Esta questão é 13 composta por (4 sub-itens: a, b, c, d), que são as classificadas como bidimensionais independentes, seguem os resultados. O item “a” é destinado à comparação do tempo gasto para executar cada uma das 9 tarefas, comparando o auxílio oferecido pelas ferramentas computacionais frente à execução das mesmas tarefas valendo-se das ferramentas físicas, neste caso observou-se que: 35,3% dos participantes responderam que “Foi mais demorado do que no papel” utilizando o Risko e, 41,2% responderam que “Foi muito mais rápido que resolver no papel” utilizando o iGeom. O item “b” destinado a mapear o gosto ou afeição dos participantes por um dos aplicativos, apontou que as respostas concentraram na opção “Gostei do programa” para ambas as interfaces, porém, 47,1% optaram pelo Risko e 41,2% escolheram o iGeom. Já para o item “c” que trata da dificuldade dos participantes em utilizar os aplicativos, 82,4% dos participantes disseram que “É fácil de usar” o Risko enquanto 52,9% escolheram esta mesma resposta para o iGeom. Finalmente, o item “d” destinado a avaliar o grau de confiabilidade transmitida pelos aplicativos revelou que, 76,5% dos participantes “Confiam parcialmente na precisão das construções feitas com o programa Risko”, e 64,7% “Confiam totalmente na precisão das construções feitas com o programa iGeom”. De posse dos dados foram formuladas e testadas as hipóteses para checar se, na opinião dos participantes, uma ou outra interface é mais aceita. Para isso, foi aplicado o “Teste de Wilcoxon” (MARCILLO, 2005) que permite comparar dois grupos amostrais relacionados ou emparelhados sem afetar a magnitude da diferença para cada par amostral, além de considerar pequenas as diferenças intervalares da escala em uso, seja ela subjetiva ou ordinal. Os resultados obtidos com a aplicação do teste de “Wilcoxon” são apresentados, resumidamente, na última coluna da Tabela 5.6 para cada um dos 4 itens da questão “B x D”, considerando um índice de significância para = 0,05. Tabela 5.6 – Resultados obtidos com o “Teste de Wilcoxon” para a questão “B x D” itens a - tempo de execução b - gostou do programa? c - dificuldade d - precisão n 10 14 9 12 T 3,5 22 11,5 10 T crítico 8 21 5 13 Resultados rejeita H0 não rejeitar H0 não rejeitar H0 rejeita H0 Os resultados obtidos mostram que os participantes consideram gastar menos tempo para executar as construções gráficas com o auxílio do iGeom e, que o mesmo aplicativo é mais preciso quando comparado com o Risko. Referente aos itens “gosto e dificuldade” não se pode rejeitar a hipótese “H0”. 5.2.5 Análise dos Vídeos Os 17 testes realizados foram monitorados e, para cada um deles, foi gerado um vídeo. Os principais problemas detectados são comentados a seguir. Referente ao Risko, alguns usuários tiveram dificuldade de entender como se manipula as partes “hot-areas” do lápis, principalmente ativar a sua ponta para criar pontos. Quanto aos esquadros, os participantes ultrapassaram o limite do esquadro na execução de retas, conseqüentemente surgiram os rabiscos à mão livre na cor azul. Outro problema detectado é a possibilidade de traçar entre os esquadros apoiados, como se existisse um espaço entre um bordo e o outro 14 apoiados. Tal disfunção é agravada pelo fato das cores dos instrumentos e do traçado seguirem tons de cinza muito parecidos o que dificulta a visualização da construção feita antes da remoção dos instrumentos. Com relação aos vínculos, ao aproximar o esquadro de um ponto qualquer automaticamente ele se destaca mudando da cor cinza para a cor verde “highlight” (durante o período em que o botão estiver pressionado) e quando o mouse é solto e o vínculo criado, o ponto então assume a cor vermelha. Ocorre que ao aproximar a ponta seca do compasso de um ponto ele assume, inicialmente, a cor verde, no entanto, após fixar compasso com o ponto retorna a cor original cinza, ao invés de assumir a cor vermelha, usada como padrão para indicar que o vínculo foi criado com precisão. Em alguns testes ocorreram problemas relacionados ao surgimento de retas, aleatoriamente, no decorrer do experimento. Referente ao iGeom, o problema que ocorreu com maior freqüência foi que os participantes não recordaram do caminho a ser percorrido para encontrar os comandos (ícones) desejados. O erro mais comum foi a tentativa mal sucedida de apagar figuras usando a tecla “delete” após selecioná-las. O iGeom não aceita comandos via teclado. Em alguns casos foram detectados erros de interpretação dos símbolos e os ícones apresentados para “Limpar os tracejados, remover todos” e “Remover objetos, clique sobre os mesmos” foram várias vezes trocados. Este erro de interpretação ocorreu pelo fato das figuras utilizadas para representar estas funções serem muito parecidas. Não só nos vídeos mas também nas reclamações verbais, ficou claro que o tempo de apresentação das “tooltips10” é insuficiente para leitura das mesmas. Nos testes realizados, nenhum dos participantes percebeu que o mesmo texto apresentado pelas “tooltips” está disponível na caixa de texto localizada no rodapé da interface durante o período que o cursor estiver sobre o ícone. Por fim, as legendas geradas automaticamente pelo aplicativo, em alguns casos, são geradas sobrepondo outras legendas ou figuras, dificultando a leitura e poluindo a tela. É indiscutível a contribuição dos vídeos arquivados para o método em uso, pois eles atestam os problemas observados e descritos nas análises realizadas pelo especialista e apontam outros problemas que dificilmente seriam percebidos no ato da execução dos testes. 6 Conclusões Na parte inicial do método as distintas interfaces foram avaliadas por um especialista, valendo-se de um conjunto de análises clássicas de usabilidade e que possibilitaram as seguintes conclusões: para a interface “WIMP” do aplicativo iGeom, os principais problemas estão relacionados aos ícones que são pouco intuitivos; falta de notificação prévia no ato de remoção dos elementos gráficos; inexistência de comandos para o controle da área de trabalho, não poder construir arcos com menos de 360 graus e especificar medidas numericamente. Referente à interface de Manipulação Direta Pura do Risko, as análises apontaram a inconsistência funcional das ferramentas “snap” e “highlight”; faltam explicações de como usar os instrumentos com várias “hot-areas”; baixo contraste entre as cores dos instrumentos de desenho com relação às demais cores das outras partes da interface; inexistência de um mecanismo para enquadrar a área de trabalho; região sensitiva da função “snap” demasiadamente pequena e 10 Tarjas, geralmente na cor amarela, que são ativadas quando o cursor está parado sobre objeto gráfico qualquer, mostrando textos explicativos sobre sua funcionalidade. 15 que o “snap” apresentado pelo bordo dos esquadros não impedem o lápis de riscar além do seu limite visual. Os testes realizados com a reduzida amostra de 17 participantes não permitiram confirmar a maioria das hipóteses formuladas, segundo o nível de significância imposto para o estudo. No entanto, os experimentos serviram para testar na prática o método proposto. Como conclusão final para o trabalho desenvolvido, tem-se que o objetivo estabelecido como meta central foi alcançado com sucesso, visto que o método de avaliação foi criado e testado mostrando-se capaz de gerar os dados para comparar distintos modelos de interfaces gráficas quando aplicadas a uma mesma finalidade. Como contribuição adicional, os resultados das análises apresentados neste artigo podem contribuir para a manutenção de versões futuras dos aplicativos testados, iGeom e Risko, como aliás já tem sido feito com este último, que na sua versão 1.0 corrige várias das deficiências apontadas neste estudo 7 Referências BRANDÃO, L.O.; ISOTANI, S. Uma ferramenta para ensino de geometria dinâmica na internet: iGeom. In: WORKSHOP DE INFORMÁTICA NA EDUCAÇÃO, 9., Campinas, 2003, Campinas. Anais. [S.l.]: 2003. p.1476 – 1487. COSTA NETO, P.L.O. Estatística. São Paulo: Edgard Blucher, 1977. 264 p. DIX, A.J. et al. Human-computer interaction. 2. ed. New York: Prentice Hall,1998. 638 p. GÒRSKA, R. et al. International comparisons of gender differences in spatial visualization and the effect of graphics instruction on the development of these skills. In: INTERNATIONAL CONFERENCE ON GEOMETRY AND GRAPHICS - ICECGDG, 8., Austin, 1998. Proceedings. [S.l.]: 1998. p.261266. HAWK, M.C. Descriptive geometry. New York: McGraw-Hill, 1962. IGEOM (versão 2.4.5 “stand-alone”). Sistema para ensino/aprendizagem de geometria (geometria dinâmica). Disponível em: <http://www.matematica.br/igeom>. Acesso em 3 jun., 2003. INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO/IEC 9126. Information technology - Software product evaluation - Software quality characteristics and metrics. 1991. KAWANO, A. et al. Apostila de PCC 2111. São Paulo: EPUSP, 2005. 136 p. (Impresso com exercícios e notas de aula da disciplina Desenho para Engenharia I). MARCILLO, A.M. Teste de wilcoxon. Disponível em <http://www.fcm.unicamp.br/centros/ciped/mp639/Teste%20de%20Wilcoxon.pdf >.Acesso em 15 jun. 2005. NIELSEN, J. Usability engineering. Boston: Academic Press Professional, 1993. 16 OLIVEIRA, L.L.A.; SANTOS, E.T. Estudo de usabilidade da interface gráfica do programa de geometria dinâmica iGeom. In: SIMPÓSIO NACIONAL DE GEOMETRIA DESCRITIVA E DESENHO TÉCNICO/V INTERNATIONAL CONFERENCE ON GRAPHICS ENGINEERING FOR ARTS AND DESIGN, 16., Santa Cruz do Sul, 2003. Anais do Graphica 2003. Santa Cruz do Sul: UNISC, 2003. PIEGL, L.A. Ten challenges in computer-aided design. In: COMPUTERAIDED DESIGN, 37., [S.l.]: 2005. Abstract. Elsevier, 2005. p.461-470. RISKO (versão 0.8 “stand-alone”). A realistic interface for simulating a kit of objects. Disponível em <http://risko.pcc.usp.br>. Acesso em mar., 2005. ROSNER, B. Fundamentals of Biostatistics. 5.ed. [S.l.]: Duxbury Press, 1999. p. 792. SANTOS, E.T.; OLIVEIRA, A. L. L.; LOURENZONI, L. A real world metaphor interface for an educational geometry drawing software. In: INTERNATIONAL CONFERENCE ON GEOMETRY AND GRAPHICS, 11., Guangzhou, 2004. Proceedings. [S.l.]: 2004.