Seminário de Iniciação Científica da UNIFAL‐MG – Edição 2012 AVALIAÇÃO DA NORMALIDADE DE DADOS DE UMA ESCOLA NO PROGRAMA R Bruna Sanches dos Santos1*, Patrícia de Siqueira Ramos2 1 Bolsista BIC-Jr, Escola Estadual Samuel Engel, Alfenas – MG, *[email protected] 2 ICEx, sala E206H Palavras Chave: software estatístico livre, distribuição de probabilidade, testes de normalidade. Introdução Distribuições de probabilidade descrevem a probabilidade de eventos e distribuição normal é a principal distribuição contínua de probabilidade. A distribuição normal de uma variável aleatória contínua tem a função densidade de probabilidade dada por [1]: Figura 1: Histogramas das variáveis altura e nota. em que μ e σ são os parâmetros da distribuição (média e desvio padrão). O objetivo deste trabalho foi ilustrar o uso do programa R para verificar a normalidade dos dados contínuos de alunos de uma escola por meio de métodos gráficos e do teste de Shapiro-Wilk. utilizou-se o comando shapiro.test(). Os valores-p obtidos pelo teste para altura, peso e nota foram, respectivamente, 0,1459; 0,7109 e <0,001. Isso confirma tudo o que foi dito sobre as variáveis, as duas primeiras são consideradas normais e nota não é considerada normal. Metodologia Foi obtida uma amostra de n=58 alunos do terceiro ano de Ensino Médio de 2012 da Escola Estadual Samuel Engel de Alfenas-MG. Fez-se uma análise da normalidade das variáveis contínuas coletadas utilizando o programa R em sua versão 2.12.2 [2], tendo sido escolhido por ser poderoso, ter código aberto e de sintaxe simples. Figura 2: Q-Q plots das variáveis altura e nota. Resultados e discussão Conclusões Após a obtenção dos histogramas das variáveis, obtiveram-se os Q-Q e P-P plots correspondentes para a avaliação da normalidade dos dados. O histograma já é uma maneira de se avaliar subjetivamente a normalidade dos dados pois já se tem uma ideia de como eles se distribuem. De acordo com os histogramas obtidos, suspeitou-se que os dados correspondentes às variáveis altura e peso seguem a distribuição de probabilidade normal e a variável nota não aparenta seguir tal distribuição. Na Figura 1 se encontram os histogramas de duas variáveis e na Figura 2 estão os Q-Q plots das duas variáveis. A variável peso não tem seus gráficos apresentados por ter comportamento muito parecido com a variável altura. Após a análise visual, partiu-se para o teste de hipóteses de Shapiro-Wilk. Para realizar tal teste, Com o programa R foi possível executar de maneira simples os passos para avaliação da normalidade dos dados da escola, por meio de métodos gráficos e testes de normalidade. Agradecimentos À FAPEMIG pelo apoio financeiro e aos colegas da Escola Estadual Samuel Engel de Alfenas pela disposição em fornecer seus dados. Referências bibliográficas 1 Peternelli, L. A.; Mello, M. P. de. Conhecendo o R: uma visão estatística. 1 ed. Série Didática, Viçosa, Editora UFV, 2011, 185p. 2 R Development Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. Disponível em : <http://www.r-project.org>. 2011, acesso em: 20 nov. 2011.