UFFS – Universidade Federal da Fronteira Sul Campus Cerro Largo PROJETO DE EXTENSÃO Software R: capacitação em análise estatística de dados utilizando um software livre Fonte: https://www.r-project.org/ Aula 2 Blog do projeto: https://softwarelivrer.wordpress.com/equipe/ Equipe: Coordenadora: Profe. Iara Endruweit Battisti ([email protected]) Colaboradores: Profa. Denize Reis Prof. Erikson Kaszubowski Prof. Reneo Prediger Profa. Tatiane Chassot Bolsista: Jéssica Aguiar – aluna de Engenharia Ambiental ([email protected]) MÓDULO 2 – ESTATÍSTICA DESCRITIVA 2.1 Tabelas univariadas e bivariadas 2.2 Gráficos univariados e bivariados 2.3 Medidas de posição 2.4 Medidas de dispersão 2.5 Medidas separatrizes Bancos de Dados aulaII Numa pesquisa realizada com acadêmicos, consideraram-se diversas variáveis, entre elas apresentadas a seguir: (1) RA - Regiões administrativas: Capacitação em R e RStudio - 2015 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Bossoroca Giruá Tucunduva Independência Horizontina São Paulo das Missões Porto Xavier N. Machado Campina das Missões Guarani das Missões Santa Rosa Cerro Largo Santo Ângelo Três de Maio Alecrim São Luiz Gonzaga Ubiretama Santo Cristo Ubiretama Caibaté (2) Condição de atividade: 1 economicamente ativo (qualquer atividade remunerada) 2 não economicamente ativo (3) Número de vezes que já cursou a disciplina: 0 - Primeira vez, 1 - uma vez, 2 - duas vezes, 3 - três vezes, 4 - mais de três vezes (4) Expectativa quanto à sua dificuldade em assimilar o conteúdo de Estatística Aplicada 1-grande dificuldade 2-dificuldade mediana 3-pouca dificuldade 4-nenhuma dificuldade IMPORTAR ARQUIVO DE DADOS Utilizando como exemplo o banco de dados, salvo em uma biblioteca do computador denominado aulaII: Inicialmente o arquivo do Microsoft Excel ou LibreOffice Calc, neste caso denominado aulaII, deve ser salvo no formato csv (separado por vírgulas) preferencialmente na raiz ( no C:). Curso Básico Página 3 Capacitação em R e RStudio - 2015 No RStudio, no painel environment (ambiente), em na janela Import Dataset escolhemos From Text File. Momento em que buscamos o arquivo no local (na biblioteca) em que foi salvo previamente no formato csv. Outra possibilidade para importar o arquivo do banco de dados seria usando o caminho: Tools – import Dataset – From Text File. Curso Básico Página 4 Capacitação em R e RStudio - 2015 Imediatamente observamos os dados apresentados no painel superior esquerdo. Também, no painel environment, observamos informações sobre o banco de dados, como por exemplo, o número total de observações e a quantidade de variáveis. Clicando na setinha que antecede o nome do arquivo, ele ainda apresenta um resumo sobre as variáveis. ELABORANDO TABELAS Na sequência, iremos desenvolver o uso das funções do RStudio na elaboração de tabelas: Usando a função attach(aulaII) iremos carregar o banco de dados, permitindo assim usar os objetos (variáveis) diretamente nas funções a serem utilizadas. Assim, para elaborarmos uma tabela da variável Sexo executamos a função table(Sexo), uma vez que o comando table é usado para obter a frequência absoluta de variáveis , ou seja fazer as tabela. prop.table(table(Sexo)) é usado quando queremos determinar as frequências relativas. table(Sexo,Estado_civil) usado para a confecção da tabela cruzada entre duas variáveis com frequências absolutas, no caso a variável Sexo e Estado civil. prop.table(table(Sexo,Estado_civil)) é o comando usado para obter uma tabela cruzada com frequências relativas (considerando o total geral). prop.table(table(Sexo,Estado_civil),margin = 1) para obter a tabela de distribuição de frequências envolvendo a frequência relativa, considerando o total por linha. Curso Básico Página 5 Capacitação em R e RStudio - 2015 prop.table(table(Sexo,Estado_civil),margin = 2) para obter a tabela de distribuição de frequências envolvendo a frequência relativa, considerando o total por coluna. tapply(Idade,Sexo,mean) o uso do comando tapply ( ) permite obter a média de idade de acordo com o gênero sexual. Em outras palavaras, usamos este comando para agregar os dados por nível da variável qualitativa. tapply(Idade,Sexo,sd) comando que permite obtermos o desvio-padrão da por gênero sexual. MEDIDAS DESCRITIVAS summary(Idade) função que permite obtermos simultaneamente um conjunto de medi das descrevendo o valor mínimo ( Min.), o primeiro quartil( 1st Qu.), Mediana(Median) , media ( Mean) e Quartil 3(3rd Qu.) e por fim valor máximo(Max.). sd(Idade) retorna o desvio-padrão amostral var(Idade) retorna a variância amostral max(Idade) outro comando que permite obtermos o valor máximo de uma variável. min(Idade) comando que permite obtermos o valor mínimo de uma variável. max(Idade)-min(Idade) para determinar a amplitude total de um conjunto de dados. quantile(Idade,0.1) comando que permite determinar o percentil, no caso o percentil 1 0. Curso Básico Página 6 Capacitação em R e RStudio - 2015 subset(table(Idade),table(Idade)==max(table(Idade))) comando que permite encontrar a moda. O primeiro valor encontrado, refere-se ao valor da moda ao passo que o segu ndo valor representa quantas vezes esse valor aparece. EXPLORANDO GRÁFICOS plot(Sexo) comando que permite esboçar o gráfico de coluna quando a variável for qua litativa. plot(Sexo,main='grafico teste',col='blue') para definir cor para as colunas, usamos o col . Também para colocar título no gráfico utilizamos o comando main. plot(Sexo,main='grafico teste',col='blue',border='red') o commando border permite de finer cor para a borda. pie(table(Sexo)) o comando permite construir um gráfico de setores (Setograma). boxplot(Idade) comando que permite obter o boxplot para o conjunto de daos da variá vel Idade, por exemplo. boxplot(Idade~Sexo) permite obter o boxplot estratificado por gênero sexual. boxplot(Idade,Sexo,main='grafico teste II') no caso de utilizarmos o comando main par a inserir título no booxplot. hist(Idade) comando que permite a construção do histograma hist(Idade,main = 'histograma da Idade dos alunos',xlab = 'idade',ylab='n') comando que permite colocar título no gráfico e nos eixos, x (xlab) e y(ylab). stem(Idade) comando que permite obter um gráfico Ramo e Folhas. Curso Básico Página 7 Capacitação em R e RStudio - 2015 plot(T_inst,type='l') Curso Básico comando que permite obter um gráfico de linha Página 8