UFFS – Universidade Federal da Fronteira Sul
Campus Cerro Largo
PROJETO DE EXTENSÃO
Software R: capacitação em análise estatística de
dados utilizando um software livre
Fonte: https://www.r-project.org/
Aula 2
Blog do projeto:
https://softwarelivrer.wordpress.com/equipe/
Equipe:
Coordenadora:
Profe. Iara Endruweit Battisti
([email protected])
Colaboradores:
Profa. Denize Reis
Prof. Erikson Kaszubowski
Prof. Reneo Prediger
Profa. Tatiane Chassot
Bolsista:
Jéssica Aguiar – aluna de Engenharia Ambiental
([email protected])
MÓDULO 2 – ESTATÍSTICA DESCRITIVA
2.1 Tabelas univariadas e bivariadas
2.2 Gráficos univariados e bivariados
2.3 Medidas de posição
2.4 Medidas de dispersão
2.5 Medidas separatrizes
Bancos de Dados aulaII
Numa pesquisa realizada com acadêmicos, consideraram-se diversas variáveis, entre elas
apresentadas a seguir:
(1) RA - Regiões administrativas:
Capacitação em R e RStudio - 2015
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Bossoroca
Giruá
Tucunduva
Independência
Horizontina
São Paulo das Missões
Porto Xavier
N. Machado
Campina das Missões
Guarani das Missões
Santa Rosa
Cerro Largo
Santo Ângelo
Três de Maio
Alecrim
São Luiz Gonzaga
Ubiretama
Santo Cristo
Ubiretama
Caibaté
(2) Condição de atividade:
1 economicamente ativo (qualquer atividade remunerada)
2 não economicamente ativo
(3) Número de vezes que já cursou a disciplina:
0 - Primeira vez, 1 - uma vez, 2 - duas vezes, 3 - três vezes, 4 - mais de três vezes
(4) Expectativa quanto à sua dificuldade em assimilar o conteúdo de Estatística Aplicada
1-grande dificuldade 2-dificuldade mediana 3-pouca dificuldade 4-nenhuma dificuldade
IMPORTAR ARQUIVO DE DADOS
Utilizando como exemplo o banco de dados, salvo em uma biblioteca do computador
denominado aulaII:
Inicialmente o arquivo do Microsoft Excel ou LibreOffice Calc, neste caso denominado
aulaII, deve ser salvo no formato csv (separado por vírgulas) preferencialmente na raiz
( no C:).
Curso Básico
Página 3
Capacitação em R e RStudio - 2015
No RStudio, no painel environment (ambiente), em na janela Import Dataset
escolhemos From Text File.
Momento em que buscamos o arquivo no local (na biblioteca) em que foi salvo
previamente no formato csv.
Outra possibilidade para importar o arquivo do banco de dados seria usando o
caminho: Tools – import Dataset – From Text File.
Curso Básico
Página 4
Capacitação em R e RStudio - 2015
Imediatamente observamos os dados apresentados no painel superior esquerdo.
Também, no painel environment, observamos informações sobre o banco de dados,
como por exemplo, o número total de observações e a quantidade de variáveis.
Clicando na setinha que antecede o nome do arquivo, ele ainda apresenta um resumo
sobre as variáveis.
ELABORANDO TABELAS
Na sequência, iremos desenvolver o uso das funções do RStudio na elaboração de
tabelas:
Usando a função attach(aulaII) iremos carregar o banco de dados, permitindo assim
usar os objetos (variáveis) diretamente nas funções a serem utilizadas.
Assim, para elaborarmos uma tabela da variável Sexo executamos a função
table(Sexo), uma vez que o comando table é usado para obter a frequência absoluta
de variáveis , ou seja fazer as tabela.
prop.table(table(Sexo)) é usado quando queremos determinar as frequências relativas.
table(Sexo,Estado_civil) usado para a confecção da tabela cruzada entre duas variáveis
com frequências absolutas, no caso a variável Sexo e Estado civil.
prop.table(table(Sexo,Estado_civil)) é o comando usado para obter uma tabela cruzada
com frequências relativas (considerando o total geral).
prop.table(table(Sexo,Estado_civil),margin = 1) para obter a tabela de distribuição de
frequências envolvendo a frequência relativa, considerando o total por linha.
Curso Básico
Página 5
Capacitação em R e RStudio - 2015
prop.table(table(Sexo,Estado_civil),margin = 2) para obter a tabela de distribuição de
frequências envolvendo a frequência relativa, considerando o total por coluna.
tapply(Idade,Sexo,mean) o uso do comando tapply ( ) permite obter a média de idade
de acordo com o gênero sexual. Em outras palavaras, usamos este comando para
agregar os dados por nível da variável qualitativa.
tapply(Idade,Sexo,sd) comando que permite obtermos o desvio-padrão da por gênero
sexual.
MEDIDAS DESCRITIVAS
summary(Idade) função que permite obtermos simultaneamente um conjunto de medi
das descrevendo o valor mínimo ( Min.), o primeiro quartil( 1st Qu.), Mediana(Median)
, media ( Mean) e Quartil 3(3rd Qu.) e por fim valor máximo(Max.).
sd(Idade) retorna o desvio-padrão amostral
var(Idade) retorna a variância amostral
max(Idade) outro comando que permite obtermos o valor máximo de uma variável.
min(Idade) comando que permite obtermos o valor mínimo de uma variável.
max(Idade)-min(Idade) para determinar a amplitude total de um conjunto de dados.
quantile(Idade,0.1) comando que permite determinar o percentil, no caso o percentil 1
0.
Curso Básico
Página 6
Capacitação em R e RStudio - 2015
subset(table(Idade),table(Idade)==max(table(Idade))) comando que permite encontrar
a moda. O primeiro valor encontrado, refere-se ao valor da moda ao passo que o segu
ndo valor representa quantas vezes esse valor aparece.
EXPLORANDO GRÁFICOS
plot(Sexo) comando que permite esboçar o gráfico de coluna quando a variável for qua
litativa.
plot(Sexo,main='grafico teste',col='blue') para definir cor para as colunas, usamos o col
.
Também para colocar título no gráfico utilizamos o comando main.
plot(Sexo,main='grafico teste',col='blue',border='red') o commando border permite de
finer cor para a borda.
pie(table(Sexo)) o comando permite construir um gráfico de setores (Setograma).
boxplot(Idade) comando que permite obter o boxplot para o conjunto de daos da variá
vel Idade, por exemplo.
boxplot(Idade~Sexo) permite obter o boxplot estratificado por gênero sexual.
boxplot(Idade,Sexo,main='grafico teste II') no caso de utilizarmos o comando main par
a inserir título no booxplot.
hist(Idade) comando que permite a construção do histograma
hist(Idade,main = 'histograma da Idade dos alunos',xlab = 'idade',ylab='n') comando
que permite colocar título no gráfico e nos eixos, x (xlab) e y(ylab).
stem(Idade) comando que permite obter um gráfico Ramo e Folhas.
Curso Básico
Página 7
Capacitação em R e RStudio - 2015
plot(T_inst,type='l')
Curso Básico
comando que permite obter um gráfico de linha
Página 8
Download

Roteiro Aula 2 – Curso Básico