Análise Exploratória
Unidimensional
Análise de Dados e Simulação
Márcia D’Elia Branco
http://www.ime.usp.br/~mbranco
APOIO COMPUTACIONAL Software: R
• Vantagem: software livre
• Download: http://www.r-project.org/
- Escolher opção Download R
- Seguir os passos de instalação
Biblioteca Rcmdr
• Vantagem: ambiente baseado em menus
• Deve ser instalada após instalação do R
• Instruções de instalação no material de apoio
2
Instalar o pacote Rcmdr
3
Carregar o pacote para utilizá‐lo
4
Exemplo 1. Título do projeto: “Progressão Continuada e Seriação: um estudo comparativo”.
• Estudo realizado pela Faculdade de Educação da Universidade de São Paulo
• Ano de realização: 2012
• Finalidade: Doutorado
• Análise Estatística: Centro de Estatística Aplicada (CEA12P11) – IME‐USP
5
Exemplo 1.
• Objetivo: Comparar os regimes seriado e continuado
das escolas públicas e compreender o efeito do regime
escolar no desempenho dos alunos.
• Dados: Prova Brasil de 2007 e 2009.
Amostra: 1.128 alunos de 6 escolas
• 2 escolas municipais (regime seriado)
• 4 escolas estaduais (regime continuado)
6
Exemplo 1. Algumas variáveis:
• Proficiência em Português/Matemática (valores de 0 a 500)
• Sexo do aluno (feminino/masculino)
• Escolaridade do pai/mãe (nunca estudou, completou até a 5ª
série, ensino fundamental completo, ensino médio completo,
ensino superior completo)
• Número de livros em casa (valores no conjunto dos naturais)
• Frequência que faz os deveres de casa (nunca ou quase nunca, o
professor não passa dever de casa, de vez em quando, sempre ou
quase sempre)
• Professor corrige o dever de casa (nunca ou quase nunca, de vez
em quando, sempre ou quase sempre)
• Escola (municipal, estadual)
7
Importar o conjunto de dados:
Visualizar os dados:
8
Variáveis qualitativas
Variáveis quantitativas
Sexo
Nominal
Escolaridade do pai
Ordinal
Número de livros em casa
Proficiência em Matemática
Discreta
Contínuas
9
Variáveis quantitativas
Medidas de posição
‐
Média (x)
Mediana (md) Quartis (Q1, Q3)
Máximo (máx)
Mínimo (min)
Medidas de dispersão
Variância (s2)
Desvio padrão (s)
Intervalo‐interquartil (Q3 – Q1)
Coeficiente de variação (CV)
10
Estatísticas Resumo
PROF_MAT
PROF_PORT mean
sd
IQR 0% 25% 50% 75%
212.4431 51.85155 73.60565 0 176.1596 210.0091 249.7653
100% n
355.2183 1228
mean
sd
IQR 0% 25% 50% 75%
190.5915 47.01356 63.72711 0 157.1702 189.4499 220.8973
100% n
338.6800 1228
11
12
Boxplot da prof. em matemática
segundo a escola
Boxplot da prof. em português
segundo a escola
Alguns Comentários:
• Há observações discrepantes para a escola estadual;
• Distribuição dos valores um pouco diferente para as duas escolas.
13
Os dados também podem ser resumidos
construindo‐se uma tabela de distribuição
de frequências .
Distribuição de frequências de uma variável
é uma lista dos valores individuais ou dos
intervalos de valores que a variável pode
assumir, com as respectivas frequências de
ocorrência.
14
Construir intervalos de classe
1) Criar uma nova variável
15
Construir intervalos de classe
2) Obter a distribuição de frequências da nova variável
Distribuição de frequências para a variável Proficiência em Matemática
Classes
(0,59] (59,118] (118,178] (178,237] (237,296] (296,356]
f
2
26
296
512
324 68
fr (%)
0.16 2.12 24.10 41.69
26.38
5.54
16
Variáveis quantitativas
Gráficos
• “Strip Chart” ou “Dotplot”
• “Boxplot”
• Histograma
17
STRIP CHART ou DOT PLOT
Exemplo: Dados de performance e design de 10 modelos de carros
(1973‐74) retirados do arquivo mtcars (disponível no R)
Variáveis: ‐ Número de carburadores
‐ Câmbio: manual ou automático
18
Boxplot
Representa os dados através de um retângulo
construído com os quartis e fornece
informações sobre os valores extremos.
19
Construção
LS=Q3+1,5(Q3‐Q1)
“Máximo”
Q3
Mediana
Q1
75%
50%
25%
“Mínimo”
LI=Q1‐1,5(Q3‐Q1)
“Máximo” é o maior valor menor que LS;
“Mínimo” é o menor valor maior que LI.
20
Gráficos: Boxplot
21
Boxplot da prof. em matemática
segundo a correção do dever pelo professor
Boxplot da prof. em português
segundo a correção do dever pelo professor
Professor corrige o dever de matemática/português
0: Nunca ou quase nunca
1: De vez em quando
2: Sempre ou quase sempre
22
Exemplo 2.
Título do projeto: “Caracterização Postural de
Crianças de 7 e 8 anos das Escolas Municipais da Cidade
de Amparo/SP”
• Estudo realizado pelo Departamento de
Fisioterapia, Fonoaudiologia e Terapia Ocupacional
da Faculdade de Medicina da USP
• Ano de realização: 2006
• Finalidade: mestrado
• Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME‐
USP
23
Exemplo 2.
Variações de postura na criança, associadas aos estágios
de crescimento, surgem em resposta aos problemas de
equilíbrio devido às mudanças nas proporções do corpo.
• Objetivo: caracterizar a postura de crianças da
cidade de Amparo/SP, entre sete e oito anos de
ambos os sexos
• Amostra: 230 crianças com 7 e 8 anos.
• Medidas de postura das crianças foram obtidas.
24
Exemplo 2. Algumas variáveis:
• Sexo (feminino, masculino);
• Peso (em kg);
• Altura (em metros);
• Índice de Massa Corpórea – IMC (em kg/m2);
• Atividade Física (em hs/semana);
• Tipo de Mochila Utilizada (com fixação escapular, com
fixação lateral, de carrinho, outros);
• Dominância (destro, canhoto);
• Região da escola;
25
Exemplo 2. Algumas variáveis relativas a postura
• Postura do ombro no plano frontal (cm):
foi avaliado o desnível entre os ombros,
conforme figura, e anotou‐se a diferença
Direito‐Esquerdo;
• Avaliação da Lordose Lombar (graus): foi
avaliado o aumento da lordose lombar
(hiperlordose) e a diminuição desta
(retificação), pela mensuração do ângulo
formado entre os pontos de maior
convexidade da coluna torácica e da região
glútea e o ponto de maior concavidade da
coluna lombar, em ambos lados (Direito e
Esquerdo).
26
Boxplot do desnível dos ombros
Boxplot do desnível dos ombros
segundo o sexo
Alguns Comentários:
• há uma observação discrepante para meninas;
• não há observações discrepantes para meninos;
• medidas de posição tendem a ser próximas para os dois sexos.
27
Boxplots do desnível dos ombros segundo Dominância
Frequências:
Direita 212
Esquerda 17
Ambidestra 1
Alguns Comentários:
• Note que só há uma criança ambidestra;
• Há observações discrepantes para dominância esquerda e direita;
• Distribuição dos valores bem diferente para as duas dominâncias.
28
Histograma
Agrupar os dados em intervalos de classes (distribuição de frequências)
Bases iguais
Construir um retângulo para cada classe, com base igual
ao tamanho da classe e altura proporcional à frequência
da classe (f).
Bases diferentes
Construir um retângulo para cada classe, com base igual ao
tamanho da classe e área do retângulo igual a frequência
relativa da classe (fr). A altura será dada por
h = fr/base (densidade de frequência).
29
Histograma da altura
Distribuição de frequências para
altura
Classe de altura f fr (%)
1,10 ٟ 1,15
1,15 ٟ 1,20
1,20 ٟ 1,25
1,25 ٟ 1,30
1,30 ٟ 1,35
1,35 ٟ 1,40
1,40 ٟ 1,45
Total
7
33
58
77
36
18
1
230
3,04
14,35
25,22
33,48
15,65
7,83
0,43
100
30
Exemplo: Classes desiguais
h
0,10
Distribuição das idades (em meses) de uma amostra de 500 crianças vacinadas
0,08
0,06
0,04
0,02
Classes (meses) f fr
h
0 |‐ 3 140 0,28 0,093
0 3 12 24 60
f
3 |‐ 12 100 0,20 0,022
12 |‐24 80 0,16 0,013
24 |‐60 180 0,36 0,010
Total 500 1,00
0 3 12 24 60
31
Forma da Distribuição
32
Variáveis Qualitativas
Os dados podem ser resumidos construindo‐se
uma tabela de distribuição de frequências, que
quantifica a frequência das distintas categorias.
Variáveis qualitativas do exemplo 2
Dominância
Sexo
Tipo de mochila
33
Variáveis qualitativas
Medidas descritivas para variáveis qualitativas
Sexo Freq. (%) Dominância Freq. (%)
M 130 56,52 Direita 212 92,17
F 100 43,48 Esquerda 17 7,39 N= 230 Ambidestra 1 0,43
N= 230
Tipo Mochila Freq. (%)
Escapular 123 53,48
Lateral 23 10,00
Carrinho 80 34,78
Outros 4 1,74
N= 230
34
Variáveis qualitativas
Gráficos
• Gráfico de setores
• Gráfico de barras
35
Gráfico de setores
Um círculo é dividido em tantos setores
quantas forem as categorias da variável.
A área de cada setor é proporcional à
frequência da categoria
36
Gráfico de setores para a variável “Tipo de mochila”
Gráfico de setores para a variável “Região da escola”
37
Gráfico de barras
Sobre um eixo, são representados
retângulos, um para cada categoria da
variável. A altura do retângulo é
proporcional
à
frequência
da
categoria
38
Gráfico de barras para a variável “Tipo de mochila”
Gráfico de barras para a variável “Região da escola”
39
Download

Descritiva I - IME-USP - Universidade de São Paulo