Análise Exploratória Unidimensional Análise de Dados e Simulação Márcia D’Elia Branco http://www.ime.usp.br/~mbranco APOIO COMPUTACIONAL Software: R • Vantagem: software livre • Download: http://www.r-project.org/ - Escolher opção Download R - Seguir os passos de instalação Biblioteca Rcmdr • Vantagem: ambiente baseado em menus • Deve ser instalada após instalação do R • Instruções de instalação no material de apoio 2 Instalar o pacote Rcmdr 3 Carregar o pacote para utilizá‐lo 4 Exemplo 1. Título do projeto: “Progressão Continuada e Seriação: um estudo comparativo”. • Estudo realizado pela Faculdade de Educação da Universidade de São Paulo • Ano de realização: 2012 • Finalidade: Doutorado • Análise Estatística: Centro de Estatística Aplicada (CEA12P11) – IME‐USP 5 Exemplo 1. • Objetivo: Comparar os regimes seriado e continuado das escolas públicas e compreender o efeito do regime escolar no desempenho dos alunos. • Dados: Prova Brasil de 2007 e 2009. Amostra: 1.128 alunos de 6 escolas • 2 escolas municipais (regime seriado) • 4 escolas estaduais (regime continuado) 6 Exemplo 1. Algumas variáveis: • Proficiência em Português/Matemática (valores de 0 a 500) • Sexo do aluno (feminino/masculino) • Escolaridade do pai/mãe (nunca estudou, completou até a 5ª série, ensino fundamental completo, ensino médio completo, ensino superior completo) • Número de livros em casa (valores no conjunto dos naturais) • Frequência que faz os deveres de casa (nunca ou quase nunca, o professor não passa dever de casa, de vez em quando, sempre ou quase sempre) • Professor corrige o dever de casa (nunca ou quase nunca, de vez em quando, sempre ou quase sempre) • Escola (municipal, estadual) 7 Importar o conjunto de dados: Visualizar os dados: 8 Variáveis qualitativas Variáveis quantitativas Sexo Nominal Escolaridade do pai Ordinal Número de livros em casa Proficiência em Matemática Discreta Contínuas 9 Variáveis quantitativas Medidas de posição ‐ Média (x) Mediana (md) Quartis (Q1, Q3) Máximo (máx) Mínimo (min) Medidas de dispersão Variância (s2) Desvio padrão (s) Intervalo‐interquartil (Q3 – Q1) Coeficiente de variação (CV) 10 Estatísticas Resumo PROF_MAT PROF_PORT mean sd IQR 0% 25% 50% 75% 212.4431 51.85155 73.60565 0 176.1596 210.0091 249.7653 100% n 355.2183 1228 mean sd IQR 0% 25% 50% 75% 190.5915 47.01356 63.72711 0 157.1702 189.4499 220.8973 100% n 338.6800 1228 11 12 Boxplot da prof. em matemática segundo a escola Boxplot da prof. em português segundo a escola Alguns Comentários: • Há observações discrepantes para a escola estadual; • Distribuição dos valores um pouco diferente para as duas escolas. 13 Os dados também podem ser resumidos construindo‐se uma tabela de distribuição de frequências . Distribuição de frequências de uma variável é uma lista dos valores individuais ou dos intervalos de valores que a variável pode assumir, com as respectivas frequências de ocorrência. 14 Construir intervalos de classe 1) Criar uma nova variável 15 Construir intervalos de classe 2) Obter a distribuição de frequências da nova variável Distribuição de frequências para a variável Proficiência em Matemática Classes (0,59] (59,118] (118,178] (178,237] (237,296] (296,356] f 2 26 296 512 324 68 fr (%) 0.16 2.12 24.10 41.69 26.38 5.54 16 Variáveis quantitativas Gráficos • “Strip Chart” ou “Dotplot” • “Boxplot” • Histograma 17 STRIP CHART ou DOT PLOT Exemplo: Dados de performance e design de 10 modelos de carros (1973‐74) retirados do arquivo mtcars (disponível no R) Variáveis: ‐ Número de carburadores ‐ Câmbio: manual ou automático 18 Boxplot Representa os dados através de um retângulo construído com os quartis e fornece informações sobre os valores extremos. 19 Construção LS=Q3+1,5(Q3‐Q1) “Máximo” Q3 Mediana Q1 75% 50% 25% “Mínimo” LI=Q1‐1,5(Q3‐Q1) “Máximo” é o maior valor menor que LS; “Mínimo” é o menor valor maior que LI. 20 Gráficos: Boxplot 21 Boxplot da prof. em matemática segundo a correção do dever pelo professor Boxplot da prof. em português segundo a correção do dever pelo professor Professor corrige o dever de matemática/português 0: Nunca ou quase nunca 1: De vez em quando 2: Sempre ou quase sempre 22 Exemplo 2. Título do projeto: “Caracterização Postural de Crianças de 7 e 8 anos das Escolas Municipais da Cidade de Amparo/SP” • Estudo realizado pelo Departamento de Fisioterapia, Fonoaudiologia e Terapia Ocupacional da Faculdade de Medicina da USP • Ano de realização: 2006 • Finalidade: mestrado • Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME‐ USP 23 Exemplo 2. Variações de postura na criança, associadas aos estágios de crescimento, surgem em resposta aos problemas de equilíbrio devido às mudanças nas proporções do corpo. • Objetivo: caracterizar a postura de crianças da cidade de Amparo/SP, entre sete e oito anos de ambos os sexos • Amostra: 230 crianças com 7 e 8 anos. • Medidas de postura das crianças foram obtidas. 24 Exemplo 2. Algumas variáveis: • Sexo (feminino, masculino); • Peso (em kg); • Altura (em metros); • Índice de Massa Corpórea – IMC (em kg/m2); • Atividade Física (em hs/semana); • Tipo de Mochila Utilizada (com fixação escapular, com fixação lateral, de carrinho, outros); • Dominância (destro, canhoto); • Região da escola; 25 Exemplo 2. Algumas variáveis relativas a postura • Postura do ombro no plano frontal (cm): foi avaliado o desnível entre os ombros, conforme figura, e anotou‐se a diferença Direito‐Esquerdo; • Avaliação da Lordose Lombar (graus): foi avaliado o aumento da lordose lombar (hiperlordose) e a diminuição desta (retificação), pela mensuração do ângulo formado entre os pontos de maior convexidade da coluna torácica e da região glútea e o ponto de maior concavidade da coluna lombar, em ambos lados (Direito e Esquerdo). 26 Boxplot do desnível dos ombros Boxplot do desnível dos ombros segundo o sexo Alguns Comentários: • há uma observação discrepante para meninas; • não há observações discrepantes para meninos; • medidas de posição tendem a ser próximas para os dois sexos. 27 Boxplots do desnível dos ombros segundo Dominância Frequências: Direita 212 Esquerda 17 Ambidestra 1 Alguns Comentários: • Note que só há uma criança ambidestra; • Há observações discrepantes para dominância esquerda e direita; • Distribuição dos valores bem diferente para as duas dominâncias. 28 Histograma Agrupar os dados em intervalos de classes (distribuição de frequências) Bases iguais Construir um retângulo para cada classe, com base igual ao tamanho da classe e altura proporcional à frequência da classe (f). Bases diferentes Construir um retângulo para cada classe, com base igual ao tamanho da classe e área do retângulo igual a frequência relativa da classe (fr). A altura será dada por h = fr/base (densidade de frequência). 29 Histograma da altura Distribuição de frequências para altura Classe de altura f fr (%) 1,10 ٟ 1,15 1,15 ٟ 1,20 1,20 ٟ 1,25 1,25 ٟ 1,30 1,30 ٟ 1,35 1,35 ٟ 1,40 1,40 ٟ 1,45 Total 7 33 58 77 36 18 1 230 3,04 14,35 25,22 33,48 15,65 7,83 0,43 100 30 Exemplo: Classes desiguais h 0,10 Distribuição das idades (em meses) de uma amostra de 500 crianças vacinadas 0,08 0,06 0,04 0,02 Classes (meses) f fr h 0 |‐ 3 140 0,28 0,093 0 3 12 24 60 f 3 |‐ 12 100 0,20 0,022 12 |‐24 80 0,16 0,013 24 |‐60 180 0,36 0,010 Total 500 1,00 0 3 12 24 60 31 Forma da Distribuição 32 Variáveis Qualitativas Os dados podem ser resumidos construindo‐se uma tabela de distribuição de frequências, que quantifica a frequência das distintas categorias. Variáveis qualitativas do exemplo 2 Dominância Sexo Tipo de mochila 33 Variáveis qualitativas Medidas descritivas para variáveis qualitativas Sexo Freq. (%) Dominância Freq. (%) M 130 56,52 Direita 212 92,17 F 100 43,48 Esquerda 17 7,39 N= 230 Ambidestra 1 0,43 N= 230 Tipo Mochila Freq. (%) Escapular 123 53,48 Lateral 23 10,00 Carrinho 80 34,78 Outros 4 1,74 N= 230 34 Variáveis qualitativas Gráficos • Gráfico de setores • Gráfico de barras 35 Gráfico de setores Um círculo é dividido em tantos setores quantas forem as categorias da variável. A área de cada setor é proporcional à frequência da categoria 36 Gráfico de setores para a variável “Tipo de mochila” Gráfico de setores para a variável “Região da escola” 37 Gráfico de barras Sobre um eixo, são representados retângulos, um para cada categoria da variável. A altura do retângulo é proporcional à frequência da categoria 38 Gráfico de barras para a variável “Tipo de mochila” Gráfico de barras para a variável “Região da escola” 39