Estatística Descritiva Thais Rotsen Correa Departamento de Estatística/UFOP Estatística Descritiva • Variável: quantiifcação da característica de interesse do estudo. • Exemplos: idade, renda, estado civil, sexo, altura, peso, número de pacientes com determinada carcterística, concentração de uma certa substância no sangue. • Uma variável pode ser obtida através da manipulação de outras variáveis. Exemplo: ínice de massa corporal = peso/altura^2 Thais Rotsen Correa Departamento de Matemática/UFOP Tabela de dados brutos Paciente Colesterol (mg/litro) Sexo Idade (anos) Consumo de fritura Peso (kg) 1 278,7 F 19 Alto 68,9 2 182,3 F 23 Baixo 63,4 3 180,9 F 20 Baixo 60,8 4 210,0 F 20 Médio 65,0 5 290,7 M 21 Alto 75,8 6 279,6 M 19 Alto 80,0 7 250,4 M 22 Médio 70,0 8 150,2 M 22 Baixo 55,7 9 179,8 M 19 Alto 60,4 10 233,2 M 20 Médio 72,0 Classificação das Variáveis Variável Qualitativa ou Categórica Variável Quantitativa Nominal Ordinal Discreta Contínua Ex: sexo Ex: fritura Ex: idade Ex: colesterol Thais Rotsen Correa Departamento de Matemática/UFOP Tabelas de Freqüência • n: frequência absoluta simples • N: frequência absoluta acumulada • f: frequência relativa simples • F: frequência relativa acumulada Thais Rotsen Correa Departamento de Matemática/UFOP Gráficos • Gráfico de Pizza ou Setores • Gráfico de barras • Histograma • Diagrama de dispersão • Boxplot • Vários outros… Thais Rotsen Correa Departamento de Matemática/UFOP Gráfico de Pizza ou Setores Sexo Feminino Masculino 40,0% 60,0% Thais Rotsen Correa Departamento de Matemática/UFOP Gráfico de Barras (freqüência absoluta) Consumo de fritura 4 Frequencia 3 2 1 0 Baixo Thais Rotsen Correa Departamento de Matemática/UFOP Médio Consumo de fritura Alto Idade 3,0 Frequencia 2,5 2,0 1,5 1,0 0,5 0,0 19 Thais Rotsen Correa Departamento de Matemática/UFOP 20 21 Idade 22 23 Idade Frquencia Acumulada 10 8 6 4 2 0 19 Cumulative across all data. Thais Rotsen Correa Departamento de Matemática/UFOP 20 21 Idade 22 23 Gráfico de Barras (freqüência relativa) Consumo de fritura 40 % 30 20 10 0 Baixo Percent within all data. Thais Rotsen Correa Departamento de Matemática/UFOP Médio Consumo de fritura Alto Idade 30 25 % 20 15 10 5 0 19 Percent within all data. Thais Rotsen Correa Departamento de Matemática/UFOP 20 21 Idade 22 23 Idade 100 % Acumulado 80 60 40 20 0 19 Percent within all data. Thais Rotsen Correa Departamento de Matemática/UFOP 20 21 Idade 22 23 Gráfico de Barras (duas variáveis) Consumo de fritura de acordo com Sexo 3,0 Frequencia 2,5 2,0 1,5 1,0 0,5 0,0 Consumo de fritura Sexo Thais Rotsen Correa Departamento de Matemática/UFOP Alto Baixo Médio F Alto Baixo Médio M Idade de acordo com Sexo 20 % 15 10 5 0 Sexo Idade F M 19 Percent within all data. Thais Rotsen Correa Departamento de Matemática/UFOP F M 20 F M 21 F M 22 F M 23 Gráfico de valores individuais 300 Colesterol (mg/litro) 275 250 225 200 175 150 Alto Thais Rotsen Correa Departamento de Matemática/UFOP Baixo Consumo de fritura Médio Histograma Histograma: Colesterol (mg/litro) 3,0 Frequencia 2,5 2,0 1,5 1,0 0,5 0,0 150 Thais Rotsen Correa Departamento de Matemática/UFOP 175 200 225 250 Colesterol (mg/litro) 275 300 Histograma: Colesterol (mg/litro) 30 25 % 20 15 10 5 0 150 Thais Rotsen Correa Departamento de Matemática/UFOP 175 200 225 250 Colesterol (mg/litro) 275 300 Diagrama de Dispersão Colesterol (mg/litro) vs Peso 300 Colesterol (mg/litro) 275 250 225 200 175 150 55 60 70 65 Peso Thais Rotsen Correa Departamento de Matemática/UFOP 75 80 Medidas de Posição Central Considere uma amostra de tamanho n com valores x1,...xn. 1. Média x x1 ... xn n 2. Mediana: valor que ocupa a posição central quando os dados estão ordenados. 50% dos valores são menores ou iguais a mediana, 50% dos valores são maiores ou iguais a mediana. 3. Moda: valor com maior freqüência. Thais Rotsen Correa Departamento de Matemática/UFOP Exemplo: Uma pesquisa sobre a remuneração mensal de um bacharel em farmácia entrevistou 15 recém formados e anotou o salário de cada um deles. Os valores estão em reais: 2720 2960 3180 3570 3790 3820 3000 2963 3240 3400 22460 15730 2800 2945 3156 Calcule o salário médio e o salário mediano. Comente as diferenças encontradas. Qual deles você acha que representa melhor a remuneração mensal de um farmaceutico? Thais Rotsen Correa Departamento de Matemática/UFOP Percentil e Quartil Percentil: o percentil a é um valor x tal que a% dos valores da amostra são menores ou iguais a x. Por exemplo: quando dizemos que a altura 1,60 metros é o percentil 37 da turma significa que 37% da turma mede 1,60 metros ou menos. Os percentis 25, 50 e 75 dividem a amostra em 4 partes iguais, e por isso são chamados de quartis. O primeiro quartil (Q1) é o percentil 25, o segundo quartil (Q2) é o percentil 50 e o terceiro quartil (Q3) é o percentil 75. Observe que Q2=mediana. Thais Rotsen Correa Departamento de Matemática/UFOP - 25% dos valores da amostra são menores ou iguais a Q1. - 50% dos valores da amostra são menores ou iguais a Q2. - 75% dos valores da amostra são menores ou iguais a Q3. Thais Rotsen Correa Departamento de Matemática/UFOP Box plot Thais Rotsen Correa Departamento de Matemática/UFOP Notas dos alunos de duas turmas em uma prova de 30 pontos 30 Nota 25 20 15 10 Turma A Thais Rotsen Correa Departamento de Matemática/UFOP Turma B - O símbolo * representa um outlier (valor atípico/discrepante). - DI: distancia interquartílica DI = Q3 – Q1 - LS = menor valor entre maximo e Q3+(1,5*DI) - LI = maior valor entre minimo e Q1-(1,5*DI) Caso não exista nenhum outlier o limite superior LS é igual ao máximo da amostra e o limite inferior LI é igual ao minimo da amostra. Thais Rotsen Correa Departamento de Matemática/UFOP Considere duas amostras de mesmo tamanho (n=5): Amostra 1: 17 18 19 20 21 Amostra 2: 1 3 20 34 37 A média amostral das duas amostra é a mesma (19). A mediana também é muito próxima (19 na amostra 1 e 20 na amostra 2). Porém, a dispersão dos valores é extremamente diferente (na amostra 2 é muito maior). Para descrever bem uma amostra não basta olharmos para as medidas de tendência central. Precisamos também de medidas para a dispersão/variabilidade. Thais Rotsen Correa Departamento de Matemática/UFOP Medidas de Dispersão 1. Variância (medida adimensional) x x ... x 2 s2 n x 1 2 n 1 2. Desvio-padrão: distância média entre cada valor e a média amostral. x x ... x 2 s s2 1 Thais Rotsen Correa Departamento de Matemática/UFOP n 1 x 2 n 3. Coeficiente de variação (medida adimensional) CV s / x CV < 0,1: variabilidade baixa 0,1 < CV < 0,2: variabilidade intermediária 0,2 < CV < 0,3: variabilidade alta CV > 0,3: variabilidade muito alta Thais Rotsen Correa Departamento de Matemática/UFOP 3. Escore padronizado xi x zi s Útil para comparar um valor da amostra com os demais. Fornece a distancia entre o valor e a média amostral em desvios padrão. Exemplo: Um aluno com nota 7 numa prova em que a média da turma foi 5 teve melhor desempenho que um aluno com nota 8 quando a média da turma foi 9. Thais Rotsen Correa Departamento de Matemática/UFOP Exemplo Peso ao nascer para uma amostra de 11 bebes (em kg): Peso (kg) 3,00 3,10 2,80 2,90 3,00 3,20 3,50 3,70 3,10 3,40 2,90 Sexo F F F F F M M M M M M a) Classifique a variável de interesse (peso ao nascer). b) Calcule média, mediana e desvio padrão do peso ao nascer. c) Calcule média, mediana, desvio padrão e CV do peso ao nascer para bebes do sexo feminino. d) Calcule média, mediana, desvio padrão e CV do peso ao nascer para bebes do sexo masculino. e) Faca um gráfico box-plot duplo para peso ao nascer feminino e masculino. f) Calcule o escore padronizado para um bebe do sexo feminino com peso ao nascer igual a 3,5 kg. g) Calcule o escore padronizado para um bebe do sexo masculino com peso ao nascer igual a 2,95 kg. Thais Rotsen Correa Departamento de Matemática/UFOP